cioperu.pe

Reportajes y análisis
 
 

Ocho herramientas interesantes para el análisis, visualización y presentación de datos

 

[16/04/2012] Los reporteros se pelean todo tipo de datos, desde el análisis de las valoraciones de impuestos a la propiedad, al seguimiento de accidentes mortales -y, aquí, en Computerworld, por historias sobre los salarios TI y las visas H-1B. De hecho, las herramientas utilizadas por los periodistas que buscan datos son generalmente útiles para una amplia gama de otras tareas no periodísticas -y que incluye un software que ha sido diseñado específicamente para su uso en la sala de redacción. Y, dada la generalmente austera cultura de la sala de redacción promedio, estas herramientas suelen tener el atractivo añadido de costar muy poco o nada.
 
El año pasado volví de la conferencia del nacional Institute for Computer-Assisted-Reporting (NICAR), con 22 herramientas gratuitas para la visualización y análisis de datos -la mayoría de las cuales siguen siendo populares y vale la pena echarles un vistazo. En la conferencia de este año, me enteré de otras herramientas libres (o al menos baratas) para el análisis y presentación de datos.
 
Al igual que el grupo anterior de 22 herramientas, estas van desde lo suficientemente fácil para un principiante (es decir, cualquier persona que puede ingresar datos de forma rudimentaria en una hoja de cálculo) hasta experto (que requiere de manos duchas en codificación). Aquí están las ocho de los mejores:
 
CSVKit
Lo que hace: Esta suite de utilidades de GitHub tiene una serie de herramientas tipo línea de comandos de Unix para importar, analizar y dar formato a archivos de datos separados por comas.
 
Lo bueno: Claro, podría abrir su archivo en Excel para examinarlo, pero CSVKit hace que obtener una vista previa, cortar y resumir sea algo fácil y rápido.
 
Por ejemplo, puede ver todos los encabezados de columna en una lista -lo que es útil para los archivos con muchas y súper anchas columnas-, y luego simplemente sacar datos de algunas de esas columnas. Además de introducir los archivos CSV, puede importar varios formatos de archivos de ancho fijo -por ejemplo, hay bibliotecas a disposición de formatos con un ancho específico utilizados por la oficina de censos y la comisión federal de elecciones.
 
Dos comandos simples generarán una estructura de datos que puede, a su vez, ser utilizada por varios formatos de base de datos SQL (Mr. Data Converter se encarga solo de MySQL). El código SQL creará una tabla, dando a entender el tipo de datos adecuados para cada campo, así como los comandos de inserción para agregar datos a la tabla.
 
La interfase tipo Unix será familiar para cualquiera que haya trabajado en un sistema *nix, y hace que se puedan guardar fácilmente varios comandos utilizados con frecuencia en un archivo por lotes.
 
Desventajas: El trabajo en una línea de comandos significa aprender nuevos comandos de texto (por no mencionar el riesgo probable de errores de escritura), que no valdrían la pena a menos que trabaje frecuentemente con archivos CSV. Asimismo, queda advertido de que este conjunto de herramientas está escrito en Python, por lo que los usuarios de Windows también tendrán que tenerlo instalado en sus sistemas.
 
Nivel de dificultad: Experto
 
Funciona con: Cualquier sistema Windows, Mac o Linux con Python instalado.
 
Más información: la documentación incluye un tutorial fácil de seguir. Hay también una breve presentación de diapositivas a modo de introducción que fue mostrada en la conferencia NICAR el mes pasado.
 
Herramientas relacionadas: Google Refine es una aplicación de escritorio que puede hacer un análisis de archivos rudimentario, como parte de su tarea central de depuración de datos; y el proyecto de investigación de Statistical Computing puede hacer un análisis estadístico más poderoso de la CSV y otros archivos.
 
DataTables
Lo que hace: Este popular plug-in de jQuery (que fue diseñado y creado por Allan Jardine) crea tablas HTML, que se pueden ordenar y buscar, de una variedad de fuentes de datos -por ejemplo, una tabla existente, HTML estática, una matriz de JavaScript, JSON o servidor del lado de SQL.
 
Lo bueno: además de tablas que se pueden ordenar, los resultados pueden ser registrados en tiempo real (los resultados se estrechan aún más con cada búsqueda).
 
Desventajas: La capacidad de búsqueda es bastante básica y no puede ser reducida por columna o mediante búsquedas con comodines o Boolean.
 
Nivel de dificultad: Experto
 
Funciona en: JavaScript habilitado para navegadores web.
 
Más información: Numerosos ejemplos en el sitio Data Tables muestran muchas maneras de usar este plug-in.
 
Free Dive
Lo que hace: Este proyecto alfa del Knight Digital Media Center de la universidad de Berkeley, convierte una hoja de cálculo de Google Docs en una base de datos interactiva ordenable, que se puede publicar en la web.
 
Lo bueno: Además de la búsqueda de texto, puede incluir barras numéricas de desplazamiento. Su uso es gratuito. Los usuarios finales pueden crear fácilmente sus propias bases de datos desde hojas de cálculo sin necesidad de escribir código.
 
La atracción principal de FreeDive es la capacidad de crear bases de datos sin programación; sin embargo, el código fuente de FreeDive se publicará y estará disponible para su uso una vez que el proyecto esté más maduro. Eso podría apelar a los departamentos de TI que buscan una manera de ofrecer este tipo de servicios en la empresa, permitiendo que los usuarios conviertan un documento de Google Docs en una base de datos web que se puede ordenar y filtrar utilizando la API de visualización de Google, Google Query Language y jQuery -sin necesidad de generar el código manualmente.
 
Desventajas: Mi aplicación de prueba se encontró con algunos problemas intermitentes, por ejemplo, no mostró mi lista de datos cuando utilicé el botón "Mostrar todos los archivos". Este es un proyecto alfa, y debe ser tratado como tal.
 
Además, los límites actuales de iteración de hojas de cálculo son de 10 columnas y una sola hoja. Una columna debe tener un número, así que esto no funciona con la información de solo texto. El widget de búsqueda se limita actualmente a unas pocas opciones específicas de campos de búsqueda, aunque esto podría aumentar a medida que el proyecto madure. (Un servicio pago como Caspio ofrece más opciones de personalización). El asistente de nueve pasos podría volverse un problema después de su uso frecuente.
 
Nivel de habilidad: Principiante avanzado.
 
Funciona en: Los navegadores web actuales.
 
Más información: El sitio de FreeDive incluye varios tutoriales en video en la parte inferior de la página principal, así como datos de prueba para testear el asistente.
 
Herramientas relacionadas: Caspio es una alternativa comercial bien establecida. Para una alternativa de JavaScript con un mayor control sobre la tabla creada a partir de una hoja de cálculo de Google Docs, puede que desee investigar Tabletop, que hace que una hoja de cálculo de Google Docs sea accesible al código JavaScript.
 
Highcharts JS
Lo que hace: Esta biblioteca JavaScript de Highsoft Solutions proporciona una manera fácil de crear gráficos interactivos de aspecto profesional para la web. Se requiere Jquerry, Mootools o Prototype.
 
Lo bueno: Con Highcharts, los usuarios no solo pueden pasar el puntero del mouse sobre los elementos para obtener más detalles, sino que también pueden hacer clic en los elementos de la leyenda del gráfico para encenderlos o apagarlos. Hay diferentes tipos de gráficos disponibles, desde los gráficos básicos de líneas, barras, de columnas y de área, hasta intervalos de tiempo con zoom; cada tipo de gráfico viene con seis opciones de hojas de estilo. Se necesita poca personalización para obtener un gráfico de aspecto elegante -los cuales se mostrarán en dispositivos iOS y Android, así como en los navegadores de escritorio.
 
Desventajas: Highcharts, como Google Maps, tiene un aspecto distintivo, por lo que es posible que desee personalizar las hojas de estilo de Highcharts para que sus visualizaciones no se parezcan a los numerosos gráficos de Highcharts que están en la web. Aunque los diagramas se mostraron bien en mi teléfono Android, no eran interactivos (como si estuvieran en una iPad).
 
Y a diferencia de la mayoría de bibliotecas librerías JavaScript/jQuery, Highcharts es gratuita para uso no comercial, a pesar de que una licencia en todo el sitio para muchas empresas solo cuesta 80 dólares. (El costo salta a 300 dólares por asiento de desarrollador en algunos casos -por ejemplo, si los gráficos son personalizadas para cada usuario) la representación puede ser lenta en algunos navegadores más antiguos (en particular, Internet Explorer 6 y 7).
 
Nivel de dificultad: Intermedio y avanzado.
 
Funciona en: Navegadores web.
 
Más información: La galería de demostración de Highcharts incluye código fuente de fácil visualización; la documentación explica otras opciones.
 
Herramientas relacionadas: Google Chart Tools crea gráficos de imágenes estáticas y gráficos o representaciones visuales basadas en JavaScript más interactivas; también hay bibliotecas de JavaScript, como Protovis y el kit de herramientas de JavaScript InfoVis ToolKit. Exhibit es un spin-off del MIT Simple Project diseñado para presentar los datos en la web con filtrado, clasificación y funciones interactivas.
 
Mr. Data Converter
Lo que hace: ¿Con qué frecuencia tiene los datos en un formato mientras que su aplicación los necesita en otro? El editor de gráficos interactivos del New York Times, Shan Carter, se encontraba en esta situación tan a menudo que codificó una herramienta que convierte los datos delimitados por comas o por tabuladores en nueve diferentes formatos. Está disponible ya sea como un servicio en la web o como una herramienta de código abierto.
 
Lo bueno: Mr. Data Converter puede generar formatos XML, JSON, ASP/ BScript o formato básico HTML, así como las matrices en PHP, Python (como un diccionario) y Ruby. Incluso generará código de MySQL para crear una tabla (adivinando los formatos de campo sobre la base de los datos) e introducirá sus datos personales. Si los datos se encuentran en una hoja de cálculo Excel, no es necesario que los guarde como un archivo CSV o TSV, puede copiarlos y pegarlos en la herramienta.
 
Desventajas: Solo los formatos CSV o TSV pueden ser de entrada, así como copiar y pegar en los datos de Excel.
 
Nivel de dificultad: Principiante
 
Funciona en: JavaScript habilitado para navegadores web.
 
Más información: Puede seguir al señor Data Converter en Twitter: @mrdataconverter.
 
Herramientas relacionadas: Data Wrangler es una herramienta basada en web que reformatea los datos según sus especificaciones.
 
Lo que hace: El proyecto Panda no se trata tanto de analizar o presentar los datos encontrados en medio de pilas de hojas de cálculo independientes repartidas por la organización. Fue diseñado específicamente para las salas de redacción, pero podría ser utilizado por cualquier organización en la que los individuos recopilan información sobre sus computadoras de escritorio, y que valdría la pena compartir. Anunciado como un "instrumento de sala de redacción", los usuarios pueden subir archivos CSV o Excel a Panda, y luego buscar en todos los conjuntos de datos disponibles o en un solo archivo.
 
Lo bueno: Panda hace que sea sencillo dar a otros el acceso a la información que se ha sentado en los discos duros de los individuos en diferentes hojas de cálculo independientes. Incluso los usuarios sin conocimientos técnicos pueden cargar y buscar datos. La búsqueda es muy rápida, utilizando ApacheSolr.
 
Desventajas: las consultas son básicas -no se puede especificar un campo/columna específico para buscar, por lo que una búsqueda de "Washington" traerá resultados que contengan tanto el lugar y el nombre de una persona. La plataforma de alojamiento requerida es muy específica, requiere Ubuntu 11.1. (Los desarrolladores de Panda han creado una imagen de Amazon Community con la configuración del servidor requerida para su alojamiento en EC2 de Amazon Web Services).
 
Nivel de dificultad: Principiante (principiante avanzado para la administración).
 
Funciona en: Debe estar alojado en Amazon EC2 o en un servidor con Ubuntu 11.10. Los clientes pueden utilizar cualquier navegador de Internet.
 
Más información: La documentación de Panda, aún en obras, ofrece conceptos básicos sobre instalación, configuración y uso. Nieman Journalism Lab tiene algo algunos antecedentes en el proyecto que fue financiado por una subvención de 150 mil dólares de Knight News Challenge.
 
PowerPivot 
Lo que hace: Este plug-in gratuito de Microsoft Excel 2010 permite administrar grandes conjuntos de datos de una forma mucho más eficiente que la versión básica de Excel. También permite que Excel actúe como una base de datos relacional mediante la adición de la capacidad de unir columnas de diferentes tablas en lugar de confiar en el comando, algo engorroso, VLOOKUP de Excel. PowerPivot incluye su propio lenguaje de fórmulas, Data Analysis Expressions (DAX), que tiene una sintaxis similar a las fórmulas convencionales de Excel.
 
Lo bueno: PowerPivot puede manejar millones de registros -los conjuntos de datos que normalmente oprimen a los menos PowerPivot de Excel. Y al unir a las tablas, puede hacer tablas dinámicas y gráficos más inteligentes para explorar y visualizar grandes conjuntos de datos con la interfase señale y haga clic de Excel.
 
Desventajas: Está limitado a Excel 2010 en los sistemas Windows. Además, los usuarios de SQL pueden preferir utilizar una base de datos relacional de verdad para los datos en múltiples tablas con el fin de crear consultas complejas de datos.
 
Nivel de Dificultad: Intermedio
 
Funciona con: Excel 2010, solo en Windows.
 
Más información: Hay enlaces a demos y videos en la página principal de PowerPivot, así como un tutorial de introducción de Microsoft TechNet.
 
Herramientas relacionadas: Zoho Reports puede tomar datos de varios formatos de archivo y convertirlos en cuadros, tablas y tablas dinámicas.
 
Weave
Lo que hace: Esta plataforma de visualización de propósito general permite la creación de cuadros de mando interactivos con visualizaciones múltiples, relacionadas -por ejemplo, un gráfico de barras, gráfico de dispersión y mapa. El proyecto de código abierto fue creado por la universidad de Massachusetts en Lowell, en colaboración con un consorcio de organismos gubernamentales y aún está en beta.
 
Lo bueno: Las visualizaciones son muy interactivas; el hacer clic en un área de visualización también afecta lo que haya en el tablero de instrumentos. La plataforma incluye potentes capacidades de análisis estadístico. Los usuarios pueden crear sus propias visualizaciones en un sistema de Weave basado en web, o guardar y modificar las herramientas y las apariencias de las visualizaciones que han sido compartidas públicamente por otros.
 
Desventajas: Requiere de Flash para que la visualice el usuario final. En la actualidad es un poco difícil de instalar, a pesar de que una instalación con un solo clic está prevista para este verano. Y debido a que es tan poderosa, algunos usuarios dicen que las implementaciones deben considerar la forma de disminuir funcionalidades con el fin de no abrumar a los usuarios finales.
 
Nivel de dificultad: Intermedio para aquellos que solo crean visualizaciones; experto para los que implementan un sistema Weave.
 
Funciona con: Navegadores con Flash habilitado. El servidor requiere un contenedor servlets de Java (Tomcat o Glassfish, MySQL o PostgreSQL, Linux y Adobe Flex SDK 3.6).
 
Más información: El sitio de Weave incluye demostraciones, videos y una guía de usuario. Para más ejemplos de las visualizaciones que se pueden construir utilizando una plataforma de Weave, consulte la galería DataCommon de MetroBoston.
 
Herramientas relacionadas: Tableau Public es una robusta plataforma de visualización para todo propósito.
Sharon Machlis, Computerworld (EE.UU).
 




Llegamos a ustedes gracias a: