Llegamos a ustedes gracias a:



Reportajes y análisis

Herramientas gratuitas para el análisis y visualización de datos

[26/04/2011] Podría pensar que no tiene mucho en común con un periodista de investigación o un investigador médico. Pero si está intentando extraer información útil de un flujo de datos cada vez mayor, probablemente encuentre útil la visualización, ya sea para mostrar patrones o tendencias con gráficos en lugar de montañas de textos, o para intentar explicar temas complejos a un público no técnico.

Hay muchas herramientas para ayudar a transformar los datos en gráficos, pero pueden venir acompañadas de grandes precios. El costo puede tener sentido para los profesionales cuyo trabajo básico es encontrar significados en las montañas de información, pero podría no justificarse un gasto así, si usted o sus usuarios solo necesitan de una aplicación gráfica de vez en cuando, o si su presupuesto para herramientas nuevas se encuentra limitado. Si una de las costosas opciones se encuentra fuera de su alcance, existen un sorprendente número de herramientas muy robustas para la visualización y análisis de datos que se encuentran disponibles en forma gratuita.
¿Quiere ver todas las herramientas?
A continuación una lista de algunas de las opciones más conocidas, muchas de las cuales fueron mostradas en la conferencia Computer-Assisted Reporting (CAR) el mes pasado. Otras no son tan conocidas pero prometen mucho. Ellas van desde las fáciles para un principiante (es decir, para cualquiera que pueda ingresar datos a una hoja de cálculo) hasta para expertos (aquellos que escriben código). Todas ellas comparten una importante característica: son gratuitas. Su única inversión: su tiempo.
Limpiar datos
Antes que pueda analizar y visualizar los datos, generalmente tienen que limpiarse. ¿Qué significa? Quizás algunas de las entradas dicen Ciudad de Nueva York, mientras que otras dicen Nueva York, NY, y se tienen que estandarizar antes de poder ver los patrones en ellas. Puede que haya algunos registros mal escritos o con errores en el ingreso de los datos. Las siguientes dos herramientas se encuentran diseñadas para ayudar a tener los datos en forma para ser analizados.
DataWrangler
Lo que hace: Este servicio basado en web del Grupo de Visualización de la Universidad de Stanford está diseñado para limpiar y reordenar los datos de tal forma que otras herramientas -como una aplicación de hoja de cálculo- puedan usar.
Haga clic en una fila o columna, y DataWrangler sugerirá cambios. Por ejemplo, si hace clic en una fila en blanco, aparecen muchas sugerencias como borrar fila o borrar filas en blanco.
También existe un historial que le permite realizar fácilmente un deshacer.
Inconvenientes: Encontré que ocurren cambios inesperados cuando intenté explorar las opciones de DataWrangler; constantemente tuve que hacer clic en limpiar para hacer reset. Y no todas las sugerencias son útiles (pasar fila a cabecera parecía una sugerencia rara si la fila estaba en blanco), o fáciles de entender (doble la separación 1 usando 2 como clave).
Y aunque el hecho de que DataWrangler sea un servicio basado en web lo hace de uso conveniente, no olvide que envía sus datos a un sitio externo, lo cual significa que no es conveniente para la información confidencial interna. Sin embargo, existen planes de un release futuro de una versión para desktop. Otra cosa importante a tener en mente es que DataWrangler actualmente es un código alfa, y sus creadores afirman que es aún un trabajo en construcción.
Nivel de habilidad: Principiante avanzado
Corre sobre: Cualquier navegador
Google Refine
Lo que hace: Google Refine puede describirse como una hoja de cálculo con esteroides por trabajar tanto con textos como con datos numéricos. Al igual que Excel, puede importar y exportar datos en varios formatos incluyendo archivos de texto separados por tabs y comas, y archivos Excel, XML y JSON.
Refine presenta varios algoritmos incorporados que encuentran textos que están escritos de forma diferente, pero que en realidad deberían agruparse juntos. Luego de importar sus datos, simplemente selecciona editar celdas - hacer cluster y editar, y selecciona qué algoritmo quiere usar. Luego de que Refine corre, usted decide si aceptar o rechazar cada sugerencia. Por ejemplo, puede darle para combinar Microsoft y Microsoft Corp., pero no combinar Coach Inc. con CQG Inc. Si ofrece muy pocas o demasiadas sugerencias, puede cambiar la fuerza de la función de sugerencias.
También existen opciones numéricas que ofrecen vistas generales rápidas y fáciles de las distribuciones de los datos. Esta funcionalidad puede revelar anomalías que podrían ser el resultado de errores en el ingreso de los datos -como por ejemplo 800 mil dólares en lugar de 80 mil dólares para una entrada de salarios anuales, o puede exponer inconsistencias -así como las diferencias en la forma en que los datos de compensación son reportados en las entradas, por ejemplo, cuando algunas entradas señalan salarios por hora mientras que otros muestran pagos semanales o salarios anuales.
Más allá de la limpieza de los datos, Google Refine ofrece algunas herramientas de análisis muy útiles, como presentaciones y filtrados.
Lo atractivo: Una vez que se acostumbre a lo que hacen los comandos, esta es una poderosa herramienta para la administración y el análisis de los datos que tiene un buen equilibrio entre funcionalidad y facilidad de uso. La lista de deshacer/rehacer de cada acción que ha realizado le permite volver cuando sea necesario. Y las funciones de texto manejan expresiones regulares de sintaxis Java, lo cual le permite buscar patrones (tales como, digamos, tres números seguidos de dos dígitos) así como cadenas de texto específicas y números.
Finalmente, aunque esta es una aplicación basada en web, funciona con archivos en su desktop, así que sus datos siguen siendo locales.
Inconvenientes: Aunque Google Refine se ve como una hoja de cálculo, no puede hacer los cálculos comunes de una hoja de cálculo. Si tiene un gran conjunto de datos, dese un tiempo para revisar todos los cambios sugeridos por Refine, ya que puede tomarle un tiempo. Y, dependiendo de los conjuntos de datos, prepárese porque los textos se fusionan: probablemente vaya a tener muchos falsos positivos o problemas no vistos, o ambos.
Nivel de habilidad: Principiante avanzado. El conocimiento de los conceptos de análisis de datos es más importante que los conocimientos técnicos; los buenos usuarios de Excel que entienden las necesidades de limpieza de datos se sentirán cómodos con este software.
Corre sobre: Windows, Mac OS X (si parece que no hace nada luego de cargarlo en una Mac, vaya con el navegador a http://127.0.0.1:3333/), Linux.
Análisis estadístico
Algunas veces uno necesita combinar representaciones gráficas de sus datos con un análisis numérico robusto.
Lo que hace: R es una plataforma de análisis estadístico general (los autores lo llaman ambiente) que corre en la línea de comandos. ¿Necesita encontrar medias, medianas, desviaciones estándar, correlaciones? R puede manejar esto y mucho más, incluyendo modelos lineales y lineales generales, modelos de regresión no lineal, análisis de series de tiempos, test clásicos paramétricos y no paramétricos, clustering y smoothing, de acuerdo al sitio web del proyecto.
R también hace resultados gráficos, de cuadros y plots. Hay numerosas extensiones de este proyecto de código abierto que amplia de manera significativamente las funcionalidades. Para los usuarios que prefieren un GUI, Peter Aldhous, jefe de la revista New Scientist de San Francisco, sugiere RExcel, que ofrece acceso al motor de R a través de Excel.
Lo atractivo: Hay muchas funcionalidades en R, incluyendo varias en opciones de virtualización así como en el análisis numérico y espacial.
Inconvenientes: El hecho de que R corre sobre la línea de comandos significa que los usuarios tendrán que tomarse un tiempo para aprender cuáles comandos hacen qué, y no todos los usuarios se sentirán cómodos con una interfase de solo texto. Además, Aldhous afirma que aquellos que trabajan con grandes conjuntos de datos podrían encontrarse con una barrera en la memoria (si eso pasa, existe una opción comercial de Revolution Analytics.
Nivel de habilidad: Intermedio o avanzado. Es obligatorio sentirse cómodo con los prompts de líneas de comando y un conocimiento de estadística para la aplicación principal.
Corre sobre: Linux, Mac OS X, Unix, Windows XP o posterior.
Aplicaciones y servicios de visualización
Estas herramientas ofrecen varias opciones de visualización. Aunque algunas se apegan a los cuadros y gráficos convencionales, muchas ofrecen varios otras opciones como los mapas de árboles y nubes de palabras.
Fusion Tables de Google
Lo que hace: Fusion Tables es una de las formas más simples que he visto para transformar los datos en un cuadro o mapa. Uno puede subir un archivo en muchos diferentes formatos y luego escoger cómo mostrarlo: tabla, mapa, heatmap, gráfico de líneas, gráfico de barras, gráfico de pastel, scatter plot, línea de tiempo, storyline o motion (animación en el tiempo). Es personalizable, lo cual le permite cambiar los íconos de los mapas y el estilo de las ventanas de información.
Hay algunas funciones de edición de datos dentro de Fusion Tables, aunque cambiar más de unas cuantas entradas de celdas puede convertirse rápidamente en algo tedioso. Uno también puede unir tablas (que es importante cuando los datos que quiere mapear se encuentran en varias tablas), y filtrar, clasificar y añadir columnas y tareas similares. También existen opciones para permitir a otros hacer comentarios de los datos.
El mapeo va más allá de solo colocar puntos, algo a lo que muchos de nosotros estamos acostumbrados por Google Maps. Las tablas de Fusion también pueden mapear múltiples polígonos con variaciones de color basadas en los datos, como en el caso del mapa de intensidades que muestra el porcentaje de hogares con acceso a Internet, por estado, a partir de los datos de la oficina de Censos de Estados Unidos del 2007.
El Knight Digital Media Center señala que una característica permite el uso de la exportación de Fusion Tables para generar archivos JSON a partir de datos en otros formatos. JSON es un formato necesario para algunas API y librerías de JavaScript.
A diferencia de Many Eyes de IBM, Google permite designar los datos como privados o no listados o públicos, a pesar de que los datos aún residen en los servidores de Google, lo cual es un beneficio o inconveniente, dependiendo de qué es más importante para usted: los costos de la banda ancha o la privacidad de los datos.
Lo atractivo: Fusion Tables ofrece una creación de gráficos o mapas relativamente rápida, incluyendo funciones GIS (geographic information system) para analizar datos por geografías. El servicio automáticamente establece direcciones de códigos geográficos, lo cual es útil cuando se intenta colocar muchos puntos en un mapa. Esta es una herramienta excelente para que los principiantes y principiantes avanzados se acostumbren al análisis de datos; también es bueno para las personas que no hacen programación. Para usuarios más avanzados existe una API.
Inconvenientes: La funcionalidad, personalización, y capacidad de datos son limitadas en comparación con las aplicaciones desktop o el código personalizado; además, interactuar con grandes conjuntos de datos puede ser un proceso lento. Y tiene sus limitaciones: el sitio colapsó el 11 de marzo, el día del devastador terremoto y tsunami en Japón. (Aún se encuentra como proyecto beta de Google Labs)
Nivel de Habilidad: Principiante.
Corre sobre: Cualquier navegador.
Impure
Lo que hace: Impure es una especie de Yahoo Pipes para la visualización de datos, diseñado para crear varios tipos de representaciones gráficas de los datos usando un espacio de trabajo drag-and-drop. El servicio incluye una librería de objetos y varios métodos, y -como con Yahoo Pipes- le permite a uno hacer clic y jalar para conectar módulos de tal forma que el output de uno se convierta en el input de otro. Fue desarrollador por la firma de analítica Bestiario.
Lo atractivo: Impure ofrece una interfase muy visual para para la tarea de creación de visualizaciones -lo cual no es tan común como se podría creer. Tiene una interfase de usuario pulcra y numerosos módulos, incluyendo varias API que están diseñadas para jalar los datos de la web. Presenta varios tipos de visualización que son buscables por palabras clave como numérica, tablas, nodos, geometría y mapa. Y aunque guarda su espacio de trabajo en la web, uno puede copiar y guardar el código en forma local, de tal manera que uno pueda hacer una copia de seguridad del trabajo o mantener una librería propia de códigos.
Inconvenientes: Los usuarios de Impure tienen que enfrentar una trabajosa curva de aprendizaje a pesar de su funcionalidad drag-and-drop. La documentación es detallada en algunas áreas, pero escasa en otras. Por ejemplo, aunque fue fácil encontrar una lista de las API, fue más difícil encontrar instrucciones básicas sobre cómo usar el espacio de trabajo, o incluso comprender que había un espacio de trabajo, sin mencionar los varios objetos y métodos.
Una vez que tiene su espacio de trabajo, éste se encuentra en la web pública, aunque es poco probable que otra persona pueda encontrarlo a menos que comparta la URL. Y encontré que algunos ejemplos no son tan de ayuda para la comprensión de los datos, a pesar de que eran visualmente atractivos.
Nivel de habilidad: Intermedio.
Corre sobre: Cualquier navegador.
Tableau Public
Lo que hace: Esta herramienta puede convertir los datos en varios tipos de visualizaciones, desde los simples hasta los complejos. Uno puede jalar y soltar campos en el área de trabajo y solicitar el software que sugiera un tipo de visualización, luego modificar todo, desde las etiquetas hasta el tamaño, los filtros interactivos y la leyenda que se muestra.
Lo atractivo: Tableau Public ofrece una variedad de formas de mostrar datos interactivos. Uno puede combinar múltiples visualizaciones conectadas en un solo panel, en donde un filtro de búsqueda puede actuar sobre los numerosos cuadros, gráficos y mapas; las tablas de datos también pueden ser unidad. Y una vez que se acostumbre a cómo funciona el software, su interfase de jalar y soltar es considerablemente más rápida que escribir código manualmente en JavaScript o R para la mayoría de los usuarios, haciendo que sea más probable que pruebe escenarios adicionales con su conjunto de datos. Además, puede realizar fácilmente cálculos sobre los datos dentro del software.
Inconvenientes: En la versión gratuita del software de inteligencia de negocios de Tableau, su visualización y datos deben residir en el sitio de Tableau. Cada vez que guarde su trabajo, se envía al sitio web público, lo cual significa que no puede guardar el trabajo en progreso sin correr el riesgo de que se vea antes de que se encuentre listo (aunque el sitio web de Tableau no expondrá en forma deliberada su trabajo, su seguridad se basa en su oscuridad, así que alguien podría ver su trabajo si encuentra su URL). Y una vez que se encuentra guardado, los viewers son invitados a descargar todo su cuaderno de trabajo con los datos. El upgrade a una edición desktop para un usuario cuesta 999 dólares.
No es de sorprender que toda esa funcionalidad tenga un costo: la curva de aprendizaje de Tableau es bastante difícil en comparación con Fusion Tables, por ejemplo. Incluso con la interfase jalar y soltar, toma más de una hora o dos aprender cómo usar las verdaderas capacidades del software, aunque uno puede empezar haciendo cuadros y mapas simples al poco tiempo.
Nivel de habilidad: Principiante avanzado o intermedio.
Corre sobre: Windows 7, Vista, XP, 2003, Server 2008, 2003.
Pionero de la visualización de datos en web, el proyecto Many Eyes de IBM combina el análisis gráfico con la comunidad, animando a los usuarios a subir, compartir y discutir la información. Es extremadamente fácil de usar y tiene muy buena documentación, incluyendo sugerencias sobre cuándo usar qué tipo de representación visual de los datos. Many Eyes incluye más de una docena de opciones de output, desde cuadros, gráficos y nubes de palabras hasta mapas de árbol, plots, diagramas de red, y algunos mapas geográficos limitados.
Uno necesita una cuenta gratuita para subir y postear datos, aunque cualquiera puede navegar por ellos. El formato es básico: para la mayoría de las visualizaciones, los datos deben encontrarse en un archivo de texto separado por tabs con una fila de cabeceras al inicio.
Me tomo unos tres minutos crear un gráfico de barrar de los principales empleadores de visas H-1B.
Me tomó quizás otro minuto crear un mapa de árbol de los mismos datos.
Lo atractivo: La visualización no puede ser más fácil, y los resultados se veían considerablemente más sofisticados que lo que uno esperaría en base al mínimo esfuerzo requerido para crearlos. Además, la lista de posibles tipos de visualización incluye explicaciones de los tipos de datos a los que se ajusta mejor cada uno de ellos.
Inconvenientes: Tanto las visualizaciones como los datos son públicos en el sitio de Many Eyes y pueden ser fácilmente descargados, compartidos, vueltos a publicar y comentados por otros. Esto puede ser algo bueno para ciertos tipos de usuarios -especialmente agencias gubernamentales, organizaciones sin fines de lucro, escuelas y otras organizaciones que quieren compartir sus visualizaciones con el presupuesto para servidores de alguien más- pero es un obvio problema para otros. (IBM ofrece un formulario de contacto para las empresas que se encuentran interesadas en alojar su propia versión del software). Además, la personalización es limitada, al igual que su tamaño de archivos de datos (5MB).
Nivel de habilidad: Principiante.
Corre sobre: Java y cualquier navegador moderno que pueda trabajar con Flash.
VIDI
Lo que hace: Aunque el sitio web de VIDI muestra esto como una herramienta para el sistema de administración de contenido Drupal, los gráficos creados por el wizard de visualización del sitio pueden ser usados en cualquier página HTML, no es necesario Drupal.
Suba sus datos, seleccione un tipo de visualización, seleccione un poco de personalización, y su gráfico, línea de tiempo o mapa y se encuentra listo para usarse a través de un código embebible autogenerado (usando un iframe, no JavaScript o Flash).
Lo atractivo: Es tan fácil como Many Eyes, con más opciones de mapas y no tiene que hacer públicos sus visualizaciones o conjuntos de datos en el sitio web. Hay explicaciones de cada tipo de visualización y muchos diferentes opciones de personalización de color. Y el límite de tamaño de archivo es de 30MB que es seis veces mayor que los 5MB de Many Eyes.
Inconvenientes: Desafortunadamente, el wizard de visualización es mucho más fácil de usar que el código embebible, mi iframe embebido no se mostró cuando intenté verlo en el sitio web de VIDI; tuve que guardar la visualización e ir a la página de Mi VIDI para obtener el código que sí funcionaba. También, al igual que cualquier servicio de nube, si está usando esto para publicar en web querrá sentirse confiado en que los servidores de alojamiento puedan manejar el tráfico y puedan mostrar los datos.
Nivel de habilidad: Principiante.
Corre sobre: Cualquier navegador.
Zoho Reports
Lo que hace: Es uno de los más tradicionales productos de analítica de negocios enfocado en las corporaciones y puede tomar los datos provenientes de varios formatos de archivo o directamente de una base de datos y convertirlos en cuadros, tablas, y tablas dinámicas, formatos que son familiares para la mayoría de usuarios de hojas de cálculo.
Lo atractivo: Uno puede programar las importaciones de datos de fuentes en la web. Los datos pueden ser solicitados usando SQL y pueden convertirse a visualizaciones, y el servicio puede publicarlos y compartirlo en la web (aunque si acceden a él más de dos usuarios tendrán que escoger una cuenta pagada).
Inconvenientes: Las opciones de visualización son bastante básicas y limitadas. En ocasiones interactuar en vivo con los datos basados en web puede ser lento. Los archivos de datos se encuentran limitados a los 10MB. Encontré que en ocasiones la navegación es confusa; por ejemplo, luego de que guardé una copia de una muestra de una base de datos, se me dijo que se encontraba en la carpeta Mis reportes, pero fue difícil encontrarla.
Nivel de habilidad: Principiante avanzado.
Corre sobre: Cualquier navegador.
Ayuda con el código: wizards, librerías, API
En ocasiones nada puede sustituir al código de la visualización, especialmente si el look and feel que busca no puede obtenerse sin una aplicación. Pero eso no significa que tenga que comenzar desde cero, gracias a una amplia gama de librerías disponibles y API.
Lo que hace: Este framework basado en web y de código abierto está diseñado para cuadros, nubes, gráficos, líneas de tiempo y mapas. En este momento, está más equipado para desarrolladores que crean aplicaciones que para usuarios finales que necesitan guardar y/o embeber su trabajo; pero existe un demo interactivo en línea que le permitirá rápidamente subir algunos datos para visualizar.
Lo atractivo: Como con Tableau Public, uno puede tener más de una visualización en una página y conectarlas de tal forma que, por ejemplo, pasar el mouse sobre un gráfico hará que los correspondientes items en el mapa se resalten.
Inconvenientes: Esta no es aún una aplicación que los usuarios finales puedan usar para almacenar y compartir su trabajo. Y encontré que la demo en línea es engañosa en cuanto a cómo subir los datos; incluso cuando corregí los formatos de campo para las fechas (dd/mm/yyyy) y la localización (latitud/longitud) tal y como señalan los documentos, mis datos no se cargaron hasta que añadí otro campo de texto (en lugar de solo tener campos numéricos). Tampoco quedó claro cómo personalizar las etiquetas. Este proyecto se muestra prometedor si se le desarrolla y documenta más.
Nivel de habilidad: Experto
Corre sobre: Chrome, Safari y Firefox.
Exhibit
Lo que hace: Este producto separado del MIT Simile Project se encuentra diseñado para ayudar a los usuarios a crear con facilidad páginas web con funcionalidades avanzadas de búsqueda de texto y filtrado, con mapas interactivos, líneas de tiempo y otras visualizaciones. Presentado como un framework de publicación, la librería de JavaScript permite añadir fácilmente filtros, búsquedas, y más. La página Easy Data Visualization for Journalists ofrece ejemplo del código en uso en varios sitios web de diarios.
Por su puesto, fácil depende de quien lo mire; lo que es fácil para los profesionales del MIT que crearon Exhibit, podría no ser tan simple para un usuario cuyo nivel de comodidad no va más allá del Excel. Al igual que la mayoría de librerías de JavaScript, Exhibit requiere más del manejo de código que de servicios como Many Eyes y Google Fusion Tables. Por otro lado, Exhibit tiene buena documentación para los principiantes, incluso para aquellos sin experiencia en JavaScript.
Lo atractivo: Para aquellos que se sienten cómodos escribiendo código, Exhibit ofrece varias vistas -mapas, cuadros, timeplots, calendario y más- así como lentes personalizados (formas de darle formato a un registro individual) y facetas (propiedades que pueden ser buscadas u ordenadas). Es más probable que obtenga exactamente lo que quiera presentar con Exhibit que con Many Eyes. Y sus datos se mantienen locales a menos que decida publicarlos.
Inconvenientes: A los nuevos que no están acostumbrados a las visualizaciones por código, les toma tiempo familiarizarse con los códigos y la sintaxis de la librería.
Nivel de habilidad: Experto.
Nota: hay muchas otras librería de JavaScript para ayudar a crear visualizaciones, tales como la recientemente lanzada Data-Driven Documents y el plug-in jQuery Visualize. La lista 20 Fresh JavaScript Data Visualization Libraries de Six Revisions le dará una idea de cuántas hay para escoger.
Google Chart Tools
Lo que hace: a diferencia de Google Fusion Tables, que es una aplicación completa para subir y almacenar datos, y generar cuadros y mapas, Chart Tools se encuentra diseñada para visualizar datos que residen en otros lugares, como su propio sitio web o dentro de Google Docs.
Google ofrece tanto un Chart API que usa una simple URL request a un servidor de cuadros de Google para crear una imagen estática, como una Visualization API que accede a la librería de JavaScript para crear gráficos interactivo. Google ofrece una comparación de los tamaños de datos, carga de página, habilidades necesarias y otros factores para ayudarlo a decidir qué opción usar.
Para los gráficos estáticos más simples, existe un wizard que le ayudará a crear un cuadro a partir de algunos formatos de muestra; incluso le ayuda a introducir los datos fila por fila, aunque para cualquier conjunto de datos de tamaño decente -más de una docena de entradas- tiene más sentido darle formato como archivo de texto.
La API de visualización incluye varios tipos de cuadros, mapas, tablas y otras opciones.
Lo atractivo: El cuadro de imagen estática es razonablemente fácil de usar y presenta un Live Chart Playground, que le permite a uno cambiar el código y ver los resultados en tiempo real.
Esta API más robusta le permite jalar datos de una hoja de cálculo de Google. Uno puede crear íconos que mezclen texto e imágenes para las visualizaciones, como en el caso de este pronóstico del tiempo, y lo que denomina un gráfico de Googlemetro. La Visualization API también tiene una de las mejores documentaciones que he visto en una librería de JavaScript.
Inconvenientes: La herramienta de cuadros estáticos requiere de un poco más de trabajo que algunos de los otros servicios en web, y no siempre ofrece muchas cosas adicionales a cambio. Y para la API, así como con otras librerías de JavaScript, es necesario hacer código, haciendo que esto sea más una herramienta de programación que una aplicación de inteligencia de negocios para usuario final.
Nivel de habilidad: Principiante avanzado o experto.
Corre sobre: Cualquier navegador.
JavaScript InfoVis Toolkit
Lo que hace: InfoVis no se encuentra probablemente entre las librerías de visualización más conocidas de JavaScript, pero definitivamente vale la pena verla si se encuentra interesado en publicar visualizaciones de datos interactivos en la web. La Casa Blanca concuerda: InfoVis fue usada para crear el gráfico de Presupuesto Interactivo del gobierno de Obama.
Lo que hace resaltar a esta herramienta de las muchas otras son sus muy elegantes gráficos creados a partir de muestras básicas de código. El creador de InfoVis, Nicolás García Belmonte, senior software architect de Sencha Inc., claramente se preocupa tanto por el diseño estético como por el código, y lo hace notar.
Lo atractivo: Las muestras son fascinantes y no es necesario más código para obtener entretenidos efectos de animación. Uno puede elegir descargar el código solo para los tipos de visualización que quiere usar para minimizar el peso de las páginas web.
Inconvenientes: Ya que esta no es una aplicación sino una librería de código, tiene que tener experiencia en códigos para poder usarla. Por tanto, esta podría no ser una buena opción para los usuarios de una organización que analizan datos pero no saben programar. Igualmente, las opciones de tipos de visualización son algo limitadas. Más aún, los datos deben encontrarse en formato JSON.
Nivel de habilidad: Experto.
Corre sobre: Navegadores web habilitados para JavaScript.
Protovis
Lo que hace: Presentada como un toolkit gráfico para visualización, este proyecto del Grupo de Visualización de la Universidad de Stanford es una de las librerías más populares de JavaScript para transformar datos en algo visual; está diseñado para equilibrar la simplicidad con el control sobre lo que se muestra.
Lo atractivo: Una de las mejores cosas acerca de Protovis es lo bien que está documentada, con suficientes ejemplos que muestran código de visualización y de muestras. También hay un gran número de tipos de muestras de visualización disponibles, incluyendo mapas y algunos análisis estadísticos. Esta es una herramienta robusta, capaz de construir gráficos como este mapa de Estados Unidos con colores por código y slider de línea de tiempo.
Inconvenientes: Al igual que con otras librerías de JavaScript, es esencial que los usuarios tengan conocimiento de JavaScript (o al menos de otro lenguaje de programación). Aunque es posible copiar, pegar y modificar el código sin realmente entender lo que se está haciendo, no recomiendo ese enfoque para los usuarios finales no técnicos.
Nivel de habilidad: Experto.
Corre sobre: Navegadores web con JavaScript habilitado.
GIS/mapeo en el desktop
Existe una amplia gama de usos de negocio para los sistemas de información geográfica (geographic information systems – GIS), que van desde la exploración de petróleo hasta la elección de sitios para las nuevas tiendas de retail. O, como hizo The Miami Herald para su cobertura ganadora del Premio Pulitzer del huracán Andrew, uno puede comparar las velocidades de viento máximas con los reportes de daños y construir información (y quizás descubrir, por ejemplo, que el peor daño no ocurrió en las áreas que sufrieron los vientos más fuertes, sino en áreas con muchas construcciones nuevas pero de mala calidad).
Quantum GIS (QGIS)
Lo que hace: Este es un software GIS completo, diseñado para crear mapas que ofrecen análisis sofisticado y detallado basado en datos de regiones geográficas.
Probablemente el software GIS más conocido es ArcView de Esri, una aplicación robusta y con buen soporte que cuesta una buena cantidad de dinero. QGIS de código abierto es una alternativa a ArcView.
OpenOffice es para Microsoft Office lo que QGIS es para ArcView. Los entusiastas de ArcView argumentan que la oferta de Esri se encuentra un par de años delante de las alternativas de código abierto, tiene una interfase mejor desarrollada, disfruta de un soporte comercial y está mejor preparada para ofrecer un impreso. Pero los usuarios de QGIS afirman que la alternativa de código abierto es un excelente programa que hace bastante buen trabajo GIS -y puede ser mejor que ArcView cuando se trata de generar mapas para la web, gracias a un plug-in dedicado a generar mapas de imagen en HTML.
Lo atractivo: QGIS tiene una enorme cantidad de funcionalidades GIS, incluyendo la capacidad de crear mapas, superponer varios tipos de datos, hacer análisis espacial, publicar en la web, y más. También puede ser mejorado con plug-ins que añaden soporte para numerosos emprendimientos, incluyendo geocoding, administración de datos de tablas, exportación a MySQL, y generación de mapas de imagen en HTML.
Inconvenientes: Al igual que cualquier aplicación GIS sofisticada, aprender a usar este software significa un verdadero compromiso de tiempo y capacitación. Incluso en prolongadas sesiones prácticas primero con ArcView y luego con QGIS, noté cosas que eran más fáciles de hacer en la versión comercial. Por ejemplo, ArcView tenía una función normalizar con un solo clic para calcular inmediatamente, digamos, el porcentaje de personas de 65 años o más, versus el total de la población de una tabla de datos con ambas columnas; en QGIS, necesité sacar un calculador de campo y crear una nueva columna con la fórmula para hacer ese cálculo por mí mismo.
Corre sobre: Linux, Unix, Mac OS X, Windows. (En este caso la instalación es más complicada en OS X, ya que requiere la instalación manual de varias dependencias. Hay un instalador de un solo clic para Windows).
Nivel de habilidad: Intermedio a experto.
GIS/mapeo basado en web
La mayoría de nosotros estamos acostumbrados a las herramientas de mapeo de las grandes compañías como Google (que tiene varios front ends de terceros como Map A List, y complementos que añaden información a un Google Map desde una hoja de cálculo). También tenemos Yahoo Maps Web Services y Bing Maps; todos con API. Pero hay muchas otras opciones de organizaciones más pequeñas o de entusiastas solitarios del código abierto que fueron diseñadas desde cero para mapear datos geográficos.
OpenHeatMap
Lo que hace: Este sitio web amigable para el usuario genera mapas con colores por código; los colores cambian dependiendo de la información, como el cambio en la población o el ingreso promedio. También coloca marcadores en un mapa, variando el tamaño de los marcadores en base a las tablas de datos.
Además de proporciona el servicio basado en web, el autor Pete Warden también ha empaquetado OpenHeatMap como plug-in de jQuery para aquellos que no quieren depender del alojamiento en OpenHeatMap.com. Sin embargo, no todos los formatos de datos funcionan correctamente cuando son alojados en forma local. Mi forma recomendada es embeber los mapas desde el sitio, escribió Warden vía el chat de Skype.
Lo atractivo: Es asombrosamente fácil crear un mapa con colores por código a partir de muchos tipos de datos de localización; incluyendo direcciones IP (simplemente uso la cabecera de columna ip_address).
Me tomó unos 60 segundos crear un mapa básico a partir de una hoja de cálculo de los temblores de magnitud 7 o más en el mundo a partir del 1 de enero de 2000, luego un par de minutos más para personalizar la caja de presentación para mostrar tanto la fecha como la magnitud (uno puede ver una versión más grande en OpenHeatMap.com.)
La transparencia, el tamaño y el color del marcador son extremadamente simples de personalizar; uno también puede subir su propio marcador, y personalizar lo que aparece en el cuadro de tooltips añadiendo una columna de tooltips a su fuente de datos.
OpenHeatMap automáticamente establece y mapea las localizaciones en base a una amplia gama de definiciones de lugar, basándose en la forma en que las columnas de las localizaciones han sido nombradas -dirección, país, código fips (usado por la Oficina de Censos de Estados Unidos); zip_code_area (para códigos zip de cinco dígitos), lat (latitud), lon (longitud) y así sucesivamente.
Esta es una interfase bien pensada por alguien que alguna vez fue ingeniero de Apple. (Warden dijo que trabajó en varios proyectos de software de Apple, incluyendo Final Cut Studio.)
Inconvenientes: No hay forma de borrar una vez que se ha subido (uno puede evitar esto usando una Hoja de Cálculo de Google como fuente de los datos), y el tiempo de edición se encuentra limitado al tiempo que su navegador permanezca abierto y no haya iniciado otro mapa. Los mapas alojados en OpenHeatMap.com y que luego son embebidos en otro lugar cargan con lentitud.
La documentación no deja en claro si uno puede centrar el mapa o cuál va a ser el nivel de zoom; Warden me dijo por correo electrónico que el sistema recuerda donde uno posicionó o hizo zoom al mapa por última vez antes de guardarlo. Y esta característica puede tener fallas, aunque Warden responde ante los reportes de bugs.
Nivel de habilidad: Principiante.
Corre sobre: Cualquier navegador web habilitado para Flash o Canvas de HTML 5.
OpenLayers
Lo que hace: OpenLayers es una librería de JavaScript para mostrar información de mapas. Apunta a proporcionar una funcionalidad similar a aquellas de las librerías de códigos de las grandes empresas -pero con código abierto. OpenLayers funciona con OpenStreetMap y otros mapas.
Otros proyectos construyen sobre ella para añadir funcionalidades o facilidad de uso, como GeoExt, que añade más capacidades GIS. Para los usuarios que están acostumbrados a escribir JavaScript y prefieren no usar una plataforma comercial como Google o Bing, esta puede ser una buena opción.
Inconvenientes: OpenLayers aún no está tan desarrollado o es tan fácil de usar como, por ejemplo, Google Maps. La página del proyecto señala que se encuentra aún en rápido desarrollo.
Nivel de habilidad: Experto.
Corre sobre: Cualquier navegador.
OpenStreetMap 
Lo que hace: OpenStreetMap es algo parecido a la Wikipedia del mundo del mapeo, con varias características como caminos y edificios de contribución de los usuarios a nivel mundial.
Lo atractivo: La principal atracción de OpenStreetMap es su naturaleza comunitaria, lo cual ha permitido muchos usos interesantes. Por ejemplo, es compatible con la plataforma móvil Ushahidi que se usó para hacer crowdsourcing de información luego de los terremotos de Haití y Japón. (Aunque Ushahidi puede usar varios diferentes proveedores para la capa de mapa base, entre los que se encuentran Google y Yahoo, algunos creadores de proyectos se encuentran más cómodos con una opción de código abierto).
Inconvenientes: Como con cualquier proyecto que acepta input del público, puede haber problemas con la exactitud de los contribuyentes en ocasiones (como sucedió con el helipuerto que alguien alguna vez colocó en mi barrio y que en realidad se encuentra a varios kilómetros de distancia). Aunque, para ser justos, he encontrado más de una lista de negocios en Google Maps que se encontraba tremendamente desactualizada. Además, el look and feel general de los mapas no es tan acabado como los de las alternativas comerciales.
Nivel de habilidad: Principiante avanzado o intermedio
Corre sobre: Cualquier navegador web.
Análisis de datos temporales
Si el tiempo es un componente importante de sus datos, las tradicionales visualizaciones de línea de tiempo pueden mostrar patrones, pero no le permiten un análisis sofisticado o mucha interacción. Aquí es donde entra a tallar este proyecto.
Lo que hace: Este software desktop es para analizar puntos de datos que involucran un componente de tiempo. En una demo que escribí hace unos meses, los creadores Fernanda Viégas y Martin Wattenberg -la pareja detrás del proyecto Many Eyes y que ahora trabaja en Google- mostró cómo TimeFlow puede generar líneas de tiempo a partir de archivos de texto, con entradas con código por color y tamaño para una fácil visualización de los patrones. También muestra la información que va a ser ordenada y filtrada, y ofrece algunos resúmenes estadísticos de los datos.
Lo atractivo: TimeFlow hace que sea increíblemente fácil interactuar con los datos de varias formas, como cambiar vistas o filtrar por criterios como rangos de fechas o terremotos de magnitud 8 o más. La vista de línea de tiempo ofrece un slider para que pueda cambiar en un periodo de tiempo. Aunque muchas aplicaciones pueden mostrar gráficos de barras, pocas también ofrecen vistas de calendario. Y a diferencia de Google Fusion Tables, TimeFlow es una aplicación para desktop que hace que sea rápido y poco difícil editar las entradas individuales.
Inconvenientes: Este es un release alfa diseñado para ayudar a los reporteros a hacer trabajo de investigación. No hay facilidades para publicar o compartir los resultados a no ser que se tome una impresión de pantalla; es poco probable que en el futuro cercano haya mayor desarrollo.
Nivel de habilidad: Principiante.
Corre sobre: Sistemas desktop con Java 1.6, incluyendo Windows y Mac OS X.
Nota: Si busca publicar líneas de tiempo visualizadas, mejores opciones son Google Fusion Tables, VIDI o el widget Timeline de SIMILE.
Nubes de textos/palabras
Algunos geeks de la visualización de datos consideran que las nubes de palabras o no son muy serias o no son muy originales. Uno puede considerarlas como algo que alguna vez fue una tendencia, pero que ahora son usadas en exceso. Pero aun así me siguen gustando estos gráficos que muestran cada palabra de un archivo de texto una vez, con el tamaño de las palabras variando en base a cuán frecuentemente aparecen en la fuente.
IBM Word-Cloud Generator
Lo que hace: Muchas herramientas mencionadas anteriormente pueden crear nubes de palabras, incluyendo Many Eyes y Google Visualization API, así como el sitio web Wordle (que es una herramienta práctica para hacer nubes de palabras de sitios web en lugar de archivos de textos). Pero si busca un software desktop fácil y dedicado a la tarea, la aplicación gratuita de IBM, Word-Cloud, es lo que necesita.
Lo atractivo: Es una forma rápida, divertida y fácil de encontrar la frecuencia de las palabras en el texto.
Inconvenientes: Ya que intenta ignorar palabras como un y el, la configuración básica puede pasar por alto algunos términos importantes. En mis evaluaciones, no reconoció la diferencia entre it (ello, en inglés) e IT (information technology), y pasó por alto AT&T.
Nivel de habilidad: Principiante avanzado. Esta aplicación corre en la línea de comandos, por lo que los usuarios tienen que tener la habilidad de encontrar las direcciones de los archivos y conectarlas a un comando de muestra.
Corre sobre: Windows, Mac OS X y Linux con Java.
Análisis social y de red
Estas herramientas usan una definición anterior a Facebook y Twitter de análisis de red social (social network analysis - SNA), refiriéndose a la disciplina de encontrar conexiones entre las personas en base a varios conjuntos de datos. Los periodistas de investigación han usados herramientas para, por ejemplo, encontrar lazos entre personas que se encuentran involucradas en proyectos de desarrollo o que son miembros de varios directorios.
Es necesario entender las teorías estadísticas del análisis de nodos de redes para usar esta categoría de software. Ya que tengo solo una introducción muy básica en esa disciplina, esta es una categoría de herramientas que no evalué en la práctica. Pero si buscan software para realizar este análisis, uno de estos puede satisfacer sus necesidades.
Gephi
Lo que hace: Presentado como el Photoshop de los datos, este proyecto de código abierto en fase beta está diseñado para visualizar información estadística, incluyendo relaciones dentro de redes de hasta 50 mil nodos y medio millón de bordes (conexiones o relaciones) así como análisis de factores como el entrismo, cercanía, y coeficiente de clustering.
Corre sobre: Windows, Linux, Mac OS X corriendo Java 1.6.
NodeXL
Lo que hace: Este plug-in de Excel muestra gráficos de red a partir de una lista dada de conexiones, ayudándolo a analizar y ver patrones y relaciones en los datos.
NodeXL une las definiciones antiguas y actuales de SNA. Está optimizado para analizar medios sociales en línea; esto incluye conexiones incorporadas para hacer query en las API de Twitter, Flickr y YouTube, permitiéndole dibujar redes de usuarios y su actividad, de acuerdo a Peter Aldhous, jefe de la revista New Scientist de San Francisco.
También archivos de análisis de red convencionales y de correos electrónicos (incluyendo datos creados por la popular –pero no gratuita– herramienta UCINET).
Corre sobre: Excel 2007 y 2010 en Windows.
Sharon Machlis, Computerworld