Llegamos a ustedes gracias a:



Noticias

Google lanza limpiador de datos

[12/11/2010] Google ha actualizado y relanzado su software de código abierto para limpiar, analizar y transformar conjuntos de datos, ahora llamado Google Refine.

El software, que originalmente se llamaba Freebase Gridworks, venía con Metaweb, una compañía que Google compró en julio.
Google Refine es un conjunto de herramientas que pueden ser muy útiles cuando se trata de recolectar información útil a partir de un conjunto de datos, particularmente de aquellos que se muestran inconsistentes.
Esta aplicación desktop puede, por ejemplo, encontrar todas las variantes en el deletreo de una palabra en un conjunto de datos y reemplazarlas con el término apropiado. Este proceso, llamado normalización, no es nuevo. Sin embargo, normalizar datos generalmente requiere escribir código que sea específico para un conjunto de datos, señala Christopher Groskopf, desarrollador del Chicago Tribune.
La genialidad de Gridworks es que es lo suficientemente genérico como para trabajar con varios conjuntos de datos sin necesidad de escribir código. Incluso las operaciones resultantes son portables, de tal forma que el proceso usado para limpiar datos del 2009, puede ser usado en el 2010, escribió Groskopf en una entrada de blog.
El software contiene también varias otras herramientas. Incluye un lenguaje de expresión que puede ser utilizado para analizar un conjunto de datos. Se pueden utilizar filtros para aislar los subconjuntos de datos, los cuales luego pueden analizarse o cambiarse a través de un conjunto de comandos de transformación.
El software funciona con archivos de texto plano, los datos en los cuales puede separarse en diferentes columnas usando comas. Los resultados pueden exportarse al formato JSON (JavaScript Object Notation), el cual puede fácilmente ser transformado en tablas HTML u otros formatos.
El software puede trabajar con hasta unos cuantos cientos de filas por conjunto de datos, dependiendo de la memoria de la computadora del usuario. Y a diferencia de la mayoría de las hojas de cálculo, este software puede transformar interactivamente grandes subconjuntos de datos, aseguró la compañía.
Google señaló esta semana que había añadido varias nuevas características al software, oficialmente llamado Google Refine 2.0, entre las que se incluyen la capacidad de enlazar registros a otras bases de datos, y varios nuevos comandos de transformación y expresiones.
La organización sin fines de lucro de supervisión gubernamental ProPublica ha utilizado este software para agregar datos de siete diferentes conjuntos de datos para mostrar cómo las compañías farmacéuticas pagan a los doctores para recomendar ciertas medicinas.
Joab Jackson, IDG News Service