Llegamos a ustedes gracias a:



Reportajes y análisis

LIMPIEZA DE DATOS

LIMPIEZA DE DATOS

Antes de poder analizar y visualizar datos, a menudo es necesario limpiarlos. ¿Qué significa eso? Tal vez algunas entradas digan "Nueva York", mientras que otras dicen "Nueva York, NY" y es necesario normalizarlas antes de que pueda ver los patrones. Puede haber algunos registros con errores ortográficos o errores numéricos de ingreso de datos. Las herramientas de "limpieza" están diseñadas para ayudar a que sus datos sean analizados durante el período.

DataWrangler (y posteriormente Trifacta)

Lo que hacen: El servicio basado en web de DataWrangler, del Grupo de visualización de la Universidad de Stanford, está diseñado para limpiar y reorganizar los datos de manera que estén en una forma tal que otras herramientas, como una aplicación de hoja de cálculo, puedan utilizar.

Haga clic en una fila o columna y DataWrangler le sugerirá cambios. Por ejemplo, si hace clic en una fila en blanco, aparecen varias sugerencias como "eliminar fila" o "eliminar filas vacías".

También hay una lista de historial que permite deshacer las acciones de forma fácil -una característica que también está disponible en Open Refine (reseñada más adelante).

El equipo detrás de Data Wrangler luego fue a trabajar en el producto comercial de Trifacta, aunque el servicio todavía se puede utilizar con la URL de arriba. Trifacta es software de escritorio. La versión gratuita permite a un usuario (sin colaboración) la importación de archivos CSV, JSON, texto y Excel locales.

Lo que es genial: La edición de texto es especialmente fácil en DataWrangler. Por ejemplo, cuando seleccioné "Alabama" en una fila de datos de muestra titulada "Delito reportado en Alabama", y luego seleccioné "Alaska" en el siguiente grupo de datos, me sugirió extraer cada nombre de estado. Mueva el mouse sobre una sugerencia y puede ver las filas afectadas resaltadas en rojo.

DataWrangler ayuda a tabular y dar formato a los datos para que puedan ser utilizados y analizados por otras aplicaciones.

Inconvenientes: Encontré cambios inesperados cuando intenté explorar las opciones de DataWrangler; Siempre tuve que hacer clic en "borrar" para restablecerlo. Y no todas las sugerencias son útiles ("promover la fila a la cabecera" parecía una sugerencia extraña cuando la fila estaba en blanco), o fáciles de entender ("Divida 1 con la tecla 2").

Nivel de habilidad: Principiante avanzado

Se ejecuta en: Cualquier navegador web para Data Wrangler; Windows o macOS X para Trifacta

Más información: Hay un screencast en la página principal de Data Wrangler. Además, vea este post sobre el uso de DataWrangler para darle formato a datos (del blog de Tableau Public). Para más información sobre Trifacta, vea su página de recursos.

OpenRefine (anteriormente Google Refine)

Lo que hace: OpenRefine se puede describir como una hoja de cálculo en esteroides para darle una primera mirada tanto al texto como a los datos numéricos. Al igual que Excel, puede importar y exportar datos en varios formatos, incluyendo archivos de texto separados por tabuladores y comas.

OpenRefine ayuda a limpiar los datos desordenados.
OpenRefine

OpenRefine cuenta con varios algoritmos integrados que buscan elementos de texto que deben agruparse. Después de importar sus datos, puede seleccionar editar celdas -> cluster, y editar y elegir qué algoritmo desea utilizar. Después de ejecutar OpenRefine, decide si acepta o rechaza cada sugerencia. Por ejemplo, podría decir sí a la combinación de Microsoft y Microsoft Corp., pero no a la combinación de Coach Inc. con CQG Inc. Si está ofreciendo muy pocas o muchas sugerencias, puede cambiar la fuerza de la función de sugerencias.

También hay opciones numéricas que ofrecen vistas rápidas y sencillas de las distribuciones de datos. Esta funcionalidad puede revelar anomalías que podrían ser el resultado de errores de entrada de datos -como 800.000 dólares en lugar de 80.000 dólares para ingresar un salario- o podría exponer inconsistencias, tales como diferencias en la forma en que se reportan los datos de compensación de entrada a entrada, con algunas que muestran, por ejemplo, salarios por hora y otras que muestran salario semanal o salarios anuales.

Más allá de la limpieza de datos, OpenRefine ofrece algunas herramientas útiles de análisis, tales como clasificación y filtrado.

Lo que es genial: Una vez que se acostumbre a lo que hacen los comandos, ésta es una poderosa herramienta para la manipulación de datos y el análisis que ofrece un buen equilibrio entre la funcionalidad y facilidad de uso. La lista de deshacer/rehacer de cada acción que ha tomado, le permite retroceder cuando sea necesario. También puede almacenar historiales de comandos para ejecutarlos de nuevo. Y las funciones de texto manejan expresiones regulares de sintaxis de Java, lo que le permite buscar patrones (como digamos, tres números seguidos por dos dígitos), así como cadenas de texto y números específicos.

Por último, aunque se trata de una aplicación basada en navegador, funciona con archivos en el escritorio, por lo que los datos permanecen locales.

Inconvenientes: Si tiene un conjunto grande de datos, dedique un poco de tiempo en su día para pasar por todos los cambios sugeridos por Refine, ya que puede tomar un tiempo. Y, dependiendo del conjunto de datos, esté preparado cuando busque elementos de texto para combinar, ya que es probable que obtenga una gran cantidad de falsos positivos o problemas perdidos -o ambos.

Nivel de habilidad: Principiante avanzado. El conocimiento de los conceptos de análisis de datos es más importante que la destreza técnica; los usuarios de Excel que entienden las necesidades de limpieza de datos deben estar cómodos con esto.

Se ejecuta en: Windows, macOS X (si parece que no hace nada después de cargarlo en un Mac, apunte a un navegador manualmente en http://127.0.0.1:3333/), Linux.

Más información: Estas tres grabaciones de pantalla dan una buena visión general de cómo y por qué tendrá que utilizar Refine; también hay documentación bastante detallada en GitHub.

Volver al artículo principal