Llegamos a ustedes gracias a:



Reportajes y análisis

6 herramientas que facilitan la ciencia de datos

[24/06/2019] Puede que la ciencia de datos nunca sea fácil, pero cada vez es más fácil sumergirse en ella. Palabras de moda como "aprendizaje automático", "regresión" y "reducción de la dimensionalidad" son tan difíciles de entender como siempre, pero el deseo generalizado de cosechar los beneficios de estas técnicas, ha dado como resultado varias buenas herramientas que crean líneas de montaje de datos que están listas para bombear las respuestas que buscamos.

El secreto es similar a lo que revolucionó la fabricación. Así como las piezas estandarizadas ayudaron a lanzar la revolución industrial, los científicos de datos de varios proveedores de herramientas han producido una colección de rutinas analíticas muy poderosas y adaptables. Han estandarizado las interfaces, haciendo mucho más sencillo construir su tubería personalizada a partir de estas herramientas de ciencia de datos intercambiables.

Los científicos de datos solían retorcerse las manos porque el 80% del trabajo preparaba los datos para el análisis creando rutinas personalizadas en Python, Java o su lenguaje favorito para que las sofisticadas herramientas estadísticas de R o SASS pudieran hacer su trabajo. El mercado se está llenando ahora de sofisticadas herramientas que agrupan varios cientos de rutinas bien diseñadas en un paquete que realiza gran parte de la limpieza y estandarización de datos repetitiva y desagradable para usted.

Estas nuevas herramientas abren la oportunidad para cualquiera que se sienta cómodo trabajando con una hoja de cálculo. No harán desaparecer todo el trabajo de preparación, pero lo harán más fácil. Hay menos necesidad de preocuparse por los formatos de datos, porque las herramientas son lo suficientemente inteligentes para hacer lo correcto. A menudo puede abrir el archivo y empezar a aprender.

Las herramientas también desbloquean gran parte de la capacidad de ahorro de costos de la nube. En el pasado, los científicos de datos necesitaban computadoras poderosas para obtener grandes conjuntos de datos. Ahora podemos alquilar máquinas aún más grandes y rápidas en la nube por segundo, aumentando la velocidad de procesamiento y ahorrando dinero al devolver el hardware a la piscina cuando los informes mensuales estén listos.

Las herramientas son de gran ayuda tanto para los científicos como para los analistas de datos que solo necesitan entrenar un algoritmo para predecir las tendencias del próximo año. Ambos grupos pueden disfrutar del placer de utilizar herramientas sofisticadas que hacen lo correcto con los datos. La estandarización, sin embargo, abre el potencial para que grupos completamente nuevos se sumerjan en la ciencia de los datos. Ahora ya no es necesario dominar la sintaxis R o la programación de Python para empezar.

Por supuesto, todavía tenemos que pensar profundamente en las estadísticas y el aprendizaje automático. Estas herramientas no pueden responder preguntas estratégicas sobre cuándo es mejor utilizar una red neuronal o un algoritmo de agrupación en clúster, pero pueden facilitar la introducción de todos sus datos y probar ambos muy rápidamente. Así como la estandarización eliminó la necesidad de largos periodos de aprendizaje y de sofisticados artesanos cuando se simplificó la participación de todos en la revolución industrial, estas herramientas de datos están desatando el potencial para que más y más personas de una empresa recurran a sofisticados análisis de datos como guía.

He aquí una mirada a seis herramientas que ayudan a democratizar la ciencia de datos hoy en día.

Alteryx

El núcleo de la plataforma Alteryx es su herramienta Designer, un IDE de programación visual que permite a los usuarios arrastrar y soltar íconos en lugar de escribir un programa de texto. Alteryx dirige su plataforma tanto a los científicos de datos como a los "usuarios ciudadanos", lo que es una buena forma de decir a la gente que no quiere meterse con los detalles de la limpieza de datos y modificarlos para su análisis. La plataforma intenta "voltear la regla de preparación de datos 80/20" simplificando la preparación utilizando su modelo de programación visual. Es muy probable que pueda arrastrar un ícono al lugar correcto en el canal de datos y que aplique muchas de las tareas estándar, como agrupar por número de cliente o unir dos archivos.

Alteryx también ofrece una serie de modelos predictivos predefinidos para analizar datos y dibujar inferencias. Estos parecen íconos para el procesamiento de datos, pero en realidad son programas R o Python, y Alteryx le ahorra la molestia de tener que lidiar con su complejidad y codificación basada en texto. En el Designer, los datos fluyen a lo largo de las líneas entre los íconos, y no necesita preocuparse por las comas o los corchetes u otras fuentes de codificar.

La plataforma Alteryx se está moviendo hacia un modelo más basado en el servidor, en el cual el código que usted construye vive en un servidor que está listo para escalar a conjuntos de datos más grandes. Si sus datos necesitan ser mejorados, Alteryx tiene licencias de conjuntos de datos comerciales de compañías como Dun & Bradstreet o DigitalGlob para ayudarle a llenar sus tablas.

Cuando haya terminado de diseñar el modelo en su PC personal, Alteryx le ofrece la infraestructura para publicar el modelo en un servidor central, y luego distribuir los resúmenes gráficos a todos los miembros de la empresa. La herramienta Promote es responsable de las tareas de distribución de los datos de producción diaria a las personas adecuadas en la empresa para que puedan utilizar los resultados del modelado predictivo.

El precio de lista de la herramienta Designer es de 5.195 dólares por usuario y año, pero extras como conjuntos de datos con datos demográficos o espaciales pueden añadir 33.800 dólares. El servidor central comienza en 58.500 dólares, y hay características adicionales disponibles para la colaboración y la conexión.

Domino

Domino también comienza alrededor del laboratorio, un entorno de desarrollo visual integrado (IDE) para la construcción de modelos mediante la unión de íconos y pipelines. La diferencia es que Domino también está abierto a otras herramientas. Todos los IDEs principales y no tan importantes basados en la web son compatibles, porque el sistema está diseñado para estar abierto a todos ellos. La mayoría puede usar Jupyter o R-Studio, pero otras herramientas como Apache Zeppelin o las herramientas de SAS están bien soportadas.

La mayor parte de Domino se dedica al arte de mantener toda la infraestructura necesaria para convertir datos en modelos. El módulo de servicio de Domino sigue cuidadosamente varias versiones de los datos, así como todas sus revisiones y experimentos a lo largo del camino. Todos ellos se guardan y enlazan sin cesar con los resultados para garantizar que los resultados se puedan volver a ejecutar y reproducir. Se hace hincapié en el almacenamiento de una interpretación precisa de la consulta, para que otros puedan descubrir y reutilizar la obra más tarde.

Uno de los principales puntos de venta de Domino es su integración en la nube. Sus experimentos funcionarán en un grupo de potentes máquinas compartidas con otros. La arquitectura subyacente es completamente contenedorizada y construida alrededor de Docker si desea desplegar su propio código en la pila. Usted configura el tamaño óptimo para su trabajo y el hardware se tomará prestado del pool, una buena solución para el trabajo de ciencias de la información que a menudo es intermitente y se envía en grupos cuando el código está listo. Es una buena solución para un entorno en el que gran parte del cálculo se procesa por lotes cuando los datos semanales, mensuales o trimestrales están listos.

El precio de Domino es "como una suscripción anual que depende de dónde se esté ejecutando Domino (nuestra infraestructura alojada, su nube privada, u on-premise)". La opción de nube le cobrará en función de los recursos consumidos.

RapidMiner

RapidMiner es una de las herramientas más automatizadas para convertir datos en modelos procesables. Su IDE permite a los usuarios construir una descripción visual de las transformaciones de datos como una colección de íconos conectados por líneas. La parte más útil puede ser la función AutoModel, que reúne muchos de estos íconos en función de sus datos y objetivos. Una vez hecho esto, puede abrir el modelo y ajustar las partes individuales.

Hay una gran colección de extensiones que pueden ayudar a manejar muchos de los desafíos más exóticos, tales como dar sentido al texto no estructurado que se ha eliminado de los sitios web. También existe una amplia gama de herramientas para trabajar con datos de series temporales, como por ejemplo para reconstruir los elementos de datos que faltan y para formar (y probar) predicciones para el futuro.

Si su conjunto de datos es mayor, RapidMiner lo tiene cubierto. Aquellos que tienen una solución fácilmente paralelizada pueden usar la versión integrada de Hadoop y Hive de RapidMiner llamada "Radoop". También existe una solución basada en servidor que aprovisionará los equipos en nube de AWS, Azure o su propia granja de servidores local. El ecosistema basado en servidores fomenta la colaboración con un repositorio centralizado de datos y análisis que puede programarse para entregar informes y perspectivas en la producción.

El modelo de precios para cada uno de ellos es independiente. La edición de escritorio tiene una edición gratuita para la comunidad a la que le faltan dos de las características más atractivas: TurboPrep para la limpieza de datos y AutoModel para la generación de resultados. El precio comienza en 2.500 dólares por usuario por año para una versión "pequeña" que está limitada a 100 mil filas de datos. Los conjuntos de datos más grandes y la capacidad de desplegar más procesadores cuestan más. La instalación de su propia versión de la herramienta de servidor en las instalaciones comienza en 15 mil dólares, pero también se puede ganar tiempo en la versión en nube de RapidMiner a partir de 6,75 dólares por hora.

Knime

Knime (pronunciado con una K silenciosa) es una plataforma de análisis de datos de código abierto con un IDE visual para enlazar varias rutinas de análisis y procesamiento de datos. El software central se distribuye de forma gratuita, pero existen versiones comerciales de algunos plugins y extensiones, y las tarifas soportan el desarrollo principal. Una versión de servidor que se ejecuta en la nube o en sus propias máquinas también está disponible.

La base del software está escrita en Java, por lo que gran parte de las integraciones de Knime dependen del ecosistema Java. Los usuarios notarán que el IDE de Knime está construido sobre Eclipse, lo que lo hará más familiar para los desarrolladores de Java. La plataforma puede trabajar con datos de las principales bases de datos (MySQL, PostgreSQL) y servicios de nube (Amazon Athena, Redshift) y cualquier otro con un conector compatible con JDBC. Knime ofrece una integración especialmente estrecha con "en el procesamiento de bases de datos", lo que puede acelerar su trabajo. También se integra con la próxima generación de herramientas de datos distribuidos como Apache Spark.

Una robusta comunidad de código abierto soporta una gran cantidad de extensiones y flujos de trabajo que pueden ser utilizados, revisados y personalizados, con la mayor parte del código alojado en GitHub o Bitbucket. También hay una gran colección de extensiones comerciales con soporte integrado.

A las empresas que dependen en gran medida de las aplicaciones web de Google, también les puede gustar la integración más profunda. Knime puede leer y escribir a partir de los datos de las hojas de Google, una forma potencialmente eficaz de llevar el análisis de datos a una oficina que utiliza las hojas de cálculo de Google con frecuencia.

El producto de servidor para empresas viene en tres tamaños que incluyen características adicionales. El tamaño más pequeño comienza en 8.500 dólares por año para cinco usuarios y ocho núcleos, y se dirige más a los equipos de análisis. Los tamaños más grandes le permiten distribuir los resultados a otros dentro de su organización.

Talend

Talend ofrece una colección de aplicaciones que funcionan en escritorios, en un centro de datos local o en la nube. Las herramientas multicapa de la empresa recopilan datos de varios almacenes y bases de datos antes de transformarlos para su análisis. Pipeline Designer, por ejemplo, ofrece una herramienta de diseño visual para extraer datos de varias fuentes y luego analizarlos con herramientas estándar o extensiones Python.

Una versión de código abierto está disponible gratuitamente en varios paquetes como el Open Studio for Data Quality y el Stitch Data Loader. La versión en la nube comienza en 1.170 dólares por usuario y mes, con descuentos por compromisos anuales y equipos más grandes. El precio se calcula por persona y generalmente no se basa en el consumo de recursos informáticos. El precio de Data Fabric se hace mediante solicitud de presupuesto.

Looker

Looker apunta a la confusión causada por demasiadas versiones de datos de demasiadas fuentes. Sus productos crean una fuente sólida de datos precisos, controlados por versiones, que pueden ser manipulados y graficados por cualquier usuario. Todo el mundo, desde los usuarios de negocio hasta los desarrolladores de backend, pueden crear sus propios cuadros de mando llenos de datos y gráficos configurados según sus gustos personales.

La plataforma está construida alrededor de muchos de los estándares que dominan el mundo del código abierto. Los datos y el código evolucionan bajo el control de Git. Las visualizaciones del Dashboard provienen de D3. Los datos se recopilan de bases de datos SQL utilizando LookML, un lenguaje de consulta personalizado similar a un lenguaje de programación imperativo normal.

Google anunció recientemente que adquirirá Looker y lo integrará en Google Cloud. Queda por ver cómo afectará esa adquisición a la plataforma. Los precios están disponibles bajo solicitud de presupuesto.

Otros hacen que los datos sean más accesibles

Las herramientas anteriores no son las únicas que cambian la forma en que trabajamos con los datos. Otras herramientas y plataformas están integrando ideas similares. Las principales empresas de cloud computing ofrecen herramientas para analizar los datos de sus sistemas de almacenamiento. Databricks de Azure, por ejemplo, ofrecen una interfaz de usuario flexible para configurar Apache Spark, mientras que Data Factory ofrece una herramienta visual para extraer, transformar y cargar todos los datos.

Algunas herramientas se centran más en el aprendizaje automático y otras formas de inteligencia artificial. SageMaker de Amazon simplifica la tarea de construir, entrenar y luego implementar un proceso de aprendizaje de máquinas, ofreciendo más de 100 algoritmos y modelos en un mercado abierto. H20.ai ofrece lo que ellos llaman "driverless AI", una plataforma de código abierto construida con Apache Spark para simplificar la creación y el análisis de modelos.

Todos ellos convergen en un conjunto de herramientas que aceleran nuestra capacidad de explorar nuestros datos y dan más sentido a lo que significan todos los números.