
[30/09/2019] Las palabras "aprendizaje automático” han sido cargadas de un aura casi mágica. La gente común no les enseña a las máquinas a aprender. Eso es para alquimistas altamente especializados, como los científicos de datos, que transforman los datos en oro en divisiones de investigación y laboratorios con pocas explicaciones más allá de simplemente decir: "Ciencia”.
Por supuesto, puede ser un hecho poco conocido, pero a lo largo de los años, las herramientas de aprendizaje automático han evolucionado hasta el punto en que casi cualquier persona con un poco de esfuerzo puede lograrlo. No es exactamente un chasquido, pero el arduo trabajo de recopilar los datos y convertirlos en información procesable, se ha automatizado lo suficiente como para que las personas con cierta motivación puedan hacerlo por sí mismos.
Este lento renacimiento ha sido impulsado por la realidad de que muchos no programadores en el mundo de los negocios, ya son bastante conocedores de los datos. Las hojas de cálculo llenas de números son la lengua franca de los tomadores de decisiones en todos los niveles de la empresa, y al aprendizaje automático también les gustan los datos en tablas con filas y columnas bien definidas. Para disipar un poco de magia, las nuevas herramientas para el aprendizaje automático son esencialmente otra colección de estrategias y opciones para convertir datos tabulares en respuestas útiles.
La fortaleza de las herramientas radica en su capacidad para manejar el trabajo sucio de recopilar datos, agregar estructura y consistencia donde sea posible, y luego comenzar el cálculo. Estas simplifican el proceso de recopilación de datos, y la rutina de mantener la información en filas y columnas.
Las herramientas, por desgracia, aún no son lo suficientemente inteligentes como para hacer todo este aprendizaje por usted. Tiene que hacer las preguntas correctas y buscar en los lugares correctos. Pero las herramientas aceleran la búsqueda de respuestas para que usted pueda cubrir más terreno, mirar detrás de más puertas y buscar más grietas.
AutoML: Democratizando el aprendizaje automático
Últimamente, una nueva palabra de moda, "AutoML”, ha comenzado a aparecer para indicar que un algoritmo de aprendizaje automático viene con una meta-capa adicional de automatización. Los algoritmos estándar siempre han sido diseñados para generar datos y encontrar patrones y reglas por sí mismos, pero los algoritmos tradicionales vienen con muchas opciones y parámetros. Los científicos de datos solían pasar del 80 al 99% de su tiempo jugando con estos diales hasta que encontraban las reglas más predictivas.
AutoML automatiza esta etapa probando un montón de opciones, y luego probando algunas más. En lugar de ejecutar el algoritmo de aprendizaje automático una vez, lo ejecuta N veces, realiza algunos ajustes, lo ejecuta N veces nuevamente, a menudo repitiendo el proceso hasta que su presupuesto de tiempo, dinero o paciencia se agote.
Las herramientas AutoML encajan de manera natural con cloud computing, ya que en la nube pueden hacer girar suficientes máquinas para que se ejecuten en paralelo, y luego devolverlas al grupo cuando haya terminado. Paga solo por el tiempo máximo de computación.
En general, los algoritmos de AutoML son buenas opciones para las personas que comienzan a explorar el aprendizaje automático por su cuenta. La automatización simplifica el trabajo, al manejar parte de las tareas básicas de establecer parámetros y elegir opciones antes de probar los resultados por usted. A medida que los usuarios se vuelven más sofisticados y comienzan a comprender los resultados, pueden asumir más de estos trabajos y establecer los valores ellos mismos.
Los sistemas más nuevos también hacen que sea más fácil aprender cómo es que las máquinas pueden aprender. Si la programación clásica convierte las reglas y los datos en respuestas, los algoritmos de aprendizaje automático funcionarán al revés y convertirán las respuestas y los datos en reglas -reglas que pueden enseñarle lo que sucede en lo más profundo de su negocio. Los desarrolladores de estas herramientas simplificadas también están creando interfaces que explican las reglas que descubrió el algoritmo y, lo más importante, cómo duplicar los resultados. Quieren abrir la caja negra para promover la comprensión.
6 herramientas que facilitan el aprendizaje automático
Todas estas características están abriendo el mundo del aprendizaje automático a las personas que trabajan con números, hojas de cálculo y datos, al eliminar la necesidad de ser excelentes en la programación y la ciencia de datos. Las siguientes seis opciones simplifican el uso de algoritmos de aprendizaje automático para encontrar respuestas en el mar de números que llegan a su escritorio.
Splunk: La versión original de Splunk comenzó como una herramienta para buscar (o "spelunking”) a través de los voluminosos archivos de registro creados por las aplicaciones web modernas. Desde entonces, ha crecido para analizar todas las formas de datos, especialmente series temporales y otras producidas en secuencia. La herramienta presenta los resultados en un tablero con rutinas de visualización sofisticadas.
Las versiones más recientes incluyen aplicaciones que integran las fuentes de datos con herramientas de aprendizaje automático como TensorFlow y algunas de las mejores herramientas de código abierto de Python. Ofrecen soluciones rápidas para detectar valores atípicos, señalar anomalías y generar predicciones para valores futuros. Están optimizadas para buscar las agujas proverbiales en conjuntos de datos muy grandes.
DataRobot: Dentro de la pila de DataRobot hay una colección de algunas de las mejores librerías de máquinade código abierto escritas en R, Python u otras plataformas. Solo tratará con una interfaz web que muestra herramientas similares a diagramas de flujo para configurar una tubería. DataRobot se conecta a todas las principales fuentes de datos, incluidas bases de datos locales, almacenes de datos en la nube y archivos u hojas de cálculo descargados. Los pipelines que construya puede limpiar los datos, completar los valores faltantes y luego generar modelos que marcarán valores atípicos y predecirán valores futuros.
DataRobot también puede intentar ofrecer "explicaciones amigables para los humanos” acerca de por qué se hicieron ciertas predicciones, una característica útil para comprender cómo puede estar funcionando la IA.
Se puede implementar en una combinación de soluciones en la nube y locales. Las implementaciones en la nube pueden ofrecer el máximo paralelismo y rendimiento a través de los recursos compartidos, mientras que las instalaciones locales ofrecen más privacidad y control.
H2O: H2O disfruta usar las palabras "Driverless AI” para describir su pila automatizada para explorar varias soluciones de aprendizaje automático. Vincula las fuentes de datos (bases de datos, Hadoop, Spark, etc.), y las introduce en una variedad de algoritmos con una amplia gama de parámetros. Usted controla la cantidad de tiempo y calcula los recursos dedicados al problema, y la herramienta prueba varias combinaciones de parámetros hasta que finaliza el presupuesto. Los resultados pueden explorarse y auditarse a través de un tablero o cuadernos Jupyter.
Los algoritmos básicos de aprendizaje automático de H2O, y la integración con herramientas como Spark, son de código abierto; pero la llamada opción "sin conductor” es uno de los envoltorios patentados que se venden a los clientes empresariales junto con el soporte.
RapidMiner: El núcleo del ecosistema RapidMiner es un estudio para crear analítica de datos a partir de íconos visuales. Un poco de arrastrar y soltar produce una tubería que limpiará sus datos y luego los ejecutará a través de una amplia gama de algoritmos estadísticos. Si desea utilizar el aprendizaje automático en lugar de una ciencia de datos más tradicional, el Auto Model elegirá entre varios algoritmos de clasificación y buscará entre varios parámetros hasta encontrar el mejor ajuste. El objetivo de la herramienta es producir cientos de modelos y luego identificar el mejor.
Una vez que se crean los modelos, la herramienta puede implementarlos mientras prueba su tasa de éxito y explica cómo el modelo toma sus decisiones. La sensibilidad a los diferentes campos de datos se puede probar y ajustar con el editor visual de flujo de trabajo.
Las mejoras recientes incluyen mejor analítica de texto, una mayor variedad de gráficos para construir paneles visuales, y algoritmos más sofisticados para analizar datos de series temporales.
BigML: El tablero de BigML ofrece todas las herramientas básicas para la ciencia de datos para identificar correlaciones que pueden formar la base para un trabajo más complejo con el aprendizaje automático. Sus Deepnets, por ejemplo, ofrecen un mecanismo sofisticado para probar y optimizar redes neuronales más elaboradas. La calidad del modelo se puede comparar con otros algoritmos con un marco de comparación estandarizado que lo ayuda a elegir entre la ciencia de datos clásica y el aprendizaje automático más sofisticado.
El tablero de BigML se ejecuta en su navegador, y el análisis se ejecuta en la nube de BigML o en una instalación en su sala de servidores. Los precios de la versión en la nube son bajos para fomentar la experimentación temprana; incluso hay una capa gratuita. El costo está determinado principalmente por un límite en el tamaño del conjunto de datos, y la cantidad de recursos computacionales que puede invocar. El nivel gratuito analizará hasta 16MB de datos utilizando no más de dos procesos ejecutados en paralelo. Las cuentas pagadas más pequeñas tienen un precio muy razonable con facturas mensuales tan reducidas como 30 dólares, pero los costos aumentan a medida que aumentan sus necesidades de recursos.
R Studio: R no es un lenguaje fácil de usar para los no programadores, pero sigue siendo una de las herramientas más esenciales para el análisis estadístico sofisticado, porque es muy popular entre los científicos de datos acérrimos. R Studio es una herramienta que ofrece un conjunto de menús y opciones point-and-click para los usuarios para hacer que sea un poco más fácil interactuar con la capa R que se ejecuta en el interior.
Los gerentes sofisticados que manejan hojas de cálculo pueden usar las opciones más simples para ejecutar análisis básicos e incluso algunos complejos. Todavía es un poco más doloroso de lo que debería ser y algunas partes van a ser confusas para los usuarios promedio, pero está al borde de ser abierto y accesible para todos los que estén dispuestos a invertir algo de tiempo. Todavía habrá cierta confusión, pero puede valer la pena para alguien que quiera explorar herramientas de vanguardia.
Peter Wayner, CIO (EE.UU.)