Llegamos a ustedes gracias a:



Reportajes y análisis

15 herramientas de análisis predictivo

[16/07/2020] En algún momento del camino las computadoras se transformaron de archivadores de datos en bolas de cristal que predicen el futuro examinando esos datos para predecir lo que podría suceder en unos pocos segundos, unos pocos días, tal vez incluso unos pocos años.

Muchas de las herramientas para lograr esta hazaña caen bajo el término "análisis predictivo". El término es un término general para los algoritmos desarrollados a lo largo de los años, desde rincones muy diferentes de la estadística, la inteligencia artificial, el aprendizaje de máquina y las matemáticas multidimensionales. Estas herramientas surgieron del laboratorio para poblar las granjas de servidores corporativos, y ahora están listas para guiar a los equipos de negocios hacia la toma de decisiones correctas sobre la asignación de recursos y la obtención de beneficios.

Las herramientas tienen dos funciones principales, la más obvia de las cuales es mirar en el mar de bits de la base de datos y extraer alguna visión de futuro. Lo hacen apoyando varios buenos algoritmos con varios enfoques estratégicos; algunos apoyan a docenas.

El segundo papel es menos notorio, pero a menudo requiere más tiempo. Preparar los datos puede ser enloquecedor, porque los datos raramente son tan consistentes o limpios como los necesitamos. Si hay dos archivos que deben integrarse, las fechas suelen estar en formatos diferentes, utilizando diferentes zonas horarias. Unificar desafíos como estos es fácil. Los más difíciles involucran campos faltantes o valores atípicos que pueden ser el resultado de un error -o podrían ser un presagio preciso que debe ser incluido en el conjunto de datos. Eliminar los errores mientras se preserva la integridad de los datos es un verdadero desafío. Todas las mejores herramientas ofrecen un buen apoyo para preparar los datos y presentar los resultados.

Muchas herramientas de análisis predictivo son extensiones de marca construidas por desarrolladores de bases de datos y proveedores de análisis e informes empresariales, que han fusionado lentamente la generación de informes tradicionales con algoritmos de IA para producir herramientas que resumen y ofrecen predicciones.

Muchas de las herramientas están estrechamente alineadas con un producto específico de almacenamiento de datos. Si bien todas ellas funcionan con formatos genéricos como el CSV, tienden a funcionar un poco mejor con algunas bases de datos, a menudo porque estas bases de datos son propiedad de la empresa que desarrolló las capacidades de predicción. A menudo lo más fácil es utilizar la herramienta construida por la misma empresa que almacena los datos.

Por supuesto, siempre puede migrar sus datos o exportarlos en un formato estándar para aprovechar una herramienta diferente. A menudo no es mucho trabajo conectar los pipelines correctamente para que los bits fluyan con relativa suavidad y las percepciones salgan por el extremo.

Aquí hay 15 herramientas de análisis predictivo que están revolucionando la forma en que las empresas están aprovechando sus datos para tomar decisiones de negocios con visión de futuro.

Alteryx

Alteryx se ha centrado en la automatización del mundo del análisis predictivo mediante la integración de algoritmos predictivos en su plataforma para la generación de informes y la gestión del flujo de trabajo. La herramienta cuenta con una gran biblioteca de rutinas de recopilación de datos que pueden importar datos de una amplia gama de fuentes importantes y no tan importantes que pueden ser nuevas o incluso de décadas de antigüedad. La herramienta es muy personalizable y está dirigida a administradores ocasionales y conocedores de los datos, en lugar de a desarrolladores, para fomentar la mejora generalizada de la tecnología de predicción en la presentación de informes y la inteligencia empresarial. La empresa también se ha centrado en la entrega de soluciones preconstruidas personalizadas para diversos departamentos de la empresa, desde la comercialización hasta la investigación, para fomentar una adopción más rápida.

Amazon

Las herramientas de AWS orientadas a la búsqueda de señales en los flujos de datos continúan proliferando. Generalmente se separan en diferentes líneas de productos y se unen con las opciones de almacenamiento de datos de AWS (generalmente cubos S3). Amazon Forecast, por ejemplo, se centra en la ampliación de los datos de series temporales para predecir cuántas ventas se esperan en el próximo trimestre, y cuántos recursos se necesitarán para alinearse con antelación para satisfacer esa demanda. Amazon Code Guru buscará patrones de códigos erróneos para ayudar a mejorar su código. Algunas de las herramientas fueron construidas por Amazon para apoyar su propio negocio (Fraud Detector y Amazon Personalize), y la compañía está revendiendo estas herramientas a otros que podrían estar construyendo su propio imperio de comercio electrónico.

Board

Las empresas a las que les gusta mantener tableros que resumen las tendencias de los datos pueden utilizar Board para recoger datos de una amplia variedad de silos de datos (ERP, SQL, etc.) y convertirlos en informes que resumen el pasado y hacen predicciones sobre el futuro. Se hace hincapié en reunir datos de tantas fuentes como sea posible, y convertir cada una de ellas en una "vista" estandarizada que pueda luego alimentarse directamente a la visualización o al análisis predictivo (aprendizaje automático, algoritmos de agrupación o algoritmos puramente estadísticos).

Dash

El conjunto de herramientas de Dash se divide en dos niveles: la versión gratuita de código abierto y el sistema empresarial que gestiona una nube de modelos en desarrollo o en uso activo. La versión de código abierto reúne muchas de las mejores bibliotecas de Python para el análisis y la visualización de datos. La versión empresarial añade Kubernetes, autenticación y varias otras herramientas importantes como la integración de la GPU para implementaciones que dan servicio a grandes grupos de usuarios. La versión para empresas también incluye más mejoras de código bajo para producir cuadros de mando y otras interfaces populares.

Databricks

Las empresas con grandes colecciones de datos pueden utilizar el conjunto de herramientas de Databricks, que se construye sobre Apache Spark, Delta Lake, TensorFlow y ML Flow, cuatro populares proyectos de código abierto iniciados por personas que trabajan en Databricks. La compañía añade una colección de herramientas, como cuadernos de colaboración y pipelines de procesamiento de datos, para facilitar la integración de la potencia en su flujo de trabajo. Databricks ya ha desarrollado versiones integradas con AWS y Azure para simplificar el trabajo con datos en esas nubes.

DataRobot

Las empresas que buscan diferentes opciones para desplegar sus modelos ya sea en hardware local, en la nube o en algo más híbrido pueden utilizar DataRobot para gestionar sus datos y modelos. Las herramientas ofrecen un aprendizaje automatizado de máquina con una colección de rutinas personalizadas para industrias comunes como la de los seguros (equilibrando el riesgo con el precio).

IBM

Las herramientas de IBM provienen de dos tradiciones de desarrollo separadas. El modelador SPSS se lanzó en los años 60 y se convirtió en la base de muchas corporaciones que querían optimizar sus líneas de producción utilizando estadísticas. El código de la época de las tarjetas perforadas hace tiempo que desapareció y la herramienta ahora permite a los no programadores arrastrar y soltar datos con una interfaz gráfica de usuario para producir informes llenos de medidas estadísticas. La otra gran colección de IBM está agrupada bajo la marca Watson que se hizo famosa por el desafío Jeopardy. Estas herramientas se basan en gran medida en algoritmos de aprendizaje automático iterativo capaces de tomar datos de entrenamiento y convertirlos en modelos. El código puede trabajar con números crudos, imágenes o texto no estructurado.

Information Builders

La plataforma de datos de Information Builders permite a los arquitectos de datos establecer un pipeline visual que recoge datos de las fuentes, los limpia y luego pone en marcha los motores analíticos. Un importante conjunto de opciones permite que los modelos de gobierno de datos completos protejan la información que no puede ser compartida ampliamente con todos los usuarios. Existen plantillas personalizadas para industrias importantes, como la manufactura y los servicios públicos, que permiten a los usuarios desarrollar rápidamente conocimientos operacionales para sus reglas de negocios. 

MathWorks

MathWorks comenzó como una empresa centrada en ayudar a los científicos a trabajar con grandes matrices con su MATLAB, y ha ido creciendo lentamente hasta abarcar muchas formas diferentes de análisis numérico de datos. Los productos de la rama de MATLAB se centran en la optimización y el análisis estadístico, mientras que las herramientas de la rama SIMULINK ofrecen simulación y modelado. Muchos grupos pueden querer una de sus cajas de herramientas especializadas que personalizan las herramientas para mercados particulares como los coches autónomos, el diseño de antenas o el procesamiento de imágenes. Hay varias docenas.

Python

Aunque Python comenzó como un lenguaje de escritura similar al Perl, se ha convertido en uno de los lenguajes más populares para el análisis de datos en las ciencias. Muchos laboratorios de investigación utilizan el código Python para analizar sus resultados. Últimamente los científicos de datos han comenzado a agrupar los datos, el código analítico y la descripción escrita en cuadernos Jupyter, un formato que produce informes vivos que un lector no solo puede leer, sino también ajustar y volver a analizar. Las herramientas Python como los cuadernos Jupyter, PyCharm, Spyder y IDLE son donde se pueden encontrar algunas de las ideas más nuevas, pero a menudo son toscas y mejor abordadas por los desarrolladores de software y los científicos de datos. Muchas de las nubes ofrecen ahora entornos especializados para compartir cuadernos Jupyter como texto u hojas de cálculo y son una buena forma de hacer circular el análisis predictivo.

R

Técnicamente se trata solo de un lenguaje de código abierto para el análisis de datos, construido y apoyado en gran medida por la comunidad académica. Aunque hay algunas buenas herramientas generales integradas para usar R como R Studio, Radiant o Visual Studio, las herramientas son más adecuadas para los programadores y científicos de datos de núcleo duro. Las ideas más nuevas de los laboratorios de investigación a menudo aparecen primero como paquetes de R y a los científicos de datos más duros les gusta explorarlas. Muchas de las otras herramientas de esta lista permiten integrar el código R como módulos. Si no puede conseguir lo que quiere de las herramientas integradas, siempre puede profundizar en los módulos R de código abierto.

RapidMiner

Las herramientas de modelado en RapidMiner están diseñadas para ser tan automatizadas como sea posible, para que los equipos puedan crear modelos predictivos con poca ayuda. El estudio de desarrollo produce cuadernos Jupyter operacionales con "selección de modelos automatizados" y "preparación de datos guiada". Los modelos se eligen entre muchas opciones estándar construidas sobre principios como el aprendizaje clásico de las máquinas, la lógica bayesiana, la regresión estadística o diversas formas de agrupación. Los desarrolladores han trabajado para evitar las cajas negras añadiendo explicaciones para que los usuarios puedan tener más confianza en la forma en que los modelos derivan sus resultados.

SAP

Muchas empresas confían en SAP para gestionar sus cadenas de suministro, y ahora las herramientas de generación de informes de SAP se han mejorado para ofrecer análisis predictivos que permitan a los equipos crear previsiones a partir de modelos de aprendizaje automático construidos a partir de datos anteriores. Los algoritmos incluyen tanto la inteligencia artificial tradicional como las simulaciones. El software puede ejecutarse localmente o en la nube de SAP. Los desarrolladores también tienen como objetivo dar soporte a toda la empresa con interfaces de usuario personalizadas que pueden ser coherentes entre los departamentos. Los usuarios. que trabajan en entornos basados en la web o en dispositivos móviles, reciben informes ajustados para fomentar la adopción generalizada.

SAS Advanced Analytics

La colección de herramientas de SAS reúne cerca de dos docenas de paquetes diferentes en una plataforma que convierte los datos de SAS en conocimientos y predicciones. Los paquetes estadísticos y la minería de datos se centrarán en las correlaciones entre los elementos de datos y las herramientas de optimización y predicción encontrarán soluciones y direcciones futuras. Hay un fuerte énfasis en la analítica de texto para descubrir los detalles en el texto no estructurado. Recientemente la compañía ha estado ilustrando la capacidad del software mostrando cómo puede ayudar a los rastreadores a contraer pandemias.

Tableau

Tableau, adquirido por Salesforce.com el año pasado, ha llamado la atención por sus sofisticadas e ingeniosas representaciones gráficas de la información en los informes. Los cuadros de mando pueden ahora ampliarse utilizando el modelo analítico incorporado para ofrecer opciones interactivas para la comprensión visual. La herramienta depende de una rica colección de módulos para reunir y preparar los datos para el análisis.

Crédito foto: Arthur Ogleznev / Unsplash / CC0