Llegamos a ustedes gracias a:



Reportajes y análisis

Cómo elegir una plataforma de análisis de datos

[15/07/2020] Ya sea que usted tenga responsabilidades en el desarrollo de software, desarrollo, sistemas, nubes, automatización de pruebas, confiabilidad del sitio, liderar equipos de scrum, infosec u otras áreas de tecnología de la información, tendrá cada vez más oportunidades y requerimientos para trabajar con datos, análisis y aprendizaje de máquinas.

Su exposición a los análisis puede venir a través de los datos de TI, como el desarrollo de métricas y conocimientos de las métricas de agilidad, desarrollo o sitio web. No hay mejor manera de aprender las habilidades y herramientas básicas en torno a los datos, el análisis y el aprendizaje automático, que aplicarlas a los datos que conoce y que puede extraer para obtener conocimientos que le permitan impulsar acciones.

Las cosas se vuelven un poco más complejas una vez que se sale del mundo de los datos informáticos, y se proporcionan servicios a equipos de científicos de datos, científicos de datos ciudadanos y otros analistas empresariales que realizan visualizaciones de datos, análisis y aprendizaje automático.

Primero, los datos tienen que ser cargados y limpiados. Luego, dependiendo del volumen, la variedad y la velocidad de los datos, es probable que se encuentre con múltiples bases de datos back-end y tecnologías de datos en nube. Por último, en los últimos años, lo que solía ser una elección entre la inteligencia de negocios y las herramientas de visualización de datos, se ha convertido en una compleja matriz de análisis de ciclo de vida completo y plataformas de aprendizaje automático.

La importancia de la analítica y el aprendizaje automático aumenta las responsabilidades de TI en varias áreas. Por ejemplo:

  • TI a menudo proporciona servicios en torno a todas las integraciones de datos, bases de datos back-end y plataformas de análisis.
  • Los equipos de Devops a menudo despliegan y escalan la infraestructura de datos para permitir la experimentación en modelos de aprendizaje automático y luego apoyan el procesamiento de datos de producción.
  • Los equipos de operaciones de red establecen conexiones seguras entre las herramientas analíticas SaaS, las múltiples nubes y los centros de datos.
  • Los equipos de gestión de servicios de TI responden a las solicitudes e incidentes de datos y servicios analíticos.
  • Infosec supervisa el gobierno y la implementación de la seguridad de los datos.
  • Los desarrolladores integran modelos analíticos y de aprendizaje automático en las aplicaciones.

Dada la explosión de capacidades analíticas, plataformas de datos en nube y aprendizaje automático, aquí hay una introducción para entender mejor el ciclo de vida de los análisis, desde la integración y limpieza de datos, a los dataops y modelops, a las bases de datos, plataformas de datos y ofertas analíticas en sí.

El análisis comienza con la integración y limpieza de datos

Antes de que los analistas, los científicos de datos ciudadanos o los equipos de ciencia de datos puedan realizar análisis, las fuentes de datos requeridas deben ser accesibles para ellos en sus plataformas de visualización y análisis de datos.

Para empezar, puede haber requisitos comerciales para integrar datos de múltiples sistemas empresariales, extraer datos de aplicaciones SaaS, o transmitir datos de sensores de IoT y otras fuentes de datos en tiempo real.

Estos son todos los pasos para recoger, cargar e integrar datos para el análisis y el aprendizaje de máquina. Dependiendo de la complejidad de los datos y de los problemas de calidad de los datos, existen oportunidades para participar en dataops, catalogación de datos, administración de datos maestros y otras iniciativas de gobierno de datos.

Todos conocemos la frase "basura que entra, basura que sale". Los analistas deben preocuparse por la calidad de sus datos, y los científicos de los datos deben preocuparse por los sesgos en sus modelos de aprendizaje de máquina. Además, la puntualidad en la integración de los nuevos datos es fundamental para las empresas que buscan ser más impulsadas por los datos en tiempo real. Por estas razones, los conductos que cargan y procesan los datos son críticamente importantes en el análisis y el aprendizaje automático.

Bases de datos y plataformas de datos para todo tipo de desafíos de gestión de datos

Cargar y procesar los datos es un primer paso necesario, pero luego las cosas se complican al seleccionar las bases de datos óptimas. Las opciones actuales incluyen almacenes de datos empresariales, lagos de datos, grandes plataformas de procesamiento de datos, y bases de datos especializadas en NoSQL, gráficos, valores clave, documentos y columnas. Para apoyar el almacenamiento de datos y el análisis a gran escala, existen plataformas como Snowflake, Redshift, BigQuery, Vertica y Greenplum. Por último, están las grandes plataformas de datos, incluyendo Spark y Hadoop.

Es probable que las grandes empresas tengan múltiples repositorios de datos y que utilicen plataformas de datos en la nube como Cloudera Data Platform o MapR Data Platform, o plataformas de orquestación de datos como InfoWorks DataFoundy, para hacer que todos esos repositorios sean accesibles para el análisis.

Las principales nubes públicas, incluyendo AWS, GCP y Azure, todas tienen plataformas de gestión de datos y servicios para analizar. Por ejemplo, Azure Synapse Analytics es el almacén de datos SQL de Microsoft en la nube, mientras que Azure Cosmos DB proporciona interfaces a muchos almacenes de datos NoSQL, incluyendo Cassandra (datos en columnas), MongoDB (datos de valores clave y de documentos), y Gremlin (datos gráficos).

Los lagos de datos son docks de carga para centralizar los datos no estructurados para un análisis rápido, y uno puede elegir entre Azure Data Lake, Amazon S3, o Google Cloud Storage para servir a ese propósito. Para procesar grandes datos, las nubes AWS, GCP y Azure tienen también ofertas de Spark y Hadoop.

Las plataformas analíticas apuntan al aprendizaje automático y la colaboración

Con los datos cargados, limpiados y almacenados, los científicos y analistas de datos pueden comenzar a realizar análisis y aprendizaje de máquina. Las organizaciones tienen muchas opciones dependiendo de los tipos de análisis, las habilidades del equipo de análisis que realiza el trabajo, y la estructura de los datos subyacentes.

La analítica puede realizarse en herramientas de visualización de datos de autoservicio como Tableau y Microsoft Power BI. Ambas herramientas se dirigen a los científicos de datos y exponen visualizaciones, cálculos y análisis básicos. Estas herramientas apoyan la integración y la reestructuración de datos básicos, pero a menudo se producen disputas de datos más complejas antes de los pasos de análisis. Tableau Data Prep y Azure Data Factory son las herramientas complementarias para ayudar a integrar y transformar los datos.

Los equipos de análisis que deseen automatizar algo más que la integración y la preparación de datos, pueden recurrir a plataformas como Alteryx Analytics Process Automation. Esta plataforma de colaboración de extremo a extremo conecta a los desarrolladores, analistas, y científicos de datos con la automatización del flujo de trabajo y el procesamiento de datos de autoservicio, análisis y capacidades de procesamiento de aprendizaje automático.

Alan Jacobson, jefe de análisis y datos de Alteryx, explica: "La aparición de la automatización de los procesos analíticos (APA) como categoría, pone de relieve una nueva expectativa de que cada trabajador de una organización sea un trabajador de datos. Los desarrolladores de TI no son una excepción, y la extensibilidad de la Plataforma APA de Alteryx es especialmente útil para estos trabajadores del conocimiento".

Existen varias herramientas y plataformas dirigidas a los científicos de datos que tienen como objetivo hacerlos más productivos con tecnologías como Python y R, simplificando al mismo tiempo muchos de los pasos operacionales y de infraestructura. Por ejemplo, Databricks es una plataforma operacional de ciencia de datos que permite desplegar algoritmos para Apache Spark y TensorFlow, mientras se autogestionan los clústeres de computación en la nube AWS o Azure.

Ahora algunas plataformas como SAS Viya combinan la preparación de datos, el análisis, la previsión, el aprendizaje automático, el análisis de texto y la gestión de modelos de aprendizaje automático en una única plataforma de modelops. SAS está operando el análisis y se dirige a científicos de datos, analistas de negocios, desarrolladores y ejecutivos con una plataforma de colaboración de extremo a extremo.

David Duling, director de investigación y desarrollo de gestión de decisiones de SAS, dice: "Vemos los modelops como la práctica de crear un pipeline de operaciones repetible y auditable para desplegar toda la analítica, incluyendo los modelos de IA y ML, en los sistemas operativos". Como parte de los modelops, podemos utilizar las prácticas modernas de desarrollo para la gestión, prueba y monitoreo del código. Esto ayuda a mejorar la frecuencia y la fiabilidad del despliegue de modelos, lo que a su vez mejora la agilidad de los procesos de negocio construidos sobre estos modelos".

Dataiku es otra plataforma que se esfuerza por llevar la preparación de datos, el análisis y el aprendizaje automático a los crecientes equipos de ciencia de datos y sus colaboradores. Dataiku tiene un modelo de programación visual para permitir la colaboración y codificar cuadernos para desarrolladores más avanzados de SQL y Python.

Otras plataformas de análisis y aprendizaje automático de los principales proveedores de software empresarial tienen como objetivo llevar las capacidades analíticas al centro de datos y a las fuentes de datos en la nube. Por ejemplo, Oracle Analytics Cloud, SAP Analytics Cloud o IBM tienen como objetivo centralizar la inteligencia y automatizar los conocimientos para permitir decisiones de extremo a extremo.

Elección de una plataforma de análisis de datos

La selección de herramientas de integración de datos, almacenamiento y análisis solía ser más sencilla antes del surgimiento de los grandes datos, el aprendizaje automático y el gobierno de los datos. Hoy en día, existe una mezcla de terminología, capacidades de plataforma, requisitos operativos, necesidades de gobierno y personas de usuario específicas que hacen que la selección de plataformas sea más compleja, especialmente porque muchos proveedores admiten múltiples paradigmas de uso.

Las empresas difieren en cuanto a los requisitos y necesidades de análisis, pero deberían buscar nuevas plataformas desde el punto de vista de lo que ya existe. Por ejemplo:

* Las empresas que han tenido éxito con los programas de ciencias de los datos de los ciudadanos y que ya disponen de herramientas de visualización de datos, pueden querer ampliar este programa con la automatización de los procesos de análisis o las tecnologías de preparación de datos.

* Las empresas que quieran una cadena de herramientas que permita a los científicos de datos que trabajan en diferentes partes del negocio pueden considerar plataformas analíticas de extremo a extremo con capacidades de modelado.

* Las organizaciones con múltiples y dispares plataformas de datos back-end pueden beneficiarse de las plataformas de datos en la nube para catalogarlas y administrarlas de forma centralizada.

* Las empresas que estandarizan todas o la mayoría de las capacidades de datos en un solo proveedor público de nubes, deben investigar la integración de datos, la gestión de datos y las plataformas de análisis de datos que se ofrecen.

Dado que el análisis y el aprendizaje de máquina se están convirtiendo en una importante competencia básica, los tecnólogos deberían considerar la posibilidad de profundizar su comprensión de las plataformas disponibles y sus capacidades. El poder y el valor de las plataformas analíticas no hará sino aumentar, al igual que su influencia en toda la empresa.