
[14/09/2023] Data wrangling, dataops, data prep, data integration, como quiera que lo llame su organización, la gestión de las operaciones de integración y limpieza de datos requiere mucho trabajo. Muchas empresas luchan por integrar nuevos conjuntos de datos de forma eficaz, mejorar la calidad de los datos, centralizar los registros de datos maestros y crear perfiles de datos de clientes depurados.
[Reciba lo último de CIO Perú suscribiéndose a nuestro newsletter semanal]
Dataops no es un reto nuevo, pero lo que está en juego es mayor a medida que más empresas quieren convertirse en organizaciones basadas en datos y aprovechar los análisis como ventaja competitiva. Los pioneros digitales también están ampliando dataops a fuentes de datos no estructurados para crear capacidades de búsqueda de IA y preparar datos para su uso en grandes modelos de lenguaje.
Aprovechar la IA y el ML para la transformación de datos
Los dataops deben ser más eficientes, ofrecer resultados de mejor calidad, escalar para manejar grandes volúmenes de datos y velocidades, trabajar con fuentes de datos más dispares y mejorar la fiabilidad de los conductos de datos.
"Los datos necesitan someterse a transformación y refinamiento para desbloquear su verdadero potencial, y dataops es la disciplina vital que revoluciona la gestión de datos y maximiza su valor a través de procesos eficientes y automatización", señala el jefe de IA de Newgen Software, Rajan Nagina. "Dataops implica la integración de las personas, la tecnología y los flujos de trabajo para garantizar que los datos se manejan de manera eficiente, con un enfoque en la mejora de la calidad, accesibilidad y fiabilidad de los datos".
Las herramientas para automatizar los pipelines de datos están mejorando, y muchas aprovechan las capacidades del aprendizaje automático y la inteligencia artificial. Las técnicas de dataops de IA y aprendizaje automático hacen que las operaciones de datos pasen de enfoques manuales y basados en reglas a una automatización inteligente.
Sunil Senan, vicepresidente senior y responsable global de datos, análisis e IA en Infosys, añade varias ventajas competitivas cuando las empresas aprovechan el aprendizaje automático y la IA en dataops. "Las empresas pueden desplegar la IA para el descubrimiento rápido de datos, la catalogación y el perfilado rápido de datos, mientras que el ML puede detectar anomalías, identificar inconsistencias y enriquecer los datos. Juntos, la IA, el ML y la automatización pueden ayudar a generar una mejor calidad de datos, armonizar los datos maestros, y crear el tejido para construir productos de datos y equipos de datos efectivos".
¿Dónde pueden los equipos de dataops ampliar la automatización y utilizar el aprendizaje automático y la IA como capacidades que cambien las reglas del juego? He aquí cinco ejemplos.
1. Reducir la preparación de nuevos conjuntos de datos
"Las capacidades avanzadas de IA/ML permiten un cambio de paradigma para la integración, transformación y observabilidad de datos", comenta Will Freiberg, CEP de Crux. "Mediante el uso de soluciones automatizadas, los equipos de dataops pueden voltear la proporción del 70% de su tiempo dedicado a la preparación de datos, al 70% de su tiempo dedicado a la analítica de alto valor".
He aquí dos preguntas clave que deben plantearse los equipos de dataops en relación con el impacto de los esfuerzos manuales:
- ¿Cuál es el tiempo de ciclo medido desde el descubrimiento inicial de un nuevo conjunto de datos hasta que se carga, limpia y une en el lago de datos de la organización, y se incluye en el catálogo de datos?
- Una vez que existe una canalización de datos, ¿utiliza la supervisión y la automatización para detectar y ajustarse a los cambios en el formato de los datos?
Cuando se necesitan pasos manuales de procesamiento de datos para cargar y dar soporte a las canalizaciones de datos, los equipos de dataops pueden aprovechar la oportunidad para mejorar los tiempos de ciclo de las nuevas fuentes de datos y el tiempo de recuperación ante problemas con las canalizaciones de datos.
Freiberg continúa: "Una vez que los equipos de datos definen los estándares para la calidad de los datos y los programan en la IA, la tecnología puede detectar y gestionar los cambios de esquema y las anomalías del perfil de datos al incorporar conjuntos de datos externos, lo que evita la rotura de los conductos de datos y la necesidad de intervención manual".
2. Observabilidad de los datos a escala y supervisión continua
Las canalizaciones de datos rotas se producen cuando los ingenieros de dataops no utilizan la supervisión, las alertas y la automatización para identificar problemas y aplicar correcciones rápidamente. Las soluciones proactivas incluyen herramientas y prácticas de observabilidad de dataops para el registro de eventos de integración de datos y la supervisión de canalizaciones de datos.
"Encontrar y solucionar problemas manualmente lleva mucho tiempo, dado el volumen de datos que las organizaciones deben manejar hoy en día", afirma Emily Washington, vicepresidenta senior de gestión de productos de Precisely. "Un enfoque eficaz para garantizar la calidad de los datos es validar los datos a medida que entran en el ecosistema de la organización, y garantizar un seguimiento continuo mediante la adopción de la observabilidad de los datos como parte de una estrategia global de integridad de los datos".
La observabilidad de los datos tiene como objetivo proporcionar canalizaciones de datos coherentes y fiables para la toma de decisiones en tiempo real, la actualización de cuadros de mando y el uso en modelos de aprendizaje automático. Es una forma de que los equipos de dataops gestionen los objetivos de nivel de servicio, un principio introducido en la ingeniería de fiabilidad de sitios que se aplica igualmente a los conductos de datos.
"La observabilidad de los datos ayuda a las organizaciones a identificar y gestionar proactivamente la calidad de los datos a escala, lo que se traduce en canalizaciones de datos más saludables, equipos más productivos y clientes más satisfechos", afirma Washington.
De cara al futuro, cuando las capacidades dataops de la IA generativa se generalicen, tendrán el potencial de permitir la observabilidad de los datos a escala mediante
- Identificar patrones de problemas de datos y recomendar soluciones o activar la limpieza automatizada.
- Recomendando correcciones de código y sugerencias para las canalizaciones de datos.
- Documentando canalizaciones de datos y mejorando la información capturada para la observación de datos
3. Mejorar el análisis y la clasificación de los datos
Los equipos de dataops también pueden utilizar la IA y el aprendizaje automático para analizar y clasificar los datos a medida que fluyen a través de los data pipelines.
"La captura de datos impulsada por IA mejora la calidad de los datos que fluyen en el sistema desde el principio al hacer la detección de anomalías, la evaluación de la relevancia y la coincidencia de datos", comenta Hillary Ashton, directora de productos de TeraData. "Los modelos ML se pueden aprovechar para encontrar patrones ocultos en los datos, limpiar y armonizar para ajustarse a las normas y clasificar los datos confidenciales para garantizar una gobernanza adecuada".
Las clasificaciones básicas incluyen la identificación de información personal identificable (PII, por sus siglas en inglés) y otros datos sensibles en conjuntos de datos que no están marcados para contener este tipo de información. Una vez identificados, los equipos de gobernanza de datos pueden definir reglas de automatización para reclasificar la fuente y activar otras reglas empresariales.
Ashton cree que la IA generativa impulsará herramientas de gobernanza y calidad de datos más potentes y afirma: "Los equipos de dataops buscarán aprovechar el conocimiento del dominio empresarial y los datos de las plataformas de colaboración para proporcionar un contexto y patrones más ricos a los datos".
Otro caso de uso del cumplimiento de datos es la seguridad. Hablé con Tyler Johnson, cofundador y CTO de PrivOps, sobre cómo la gestión de identidades y accesos es un área a menudo pasada por alto donde los dataops pueden aportar valor con la automatización y la IA. "La automatización puede minimizar el riesgo de que los malos actores utilicen permisos obsoletos para penetrar en la organización, pero no hace nada para abordar las amenazas de los usuarios autorizados", señala. "Al ampliar los flujos de trabajo de canalización de datos para agregar e integrar datos de registro de acceso de usuarios con IA, los dataops asociados con infosec pueden minimizar las amenazas desde fuera y dentro de la organización. La IA identifica patrones de acceso sospechosos y alerta al centro de operaciones de seguridad (SOC) cuando se detectan".
4. Proporcionar un acceso más rápido a los datos depurados
Identificar información sensible en un flujo de datos y otras anomalías es un caso de uso fundamental de la gobernanza de datos, pero lo que los equipos empresariales realmente quieren es un acceso más rápido a los datos depurados. Un caso de uso principal para los equipos de marketing, ventas y atención al cliente es la actualización en tiempo real de los registros de datos de los clientes, y la transmisión de datos a una base de datos de perfiles de datos de clientes (CDP) es un enfoque para centralizar los registros de clientes.
"La aplicación de las herramientas adecuadas para detectar y abordar los problemas de calidad de los datos a lo largo de la cadena de procesamiento de datos es fundamental, empezando por la programación del análisis exploratorio de datos automatizado, la limpieza de datos y las herramientas deterministas y probabilísticas de correspondencia de ID de usuario para que se ejecuten durante la ingestión de datos", sostiene Karl Wirth, director general de Treasure Data. "La unión de ID de usuario en tiempo real puede combinarse con la segmentación automatizada (mediante clustering y otros modelos de aprendizaje automático) para permitir que los conocimientos y la personalización se actualicen constantemente a medida que se acumulan los datos. Por último, los algoritmos automatizados de predicción y detección de anomalías, combinados con la detección de la deriva de los datos, completan el cuadro garantizando que la calidad se mantiene intacta a lo largo del tiempo".
Un segundo enfoque para gestionar los datos de los clientes es la gestión de datos maestros (MDM, por sus siglas en inglés), en la que dataops define las reglas para identificar los registros y campos primarios de los clientes a partir de múltiples fuentes de datos.
Manish Sood, CEO, fundador y presidente de Reltio, afirma que el aprendizaje automático ayuda a combinar información de múltiples fuentes. "Los enfoques modernos utilizan la automatización y técnicas basadas en ML para unificar rápidamente datos de múltiples fuentes, alejándose del alcance limitado de los sistemas MDM tradicionales", señala.
El aprendizaje automático también ayuda a reducir el número y la complejidad de las reglas empresariales en los sistemas MDM. "Los dataops llevan mucho tiempo utilizando la automatización para mejorar la gestión de datos maestros, en particular la calidad de los datos, por ejemplo, mediante la codificación rígida de reglas sobre metadatos", afirma David Cox, director de productos de salida de Semarchy. "La inteligencia artificial y el aprendizaje automático pueden ayudar a automatizar la calidad de los datos a escala, ya que puede ser necesario un número infinito de reglas para controlar la calidad de datos grandes, complejos y de alta velocidad".
Anthony Deighton, director general de productos de datos en Tamr, comparte un ejemplo de dónde el aprendizaje automático puede reemplazar las reglas de negocio difíciles de mantener. Afirma: "La IA y el aprendizaje automático son herramientas potentes que pueden marcar una diferencia real en los dataops. Por ejemplo, los registros de clientes duplicados se pueden fusionar en un único registro completo, lo que resulta en una mayor precisión de los datos y mejores perspectivas".
Espere más capacidades de IA generativa en las soluciones CDP y MDM, especialmente en torno al enriquecimiento de los registros de clientes con información extraída de documentos y otras fuentes de datos no estructuradas.
5. Reducir el costo y aumentar los beneficios de la limpieza de datos
Los dataops tienen la oportunidad de utilizar la IA y el aprendizaje automático para cambiar sus responsabilidades principales de la limpieza de datos y la fijación de canalizaciones a la prestación de servicios de valor añadido, como el enriquecimiento de datos.
"A medida que crecen los volúmenes de datos y la complejidad, establecer manualmente reglas de calidad de datos ya no resulta escalable, y la IA/ML ofrece un enfoque prometedor para abordar la escalabilidad", afirma Satish Jayanthi, cofundador y CTO de Coalesce. "Estas tecnologías pueden identificar y rectificar eficazmente los datos erróneos aprovechando la automatización, mitigando así las consecuencias negativas".
Ashwin Rajeeva, cofundador y CTO de Acceldata, comparte ejemplos de cómo el ML puede permitir mejoras continuas en la calidad de los datos mediante el aprendizaje a través de patrones. "Los aprendizajes se pueden aplicar para corregir errores, rellenar datos que faltan, añadir etiquetas, realizar una categorización inteligente y desduplicar datos".
Conclusión
Eswar Nagireddy, director senior de producto de ciencia de datos en Exasol, señala la importancia de impulsar la eficiencia en los dataops. "Hoy en día, la mayoría de los equipos de datos y análisis no tienen el tiempo y los recursos para mantenerse al día con las necesidades de salud y monitoreo de datos, especialmente a medida que aumenta la presión para reducir los costos operativos y el personal. Los equipos de datos que aprovechan el aprendizaje automático de máquinas (AutoML), no-code y low-code pueden darse cuenta más rápidamente del valor del ML aplicado al negocio al tiempo que garantizan la salud de sus datos".
Los equipos de dataops pueden reducir la carga de trabajo, mejorar la calidad de los datos y aumentar la fiabilidad de la canalización de datos mediante el uso de IA y técnicas de aprendizaje automático, y depender menos de los esfuerzos manuales o de las reglas de negocio codificadas. Una vez implantados esos cambios, los equipos pueden utilizar la IA y el aprendizaje automático para impulsar valores empresariales competitivos, acelerando el tiempo de integración de nuevos conjuntos de datos, así como enriqueciendo los registros de los clientes y mejorando la gobernanza de los datos.
Basado en el artículo de Isaac Sacolick (InfoWorld) y editado por CIO Perú