Llegamos a ustedes gracias a:



Reportajes y análisis

El valor oculto de los datos oscuros

[07/09/2022] Los líderes de TI que buscan obtener valor de negocio de los datos que recopilan sus empresas enfrentan innumerables desafíos. Quizás el menos entendido es la oportunidad perdida de no hacer valer los datos que se crean y almacenan a menudo, pero con los que rara vez se interactúa.

Los denominados "datos oscuros, llamados así por la 'materia oscura' de la física, son información recopilada de forma rutinaria en el curso de la actividad comercial: la generan los empleados, los clientes y los procesos comerciales. Se genera como archivos de registro por máquinas, aplicaciones y sistemas de seguridad. Son documentos que se deben guardar con fines de cumplimiento normativo y datos confidenciales que nunca se deberían guardar, pero aún se guardan.

[Reciba lo último de CIO Perú suscribiéndose a nuestro newsletter semanal]

Según Gartner, la mayor parte del universo de la información de su empresa se compone de "datos oscuros, y muchas empresas ni siquiera saben cuántos de estos datos tienen. Almacenarlos incrementa los riesgos de incumplimiento y a la ciberseguridad y, por supuesto, hacerlo también aumenta los costos.

Descubrir qué datos oscuros tiene, dónde se guardan y qué información contienen es un paso esencial para garantizar que las partes valiosas de estos datos oscuros estén seguras y que se eliminen las que no deben guardarse. Pero la verdadera ventaja de desenterrar estos bolsones ocultos de datos puede ser ponerlos en uso para beneficiar realmente al negocio.

Sin embargo, extraer datos oscuros no es una tarea fácil. Vienen en una amplia variedad de formatos, pueden estar completamente sin formatear, encerrados en documentos escaneados o archivos de audio o video, por ejemplo.

A continuación, un vistazo a cómo algunas organizaciones están transformando los datos oscuros en oportunidades de negocio y qué consejos tienen los expertos de la industria para los líderes de TI que buscan aprovechar los datos oscuros.

Los audios codificados de los pilotos de autos de carrera

Durante cinco años, Envision Racing ha recopilado grabaciones de audio de más de 100 carreras de Fórmula E, cada una con más de 20 pilotos.

"Las transmisiones de radio están disponibles en frecuencias abiertas para que cualquiera las escuche, afirma Amaresh Tripathy, líder global de analítica en Genpact, una empresa de consultoría que ayudó a Envision Racing a hacer uso de estos datos.

Anteriormente, los ingenieros de carrera del equipo de carreras, con sede en el Reino Unido, intentaron usar estas transmisiones de audio en tiempo real durante las carreras, pero los nombres en clave y los acrónimos que usaban los conductores dificultaban averiguar de qué se hablaba y cómo se podía usar, ya que comprender lo que otros conductores hablaban podría ayudar a los conductores de Envision Racing con su estrategia de carreras, afirma Tripathy.

"Como cuándo usar el modo de ataque, cuándo adelantar a un conductor o cuándo aplicar los frenos, agrega.

Envision Racing también recopilaba datos de sensores de sus propios automóviles, en neumáticos, baterías y frenos, y compraba datos externos de proveedores, como la velocidad del viento y la precipitación.

Genpact y Envision Racing trabajaron juntos para descubrir el valor de estos flujos de datos, haciendo uso del procesamiento del lenguaje natural para construir modelos de aprendizaje profundo para analizarlos. El proceso tomó seis meses, desde la preparación de la canalización de datos hasta la ingesta de los datos, el filtrado del ruido y la obtención de conversaciones significativas.

Tripathy afirma que los humanos tardan de cinco a 10 segundos en darse cuenta de lo que están escuchando, un retraso que hace que las comunicaciones por radio sean irrelevantes. Ahora, gracias a las predicciones y los conocimientos del modelo de inteligencia artificial, ellos pueden responder en uno o dos segundos.

En julio, en el ABB FIA Formula E World Championship en Nueva York, el equipo de Envision Racing ocupó el primer y tercer lugar, un resultado que Tripathy atribuye al uso de lo que antes eran datos oscuros.

Datos oscuros de oro: Los datos generados por los humanos

Los archivos de audio de Envision Racing son un ejemplo de datos oscuros generados por humanos, destinados a ser consumidos por otros humanos -no por máquinas-. Este tipo de datos oscuros puede ser extremadamente útil para las empresas, señala Kon Leong, cofundador y director ejecutivo de ZL Technologies, un proveedor de plataformas de archivo de datos.

"Es increíblemente poderoso para comprender cada elemento del lado humano de la empresa, incluida la cultura, el desempeño, la influencia, la experiencia y el compromiso, agrega. "Los empleados comparten cantidades absolutamente enormes de información y conocimientos digitales todos los días, pero hasta el momento no se ha explotado en gran medida.

La información contenida en los correos electrónicos, mensajes y archivos puede ayudar a las organizaciones a obtener información sobre quiénes son las personas más influyentes en la firma. "El 80% del tiempo de la empresa se dedica a la comunicación. Sin embargo, la analítica a menudo trata con datos que solo reflejan el 1% del tiempo que dedicamos, afirma Leong.

El procesamiento de datos no estructurados, generados por humanos, es un desafío único. Los almacenes de datos, por ejemplo, normalmente no están configurados para manejar estas comunicaciones. Además, la recopilación de estas comunicaciones puede crear nuevos problemas para las empresas, relacionados con el cumplimiento, la privacidad y el descubrimiento legal.

"Estas capacidades de gobernanza no están presentes en el concepto actual de un lago de datos y, de hecho, al recopilar datos en un lago de datos, se crea otro silo que aumenta los riesgos de privacidad y cumplimiento, señala Leong.

En su lugar, las empresas también pueden dejar estos datos donde residen actualmente, simplemente agregando una capa de indexación y metadatos para la búsqueda. Dejar los datos en su lugar también los mantendrá dentro de las estructuras de cumplimiento existentes, agrega.

La gobernanza eficaz es clave

Otro enfoque para manejar datos oscuros de valor y origen cuestionables es comenzar con la capacidad de rastrearlos.

"Es un desarrollo positivo en la industria que los datos oscuros ahora se reconozcan como un recurso sin explotar que se puede aprovechar, afirma Andy Petrella, autor de Fundamentals of Data Observability, actualmente disponible en versión preliminar de O'Reilly. Petrella también es el fundador de Kensu, firma proveedora de observabilidad de datos.

"El desafío de utilizar datos oscuros son los bajos niveles de confianza en ellos, afirma Petrella, en particular sobre dónde y cómo se recopilan los datos. "La observabilidad puede hacer que el linaje de los datos sea transparente y, por lo tanto, rastreable. La capacidad de rastreo permite controles de calidad de los datos, los cuales generan confianza en el empleo de estos para entrenar modelos de inteligencia artificial o actuar sobre la inteligencia que aportan.

Chuck Soha, director gerente de StoneTurn, una firma de asesoría global que se especializa en temas regulatorios de riesgo y de cumplimiento, está de acuerdo en que el enfoque común para abordar los datos oscuros -arrojar todo a un lago de datos- presenta riesgos significativos.

Esto es particularmente cierto en la industria de servicios financieros, afirma Soha, donde las empresas han estado enviando datos a lagos de datos durante años. "En una empresa típica, el departamento de TI vuelca todos los datos disponibles a su disposición, en un solo lugar, con algunos metadatos básicos y crea procesos para compartir con los equipos comerciales, agrega.

Eso funciona para los equipos comerciales que tienen el talento analítico necesario en la empresa o que traen consultores externos para casos de uso específicos. Pero en su mayor parte, estas iniciativas solo tienen un éxito parcial, afirma Soha.

"Los CIO pasaron de no saber lo que no saben a saber lo que no saben, añade.

En cambio, las empresas deberían comenzar con la gobernanza de datos para comprender qué datos hay y qué problemas podrían tener, entre ellos la calidad de los datos.

"Las partes interesadas pueden decidir si limpiar y estandarizar, o simplemente comenzar de nuevo con mejores prácticas de gestión de la información, afirma Soha, y agrega que sería un error invertir en extraer información de los datos que contienen información contradictoria o conflictiva.

Soha también aconseja sacar provecho de los buenos datos operativos ya disponibles dentro de las unidades comerciales individuales. Descubrir estas relaciones puede crear conocimientos rápidos y útiles que podrían no requerir mirar ningún dato oscuro de inmediato, agrega. "Y también podría identificar brechas que podrían priorizar dónde comenzar a buscar datos oscuros para llenar esas brechas.

Finalmente, Soha afirma que la inteligencia artificial puede ser muy útil para ayudar a dar sentido a los datos no estructurados que quedan. "Al usar técnicas de inteligencia artificial y aprendizaje automático, los humanos pueden ver tan solo el 1% de los datos oscuros y clasificar su relevancia, añade. "Luego, un modelo de aprendizaje por refuerzo puede producir puntajes de relevancia para los datos restantes rápidamente para priorizar qué datos mirar más de cerca.

Usar la inteligencia artificial para extraer valor

Las soluciones comunes basadas en inteligencia artificial para procesar datos oscuros incluyen Textract de Amazon, Azure Cognitive Services de Microsoft y Datacap de IBM, así como las API Cloud Vision, Document, AutoML y NLP de Google.

En la asociación de Genpact con Envision Racing, Genpact codificó los algoritmos de aprendizaje automático internamente, afirma Tripathy. Esto requirió conocimientos de Docker, Kubernetes, Java y Python, así como NLP, aprendizaje profundo y desarrollo de algoritmos de aprendizaje automático, y agrega que un arquitecto de MLOps gestionó el proceso completo.

Desafortunadamente, estas habilidades son difíciles de conseguir. En un informe, publicado el otoño pasado por Splunk, solo entre el 10% y el 15% (de más de 1.300 tomadores de decisiones comerciales y de TI encuestados) señaló que sus organizaciones están utilizando inteligencia artificial para resolver el problema de los datos oscuros. La falta de las habilidades necesarias fue un obstáculo principal para hacer uso de los datos oscuros, solo superado por el volumen de los datos en sí.

Un problema (y una oportunidad) en aumento

Por el momento, los datos oscuros siguen siendo un tesoro escondido de riesgos y oportunidades. Según la industria, se estima que la porción de los datos empresariales oscuros varía del 40% al 90%.

Según un informe de julio de Enterprise Strategy Group, y patrocinado por Quest, el 47% de todos los datos son datos oscuros, en promedio; además, una quinta parte de los encuestados afirmó que más del 70% de sus datos son datos oscuros. La encuesta de Splunk mostró hallazgos similares, un 55% de todos los datos empresariales, en promedio, son datos oscuros, y un tercio de los encuestados afirmó que el 75% o más de los datos de su organización son oscuros.

Y es probable que la situación empeore antes de mejorar, ya que el 60% de los encuestados afirma que más de la mitad de los datos en su organización no se capturan en absoluto y que incluso se ignora la existencia de gran parte de ellos. A medida que se encuentren y almacenen esos datos, la cantidad de datos oscuros continuará aumentando.

Ya es hora de que los CIO elaboren un plan sobre cómo manejarlos -con miras a aprovechar al máximo cualquier dato oscuro que se muestre prometedor en la creación de nuevo valor para el negocio.

Puede ver también: