Llegamos a ustedes gracias a:



Reportajes y análisis

Cómo evitar los grandes errores de análisis de datos

[25/08/2017] Las grandes iniciativas de análisis y Big Data pueden cambiar el juego, dándole ideas para ayudar a superar la competencia, generar nuevas fuentes de ingresos y servir mejor a los clientes.

Las iniciativas de Big Data y de análisis también pueden ser fracasos colosales, lo que resulta en un gran desperdicio de dinero y tiempo, sin mencionar la pérdida de talentos profesionales de la tecnología que se hartan de frustrar errores de gestión.

¿Cómo evitar grandes fallas de datos? Algunas de las mejores prácticas son las obvias desde un punto de vista básico de la administración de negocios: asegúrese de contar con el apoyo de los niveles ejecutivos más altos de la empresa, asegure el financiamiento adecuado para todas las inversiones tecnológicas que se necesitarán, y traiga la experiencia necesaria y/o tenga establecida una buena capacitación. Si no aborda estos aspectos básicos en primer lugar, nada más importa realmente.

Pero suponiendo que ha hecho lo básico, lo que separa el éxito del fracaso en la analítica de Big Data es saber cómo lidiar con los problemas técnicos y los retos de los grandes análisis de datos. Esto es lo que puede hacer para mantenerse en el lado de éxito de la ecuación.

1. Elija cuidadosamente sus herramientas de análisis de datos

Muchas fallas tecnológicas se derivan del hecho de que las compañías compran e implementan productos que resultan ser un fiasco para lo que están tratando de lograr. Cualquier proveedor puede golpear las palabras "Big Data" o "análisis avanzado" en sus descripciones de producto para tratar de aprovechar el alto nivel de bombo alrededor de estos términos.

Pero los productos difieren considerablemente no solo en calidad y eficacia, sino también en el enfoque. Por lo tanto, incluso si elige un producto técnicamente fuerte, puede no ser bueno en lo que realmente necesita hacer.

Hay algunas capacidades básicas para casi todos los análisis de Big Data, como la transformación de la arquitectura y el almacenamiento de datos (piense en Hadoop y Apache Spark). Pero también hay múltiples nichos en el análisis de Big Data, y hay que obtener productos para los nichos que su estrategia tecnológica realmente involucra. Estos nichos incluyen minería de procesos, análisis predictivo, soluciones en tiempo real, inteligencia artificial y paneles de inteligencia empresarial.

Antes de decidir comprar cualquier gran producto de análisis de datos o plataforma de almacenamiento, necesita averiguar cuáles son las necesidades y problemas reales del negocio, seleccione productos diseñados para abordar de manera efectiva esos problemas específicos.

Por ejemplo, optaría por productos cognitivos de Big Data, tales como analítica que utilizan inteligencia artificial para analizar datos no estructurados, debido a la complejidad de la compilación de grandes conjuntos de datos. Pero no utilizaría herramientas cognitivas para datos estructurados y estandarizados, para lo cual puede implementar uno de los muchos productos analíticos que pueden generar percepciones de calidad en tiempo real con un precio más racional, afirma Israel Exposito, líder global de procesos para grandes datos en la empresa de telecomunicaciones Vodafone.

Es prudente ejecutar pruebas de concepto utilizando al menos dos productos antes de elegir uno para su entorno de producción, señala Exposito. El producto también debe ser capaz de interactuar con sus plataformas empresariales relevantes.

Cada gran herramienta de análisis de datos requiere el desarrollo de un modelo de datos en el sistema back-end. Esta es la parte más importante del proyecto. Por lo tanto, es necesario asegurarse de que los integradores de sistemas y expertos en materia de negocios trabajen mano a mano en este esfuerzo. Tómese su tiempo y hágalo bien la primera vez.

Es importante recordar que los datos correctos deben estar siempre disponibles y traducidos al lenguaje de negocios, para que los usuarios entiendan completamente la salida y por lo tanto pueden usarla para impulsar oportunidades o mejorar procesos.

2. Asegúrese de que las herramientas sean fáciles de usar

Big Data y la analítica avanzada son complejos, pero los productos de los que los usuarios empresariales dependen para acceder y dar sentido a los datos no tienen por qué serlo.

Proporcione herramientas sencillas y eficaces para que los equipos de análisis de negocios las utilicen para el descubrimiento de datos, así como para análisis y visualizaciones.

Encontrar la combinación correcta de herramientas fue difícil para el registrador de dominios GoDaddy, señala Sharon Graves, la evangelista de herramientas de inteligencia empresarial de la empresa de datos. Tenía que ser simple para las visualizaciones rápidas, pero lo suficientemente capaz de profundizar en la analítica profunda. GoDaddy fue capaz de encontrar productos que permiten a los usuarios de negocios encontrar fácilmente los datos apropiados y luego generar visualizaciones por su cuenta. Eso liberó a los equipos de análisis para realizar analíticas más avanzadas.

Por encima de todo, no le proporcione herramientas a nivel de programador a usuarios comerciales no técnicos. Se frustrarán y podrían recurrir a utilizar sus herramientas anteriores, que no son realmente útiles para el trabajo (de lo contrario, no tendría un gran proyecto de análisis de datos).

3. Alinee el proyecto -y los datos- con la necesidad real del negocio

Otra razón por la cual los esfuerzos de análisis de datos de errores pueden fallar, es porque terminan siendo una solución en busca de un problema que realmente no existe. Esa es la razón por la cual debe enmarcar los desafíos/necesidades empresariales que está buscando para abordar el problema analítico adecuado, anota Shanji Xiong, científico jefe de los Global Data Labs en el proveedor de servicios de información Experian.

Una clave es involucrar a expertos en la materia con sólidos antecedentes analíticos a principios del proyecto, para poder trabajar con científicos de datos que definan el problema.

He aquí un ejemplo de la propia gran iniciativa de análisis de datos de Experian. Al desarrollar soluciones analíticas para combatir el fraude de identidad, el reto podría ser evaluar si una combinación de información de identificación personal (PII, por sus siglas en inglés) como nombres, direcciones y números de seguro social es legítima. O el reto podría ser evaluar si un cliente que solicita un préstamo utilizando un conjunto de identidades es el propietario legítimo de las identidades. O ambos desafíos podrían existir.

El primer desafío es un problema de "identidad sintética", y necesita un modelo analítico que evalúe el riesgo de identidad sintética desarrollado a nivel de consumidor o PII, señala Xiong. El segundo desafío es un problema de fraude de aplicaciones, y las puntuaciones para evaluar el riesgo de fraude necesitan ser desarrolladas a nivel de aplicación. Experian tuvo que entender que éstos eran problemas diferentes, a pesar de que pueden haber sido vistos inicialmente como el mismo problema declarado de manera diferente, y luego crear los modelos y análisis adecuados para abordarlos.

Cuando un conjunto de PII se presenta a dos instituciones financieras para solicitar préstamos, un requisito habitual es devolver la misma puntuación para el riesgo sintético, pero no suele ser una característica necesaria para las puntuaciones de fraude de aplicación, anota Xiong.

Los algoritmos correctos deben aplicarse a los datos correctos para extraer inteligencia de negocios y para hacer predicciones precisas. La recopilación e inclusión de conjuntos de datos relevantes en el proceso de modelado es casi siempre más importante que los algoritmos de aprendizaje de ajuste fino de máquina, por lo que el esfuerzo de datos debe ser tratado como una prioridad.

4. Construya un lago de datos, y no escatime en el ancho de banda

Como implica el término, los datos grandes implican enormes cantidades de datos. En el pasado, muy pocas organizaciones podían almacenar tantos datos, mucho menos organizarlos y analizarlos. Pero hoy en día, las tecnologías de almacenamiento de alto rendimiento y el procesamiento en paralelo a gran escala están ampliamente disponibles, tanto en la nube como a través de sistemas locales.

Sin embargo, el almacenamiento en sí no es suficiente. Necesita una forma de manejar tipos dispares de datos que se alimentan en su gran analítica de datos. Eso fue lo que hizo Hadoop de Apache, que permitió el almacenamiento y mapeo de conjuntos de datos enormes y dispares. Estos repositorios suelen denominarse lagos de datos. Un lago real es alimentado típicamente por las corrientes múltiples, y contiene muchas especies de plantas, de pescados, y de otros animales; un lago de datos es típicamente alimentado por múltiples fuentes de datos y contiene muchos tipos de datos.

Pero un lago de datos no debe ser un vertedero de datos. Debe ser reflexivo acerca de cómo agregar datos, extendiendo atributos de una manera significativa, señala Jay Etchings, director del área de investigación en computación de la Universidad Estatal de Arizona. Los datos pueden ser dispares, pero la forma en que se transforma para sus analíticas utilizando herramientas como MapReduce y Apache Spark se debe hacer con una sólida arquitectura de datos en su lugar.

Cree un lago de datos donde la ingestión, la indexación y la normalización sean componentes bien planificados de la gran estrategia de datos. Sin un plan claramente entendido y articulado, la mayoría de las iniciativas de datos intensivos están condenadas al fracaso, anota Etchings.

Del mismo modo, tener un ancho de banda suficiente es vital; de lo contrario los datos no se moverán desde varias fuentes hasta el lago de datos o hacia los usuarios empresariales lo suficientemente rápido para que sean útiles. Cumplir con la promesa de disponer de recursos de datos masivos no solo requiere discos rápidos capaces de millones de I/Os por segundo (IOPS, por sus siglas en inglés), anota Etchings, sino también nodos interconectados y motores de procesamiento que puedan acceder fácilmente a los datos a medida que se generan.

La velocidad es particularmente importante para el análisis en tiempo real, desde las tendencias de los medios sociales hasta el enrutamiento del tráfico. Así que construya su lago de datos en la interconexión más rápida disponible.

5. Diseñe la seguridad en cada faceta de datos grandes

El alto grado de heterogeneidad en los componentes de la infraestructura computacional ha acelerado sustancialmente la capacidad de las organizaciones para obtener información significativa a partir de los datos. Pero hay un inconveniente: los sistemas son mucho más complejos de administrar y asegurar, señala Etchings. Con la enorme cantidad de datos involucrados y la misión crítica de la mayoría de los grandes sistemas de análisis de datos, no tomar las precauciones adecuadas en la protección de los sistemas y los datos es pedir problemas a gran escala.

Gran parte de los datos que las empresas están recopilando, almacenando, analizando y compartiendo es la información del cliente -alguna de ellas personal e identificable. Si esos datos caen en manos equivocadas, los resultados son predecibles: pérdidas monetarias por demandas y posiblemente por multas regulatorias, marca y reputación dañadas, y clientes infelices.

Sus medidas de seguridad deben incluir el despliegue de las herramientas empresariales básicas: cifrado de datos siempre que sea práctico, gestión de identidad y acceso y seguridad de la red. Sin embargo, éstas medidas también deben incluir la aplicación de políticas y capacitación sobre el acceso y uso adecuados de los datos.

6. Haga que la gestión de datos y la calidad sean una prioridad

Garantizar una buena gestión de los datos y la calidad debe ser un sello de todos los grandes proyectos de análisis de datos, de lo contrario las posibilidades de fracaso son mucho mayores.

Es necesario poner los controles en su lugar para asegurarse de que los datos están actualizados, sean precisos y entregados en forma oportuna. Como parte de su gran iniciativa de datos, GoDaddy implementó alertas que informan a los administradores si una actualización de datos ha fallado o se está ejecutando tarde. Además, GoDaddy ha implementado controles de calidad de datos en métricas clave, enviando alertas cuando estas métricas no están alineadas con las expectativas.

Una gran parte de garantizar la calidad de los datos y su gobierno es la contratación de profesionales calificados de gestión de datos, incluyendo un director de gestión de datos u otro ejecutivo para supervisar estas áreas. Dada la importancia estratégica de estas iniciativas, las empresas tienen una necesidad real de la propiedad de datos sobre la administración de los datos, la gestión, el gobierno y las políticas.