
[18/05/2023] Su director general sabe lo que es una base de datos y probablemente piensa que un almacén de datos es una gran bóveda de datos utilizada para informes y análisis. Saben poco sobre los almacenes de datos NoSQL, por qué necesitan un clúster Spark, o cómo se utilizan los lagos de datos para ingerir datos estructurados y no estructurados.
Los CEO y los líderes empresariales se centran en el valor empresarial de los datos, la analítica y el aprendizaje automático, y se preocupan menos por las tecnologías subyacentes.
[Reciba lo último de CIO Perú suscribiéndose a nuestro newsletter semanal]
Pero ahí radica la paradoja, porque sí quieren entender el valor de invertir tiempo y dinero en nuevas tecnologías. Trate de explicar las últimas tecnologías de gestión de datos, incluidas las mallas de datos, los tejidos de datos y las nubes de datos distribuidos, y vea cómo le da vueltas la cabeza a su director general.
Y no sólo los directores generales. La tecnología de datos se ha disparado desde los primeros tiempos de la web, cuando el principal debate era si construir el almacén de datos sobre Oracle, Microsoft o código abierto. Hoy en día, muchos líderes no relacionados con TI se contentan con creer que los datos están "en la nube", y que la integración, la calidad y el rendimiento de los datos son "cuestiones de TI".
Cualquiera que trabaje con datos debe estar preparado para explicar las tecnologías y prácticas más críticas en un lenguaje accesible. En mi libro, Digital Trailblazer, comparto una anécdota en la que explico qué es una cookie del navegador a los miembros del consejo de administración de nuestra startup cuando la web era nueva. Nunca se sabe cuándo le van a dar el micrófono para responder a una pregunta técnica. Responder con tecnicismos puede disuadir o ralentizar inversiones clave.
Gordon Allott, presidente y CEO de K3, sugiere empezar con una respuesta sencilla: "Lago de datos, almacén de datos, malla y tejido se refieren simplemente a la estrategia general de datos de la empresa".
¿Qué es una malla de datos?
Es importante simplificar las respuestas, pero a menudo no es suficiente. Cuando un ejecutivo me pregunta por un término técnico, quiero responderle de forma que fomente la curiosidad y las preguntas de seguimiento.
Empecemos por explicar qué es una malla de datos. Steven Lin, director de marketing de producto de Semarchy, nos dio esta respuesta concisa: "Una malla de datos es un enfoque descentralizado de la gestión de datos, en el que varios equipos de una empresa son responsables de sus propios datos, lo que fomenta la colaboración y la flexibilidad", explica.
No hay palabras complejas en esta definición, y presenta los problemas que las mallas de datos pretenden resolver, el tipo de solución y por qué es importante.
Pero espere que le pidan más detalles técnicos, sobre todo si el ejecutivo tiene conocimientos previos de otras tecnologías de gestión de datos. Por ejemplo: "¿No se suponía que los almacenes de datos y los lagos de datos resolvían el problema de la gestión de datos?".
Esta pregunta puede ser una trampa si la respondes con las diferencias técnicas entre almacenes de datos, lagos y mallas. En lugar de eso, centra tu respuesta en el objetivo empresarial.
Satish Jayanthi, cofundador y director técnico de Coalesce, ofrece esta sugerencia: "La calidad de los datos suele afectar a la precisión de los análisis empresariales y la toma de decisiones. Mediante la implementación de paradigmas de malla de datos, se puede mejorar la calidad y la precisión de los datos, lo que resulta en una mayor confianza entre las empresas para utilizar los datos de manera más amplia para la toma de decisiones informadas".
Me gusta esta respuesta y espero que el ejecutivo quiera profundizar en cómo los paradigmas de malla de datos ayudan a mejorar la calidad de los datos. Jayanthi responde: "Uno de los principios básicos, la propiedad del dominio, garantiza que el equipo que produce los datos es responsable de su calidad y exactitud. Este principio de los datos como producto garantiza que los datos compartidos con otros grupos sean precisos, reutilizables, autodocumentados y cumplan normas estrictas".
Si es nuevo en las mallas de datos y quiere sumergirse en los detalles técnicos, le sugiero que revise el artículo fundamental de Zhamak Dehghani sobre cómo ir más allá de un lago de datos monolítico a una malla de datos distribuida.
¿Qué es un tejido de datos?
El director financiero escuchó la conversación sobre las mallas de datos, y ahora quiere saber por qué el director de datos prefiere invertir en un tejido de datos en lugar de una malla de datos.
En realidad, el director financiero está haciendo tres preguntas:
- ¿Qué es un tejido de datos?
- ¿En qué se diferencia de una malla de datos?
- ¿Por qué quiere invertir en un tejido de datos?
Cuando me enfrento a una pregunta compleja, sugiero frenar, respirar hondo, considerar el contexto de quién hace la pregunta y ofrecer una respuesta descompuesta. Podría empezar diciendo: "Hablemos primero de la estructura de datos y de su importancia".
Ross Stuart, arquitecto senior de soluciones de AHEAD, sugiere ayudar al director financiero a visualizar el aspecto y el funcionamiento de una estructura. "Un tejido de datos es un término utilizado para describir la arquitectura que consiste en tomar sistemas dispares y entrelazarlos, como un tejido, para crear una capa coherente sobre los datos de una organización", explica.
Ivan Batanov, vicepresidente senior de ingeniería de Crux, añade: "Una arquitectura de tejido de datos puede ofrecer perspectivas y análisis mejorados de forma eficiente y admite la naturaleza interconectada de los datos procedentes de fuentes dispares".
Llegados a este punto, debería hacer una pausa y conceder a su audiencia unos segundos para comprender la relación entre las mallas de datos y los tejidos de datos, incluido el aparente conflicto entre ambos enfoques. ¿Cómo podría unirlos? Sugiero decir algo como esto
Las mallas de datos ayudan a los equipos empresariales a utilizar los datos para el análisis y a mejorar la calidad de los datos; mientras que los tejidos de datos ayudan al director de datos y al equipo de gobierno de datos a gestionar el acceso a las fuentes de datos conectadas dondequiera que estén almacenadas, incluidos los almacenes de datos, los lagos de datos, los sistemas de archivos y las aplicaciones SaaS.
Lo que estamos desentrañando en estas preguntas y respuestas son los diferentes roles organizativos y sus responsabilidades en materia de datos. Queremos que los equipos empresariales adopten la ciencia de datos ciudadana y utilicen los datos para la toma de decisiones, mientras que las organizaciones necesitan que el director de datos se centre en la gobernanza de datos proactiva, con el objetivo de reducir las fricciones y los riesgos a la hora de democratizar los datos.
¿Qué es una nube de datos distribuida?
Ahora llegamos a un tercer grupo de gestión de datos, encargado de almacenar y estructurar los datos para satisfacer las necesidades de uso, los objetivos de rendimiento y los requisitos de seguridad. "Dónde almacenar el conjunto de datos X" es el reto, y la respuesta no es sencilla. En la mayoría de las empresas, no existe una arquitectura única para almacenar, gestionar y utilizar los datos.
James Malone, director de gestión de productos de Snowflake, afirma: "En lugar de especificar el 'cómo' se almacena la información, una nube de datos representa el 'qué' se consigue con la combinación adecuada de tecnologías". "La nube de datos permite a las organizaciones elegir lo que les funciona, en lugar de prescribir e imponer una única forma de hacer las cosas. Los casos de uso cambian, las necesidades cambian y la tecnología cambia, por eso la nube de datos se centra en la flexibilidad y la utilidad".
Hillary Ashton, directora de producto de Teradata, añade un detalle importante para compartir con el director financiero. "Las nubes de datos pueden desplegarse en cualquier combinación de nubes públicas, nubes privadas locales, nubes híbridas y nubes múltiples", afirma. "Pero el 'cerebro' de cualquier nube de datos es la plataforma analítica en la nube que procesa y conecta los datos de todas las fuentes y arquitecturas. Para obtener el máximo valor de sus datos, lo más importante es la capacidad de escalar su motor analítico y sus capacidades en toda la organización, permitiendo a los equipos más allá de los científicos de datos acceder, consultar y transformar los datos en ideas".
Unirlo todo
En este punto, el CEO y el CFO pueden estar buscando un botón fácil de apretar, así que les recuerdo la artesanía necesaria en las cosas más simples. "Para hacer una gran barra de pan, se necesitan cinco ingredientes: harina, agua, levadura, sal y azúcar, en las proporciones adecuadas, elaborados con las técnicas apropiadas, cocidos durante el tiempo correcto y presentados con elegancia para la experiencia deseada".
Cualquiera que haya intentado alguna vez hacer pan sabe lo difícil que es hornear una gran hogaza de forma consistente. Los libros de pan tienen cientos de recetas, y las técnicas siguen evolucionando.
Almacenar, gestionar, integrar, gobernar y utilizar datos parece sencillo, pero se necesitan los ingredientes, las herramientas y las prácticas adecuadas para potenciar la organización basada en datos.
Basado en el artículo de Isaac Sacolick (InfoWorld) y editado por CIO Perú