Llegamos a ustedes gracias a:



Reportajes y análisis

Big data: Cambiando el paisaje de la base de datos

De NoSQL a NewSQL a 'álgebra de datos' y más

[18/12/2015] Mencione la palabra "base de datos", y la mayoría de la gente piensa en los venerables IRDBMS que han dominado el paisaje durante más de 30 años. Eso, sin embargo, podría cambiar próximamente.

Toda una cosecha de nuevos contendientes compite ahora por un pedazo de este mercado empresarial clave, y si bien sus enfoques son diversos, la mayoría comparte una cosa en común: un enfoque agudo en big data.

Gran parte de lo que está impulsando esta nueva proliferación de alternativas es lo que se conoce comúnmente como las "tres de V" subyacente en big data: volumen, velocidad y variedad.

En esencia, los datos de hoy están llegando a nosotros más rápido -y en mayor volumen- que nunca; también son más diversos. En otras palabras, es un nuevo mundo de datos y los sistemas de gestión de bases de datos relacionales tradicionales no fueron realmente diseñados para ello.

"Básicamente, no pueden escalar a big data, o a datos rápidos y diversos", señala Gregory Piatetsky-Shapiro, presidente de KDnuggets, una consultora de análisis y datos científicos.

Eso es lo que Harte Hanks encontró recientemente. Hasta el 2013 más o menos, la agencia de servicios de marketing estaba usando una combinación de diferentes bases de datos incluyendo Microsoft SQL Server y Oracle Real Application Clusters (RAC).

"Notamos que, con el crecimiento de los datos en el tiempo, nuestros sistemas no podían procesar la información lo suficientemente rápido", anota Sean Iannuzzi, director de tecnología y desarrollo de la compañía. "Si continúa comprando servidores, solo puede seguir hacia adelante por el momento. Queríamos asegurarnos de que teníamos una plataforma que podría escalar hacia el exterior".

Minimizar las interrupciones fue un objetivo clave, anota Iannuzzi, por lo que "no podíamos cambiarnos a Hadoop".

En su lugar, optó por Splice Machine, que esencialmente coloca una base de datos SQL completa en la parte superior de la popular plataforma de big data de Hadoop, y permite que las aplicaciones existentes se conecten con ella, comenta.

Harte Hanks se encuentra ahora en las primeras etapas de implementación, pero ya está viendo los beneficios, añade Iannuzzi, incluyendo la mejora de la tolerancia a fallas, alta disponibilidad, redundancia, estabilidad y "mejoras de rendimiento en general".

Hay una especie de tormenta perfecta impulsando la aparición de nuevas tecnologías de bases de datos, indica Carl Olofson, vicepresidente de investigación de IDC.

En primer lugar, "el equipo que estamos utilizando es capaz de manejar grandes colecciones de datos con mayor flexibilidad y más rápido que en el pasado", señala Olofson.

En los viejos tiempos, tales colecciones "prácticamente tuvieron que ser puestas en discos", y los datos tuvieron que ser estructurados de una manera particular, explica.

Ahora hay 64 bits de direccionamiento, por lo que es posible crear espacios más grandes de memoria, así como redes mucho más rápidas y la capacidad de afinar varios equipos juntos para que actúen como grandes bases de datos individuales.

"Esas cosas han abierto posibilidades que no estaban disponibles antes", agrega Olofson.

Las cargas de trabajo, por su parte, también han cambiado. Mientras que hace 10 años los sitios web eran en gran parte estáticos; hoy en día tenemos entornos de servicios web en vivo y experiencias de compras interactivas. Eso, a su vez, exige nuevos niveles de escalabilidad, indica el ejecutivo.

Las empresas también están utilizando los datos de nuevas formas. Mientras que tradicionalmente la mayor parte de nuestra atención se centraba en el procesamiento de transacciones -grabar cuánto vendimos, por ejemplo, y almacenar los datos en el lugar para que puedan ser analizados- hoy estamos haciendo mucho más.

La administración del estado de la aplicación es un ejemplo.

Digamos que está jugando un juego en línea. La tecnología debe registrar cada sesión que tiene con el sistema y conectarlas entre sí para presentar una experiencia continua, incluso si cambia de dispositivo, o los diversos movimientos que realice, son procesados por diferentes servidores, explica Olofson.

Esos datos se deben hacer persistente para que las empresas puedan analizar preguntas como "¿por qué nadie cruza la sala de cristal", por ejemplo. En un contexto de compras en línea, una contraparte podría ser ¿por qué más personas no están comprando una determinada marca de zapato, después de hacer clic en las opciones de color?

"Antes no estábamos tratando de resolver esos problemas, o -si lo estábamos- tratábamos de sacarlos de una caja en la que no cabían", indica Olofson.

Hadoop es un peso pesado entre los nuevos contendientes de hoy. Aunque no es una base de datos en sí, ha crecido para llenar un papel clave para las empresas que abordan big data. Esencialmente, Hadoop es una plataforma centrada en los datos para ejecutar aplicaciones altamente 'paralelizadas', y es muy escalable.

Al permitir que las empresas escalen "fuera" en forma distribuida en lugar de escalar "arriba" a través de costosos servidores adicionales, "es posible reunir una colección grande de datos y luego ver lo que tiene, de una forma barata", señala Olofson.

Entre otras nuevas alternativas RDBMS está la familia de ofertas NoSQL, incluyendo MongoDB -actualmente el cuarto sistema de gestión de base de datos más popular, según DB-Motores- y MarkLogic.

"Relacional ha sido una gran tecnología durante 30 años, pero fue construida en una época diferente con diferentes limitaciones tecnológicas y diferentes necesidades del mercado", señala Joe Pasqua, vicepresidente ejecutivo de productos MarkLogic.

Big data no es homogéneo, añade, sin embargo, en muchas de las tecnologías tradicionales, sigue siendo un requisito fundamental.

"Imagine que el único programa que tenía en su computadora portátil era Excel", comenta Pasqua. "Imagine que desea hacer un seguimiento de la red de amigos -o está escribiendo un contrato: Eso no encaja en filas y columnas".

Combinar los conjuntos de datos puede ser particularmente difícil.

"Relacional dice que antes de juntar todos esos conjuntos de datos, tiene que decidir cómo va a alinear todas las columnas", añade. "Podemos tomar cualquier formato o estructura y comenzar a usarla de inmediato".

Las bases de datos NoSQL no utilizan un modelo de datos relacional, y por lo general no tienen interfaz SQL. Mientras que muchas tiendas NoSQL comprometen la coherencia en favor de la velocidad y otros factores, MarkLogic lanza su propia oferta como una opción más consistente a medida de las empresas.

Hay un crecimiento considerable para el mercado NoSQL, según Market Research Media, pero no todo el mundo piensa que sea el enfoque correcto -por lo menos, no en todos los casos.

Los sistemas NoSQL "resuelven muchos problemas con su arquitectura escalable, pero sacaron SQL", comenta Monte Zweben, CEO de Splice Machine. Eso, a su vez, plantea un problema para el código existente.

Splice Machine es un ejemplo de una clase diferente de alternativas conocidas como NewSQL -otra categoría que espera un fuerte crecimiento en los próximos años.

"Nuestra filosofía es mantener SQL, pero agregando la arquitectura escalable", añade Zweben. "Es hora de algo nuevo, pero estamos tratando de hacerlo de tal modo que la gente no tenga que volver a escribir sus cosas".

Deep Information Sciences también ha optado por seguir con SQL, pero aún necesita un nuevo enfoque.

La base de datos DeepSQL de la compañía utiliza la misma interfaz de programación de aplicaciones (API) y el modelo relacional de MySQL, lo que significa que no se requieren cambios en las aplicaciones con el fin de usarla. Pero aborda los datos de una manera diferente, utilizando el aprendizaje automático.

DeepSQL puede adaptarse automáticamente a huéspedes físicos, virtuales o en la nube utilizando cualquier combinación de carga de trabajo, según la compañía, eliminando así la necesidad de una optimización de bases de datos manual.

Entre los resultados está un considerable incremento del rendimiento, así como la capacidad de escalar "en los cientos de miles de millones de filas", señala Chad Jones, director de estrategia de la compañía.

Un enfoque completamente diferente viene de Algebraix Data, que dice que ha desarrollado la primera fundación de verdad matemática para los datos.

Mientras que el hardware se modela matemáticamente antes de que sea construido, ese no es el caso con el software, señala el CEO de Algebraix, Carlos Silver.

"El software, y en especial los datos, nunca se han construido sobre una base matemática", añade. "EL software ha sido en gran parte una cuestión de lingüística."

Tras cinco años de investigación y desarrollo, Algebraix ha creado lo que llama una "álgebra de los datos" que se nutre de la teoría matemática de "un lenguaje universal de los datos", agrega Silver.

"El pequeño y sucio secreto de big data es que los datos todavía se asientan en pequeños silos que no encajan con otros datos", explica Silver. "Hemos demostrado que todo se puede representar matemáticamente, por lo que todo se integra".

Equipado con una plataforma construida sobre ese fundamento, Algebraix ahora ofrece analíticas como un servicio para las empresas comerciales. La mejora del rendimiento, la capacidad y la velocidad están entre los beneficios que promete Algebraix.

El tiempo dirá qué nuevos contendientes tienen éxito y cuáles no, pero mientras tanto, los líderes de toda la vida, como Oracle, no están precisamente de pie.

"El software es una industria muy a la moda", señala Andrew Mendelsohn, vicepresidente ejecutivo de Oracle Database Server Technologies. "Las cosas a menudo van de lo popular a lo impopular, y vuelven a lo popular otra vez".

Muchos de los emprendimientos actuales están "trayendo de vuelta el mismo equipo viejo con un poco de pintura encima", señala. "Es una nueva generación de niños que salen de la escuela y reinventan las cosas".

SQL es "el único lenguaje que permite a los analistas de negocio hacer preguntas y obtener respuestas -no tienen que ser los programadores", anota Mendelsohn. "El gran mercado será siempre relacional".

En cuanto a los nuevos tipos de datos, los productos de base de datos relacionales evolucionaron para apoyar nuevamente los datos no estructurados en la década de 1990, anota. En el 2013, la base de datos del mismo nombre de Oracle, ha añadido soporte para JSON (JavaScript Object Notation) en la versión 12c.

En lugar de necesitar un tipo diferente de base de datos, es más un cambio en el modelo de negocio que impulsa el cambio en la industria, agrega Mendelsohn.

"La nube es el lugar a donde todo el mundo va, y va a alterar estos pequeños muchachos", indica. "Los grandes ya están todos en la nube, así que ¿dónde habrá espacio para estos pequeños?

"¿Irán a la nube de Amazon y competirán con Amazon?" añade. "Eso va a ser difícil".

Oracle tiene "el más amplio espectro de servicios en la nube", anota Mendelsohn. "Nos sentimos bien sobre dónde estamos posicionados en la actualidad".

Rick Greenwald, director de investigación de Gartner, se inclina a tomar un punto de vista similar.

"Las alternativas más nuevas no son tan completamente funcionales y robustas como las IRDBMSes tradicionales", indica Greenwald. "Algunos casos de uso se pueden abordar con los nuevos contendientes, pero no todos, y menos con una tecnología".

De cara al futuro, Greenwald espera que los proveedores tradicionales de IRDBMS sientan cada vez mayor presión sobre los precios, y le añadan nuevas funcionalidades a sus productos. "Algunos traerán nuevos contendientes libremente a su ecosistema global de gestión de datos", anota.

En cuanto a los nuevos chicos, unos pocos sobrevivirán, predijo, pero "muchos serán o bien adquiridos o se quedarán sin financiación".

"Las nuevas tecnologías de hoy en día no representan el final de las IRDBMSes tradicionales, que están evolucionando rápidamente", agrega Olofson de IDC. "IRDBMS es necesario para los datos bien definidos -siempre habrá un papel para eso".

Pero también habrá un papel para algunos de los contendientes más nuevos, añade, sobre todo porque la Internet de las cosas y las tecnologías emergentes, como el módulo de memoria no volátil dual en línea (NVDIMM, por sus siglas en inglés) se afianzarán.

Habrá numerosos problemas que requieren numerosas soluciones, añade Olofson. "Hay muchas cosas interesantes para todos".