Llegamos a ustedes gracias a:



Reportajes y análisis

Almacenamiento y big data

[01/11/2013] Big data no es nada nuevo para Quicken Loans. El mayor prestamista hipotecario minorista en línea del país está acostumbrado a almacenar y analizar los datos de más de 1,5 millones de clientes y préstamos para la vivienda por un valor de 70 mil millones de dólares en el 2012.
Pero el paisaje de big data se puso un poco más interesante para la compañía, con sede en Detroit, hace unos tres años.
"Empezamos a centrarnos en los datos derivados de las grandes redes sociales -Twitter, Facebook, rastreo web, chats web"- una enorme cantidad de datos no estructurados, explica la CIO, Linglong He. "Cómo almacenar esos datos es importante porque tiene un impacto en la estrategia -no solo en la estrategia de arquitectura y almacenamiento, sino también en cómo sincronizar aquello con los datos estructurados-, y en hacerlos más impactantes para la empresa", comenta la ejecutiva.
Quicken Loans ya tenía una estrategia de escalabilidad horizontal mediante una red de área de almacenamiento centralizada para administrar el crecimiento. Pero necesitaba más para el almacenamiento de big data -no solo el espacio de almacenamiento escalable, sino calcular la energía acerca de dónde residen los datos. La solución: los nodos de escalado en un marco de Hadoop.
"Podemos aprovechar los nodos individuales, servidores, CPU, la memoria y la memoria RAM, por lo que es muy rápido para los cálculos", dice, "y desde el punto de vista de los costos, el rendimiento y el crecimiento, son mucho más impactantes para nosotros".
Haga a un lado a los gigantes del almacenamiento, y pase a un nuevo paradigma en cuanto al almacenamiento de big data -donde el almacenamiento es más barato y la potencia de cómputo y el poder de almacenamiento van de la mano.
Datos a la velocidad de la luz
Cuando se trata de grandes volúmenes de datos, "el almacenamiento ya no es considerado como un silo monolítico que es propietario y de naturaleza cerrada", señala Ashish Nadkarni, analista de IDC. "Muchos de estos sistemas de almacenamiento están siendo desplegados utilizando servidores con unidades internas. En modelos como Google o Facebook donde el almacenamiento se implementa utilizando las unidades internas de los servidores, algunos servidores tienen un máximo de 48 unidades en ellos, y la propia plataforma de almacenamiento funciona en base a software. Todo se hace con sistemas operativos de propósito general con un núcleo de software escrito en la parte superior del mismo".
De hecho, en la era del big data, las empresas están reuniendo información a una velocidad vertiginosa y las estrategias tradicionales de almacenamiento no pueden mantener el ritmo.
Los datos almacenados están creciendo en 35% al año, de acuerdo con Aberdeen Group. Eso significa que los departamentos de TI tienen que duplicar su capacidad de almacenamiento cada 24 a 30 meses. "Hoy en día, un promedio de 13% del dinero de los presupuestos de TI se gasta en almacenamiento", señala el analista de Aberdeen Dick Csaplar. "Dos años y medio a partir de ahora, será el 26%, y el 52%. Muy pronto, esto se ajustará, por lo que no puede seguir haciendo las mismas cosas una y otra vez". Y si bien es cierto que los costos de almacenamiento están disminuyendo, afirma que no están disminuyendo con la suficiente rapidez para compensar la necesidad de gastar más en almacenamiento a medida que crece la cantidad de datos.
La avalancha de datos no estructurados también sigue creciendo. "El gran desafío, que todo el mundo está tratando de resolver son los datos no estructurados que se salen de documentos a los que no habría esperado tener que extraerle la información", comenta Vince Campisi, CIO de GE Software, una unidad lanzada en el 2011 que conecta máquinas, big data y personas para facilitar el análisis de los datos. "Los principios tradicionales de BI en concepto y forma siguen vigentes, pero la intensidad de la cantidad de información que llega es mucho mayor que las transacciones diarias en los sistemas de gestión de su negocio".
¿Cómo se construye una estrategia de almacenamiento de datos en la era de big data, escala su arquitectura de almacenamiento para mantener el ritmo de los datos y el crecimiento del negocio, y se mantienen los costos de almacenamiento bajo control? Averígüelo de los veteranos de big data que comparten sus sagas de almacenamiento y explican cómo han reinventado sus estrategias en este campo.
El almacenamiento lover-end hace el truco
En una estrecha contienda política, los datos pueden marcar la diferencia. Pregúntele a la gente de Catalist, una consultora política con sede en Washington. Catalist almacena y hace minería de datos con 190 millones de votantes registrados y 90 millones de votantes no registrados -incluyendo casi mil millones de "observaciones" de la gente sobre la base de los registros públicos como las transacciones de bienes raíces o solicitudes de informes de crédito. La información generada a partir de sus herramientas de análisis le dice a los organizadores de la campaña qué puertas tocar, e incluso puede solicitarle a los candidatos que cambien sus estrategias electorales durante la noche.
"Solíamos tener un gran sistema de almacenamiento EMC que retiramos un tiempo atrás solo porque era muy caro y consumía mucha energía", comenta el CTO de Catalist Jeff Crigler, señalando que el sistema de EMC también se quedó sin espacio. Así que la firma construyó un clúster de servidores NAS que alberga, cada una, un petabyte de datos. "Básicamente se trata de una gran caja de discos con un procesador que es lo suficientemente inteligente como para actuar como una solución tipo EMC" con las unidades de disco de alta densidad, algunos software de configuración "lujosa" y unas CPU muy modestas para ejecutar el software de configuración.
Csaplar ve una tendencia cada vez mayor de alejarse de las costosas cajas de almacenamiento que pueden costar más de 100 mil dólares, y de acercarse a los servidores de menor costo que ahora son capaces de hacer más trabajo. "A medida que los servidores agregan más capacidad", señala, "se apoderan de algunos de los trabajos que solían hacer los aparatos especializados". Es similar a la forma en que el networking se ha desarrollado desde hubs conectados a la red hasta una tarjeta NIC en la parte posterior del servidor para la funcionalidad que reside en el silicio como parte de la CPU, añade.
"Creo que el almacenamiento también se está moviendo hacia esto", agrega Csaplar. En lugar de comprar costosas y grandes matrices de almacenamiento, anota, las empresas están tomando el enfoque JBOD (solo varios discos por sus siglas en inglés) -el uso de dispositivos no inteligentes para el almacenamiento y el uso de la capacidad de cómputo de los servidores para su gestión. "Esto reduce el costo total de la memoria, y en realidad no pierde ninguna funcionalidad -o tal vez hace el 80% del trabajo con el 20% del costo", señala.
Catalist reemplazó sus cajas de "100 mil dólares y más" con cuatro unidades de almacenamiento NAS a un costo de 40 mil dólares. "Hemos cuadruplicado nuestra capacidad a cerca de 10 mil dólares cada uno", señala Crigler. "Eso fue hace un año y medio", y el costo de almacenamiento ha seguido disminuyendo.
Csaplar anota que espera ver más sistemas de almacenamiento de gama baja en el mercado a medida que más organizaciones consideren que éstos cumplen con sus necesidades. Grandes fabricantes como EMC han estado comprando pequeñas empresas de almacenamiento, añade.
La brecha de almacenamiento y procesamiento
Las herramientas de análisis del flujo de datos de trabajo están permitiendo que los datos almacenados se sienten aún más cerca a las herramientas de análisis, mientras que sus capacidades de compresión de archivos mantienen las necesidades de almacenamiento bajo control. Los proveedores como la unidad Vertica de Hewlett-Packard, por ejemplo, tienen la funcionalidad interna de análisis de datos que les permite a las empresas llevar a cabo análisis de cálculos sin necesidad de extraer información de un entorno separado para su procesamiento. La unidad Greenplum de EMC ofrece características similares. Ambas son parte de una nueva generación de bases de datos en columnas que están diseñadas para ofrecer un rendimiento, I/O, espacio de almacenamiento y eficiencia de bases de datos significativamente mejores que las bases de datos basadas en fila cuando se trata de cargas de trabajo analíticas. (En abril Greenplum se convirtió en parte de Pivotal Labs, la compañía de plataforma como servicio que EMC adquirió en marzo).
Catalist optó por una base de datos Vertica específicamente para esas funciones, señala Crigler. Debido a que la base de datos es de columnas en vez de estar basada en filas, se ve la cardinalidad de los datos de la columna y se puede comprimir en base a ello. La cardinalidad describe la relación de una tabla de datos con otra, comparando una con muchas, o muchas con muchas.
"En la base de datos tenemos una columna que se llama 'Estado' sobre el registro de cada persona". Sin embargo, en una base de datos de 300 millones de votantes registrados, "solo aparece 50 veces en nuestra base de datos", agrega. "En los sistemas de código abierto de bases de datos relacionales basadas en filas como PostgreSQL y MySQL, aparecían 300 millones de veces. Así que si duplica el nivel de compresión sobre todo los nombres de las calles con el apellido Smith, sumado a otros algoritmos de compresión, le da un enorme ahorro en términos de espacio de almacenamiento. Así que su elección de la tecnología de base de datos realmente afecta la cantidad de almacenamiento que necesita".
En el lado del almacenamiento, la deduplicación, compresión y virtualización siguen siendo de ayuda para que las empresas reduzcan el tamaño de los archivos y la cantidad de datos que se almacenan para su posterior análisis. Y la asignación de nivel de datos es una opción bien establecida para traer los datos más críticos hacia las herramientas de análisis rápidamente.
Las unidades de estado sólido (SSD) son otro medio de almacenamiento popular para los datos que deben estar fácilmente disponibles. Básicamente, una tecnología de memoria flash que se ha convertido en la capa superior de la organización de datos, los SSD guardan los datos en un modo de respuesta muy rápido, señala Csaplar. "Los SSD contienen los datos muy cerca a los procesadores para que los servidores tengan la I/O para analizarlos rápidamente", añade. Una vez considerados demasiado caros para muchas empresas, los SSD han bajado de precio hasta el punto que "incluso las medianas empresas pueden permitirse capas de SSD entre sus discos y sus procesadores", anota Csaplar.
Crecimiento de la nube
El almacenamiento basado en la nube está desempeñando un papel cada vez más importante en las estrategias de almacenamiento de datos grandes. En sectores donde las empresas tienen operaciones en todo el mundo, como el petróleo y el gas, los datos generados por los sensores se envían y se almacenan directamente en la nube -y en muchos casos, los análisis se llevan a cabo allí.
"Si recopila datos de 10 o más fuentes, es más que probable que no lo envíe a un centro de datos", ya que no es rentable, con tantos datos, señala Nadkarni de IDC.
GE, por ejemplo, ha estado analizando los datos que están por años en los sensores de los equipos utilizando big data "máquina a máquina" para planificar el mantenimiento de las aeronaves. Campisi agrega que los datos recogidos en solo un par de horas sobre la pala de una turbina de gas de la planta de energía, pueden eclipsar la cantidad de datos que se acumulan en un sitio de redes sociales durante todo el día.
Las empresas están utilizando la nube para recoger datos y analizarlos en el lugar, eliminando la necesidad de ponerlos en el centro de datos. "Empresas como Amazon le dan una capa informática para analizar esos datos en la nube. Cuando haya terminado su análisis, puede moverlo, por ejemplo, la capa de tipo S3 a una capa de tipo glaciar", añade Nadkarni.
Glaciar es una opción de almacenamiento de muy bajo costo que Amazon Web Services anunció a principios de este año. Está diseñado para mantener los datos "en el hielo" durante décadas. Otras empresas están introduciendo servicios similares de archivo basados en la nube, anota Csaplar, señalando que estas ofertas se gestionan profesionalmente a un precio muy razonable y podrían, por ejemplo, servir como el lugar de descanso final para las cintas viejas.
Con los precios del gigabyte tan bajos como peniques, es difícil pasarlo por alto. "Mientras se escarban sus datos y no tienen ninguna información confidencial, puede volcar este tipo de archivo y reducir su huella de centro de datos", agrega Nadkarni.
Las empresas más populares también están mostrando interés en utilizar la nube para almacenar y analizar los datos. El 20% de los líderes de TI encuestados por el informe de IDC dice que han recurrido a la nube como una forma de aumentar sus capacidades de análisis, a pesar de que tienen sus propios centros de datos para realizar el análisis.
"Es sobre todo por dos razones", explica Nadkarni. "Muchas veces, estos proyectos no se llevan a cabo por TI. Segundo, por el tiempo de implementación y de entrada en funcionamiento, muchas unidades de negocio encuentran que es más fácil poner un par de casos en la nube, desde unas pocas semanas a unos pocos días".
Campisi señala que la mayoría de los clientes de sus soportes unitarios siguen almacenando y analizando los datos en las instalaciones -por ahora. "Estamos en transición a un uso cada vez mayor de la tecnología y las capacidades de la nube para apoyar nuestra estrategia. Por lo que veo de los clientes, tiende a ser más de un enfoque tradicional en el que utilizan su propio centro de datos corporativo interno", señala el ejecutivo.
Por su parte, Crigler está tratando de encontrar la manera de migrar todos los datos de Catalist a la nube. La firma ya replica su base de datos, que agrupa las identidades de los votantes, en la nube, "porque son muchos datos, y se utilizan en una base muy inestable", señala. "Cuatro o cinco meses antes de una elección, se aplasta. Así que podrá ampliar la capacidad de procesamiento y lanzar más discos y CPU, lo cual es muy importante".
También está tratando de llegar a una estrategia que consiga el mejor rendimiento por el dinero, dada la demanda de este tipo de datos y la necesidad de hacer consultas analíticas con datos históricos.
"Es un gran reto", señala Crigler. Por ejemplo, "la tienda Elastic Block de Amazon es lenta, y S3 aún más lenta, la mejor opción es la más cara, que es el almacenamiento dedicado adjunto en las grandes cajas de Amazon. Y eso es muy caro. Así que deberá tener una forma de analizar los datos y calcular la curva de precio-rendimiento para los diferentes tipos y edades de los datos, y optimizar su almacenamiento en función de sus necesidades reales".
Aunque muchas compañías todavía están lidiando con las primeras etapas de sus estrategias de almacenamiento de big data, no pasará mucho tiempo antes de que los entornos informáticos a hiperescala, como los de Google y Facebook, se vuelvan más frecuentes.
"Está pasando", señala Nadkarni. "Todo este diseño de almacenamiento basado en servidor es un resultado directo de las prácticas del departamento seguido de Amazon, Facebook, Google" y similares.
En Silicon Valley, las empresas nuevas están ofreciendo sistemas de almacenamiento de big data basados en los principios de esas empresas. Nadkarni señaló en la reciente conferencia de virtualización de VMware. VMworld, que "hubieron por lo menos una docena de empresas con fundadores que solían estar en Google y Facebook".
Por razones legales, las nuevas empresas no pueden replicar exactamente la magia de sus ex empleadores, "pero los principios están bien arraigados en Silicon Valley", anota Nadkarni. "Dentro de unos años verá que este principio de hiperescala abrirá su camino hacia la corriente principal de la empresa, porque no habrá otra manera de hacerlo".
Stacy Collett, Computerworld (EE.UU.)