Llegamos a ustedes gracias a:



Reportajes y análisis

Grandes datos: Cómo implementar infraestructura de almacenamiento

De próxima generación

[01/05/2012] Todo el mundo está hablando del análisis de los grandes datos y las maravillas de la inteligencia de negocios, pero antes de que las organizaciones sean capaces de aprovechar los datos, van a tener que encontrar la manera de almacenarlos. La gestión de grandes almacenes de datos -en la escala de petabytes y más grandes- es fundamentalmente diferente de la gestión tradicional de conjuntos de datos a gran escala. Pregúntele a Shutterfly.
Shutterfly es un sitio de fotos en línea que se diferencia por permitir a los usuarios almacenar un número ilimitado de imágenes que se guardan en la resolución original, sin degradarlas. También dice que nunca elimina una foto.
"Nuestro archivo de imágenes está cerca de los 30 petabytes de datos", señala Neil Day, el vicepresidente senior y director de tecnología de Shutterfly. Y añade: "Nuestro almacenamiento crece más rápido que nuestra base de clientes. Cuando adquirimos un cliente, lo primero que hace es subir muchas fotos a nuestro sitio. Y luego, cuando se enamoran de nosotros, lo primero que hacen es subir muchas fotos adicionales".
Para tener una idea de la magnitud de la que estamos hablando, un petabyte es equivalente a un millón de terabytes o mil millones de gigabytes. El archivo de los primeros 20 años de observaciones del telecopio espacial de la NASA, Hubble, ocupa poco más de 45 terabytes de datos, y un terabyte de audio comprimido grabado a 128 kB/s que contiene alrededor de 17 mil horas de audio.
Las infraestructuras de petabytes son diferentes
"Las infraestructuras de escala de petabytes son un juego completamente diferente", señala Day. "Son muy difíciles de construir y mantener. La carga administrativa de una infraestructura de petabytes o multi petabytes están a solo una noche y un día de diferencia de los tradicionales grandes conjuntos de datos. Es como la diferencia entre tratar con los datos en su computadora portátil y los datos en una matriz RAID".
Cuando Day se unió a Shutterfly en el 2009, el almacenamiento ya se había convertido en uno de los grandes gastadores de la empresa, y estaba creciendo a un ritmo rápido -no solo en términos de capacidad bruta, sino en términos de dotación de personal.
"Cada n petabytes de almacenamiento adicional significaba que necesitaba otro administrador de almacenamiento para apoyar la infraestructura física y lógica", añade Day. Con estos almacenes de datos masivos, indica, "las cosas se rompen con mucha más frecuencia. Cualquiera que administre un archivo muy grande está lidiando con fallas de hardware en forma permanente. El problema fundamental que todo el mundo está tratando de resolver es, sabiendo que una fracción de su unidades va a fallar en cualquier intervalo dado, ¿cómo asegurarse de que sus datos permanecerán disponibles y el rendimiento no se degradará?"
Escalar RAID es problemático
La respuesta común a la conmutación por error es la replicación, por lo general en forma de matrices RAID. Sin embargo, a escalas masivas, RAID puede crear más problemas que soluciones, señala Day. En un esquema tradicional de almacenamiento de datos RAID, las copias de cada pieza de datos se reflejan y se almacenan en los distintos discos de la matriz, lo que garantiza la integridad y disponibilidad. Pero eso significa que una sola pieza de los datos almacenados y su reflejo puede inflar a exigir más de cinco veces su tamaño en el almacenamiento. A medida que las unidades utilizadas en las matrices RAID se hacen más grandes -tres unidades de un terabyte son muy atractivas desde una perspectiva de densidad y consumo de energía- el tiempo que toma para conseguir un remplazo de una unidad que ha fallado, y hacerla funcionar igual, se vuelve más y más largo.
"En realidad no tenemos problemas de funcionamiento con RAID", señala Day. "Lo que estábamos viendo era que a medida que los tamaños de unidad se hacían más y más grandes, el tiempo para volver a un sistema totalmente redundante cuando había cualquier falla de un componente iba a aumentar. La generación de paridad es proporcional al tamaño del conjunto de datos que está generando para él. Lo que estábamos observando a medida que comenzamos a utilizar unidades de uno y dos terabytes en nuestra infraestructura, era que el tiempo para volver a la redundancia completa se estaba haciendo muy largo. La tendencia no se dirigía hacia la dirección correcta".
La fiabilidad y la disponibilidad son de misión crítica para Shutterfly, lo que sugiere la necesidad de almacenamiento de clase empresarial. Sin embargo, su creciente costo de almacenamiento hacía que los sistemas básicos fueran mucho más atractivos, agrega Day. A medida que Day y su equipo investigaron las soluciones técnicas posibles para tener los costos de almacenamiento de Shutterfly bajo control, se interesaron en una tecnología conocida como códigos de borrado.
 
Almacenamiento de última generación con los códigos de borrado
Los códigos de borrado de Reed-Solomon fueron utilizados originalmente como códigos de corrección de errores (FEC) para el envío de datos a través de un canal fiable, al igual que las transmisiones de datos desde las sondas de espacio profundo. La tecnología también se utiliza con los CD y DVD para manejar las deficiencias en el disco, como el polvo y los arañazos. Sin embargo, varios proveedores de almacenamiento han comenzado a incorporar los códigos de borrado en sus soluciones. Al usar los códigos de borrado, una pieza de información puede estar dividida en varios fragmentos -cada una de ellas inútil por su propia cuenta- y luego dispersarse por distintas unidades de disco o servidores. En cualquier momento, los datos pueden ser completamente ensamblados con una fracción de los trozos, incluso si se han perdido múltiples trozos debido a las fallas. En otras palabras, no necesita crear múltiples copias de datos; un solo ejemplo puede garantizar la integridad y disponibilidad de datos.
Uno de los proveedores iniciales de una solución basada en códigos de borrado es Cleversafe, que ha añadido información sobre la ubicación para crear lo que denomina la dispersión de la codificación, con el fin de que los usuarios puedan almacenar trozos o rodajas, como sea que los llame, en sitios separados geográficamente, como múltiples centros de datos.
Cada rebanada es matemáticamente inútil por sí misma, por lo que es privada y segura. Debido a que la tecnología de dispersión de la información utiliza una única instancia de los datos con una expansión mínima para garantizar la integridad y disponibilidad de datos -en lugar de múltiples copias como con RAID- Cleversafe dice que las empresas pueden ahorrar hasta un 90% de sus costos de almacenamiento.
"Cuando las va a juntar de nuevo, no necesita tener cada pieza", señala Russ Kennedy, vicepresidente de estrategia de producto, marketing y soluciones de clientes de Cleversafe. "El número de piezas que genera, lo llamamos el ancho. Llamamos al número mínimo que necesita para juntarlas de nuevo. La diferencia entre el número de piezas que crea y el número mínimo requerido para ponerlas juntas de nuevo, es lo que determina su confiabilidad. Al mismo tiempo, puede perder los nodos y las unidades, y todavía puede recuperar los datos en su forma original. La cantidad más alta de confiabilidad que puede conseguir con RAID es de paridad dual. Puede perder dos unidades. Eso es todo. Con nuestra solución, puede perder hasta seis".
Los códigos de borrado son también una tecnología basada en software, lo que significa que se puede utilizar con productos de hardware, reduciendo el costo de ampliar aún más.
La construcción de infraestructura de almacenamiento de próxima generación
"Una vez identificada la tecnología adecuada, vimos a un número de diferentes proveedores que ofrecían soluciones en ese espacio", señala Day. "Buscábamos construirla nosotros mismos. Pero sentimos que si podíamos encontrar una compañía que fuera cercana a nuestras necesidades, con un sistema probado de manera razonable, sería un método mucho mejor para nosotros".
Shutterfly trajo cuatro vendedores a su laboratorio para evaluarlos y construir prototipos del dispositivo de almacenamiento que quería para su centro de datos. Day comenta que estaba buscando rendimiento, la disponibilidad de la tolerancia a fallas y capacidad de administración.
"Tenemos un personal que no hace más que administrar nuestro archivo de imágenes", explica. "Una de las grandes preocupaciones en el año 2010 fue el crecimiento que estábamos viendo en nuestro archivo de imágenes. Teníamos que hacer crecer nuestro personal con el crecimiento de nuestro archivo de imágenes, y eso no era muy atractivo".
Day añade que Cleversafe surgió como la mejor opción para Shutterfly, sobre todo en base a la voluntad de la compañía por trabajar con Shutterfly, y adaptar su solución a las necesidades de Shutterfly. Las dos compañías comenzaron a ir a través de una serie de pruebas progresivas de concepto, incluyendo pruebas de carga y rendimiento en el laboratorio de Shutterfly. Después de que Shutterfly se sintió cómoda con las características de funcionamiento y rendimiento, colocó una infraestructura de almacenamiento paralela en la producción, dirigiendo una copia de todo el tráfico de Shutterfly hacia ella.
"Cada imagen que entraba por la puerta era escrita para nuestra infraestructura pre existente y para la infraestructura Cleversafe", señala Day. "La ejecutamos por seis meses, incluyendo días festivos".
Las vacaciones son la temporada alta de Shutterfly, cuando muchos de sus clientes crean álbumes de fotos.
Shutterfly trajo la solución de almacenamiento de Cleversafe en plena producción a su archivo de imágenes en el 2011, y la ha estado utilizando como repositorio principal de imágenes desde entonces.
El costo total del almacenamiento basado en códigos de borrado
"Básicamente es una solución de software, lo que nos permite implementar en hardware muy, muy rentable", señala Day. "Eso cambia todo el panorama de un costo total desde la perspectiva de la propiedad para nosotros. Tenemos una mayor flexibilidad frente a los proveedores de hardware, y podemos garantizar que estamos recibiendo el mejor precio posible en las unidades y la infraestructura que las soporta".
La administración del conjunto de almacenamiento también se ha simplificado en gran medida, añade Day.
"Básicamente podemos simplemente añadir otro ladrillo de almacenamiento y automáticamente se agrega a cualquier grupo que se le designe", agrega. "Anteriormente, teníamos que hacer algo de gimnasia administrativa cada vez que añadíamos almacenamiento adicional".
Además, ahora, cuando una unidad falla o se desconecta, la infraestructura de almacenamiento de Shutterfly es capaz de marcarla como no disponible y desviar los datos mientras recupera los datos en esa unidad de manera transparente. En lugar de una situación de "manos a la obra" en la que una unidad o un estante fallan, Day señala que ahora su equipo simplemente toma nota de la falla y remplaza la infraestructura afectada en un programa de mantenimiento programado.
"Ha permitido que nuestro personal no crezca tan pronto como antes", comenta. "Todavía crece, pero a un ritmo mucho más lento de lo que pasaba con la anterior generación de equipos. La carga de trabajo de mantenimiento diario se ha reducido. Los administradores tienen la oportunidad de pasar más tiempo en interesantes proyectos proactivos. Sus cargas de trabajo han pasado a lo que yo llamaría trabajo aditivo. Es bueno desde una perspectiva de crecimiento y una perspectiva de contenido del trabajo".
Si la guarda, la idea vendrá
Mientras Shutterfly es una empresa de Internet que se ocupa de grandes volúmenes de datos que hacen que los datos a los que se enfrentan la mayoría de las empresas de hoy se vean pequeños, las compañías de todo tipo están almacenando cantidades cada vez mayores de datos.
"El tamaño de nuestro archivo dentro de cinco años se va a ver muy vulgar, aunque todavía dispondremos de magnitudes mayores al promedio", señala. "Una de las cosas interesantes en la actualidad es que en los últimos cinco o cuatro años se han visto muchas aplicaciones y tecnologías que ingresaron al mercado diciendo ser capaces de hacerle frente a las grandes bases de datos. Son muy interesantes ya que permiten que las empresas obtengan la mejor comprensión de su negocio mirando los datos más granulares".
"Ese es un paso positivo en la industria", agrega Day. "Estamos apenas en las primeras etapas de lo que entrará en juego. Otro factor que es muy interesante es que a medida que las empresas utilizan más interacciones de tiempo real con los clientes, en línea, o con los dispositivos móviles, también están generando enormes cantidades de datos. Ahora es posible analizar esos datos para conocer el real impacto del negocio. Pero todo eso depende de la capacidad de almacenar grandes cantidades de datos y hacerlo de forma confiable".
Thor Olavsrud, CIO.com