Llegamos a ustedes gracias a:



Reportajes y análisis

Nuevas tecnologías de almacenamiento

Hacen frente a la avalancha de datos

[08/04/2013] Douglas Soltesz, vicepresidente y CIO de Budd Van Lines, se enfrenta a un problema común: un flujo aparentemente interminable de datos. "Si me diera una cantidad infinita de almacenamiento, podría llenarla", señala. Los últimos cuatro meses de vigilancia con video de alta definición en las oficinas de la empresa y los almacenes, ahora consume 60TB en sus plataformas NAS y SAN de Nexenta Stor. El video es una de las razones por las que sus necesidades de almacenamiento están creciendo 50% a 80% por año.
Si él tuviera el doble de capacidad, agrega, sus usuarios solo pedirían mantener su video el doble de tiempo.
Con las actuales tecnologías de discos duros que terminan su carrera de diez años con cada vez mayores densidades, los departamentos de TI están a la espera de las nuevas tecnologías como la grabación magnética de placas (RM) y la memoria de cambio de fase (PCM) para aumentar la densidad del almacenamiento. Mientras tanto, se están manteniendo los costos bajos -y el fomento del acceso de datos- con el software que virtualiza, deduplica y hace caché de datos en unidades de disco básicas, unidades de estado sólido (SSD) y memorias flash del lado del servidor.
La densidad del disco aumenta
Después de 10 años de densidades en constante aumento, los discos que utilizan grabación magnética perpendicular (PMR) están llegando a un tope de alrededor de 1TB por pulgada cuadrada, señala Mark Re, vicepresidente senior del proveedor de almacenamiento Seagate Technology.
En la segunda mitad de este año, Seagate lanzará unidades que utilizan SMR para exprimir más datos en discos, mediante la superposición de las pistas de datos como las tejas de un tejado, comenta Fang Zhang, analista de almacenamiento en IHS iSuppli. Con el tiempo, eso debería aumentar la densidad de una unidad de 1.3Tbits a 1.4Tbits por pulgada cuadrada, agrega Re, quien señala que las unidades de Seagate SRM comenzarán con factores de forma de escritorio y se extenderán a otras plataformas -como dispositivos de almacenamiento- el año próximo.
El siguiente avance, que llevará a las unidades de disco a 5Tbits por pulgada cuadrada, es grabación magnética asistida por calor (HAMR), que utiliza un pequeño láser para cambiar las propiedades magnéticas del disco, señala Re. Las primeras unidades de disco HAMR de Seagate se lanzarán en el año 2015 o 2016.
En el cuarto trimestre de este año, el rival de Seagate, Western Digital, espera lanzar discos llenos de helio, que ofrecen menos resistencia que el aire, y por lo tanto permiten la adición de otro disco de almacenamiento o dos en una unidad. Esos platos extra podrían elevar la capacidad máxima de las unidades de PMR de 4TB de hoy a 5TB o 6TB, señala Zhang. Western Digital indica que también planea lanzar unidades SMR y HAMR dentro de unos dos años, y para el final de la década se espera duplicar la densidad de disco duro mediante el uso de moléculas de auto-montaje y nanoimpresión.
En el frente de memoria flash, los fabricantes están trabajando para aumentar no solo la densidad, sino también la capacidad útil y la vida útil de la memoria flash utilizada en el servidor de almacenamiento basado en flash y discos SSD.
El flash NAND, en que se basan la mayoría de las unidades SSD flash, comenzarán a ser sustituidas hacia el 2016 por una nueva forma de memoria no volátil llamada memoria de cambio de fase, señala Milan Shetti, director de tecnologías de almacenamiento de HP. A diferencia de la grabación magnética que registra datos al cambiar la orientación magnética de una pieza física de la memoria, PCM aplica calor para cambiar la conductividad eléctrica de los medios. Las unidades PCM no son solo más rápidas que el NAND flash, sino que sus células de memoria también pueden soportar dos o tres veces el número de ciclos de lectura/escritura que el NAND flash, señala Haris Pozidis, gerente de tecnologías de memoria y exploración en el laboratorio de investigación de IBM en Zurich. Eso es importante para aplicaciones como el almacenamiento en caché, donde los datos son constantemente escritos y leídos.
Shetti predice capacidades iniciales de alrededor de 200 a 250GB, con unidades que por lo menos doblen su tamaño para el año 2018. Él hace hincapié en que todo esto será la capacidad de uso, que no es el caso en los SSD actuales, donde del 15% al 20% de la capacidad bruta se deja a un lado para reemplazar las células que se puedan desgastar. Shetti señala que espera que los precios por gigabyte sean comparables a los de las unidades flash actuales. Eso equivale a una reducción de precios entre el 15% y 20%, ya que toda la capacidad en bruto realmente será utilizable.
Deduplicación: Una característica indispensable
Durante los últimos 10 años, la deduplicación -el proceso de eliminación de datos duplicados- ha pasado de ser una novedad a ser algo indispensable.
Los observadores dicen no esperar ningún aumento en las brechas por la cantidad de datos que la deduplicación puede quitar de los discos duros. Actualmente, la deduplicación de datos reduce un factor de siete a diez. Las mejoras futuras vendrán de los aumentos en la velocidad a la que son deduplicados y de la utilización de sistemas de deduplicación estándar en toda la empresa.
Las velocidades mejorarán como resultado de la deduplicación en el hardware en lugar del software, y en la memoria no volátil como PCM, que es más rápida que la memoria flash NAND de hoy, señalan los observadores. Al predecir que "todo controlador de memoria no-volátil va a tener deduplicación incluída", Shetti también señala que, a diferencia de las unidades de disco, la deduplicación no provoca la desfragmentación en los discos de memoria no volátil.
La deduplicación in-line, en la que los datos se deduplican antes de que sean almacenados, reduce las necesidades de almacenamiento primario para copias de seguridad y réplicas. Pure Storage señala que su deduplicación in-line de datos permite que sus matrices en flash almacenen cinco o diez veces más datos que su tamaño designado.
Los observadores también esperan ver que la deduplicación se propague de su uso tradicional en copias de seguridad, hacia otras aplicaciones y hacía más dispositivos informáticos y de almacenamiento. Dell señala que planea incorporar la tecnología de deduplicación que obtuvo a través de la adquisición de Ocarina, en su línea de productos EqualLogic y Compellant", primero con la compresión de datos como fotografías...", y más tarde para los datos y archivos que se acceden con mayor frecuencia, señala Travis Vigil, director ejecutivo de marketing de los productos de almacenamiento de Dell.
Sean Kinney, director de marketing de producto de HP Storage, predijo el surgimiento de plataformas unificadas de deduplicación que las organizaciones pueden utilizar para todas sus aplicaciones y almacenamiento. Eso, dice, reducirá los costos de las licencias, capacitación y gestión, así como la cantidad de almacenamiento que una organización debe comprar.
El rendimiento alcanza la velocidad
Algunos usuarios no están mejorando sus sistemas de almacenamiento porque necesitan ayuda para manejar grandes volúmenes de datos; y también son impulsados por la necesidad de acceder a los datos rápidamente.
La universidad Case Western Reserve está moviendo 100TB de datos de los archivos de investigación desde una EMC Celerra NS480 a un ActiveStor Panasas 8 para un análisis rápido, y otro 65TB de datos estructurados administrativos a un NST Nexsan 5310. Además de un mayor rendimiento, los usuarios querían crear espacios únicos tan grandes como 600TB -muy por encima del límite de 64TB de las ofertas de EMC y NetApp, señala Brian Christian, director técnico senior de diseño en la casa de estudios.
"Nuestro primer y pequeño clúster de alto rendimiento" que utiliza un dispositivo NAS tradicional actúa como servidor de archivos de red, "y lo sobrecargamos. Después de hablar con nuestros compañeros, vimos que para crecer como queríamos, necesitábamos un NAS paralelo. Ahí es cuando adquirimos Panasas", señala Christian.
Para aumentar el rendimiento, muchos clientes están utilizando la memoria flash dentro de servidores, así como unidades de estado sólido en las matrices de almacenamiento, para almacenar datos sensibles a velocidad, antes de grabarlos en discos duros más lentos, pero menos costoso y de mayor capacidad.
Hace tres años, la disminución del rendimiento de las aplicaciones y el aumento de los costos de actualización estimularon a David Abbott, gerente de ingeniería de infraestructura de TI en TripPak Services y ACS Advertising, ambas empresas de Xerox, a buscar nuevas plataformas que podrían manejar sus nuevos 10TB de almacenamiento previstos por año "sin que la administración sufra un infarto" por el costo.
El proveedor de software como servicio para la industria del transporte está utilizando tres unidades de sistemas de almacenamiento conectadas a red (NAS) para almacenar 80TB de archivos de imagen y 45TB de datos sensibles de rendimiento para 500 imágenes de máquinas virtuales y más de 200 escritorios virtuales, en una matriz flash de Pure Storage.
Antes de pasar a la plataforma NAS/SAN Nexanta, Budd Van Lines se había basado en una SAN Compellent. Si bien no estaba llena, "se estaba quedando sin IOPS" para manejar un número creciente de consultas sobre las aplicaciones para el trabajo, como la contabilidad de fin de mes, señala. Para ofrecer ese rendimiento, la plataforma NexantaStor almacena la caché de los datos en unidades de estado sólido para un acceso más rápido, antes de escribir los datos en unidades de almacenamiento a largo plazo SCI (SAS) a 7.200 rpm.
El proveedor de NAS, NetApp, también entró en el mercado con su oferta flash EF540, la primera de una línea que aseguran combinará rendimiento de consistente de baja latencia, alta disponibilidad y protección de datos integrados, con una eficiencia de almacenamiento empresarial de características tales como la deduplicación y comprensión en línea.
Software Plus Commodity Disk
El proveedor de marketing SaaS en línea, Constant Contact es uno de los que se aleja del hardware y software propietario, y se van hacia los discos manejados por software.
"Cuando llegué hace tres años y medio, nuestra primera vía para evolucionar era comprar servidores de base de datos con más almacenamiento, más rápidos y más grandes", señala Stefan Piesche, CTO. Para reducir los costos -incluso mientras sus necesidades de almacenamiento crecen de 15% a 25% por año- se está mudando de una base de datos IBM DB2 que se ejecuta en redes SAN 3Par, hacia las bases de datos de código abierto MySQL y Cassandra, que se ejecutan en servidores Dell, discos de consumo y tarjetas flash Fusion-io.
Esta nueva plataforma, señala, no es más que un "orden de magnitud más rápido" que su almacenamiento anterior, pero ofrece un rendimiento de alta disponibilidad y recuperación ante desastres sin la necesidad de un manejo extensivo. La ganancia de rendimiento lograda por la escritura de datos a seis nodos de almacenamiento sin transferirla por la red, significa almacenar múltiples copias de los mismos datos. Sin embargo, señala Piesche, el bajo precio de los productos básicos de disco y servidores hace que valga la pena hacer el cambio.
También señala que sus clientes no van a sufrir si los datos de marketing almacenados en una de esas copias está unos pocos milisegundos fuera de fecha -aunque eso no sería cierto para un sistema de comercio financiero, donde los precios cambian constantemente.
"Sharding", o la división de bases de datos también ayuda a que Constant Contact escale fácilmente, señala. "Podemos poner un conjunto de clientes en bases de datos A, B y C, que en muchos casos son múltiples instancias de la misma base de datos con el mismo esquema. Queremos que sean idénticas en cuanto al hardware comercial, para mantener nuestros costos operativos bajos, por lo que no es necesario lanzar una nueva. Por 50 mil clientes, agregamos dos servidores de bases de datos que ejecutan MySQL", sin impacto en el rendimiento de otros usuarios, señala Piesche.
Otro proveedor en este espacio es CommVault, que asegura que su plataforma de software Simpana reduce los costos de almacenamiento hasta en 50%, la sobrecarga administrativa en hasta 80% y los costos anuales de soporte hasta en 35%, al reducir el número de copias de los datos almacenados, así como el número de compras y mantenimiento de aplicaciones relacionadas con el almacenamiento.
Sanbolic afirma que su plataforma de gestión de datos, Melio5, proporciona alta disponibilidad, amplía la solicitud usando datos compartidos de clústeres de servidores, acceso rápido a archivos de cualquier tamaño en una variedad de cargas de trabajo, y es escalable a más de dos mil nodos físicos o virtuales y hasta a 65 mil dispositivos. Su Latency Targeted Allocator (o asignador de latencia) permite que la plataforma Melio comparta flash y SSD dentro de matrices de almacenamiento, así como en discos duros convencionales, a través de nodos. Esto elimina los puntos únicos de falla y los silos de aplicaciones y datos de difícil acceso, señala el CEO y co-fundador Michailov Momchil.
Algunos nuevos proveedores empaquetan su software en forma de hardware físico con discos y procesadores. Los aparatos de almacenamiento Gridstore virtualizan controladores de almacenamiento, así como los datos para eliminar los puntos únicos de falla, y ofrecer acceso de datos más rápido y en paralelo a través de varios servidores. Esto permite que el número de controladores crezca, aprovechando el poder de computación no usado para aumentar el rendimiento, así como la capacidad. Sin embargo, actualmente solo es compatible con Windows y almacenamiento basado en archivos.
Otro enfoque basado en software para la escalabilidad distribuye "rebanadas" de datos a través de muchas bases de datos físicas. Donet Technologies de Cleversafe, que también se venden como artefactos, trabaja mejor con más de un petabyte de almacenamiento, compuesto por objetos de más de 50KB a 100KB de tamaño. Esto es ideal, señala el presidente y CEO Chris Gladwin, para aplicaciones que comparten fotos en la web.
¿Qué sigue?
A medida que los discos duros se hacen más grandes y más rápidos, flash se hace más grande y más confiable, y el almacenamiento de código abierto madura y se hace más confiable, algunos observadores de la industria ven cambios fundamentales en cómo es que las organizaciones hacen frente a la avalancha de datos.
Con la adopción de las nuevas tecnologías de memoria no volátiles, la necesidad de organizar los datos por niveles entre los discos de estado sólido y los discos giratorios disminuirá a medida que las nuevas tecnologías estén a un costo competitivo con los discos de alta gama Fibre Channel y SAS, predice Shetti. Los discos SATA de mayor capacidad y menor costo seguirán teniendo presencia, pero él señala que la complejidad de los envases y las diferentes interfases de software disuadirán a los usuarios que quieran mezclar la memoria no volátil y SATA en el mismo sistema.
Dentro de tres a cinco años, el precio de las unidades flash será igual al de los discos de alto rendimiento, señala Hu Yoshida, CTO de Hitachi Data Systems. Ya están a la par, agrega, cuando la capacidad de los discos duros se reduce (utilizando solo una parte de la capacidad del disco para acelerar el rendimiento, al reducir la distancia que deben recorrer los cabezales de lectura/escritura para llegar a los datos) y se escriben datos a través de varios discos en configuraciones RAID de protección de datos.
Incluso las unidades de discos duros básicas ganarán velocidad a medida que los vendedores les añadan más caché. Seagate espera que estas unidades "híbridas" hagan la mayor parte de su línea de productos a mediados de la década.
Los servicios de almacenamiento en la nube proporcionarán servicios lentos de archivos, pero a muy bajo costo, para reducir la carga interna de almacenamiento. Amazon Glacier, por ejemplo, cuesta tan solo un centavo de dólar por gigabyte al mes. Si bien "se podría tardar de tres a cinco horas para recuperar esos datos", también podría ser no más de lo que se necesitaría para restaurar los datos de una cinta almacenada fuera -y Glacier tendría un costo competitivo con respecto a la cinta, señala Greg Schulz, fundador de la consultora StorageIO.
"Las tiendas de objetos pueden reducir los costos de almacenamiento y la complejidad mediante la eliminación de la necesidad por los sistemas de archivos jerárquicos", señala Gladwin. "En un sistema de almacenamiento de datos muy grande, ejecutar un sistema de archivos requiere bastidores adicionales de servidores" que consumen energía, ocupan espacio y cuestan dinero. Con un almacén de objetos, agrega, una aplicación como un sitio web de medios sociales permite que un usuario busque amigos sin necesidad de utilizar un sistema de archivos.
Mientras tanto, los departamentos de TI siguen siendo atraídos por la combinación de eficiencia de costos de la nube, hardware de bajo costo y software de código abierto.
Constant Contact, por ejemplo, está considerando "nubes de almacenamiento privado", que posiblemente utilizan software de código abierto, en el sistema de un proveedor como Amazon S3, por los bajos costos y la "escala horizontal casi ilimitada" que pueden entregar, señala Piesche. Al utilizar Cassandra, por ejemplo, dice que le gustaría clústeres de almacenamiento de dispersión entre los centros de datos distribuidos para la recuperación de desastres "sin costos de licencia, sin ninguna configuración complicada y sin ninguna intervención manual".
Las capacidades de replicación que necesita no están disponibles todavía. Pero él tiene que seguir buscando, porque, como señala Schulz, "Para la gran mayoría de las personas no hay tal cosa como una recesión de datos".
Robert L. Scheier, Computerworld (EE.UU.)