Llegamos a ustedes gracias a:



Reportajes y análisis

Cinco formas de reducir sus huellas de almacenamiento

[30/09/2010] Con una economía aun inestable y la explosión de la necesidad de almacenamiento, casi todos los proveedores de estos servicios afirman que pueden reducir la cantidad de datos que se deben almacenar. Recortar la huella de sus datos no solo reduce los costos de hardware, software, energía y espacio del centro de datos, sino que también alivia la tensión en las redes y las copias de seguridad.

Pero ¿cómo saber cuál es la técnica a usar? En primer lugar hay que entender cómo su empresa utiliza los datos y determinar si el ahorro en costos de reducción de datos vale la pena el consiguiente descenso en el rendimiento.
La mejor técnica no depende tanto de la industria en la que se desenvuelve sino en el tipo de datos que almacena. Por ejemplo, la deduplicación no suele suponer un ahorro significativo para los rayos X, los datos de ingeniería de pruebas, de video o música. Pero por ejemplo, puede reducir significativamente el costo de las copias de seguridad de máquinas virtuales utilizadas como servidores. A continuación cinco técnicas para ayudarlo a reducir el volumen de sus datos almacenados.
1. La deduplicación
La deduplicación -el proceso de encontrar y eliminar piezas duplicadas de los datos almacenados- puede reducir las necesidades de almacenamiento hasta en un 90%. Por ejemplo, a través de la deduplicación, puede asegurarse de almacenar solo una copia de un archivo adjunto enviado a cientos de empleados. La deduplicación se ha convertido casi en un requisito para las copias de seguridad, archivo y cualquier forma de almacenamiento secundario, donde la velocidad de acceso es menos importante que la reducción de la huella de los datos.
Chris Watkis, director de TI en la firma de mercadotecnia y publicidad de salud Grey Healthcare Group, está viendo una reducción de los datos de backup en una relación de hasta 72:1, gracias a un proceso de deduplicación que utiliza el dispositivo de almacenamiento Virtual Tape de FalconStor Software Inc. Y los proveedores de almacenamiento en la nube i365 están logrando reducciones de 30:1 a 50:1 en los datos de una carga de trabajo mixta de Microsoft Exchange, SharePoint, SQL Server y los archivos de la máquina virtual de VMware, señala el director de tecnología David Allen.
Los datos pueden ser deduplicados a nivel de archivo o de bloques, con diferentes productos capaces de examinar los bloques de diferentes tamaños. En la mayoría de los casos, mientras mas fina sea la evaluación que se le puede hacer a un sistema, mayor será el ahorro de espacio. Sin embargo, la deduplicación fina puede tomar más tiempo y por lo tanto reducir la velocidad de acceso a los datos.
La deduplicación se puede hacer en el procesamiento previo o en línea, mientras los datos se están almacenando, o en el post-procesamiento, después de que los datos han sido almacenados. El post-procesamiento se recomienda si es de suma importancia reunir las ventanas de copia de seguridad con un movimiento rápido de datos, señala Greg Schulz, analista senior en The Server y en el Grupo StorageIO. Pero agrega que hay que considerar el pre-procesamiento si se tiene que quemar tiempo y la necesidad de reducir costos.
Mientras que la deduplicación en línea puede reducir la cantidad de datos almacenados en una proporción de 20:1, no es escalable y puede dañar el rendimiento forzando a que los usuarios compren más servidores para realizar la deduplicación, según dicen los críticos. Por otra parte, Schulz señala que la deduplicación post-procesada requiere mayor capacidad de almacenamiento como un amortiguador, lo que hace que ese espacio no esté disponible para otros usos.
Para los clientes con varios servidores o plataformas de almacenamiento, la deduplicación de toda la empresa ahorra dinero al eliminar copias duplicadas de los datos almacenados en las diversas plataformas. Esto es crítico, porque la mayoría de las organizaciones crean hasta 15 copias de los mismos datos para usarlas en aplicaciones tales como la minería de datos, ERP y sistemas de gestión de relaciones con los clientes, indica Randy Chalfant, vicepresidente de estrategia y proveedor de almacenamiento basado en disco de Nexsan Corp. Los usuarios también podrían considerar un sistema de deduplicación único para que a cualquier usuario o aplicación le sea más fácil "rehidratar" datos (devolverlos a su forma original), según sea necesario y evitar incompatibilidades entre los sistemas múltiples.
Schulz añade que los productos primarios de deduplicación pueden trabajar en modo de pre-procesamiento, hasta que un cierto umbral de rendimiento se ve afectado; a continuación, cambiar al post-procesamiento.
Otra opción, la deduplicación basada en políticas, permite a los administradores de almacenamiento poder elegir qué archivos deben ser sometidos a la deduplicación en función de su tamaño, importancia u otros criterios.
SFL Data, que recoge, almacena, indexa, busca y proporciona datos para empresas y bufetes de abogados involucrados en litigios, ha encontrado un equilibrio entre rendimiento y reducción de datos. Desplegando el optimizador de almacenamiento 2.400 de Ocarina Networks para el almacenamientocasi en línea" de archivos comprimidos y deduplicados en un cluster BlueArc Mercury 50 que los escalas hasta dos petabytes de capacidad utilizable, rehidratando los archivos que los usuarios requieran.
"La rehidratación de los archivos reduce un poco el tiempo de acceso, pero es mucho mejor que decirle a los clientes que tienen que esperar dos días" para acceder a esos archivos, señala la directora técnica de SFL, Ruth Townsend, añadiendo que la empresa ahorra hasta un 50% de espacio a través de la deduplicación y compresión de archivos.
2. Compresión
Probablemente es la tecnología de reducción de datos más conocida. La compresión es el proceso de encontrar y eliminar patrones repetidos de bytes. Funciona bien con bases de datos, correo electrónico y archivos, pero es menos eficaz con las imágenes. Se incluye en algunos sistemas de almacenamiento, pero también se pueden encontrar aplicaciones de compresión independientes.
Algunos vendedores ofrecen, u ofrecerán, tanto deduplicación como compresión. Otros, como Ocarina, decodifican los archivos ya comprimidos antes de su optimización. Randy Chalfant, vicepresidente de estrategia de Nexsan, sostiene que los datos deben ser comprimidos en el nivel de archivo o de sistema operativo y deduplicados en el lugar de almacenamiento. El proveedor de compresión y deduplicación basadado en la nube Asigra Inc. comprime primero y luego deduplica los datos, y solo almacena los cambios realizados.
La elección de si, cuándo y en qué orden utilizar tanto la compresión como la deduplicación depende de factores tales como si la compresión será más fácil o más difícil para que el software de deduplicación busque redundancias, Qué nivel (primario o secundario) está buscando optimizar, y la rapidez con que el producto puede devolver datos utilizables cuando sea necesario.
La compresión en tiempo real -que no demora el acceso o ralentiza el rendimiento al requerir datos para ser descomprimidos antes de que sean modificados o leídos- es adecuada para aplicaciones en línea como bases de datos y procesamiento de transacciones en línea, señala Schulz. La potencia de cálculo dentro de los procesadores modernos multinúcleo también hace que la compresión basada en el servidor sea una opción para algunos ambientes, añade.
Allen, de i365 afirma que las ventajas de la compresión varían. Puede reducir los datos en relación de 6:1 o más para bases de datos SQL, pero para servidores de archivos la relación está más cerca de 2:1. De acuerdo con Fadi Albatal, vicepresidente de márketing de FalconStor, la compresión es más eficaz en las copias de seguridad, el almacenamiento secundario o terciario, donde se pueden reducir las necesidades de almacenamiento en proporciones de 2:1 a 4:1 para bases de datos muy activas" o aplicaciones de correo electrónico. Cuando la firma de gestión de servicios de Iron Mountain Inc. archiva aplicaciones, la compresión y la deduplicación reducen el almacenamiento hasta en un 80%, señala TM Ravi, director de márketing de Iron Mountain.
IBM centró su atención en la compresión del almacenamiento primario con la adquisición de Storwize, cuyo aparato escribe archivos comprimidos de nuevo al dispositivo NAS en que se originaron o a algún otro formato de almacenamiento. Storwize está probando un aparato basado en bloques, indica Doug Balog, vicepresidente de almacenamiento de IBM.
Los archivos comprimidos por las aplicaciones de Microsoft Office o en formatos populares de imagen como JPEG no se pueden reducir con muchas técnicas de compresión comunes, o incluso pueden aumentar de tamaño. Neuxpower Soluciones Ltd. afirma que su software puede reducir archivos de Office y JPEG hasta en un 95% sin pérdida de calidad de la imagen, mediante la eliminación de información innecesaria, como metadatos o detalles que no se puede ver a menos que la imagen se amplíe. Ocarina, que está siendo adquirida por Dell, dice que sus productos ofrecen capacidades similares debido a que utilizan varios algoritmos de optimización programados para diferentes tipos de contenido, y que tienen la capacidad de probar y elegir entre diferentes métodos de compresión para una mejor eficiencia en el tiempo de ejecución.
La deduplicación y la compresión son complementarias. "Usar la compresión cuando lo principal está en la velocidad, rendimiento, y velocidad de transferencia. Utilice deduplicación donde haya un alto grado de redundancia de datos y desea un mayor ahorro de espacio", señala Schulz.
3. Jerarquización basada en políticas
La jerarquización basada en políticas es el proceso de traslado de datos a diferentes clases de almacenamiento bajo criterios tales como su edad, la frecuencia con que se accede, o la velocidad a la que debe estar disponible. A menos que la política exija la supresión pura y simple de datos innecesarios, esta técnica no reduce sus necesidades de almacenamiento en general, pero puede reducir los costos por el traslado de algunos datos a medios más baratos pero lentos.
Los vendedores en este mercado incluyen a Hewlett-Packard, que ofrece funciones integradas de administración de políticas y la migración de archivos automatizados en su StorageWorks X9000; y DataGlobal GmbH, que asegura que su almacenamiento unificado y software de gestión de la información permite a los clientes poder analizar y gestionar los archivos no estructurados y otro tipo de información, para así reducir sus necesidades de almacenamiento de 60% a 70% para el correo electrónico y cerca de 20% para servidores de archivos.
Otros productos con capacidades de organización en niveles de almacenamiento incluyen Storage Center 5 de Compellent Technologies, HotZone y SafeCache de FalconStor, asesores de políticas de 3Par, FAST de EMC y la serie ARX de F5 Networks.
4. Virtualización del almacenamiento
Como en el caso de la virtualización de servidores, la virtualización de almacenamiento consiste en "abstraer" varios dispositivos de almacenamiento en un único pool de almacenamiento, permitiendo a los administradores mover los datos entre los niveles, según sea necesario. Muchos expertos la ven como una tecnología permisiva más que un reductor de datos per se, pero otros ven una conexión más directa con la reducción de datos.
Los sistemas de administración de datos Actifio Inc. usan la virtualización para eliminar la necesidad de tener múltiples aplicaciones para funciones tales como copias de seguridad y recuperación de desastres. Sus aparatos permiten a los clientes elegir los acuerdos de nivel de servicio que rigen la gestión de conjuntos de datos diferentes de una serie de plantillas.
Con este método, las políticas de gestión adecuadas son luego aplicadas a una sola copia de los datos, definiendo dónde, por ejemplo, se almacena y cómo se deduplica durante las funciones, tales como backup y replicación. El co-fundador de la empresa y CEO Ash Ashutosh asegura que Actifio puede reducir las necesidades de almacenamiento en un 75% a 90%.
5. Aprovisionamiento delgado
Aprovisionamiento delgado significa la creación de un servidor de aplicaciones para utilizar una cierta cantidad de espacio en un disco, pero que no utiliza ese espacio hasta que sea realmente necesario. Al igual que con el almacenamiento basado en políticas, esta técnica no corta la huella total de datos pero retrasa la necesidad de comprar más unidades hasta que sea absolutamente necesario.
Si las necesidades de almacenamiento aumentan con gran velocidad, debe "reaccionar de forma muy, muy rápida" para asegurarse de que tiene suficiente espacio de almacenamiento físico, señala Allen. Cuanto más imprevisibles sean sus necesidades necesitará mejores herramientas de medición de gestión, si adopta el aprovisionamiento delgado. Schulz aconseja buscar productos que identifican a la vez los datos y los usuarios de las aplicaciones a los que se les debe hacer un seguimiento, y que supervisan no solo el uso del espacio, sino las operaciones de escritura/lectura para evitar cuellos de botella.
Uno de los proveedores en este mercado es IBM, que ha extendido el aprovisionamiento delgado "en todos nuestros controladores de almacenamiento", indica Balog. HP, quien ofrece el aprovisionamiento delgado en su P4000 SAN, se prepara para adquirir 3Par, lo que garantiza que su producto de utilidad de almacenamiento reducirá las necesidades de almacenamiento de los clientes en un 50%. Nexsan proporciona aprovisionamiento a medida con sus matrices SATABeast.
Antes de elegir una estrategia de reducción de datos, establezca políticas que le ayuden a tomar decisiones difíciles acerca de cuándo debe pagar por el rendimiento y cuando es el momento de ahorrar dinero mediante la reducción de su huella de datos. No se centre solo en las relaciones de reducción, indica Schulz, pero recuerde que puede conseguir un mayor ahorro con una tasa de reducción menor en un conjunto de datos mayor.
Y no se confunda con la terminología del proveedor. La compresión, la deduplicación de datos, copias de seguridad solo para cambiar y de instancias individuales, son diferentes formas de reducir los datos redundantes. En caso de duda, elija las herramientas de reducción de almacenamiento basados en los beneficios de su negocio y en un análisis detallado de los datos.
¿Qué deduplicación es la adecuada para usted?
Hay sistemas de deduplicación para satisfacer muchas necesidades diferentes, dependiendo de los objetivos de reducción de la organización y configuración del sistema. He aquí una muestra:
* Nexsan ofrece deduplicación de post-procesamiento para datos primarios y de archivo con su sistema Assureon, y para los datos de copia de seguridad con su DeDupe SG que se basa en el software motor de internase de deduplicación FalconStor, o FDS. Combinado con la instancia única de datos, proporciona ratios típicos de reducción de 1:05-1:15, señala Randy Chalfant, vicepresidente de estrategia de Nexsan.
* Los sistemas de almacenamiento con deduplicación EMC Data Domain son para clientes que desean mantener actualizado su software existente de copia de seguridad, pero que pasan de la cinta al disco en copias de seguridad, indica Shane Jackson, director senior de márketing de la división de sistemas de copia de seguridad de EMC. Data Domain es compatible con los datos estructurados y no estructurados, con deduplicación de varias longitudes de los bloques, logrando una reducción de 10:1 a 30:1, afirma. Avamar de EMC proporciona el software de copia de seguridad basado en el origen con deduplicación global, proporcionando la reducción de 30:1 a 40:1, indica Philip Fote, gerente de mercadeo para la división de sistemas de recuperación de copias de seguridad.
* Ocarina ofrece deduplicación de sub-nivel de archivo y la compresión de datos no estructurados. Sus optimizadores de almacenamiento leen los datos desde el almacenamiento conectado a la red, lo deduplican, comprimen y escriben los archivos optimizados en el original NAS o en un nivel de almacenamiento diferente. Optimiza el diseño basado en características tales como tamaño de bloque, las estrategias de almacenamiento en caché y el diseño de metadatos para cada plataforma de almacenamiento, indica Greg Schulz, analista senior en The Server y StorageIO Grop. Ocarina es adecuada para los datos no estructurados que no pueden ser "manejados eficientemente con la deduplicación", señala Schulz. Ocarina también revende su tecnología a fabricantes como BlueArc Corp.
* El software de deduplicación de HP StoreOnce actualmente se ejecuta en los sistemas StorageWorks HP D2D Backup y comprime los datos antes de deduplicarlos, para reducciones de hasta 20:1. En el futuro, mediante el despliegue de más plataformas, podrá evitar los problemas causados por el uso de múltiples productos de deduplicación, indica Lee Johns, director de márketing de productos de almacenamiento unificado de la división de HP StorageWorks. Él dice que HP también planea utilizar StoreOnce para reducir el almacenamiento primario de los clústeres de servidores de alta disponibilidad.
* El próximo VirtualStore de Symantec está diseñado para reducir los requisitos de almacenamiento de equipos virtuales y los datos asociados con ellos en un 80% -en especial para las implementaciones de escritorios virtuales. Entre otras cosas, solo actualiza los cambios entre el "padre" virtual de la máquina y sus clones y proporciona el aprovisionamiento delgado y por niveles. VirtualStore estará disponible en noviembre, las versiones futuras tendrán capacidades de deduplicación, según Symantec.
Robert L. Scheier, Computerworld (US)