Llegamos a ustedes gracias a:



Reportajes y análisis

Deduplicar: Una necesidad actual

[10/08/2010] No es necesario decir que la cantidad de datos que una empresa moderna tiene que manejar está creciendo constantemente. A los tradicionales textos y hojas de cálculo se añadieron ya hace una buena cantidad de años las presentaciones -con todo lo que llevan dentro- y los diferentes formatos de documentos que generan las aplicaciones con las que trabaja la organización. Súmese a esto los videos y los archivos de sonido y se tiene un verdadero océano de datos con los cuales hay que lidiar diariamente. Todo un reto para el área de TI.

¿Tiene que almacenar todos estos datos? Por su puesto que sí. ¿Tiene que hacer backup de ellos? Nuevamente la respuesta afirmativa, y seguro lo seguirá siendo si le preguntamos si es que tiene que trasladar grandes cantidades de datos desde oficinas remotas a una oficina central, o viceversa. Entonces ¿por qué no aplicar la deduplicación? Eliminar aquellos elementos redundantes en sus datos para trabajar mejor. Seguramente usted ya hace deduplicación ¿o no?
Conceptualmente hablando
Quizás la traducción más exacta para la palabra inglesa deduplication sea des-duplicación, es decir, eliminar un elemento duplicado; sin embargo, ya que en algún momento se generalizó la traducción deduplicación -sin duda, otro neologismo que TI aporta al castellano- seguiremos usando este término para referirnos a este proceso.
Pero ¿qué es deduplicación?
IDC define la deduplicación de datos como una tecnología que normaliza los datos duplicados en un solo objeto de datos compartido a fin de lograr eficiencia en la capacidad de almacenamiento. Específicamente, la deduplicación de datos hace referencia a todo algoritmo que busca datos duplicados (por ejemplo, bloques, fragmentos, segmentos) y excluye los datos duplicados cuando los ubica. Cuando se detectan datos duplicados, no se conservan; por el contrario, se modifica un puntero de datos de manera que el sistema de almacenamiento indique una copia exacta del objeto de datos ya almacenado en el disco.
El párrafo anterior proviene de un white paper de título Backup y recuperación: aceleración de la eficiencia y disminución de los costos de TI mediante la deduplicación de datos, publicado por IDC y patrocinado por EMC Corporation. En el mismo documento se señalan las características más importantes de esta tecnología que ya está alcanzando el nivel de obligatoria para las empresas que deseen ahorrar en costos de TI.
Quizás una de las características más atractivas es que -como toda novedad-  ayuda a reducir costos. Esta propiedad se hace visible en una serie de elementos y procesos que son parte del día a día del gerente de TI.
El caso más evidente es la reducción de costos en el almacenamiento. De acuerdo a una serie de factores entre los que se encuentran el tipo de datos, la tasa de cambio de datos, los periodos de retención, entre otros, se puede llegar a obtener tasas de deduplicación de 8 a 1 o 22 a 1, una cifra que resulta muy atractiva pues permite la utilización de menor espacio de disco de almacenamiento y, por tanto, menores costos en la adquisición de estos dispositivos.
Otra propiedad atractiva es el hecho de que, al reducir los costos de almacenamiento en disco, estos dispositivos (los discos) se vuelven casi tan económicos por GB como las cintas, pero mantienen sus ventajas como dispositivo de acceso aleatorio. Además, se debe recordar que las cintas se encuentran expuestas a deterioro o contaminación, lo cual incide directamente en la recuperación de los datos que en ellas se almacenan.
Junto con la reducción de costos se puede apreciar una mejora en los niveles de servicio. Específicamente el proceso que más se beneficia de la tecnología de la deduplicación es el backup. La lógica es simple: si existen menos elementos para los que se tiene que hacer el proceso, más rápidamente se realizará éste.
De hecho, el documento se prodiga en todos los impactos positivos que la tecnología ofrece al backup y los retos que ésta ayuda a resolver.
Para el backup
Uno de los retos es el hecho de que las ventanas de backup (el tiempo que se tiene para realizar este proceso) son cada vez menor dada la creciente exigencia de disponibilidad (24 x 7) que se pide a TI. Con la deduplicación al tener menos elementos para el proceso, las ventanas pueden ser más pequeñas.
Un reto relacionado con una característica mencionada líneas antes (el uso de discos en lugar de cintas) es el de los tiempos de recuperación. Es evidente que al hacer posible el uso de discos en lugar de cintas se puede ampliar la cantidad de datos que se pueden recuperar más rápidamente de entre los datos almacenados.
Otro reto relacionado es el hecho de que con el uso de las cintas se produce también la manipulación de éstas para trasladarlas a ambientes seguros, con el consiguiente riesgo de su deterioro o pérdida. Con el uso de la deduplicación esta manipulación y traslado es innecesario pues se puede crear una copia electrónica que es la que sale de las instalaciones.
Un reto de moda es el hecho de que con el crecimiento del uso de la virtualización los recursos existentes para los backups son menores. Esta condición ocasionaría que las ventanas de backup sean mayores (dado que el procesamiento es más lento). Con el uso de la deduplicación no son necesarios tantos recursos, y por tanto incluso con la presencia de las máquinas virtuales las ventanas necesarias para el backup no crecen.
Es más, el documento señala: La deduplicación, también, permite una retención más prolongada de los datos de backup de máquinas virtuales en un espacio de almacenamiento menor, lo que garantiza que la recuperación operacional pueda producirse rápidamente desde el disco y nunca desde la cinta.
¿Tiene oficinas remotas? Si la respuesta es afirmativa entonces también puede que tenga un backup centralizado, lo que significa que hace un uso intensivo del ancho de banda. Nuevamente, la deduplicación permite el envío de grandes cantidades de datos por medio de enlaces WAN hacia el data center central.
¿Dónde y cuándo?
El documento también señala un par de características importantes que hay que tener en cuenta sobre el proceso de deduplicación: se puede elegir el dónde y el cuándo.
¿Dónde? Básicamente en dos lugares: en el origen o en el destino. ¿Cuándo? En línea o con posterioridad.
El white paper afirma que la deduplicación en el origen significa que muchos menos datos se transfieren del dispositivo de origen al catálogo de almacenamiento, lo que permite liberar infraestructura virtual o física congestionada y enlaces LAN/WAN. Debido a que solo se transfieren segmentos de datos de subarchivos nuevos o modificados desde el dispositivo de origen hasta el catálogo de almacenamiento, la cantidad de datos transferidos se reduce considerablemente, lo que permite realizar backups completos extremadamente rápido y de manera diaria. La sobrecarga incremental en el CPU cliente para llevar a cabo la deduplicación en el origen puede ser de hasta 15%, pero el backup se completa más rápidamente que los métodos tradicionales.
La deduplicación en el destino optimiza la capacidad de almacenamiento en disco de backups, ya que solamente los datos nuevos y únicos en los subarchivos se almacenan en disco. Todos los datos de backup se envían al destino de deduplicación mediante un software de backup tradicional, lo que proporciona una integración ininterrumpida a la infraestructura de TI existente, señala el documento.
Mientras que de la deduplicación en línea se señala que elimina los datos redundantes antes de que se escriban en el disco. Y la deduplicación posterior al proceso analiza y reduce los datos una vez almacenados en disco.
Oferta
Existen soluciones de deduplicación ofrecidas por los diversos proveedores de la industria y, en general, es necesario tomar en cuenta algunos factores para realizar una buena elección. El documento señala que se debe de observar las tasas de deduplicación; la función de compresión, encriptación y multiplexación que tenga la solución; la deduplicación de máquina virtuales, si las tiene (aunque ya debe tenerlas); la deduplicación para oficinas remotas; la deduplicación para centros de datos y disaster recovery, que como hemos visto, pueden hacer mucha falta; la replicación; y la propagación y migración, es decir, el establecimiento de una base inicial.
En el caso específico de EMC, la compañía ofrece las soluciones llamadas Avamar y Data Domain.
Mientras otros también han anunciado su oferta al mercado, como HP que en junio pasado lanzó StoreOnce de la cual la compañía dice en un comunicado que es una nueva generación de software de reducción de datos redundantes que puede implementarse en múltiples puntos en una infraestructura convergente, reduciendo el número de veces que los datos tienen que reducir su redundancia, permitiendo que los clientes administren y controlen con más eficiencia el crecimiento de los datos.
Se estima que las empresas enfrentan un crecimiento anual promedio del 50% en la cantidad de datos que requieren protección. La cifra es impresionante de por sí y exige que los encargados de los centros de datos y de TI en general aprovechen las ventajas que las tecnologías de deduplicación les ofrecen.
Hace poco, en un reciente evento de virtualización, el expositor preguntó al público cuántos sabían qué era la deduplicación, pocos levantaron la mano. Quizás con estas breves pinceladas de lo que la tecnología puede ofrecer sean muchos más los que lo hagan la siguiente vez.
Jose Antonio Trujillo, CIO Perú