Llegamos a ustedes gracias a:



Conversando con...

Marcio Curvo, HP Latin América

Cómo sacar el máximo provecho de un backup

Marcio Curvo, BURA (Backup, Restore and Archive) regional business development manager de HP Latin América.

[20/01/2015] Es paradójico que tener más datos se convierta en un problema; sin embargo, lo es. La cantidad de datos que tienen que manejar las empresas se incrementa cada año, y junto con su procesamiento también debemos hacernos a la idea que tenemos que guardarlos y asegurarlos. Hacer una copia de respaldo de los datos con los que trabaja la organización es una tarea necesaria que se ha convertido en una especie de arte en estos días.

Con Marcio Curvo, BURA (Backup, Restore and Archive) regional business development manager de HP Latin América, conversamos sobre los vericuetos que se pueden encontrar en los procesos de respaldo, y las formas que existen en la actualidad para hacerlo de tal forma que estas tareas no impacten negativamente sobre el desempeño de la organización.

¿Cuáles son las novedades que se presentan para este año en el campo del almacenamiento?

La novedad son los all-flash arrays que son los arreglos con tecnología de discos flash. En términos de backupy recovery lo que hay es una aceleración en el interés de implementación con deduplicación en línea, y esto es importante porque ahora los datos están creciendo debido a las tendencias como big data, computación en la nube y otros.

Eso crea presión sobre el backup porque generalmente es fijo, no crece, e incluso disminuye, ya que los clientes que quieren tener una operación 24x7 tienen que disminuir la ventana del backup, pero los datos crecen 30% al año aproximadamente. Entonces, una empresa que compró una infraestructura de backup hace dos años, hoy ese respaldo tiene que soportar 60% más datos, pero la ventana de backup es la misma o ha disminuido. Entonces, siempre se necesita algún tipo de actualización para soportar y proteger los datos, sino los backups superarían las ventanas y se comenzaría a tener impactos sobre el mundo de la producción.

El otro tema es que hay clientes que quieren tener backups 24x7, entonces se tiene que tener una forma de realizar esos procesos sin impactar en el desempeño del ambiente de operaciones. Este es el principal reto que hay en el mundo del backup.

¿Y porque el tema de la deduplicación es importante aquí?

Porque te permite bajar costos. Hacer respaldo es fácil en discos, pero el costo por terabyte es mucho mayor que el costo de una cinta; la cinta no te consume energía una vez que los datos están grabados, no ocupa espacio en el centro de datos, no consume energía y el costo de mantenimiento es casi nada.

Entonces la manera de asumir bien los costos del respaldo en discos es deduplicar los datos en línea; es decir cuando están siendo grabado.

¿Qué significa esto? Los respaldos tienen muchos datos duplicados porque el cambio de datos de un día al otro es muy poco; una base de datos no cambia 50% de un día al otro, cambia 2% o 3%. Guardar esos datos duplicados en el disco es una ineficiencia, porque está ocupando espacio de disco caro en comparación a una cinta para guardar los mismos datos múltiples veces.

Entonces lo que hacen los equipos cuando se está haciendo la ingestión de los datos es revisar si ese bloque de datos ya existe en el disco. Si ya existe, no lo vuelve a grabar, sino que graba un puntero a la copia original que ya está grabada. Y tiene que hacerse esta comparación en línea sin impactar en el desempeño. Puedes lograr una tasa de deduplicación de 10 a 1 que significa que puedes meter 10 veces más datos que los que grabarías en el disco si no usaras deduplicación.

Entonces, con ello bajas el costo por gigabyte en 10 veces; y dependiendo del tipo de dato puedes llegar a tasas de 20 a 1 o incluso 30 a 1. Eso hace que el costo por gigabyte se acerque mucho más al costo de la cinta, y eso permite que muchas más organizaciones puedan sacar provecho de este tipo de tecnología, no solo las grandes empresas que cuentan con mucho dinero.

¿Y en cuanto a las ventanas de respaldo que se requieren?

Sí, se ha avanzado, porque la otra gran diferencia entre la cinta y el disco es que la cinta es un dispositivo secuencial. Tiene un drive que es un grabador de cintas; si el cliente dispara varios trabajos de respaldo, el último tiene que esperar a que los anteriores terminen. Si tienes cinco trabajos de respaldo que duran dos horas, el tiempo total de respaldo es de 10 horas; pero en el disco puedes grabar todo en paralelo, entonces los mismos cinco trabajos de respaldo de dos horas se hacen en una ventana de dos horas. La ventana de backup ha disminuido de 10 horas a dos horas. Y la cantidad de trabajos que puedes enviar en discos es también importante.

Y el otro punto destacable es el momento de hacer la restauración; es decir, cuando los datos tienen que ser reconstruidos a su formato original, un proceso que se denomina rehidratación de los datos. Este proceso, generalmente, es más lento que el proceso de respaldo, pero HP es uno de los pocos -sino el único- proveedores del mercado que puede restaurar los datos a la misma velocidad con la que se ha hecho el respaldo, cuando para los otros es de 50% a 60% más lento que el respaldo.

El beneficio es que cuanto más rápido recuperas los datos, menos paradas hay en el negocio, el tiempo de parada es más corto. ¿De qué te serviría hacer un respaldo muy rápido si tienes que usar dos días para recuperarlo? Son dos días de paro. Esta característica también te da previsibilidad.

¿Y qué hay de los discos flash? ¿Se usan en respaldo?

El flash por ser más caro está siendo usado para arreglos primarios; es decir, donde se realiza la parte transaccional, porque las personas quieren un buen desempeño. El proceso de respaldo es diferente, pues se trata de un volumen muy grande de información que viene de una sola vez, y con la deduplicación el principal diferenciador es cuán rápido la controladora consigue identificar los datos que ya existen o que no existen aún para grabarlos.

Poner más discos o poner discos más rápidos no necesariamente te dan más desempeño, porque el cuello de botella sería cuán rápido la tecnología puede hacer la deduplicación. En un arreglo normal, donde simplemente se graba un bloque en un disco, los discos más rápidos y la mayor cantidad de discos impactan directamente en el desempeño.

Por ello, en el mundo del respaldo, no ves la implementación de tecnologías de flash todavía como almacenamiento. Eso se ve más en las bases de datos primarias donde se encuentran los procesos transaccionales.

¿Dónde se realiza la deduplicación?

Con la tecnología de HP, la deduplicación puede hacerse en el origen, en el servidor de respaldo o en el appliance, eso es lo que llamamos deduplicación federada o distribuida.

El proceso de deduplicación tiene múltiples pasos internos, y uno de ellos es tomar toda la cantidad de datos que vienen y separarla en bloques para poder compararla con lo que ya existe en el disco.

Hay tecnologías que trabajan con bloques fijos y con ellas el primer respaldo no tiene deduplicación porque no hay con qué hacer la comparación; a partir del segundo backup puedes hacer la comparación con lo que existe en disco y grabas solo lo que no existe. En el tercer respaldo casi no hay cambios pero digamos que entraron 10 bytes nuevos al principio, entonces como la tecnología corta todos los bloques siempre del mismo tamaño, todos los bloques van a cambiar debido a esos 10 bytes nuevos grabados al inicio. Eso significa que todos los bloques van a ser diferentes con los bloques con los que se comparaban a pesar de que el 90% de la información es la misma.

Con una tecnología que trabaja con bloques de tamaños variables se tiene la inteligencia suficiente para saber que en el primer bloque -donde entraron los 10 bytes nuevos- hay cosas nuevas, pero no en el resto. Entonces crea un bloque más grande para el que recibió los nuevos datos, pero el resto sigue como estaban.

Esta es una tecnología más sofisticada, porque el sistema tiene que predecir cuál es el tamaño de bloque más eficiente para que la comparación sea la más óptima posible.

¿Y el tamaño de los bloques también es importante?

Sí, porque si un dato es considerado diferente y tiene que ser grabado y ocupa un bloque grande, se va a ocupar mucho más espacio. Si la tecnología trabaja con bloques pequeños y ese bloque es diferente y tiene que ser grabado, ocupa mucho menos espacio en disco; entonces hay mucho más eficiencia en el uso de la capacidad física de los discos.

A nivel de procesamiento, si tienes una cantidad de datos y lo divides en dos, es fácil de comparar porque son solos dos bloques. Si lo divides en 100 bloques más pequeños, ahora el sistema tiene que hacer muchas más comparaciones, es una carga mucho más pesada.

Y ahí vienen las diferencias entre las tecnologías de deduplicación en línea. Los proveedores que no tienen la capacidad de investigación y desarrollo, usan las tecnologías más sencillas, usan bloques de tamaño fijo y grandes para no tener que usar mucho poder de procesamiento, pero deduplican poco, es decir, 2 a 1 o 3 a 1, para no tener que impactar en el desempeño. Pero la eficiencia es mucho menor.

Proveedores más sofisticados logran la máxima eficiencia con bloques de tamaño variable, y en promedio tener un tamaño de bloque lo más pequeño posible. Y conseguir hace eso sin impactar en el desempeño.

El gran diferenciador de HP es que HP Labs nos ofrece una tecnología de deduplicación con bloques de tamaño variables y de un tamaño pequeño en promedio, de 4k. Somos los únicos que tenemos tecnología de tamaño variable con un promedio de bloque de 4k. Otros tienen 8k o 16k o hasta 64k.