Llegamos a ustedes gracias a:



Reportajes y análisis

Recuperar los datos con deduplicación

[22/09/2011] Hacer copias de seguridad de servidores y estaciones de trabajo en cinta puede ser un proceso engorroso, y restaurar los datos de la cinta aún más. Mientras que las copias de seguridad basadas en disco son más rápidas y fáciles, y probablemente más confiables, pueden ser más caras.
Una forma de obtener lo mejor de ambos mundos es una copia de seguridad de almacenamiento basado en disco que utilice la deduplicación, lo que aumenta la eficiencia con solo almacenar una copia de cada cosa.
Si bien el proceso fue originalmente utilizado en el nivel de archivo, muchos productos trabajan ahora en el nivel de bloque o sub-bloque (trozo), lo que significa que incluso los archivos que son prácticamente iguales pueden ser deduplicados, ahorrando el espacio consumido por las partes iguales.
Por ejemplo, digamos que alguien abre un documento y hace unos pocos cambios, y luego envía la nueva versión a una docena de personas. Con la deduplicación a nivel de archivo, la versión antigua y nueva son archivos diferentes, aunque solo se almacena una copia de la nueva versión. Con el nivel de bloque o sub-bloque de deduplicación, solo se almacena el primer documento y los cambios entre el primer documento y el segundo.
Existe cierto debate sobre el proceso óptimo -la deduplicación de archivos no es muy eficiente por bloques, por pedazos mucho más. Sin embargo, mientras más pequeños sean los trozos, se necesita mayor procesamiento, y los índices que hacen seguimiento de los duplicados serán más grandes. Algunos sistemas utilizan trozos de tamaño variable para ajustar esto, dependiendo del tipo de datos que se almacenan.
La buena noticia es que la deduplicación funciona bien -en nuestras pruebas, todos los productos fueron capaces de crear una segunda copia de un volumen y usaron menos del 1% de espacio adicional, y para hacer una copia de seguridad del volumen de ensayo con 4.552 archivos modificados hicieron un total de 31,7GB y no más de 32GB de espacio adicional, y en algunos casos, mucho menos de 32GB.
La deduplicación se utilizaba originalmente solo para copias de seguridad -ya que las copias de seguridad tienden a ser ejecutadas con regularidad y por lo general contienen en su mayoría los mismos datos que la última copia de seguridad, se puede obtener una alta eficiencia con la deduplicación. Ahora, sin embargo, la deduplicación está comenzando a ser vista en el almacenamiento primario y otras aplicaciones, como la eliminación de datos duplicados y la replicación de instantáneas.
Hay dos tipos principales de deduplicación, en línea y post-procesamiento. La deduplicación en línea analiza los datos que se envían al sistema de almacenamiento, y solo se almacena un archivo si no está en el sistema. La deduplicación de post-procesamiento almacena el archivo de inmediato, y luego analiza todos los datos en el sistema a intervalos regulares para detectar y eliminar trozos duplicados de datos.
La deduplicación en línea requiere menos espacio de almacenamiento, mientras que el post-procesamiento requiere una "zona de aterrizaje" donde los datos puedan ser almacenados hasta que se dedupliquen. Por otro lado, ya que debe manejar corrientes de alta velocidad de datos, la deduplicación en línea requiere de mucho más poder de procesamiento, que es caro, mientras que el espacio de almacenamiento es relativamente barato. La deduplicación de post-procesamiento puede ser programada para que se haga una vez al día, tras el final de la ventana de copia de seguridad. Dado que las copias de seguridad normalmente se ejecutan en los períodos de actividad más baja, la deduplicación de post-procesamiento puede ser programada para el inicio de la jornada laboral. Dado que el almacenamiento de deduplicación no se suele utilizar para otra cosa que no sean copias de seguridad, no impacta en los usuarios.
Muchas empresas ya no ejecutan copias de seguridad de los datos directamente -si una base de datos está en uso, debe ser cerrada para ejecutar una copia de seguridad. Con los requisitos de disponibilidad 24x7 que tienen muchas empresas, el proceso más simple es tomar una instantánea de los datos o usar la capacidad de replicación de almacenamiento SAN; a continuación, ejecutar una copia de seguridad de la instantánea o una réplica. Algunos proveedores han añadido funciones de deduplicación de instantáneas y replicación de almacenamiento, de manera que solo se almacenan las diferencias (deltas) entre la última instantánea y la actual. Esto hace que sea posible tomar instantáneas periódicas de los datos sin aumentar mucho el espacio requerido.
Las instantáneas o la replicación son características añadidas que luego se pueden utilizar para recuperar archivos borrados accidentalmente, lo cual es mucho más rápido que la restauración de una copia de seguridad. Algunas organizaciones incluso pueden decidir utilizar instantáneas o replicación en lugar de copias de seguridad. La dificultad es que el almacenamiento SAN a menudo es costoso, y las instantáneas de replicación es una característica adicional con costosas licencias adicionales. Los dispositivos de backup con deduplicación pueden ser una manera menos costosa de proteger los datos.
Por último, los fabricantes están empezando a llevar la tecnología de deduplicación al almacenamiento primario. Este es un proceso más complejo que la deduplicación de copias de seguridad. Una copia de seguridad se escribe una vez y luego no se cambia, mientras que el almacenamiento primario tiene muchos usuarios que hacen cambios o crean nuevos archivos durante el día. Los problemas de llevar un registro de los archivos en uso, asegurarse de que los archivos duplicados no se pierdan si el "original" es borrado, y redundancia para el sistema de indexación que realiza un seguimiento de los duplicados de modo que la pérdida de datos en el índice no elimine los datos de los usuarios, son problemas que no son tan fáciles de resolver.
Un problema con deduplicación en general, es que a medida que crece el tamaño de los datos deduplicados, también lo hace la cantidad de memoria necesaria para procesar los archivos o bloques, lo cual puede limitar el tamaño total de un sistema -el tamaño total de almacenamiento es limitado por la memoria del procesador. Esto puede significar que es más fácil tener un dispositivo de copia de seguridad para cada servidor, en lugar de un gran dispositivo de copia de seguridad para todos los servidores.
También puede ser difícil estimar la capacidad real de un dispositivo de deduplicación. Si los datos almacenados son prácticamente los mismos, y comprensibles, es muy posible alcanzar de 20 a 100TB de datos en un sistema con cuatro discos de 2TB (6TB de capacidad bruta con RAID).
Por otro lado, si los datos de la copia de seguridad suelen ser diferentes entre una copia de seguridad y otra, y no muy comprensibles -un ejemplo extremo sería un área de trabajo de archivos de vídeo, conteniendo diferentes archivos de vídeo de gran tamaño (que ya están comprimidos) que cambian a diario, es posible que haya muy poca ganancia en la deduplicación.
Pusimos a prueba siete sistemas, cinco dispositivos de seguridad -el Barracuda Backup Service Model 690, Backup System Ex10000E basado en ExaGrid Disk, FalconStor FDS SA101, StoreOne Backup System D2D4324 de HP y DXi4520 Disk Deduplication Backup Appliance de Quantum-, y dos sistemas en línea -el FAS 2040 de NetApp y File Storage de Xiotech. También utilizamos un sistema Compellent SAN que utilizaba la deduplicación de réplicas e instantáneas como parte de nuestro banco de pruebas. Aunque no hemos probado el sistema de Compellent de la misma manera en que probamos los demás, se determinó que sí ofrece deduplicación eficaz, y hemos incluido nuestros hallazgos en Compellent en el cuadro de calificaciones.
Nuestro claro ganador por elección es HP, que entregó el Cadillac de los productos de deduplicación de datos -que fue el de más alto precio, pero también tenía capacidad y rendimiento más rápidos. Otros fuertes competidores fueron Compellent, que fue rápido y eficiente, y ExaGrid, que mostró un alto rendimiento, con características de clase empresarial.
El banco de pruebas consistió en un servidor Windows 2008R2 conectado a dos volúmenes de Fibre Channel (en realidad, las instantáneas del mismo volumen de 600GB con aproximadamente cuatro meses de diferencia), ejecutando Symantec Netbackup 7.0. Cada dispositivo se utilizó para crear una copia de seguridad del primer volumen, una segunda copia de seguridad completa del primer volumen (que debería haber utilizado poco espacio, ya que todos los archivos eran los mismos), y luego una copia de seguridad completa de la segunda instantánea del volumen, que tenía 4.552 archivos, ya sea modificados o añadidos, por un total de 32GB. (Vea cómo llevamos a cabo nuestras pruebas).
Los resultados fueron alentadores -todos los productos fueron capaces de deduplicar los volúmenes y producir copias de seguridad adicionales que utilizaban espacios más pequeños. Los tiempos para completar la deduplicación fueron variables, y en general fue inversamente proporcional a los costos -los dispositivos menos costosos tardaron más en terminar el proceso de deduplicación, mientras que los dispositivos con deduplicación en línea fueron capaces de completar rápidamente las copias de seguridad y la deduplicación.
Si solo está haciendo copias de seguridad de algunos servidores, y está más preocupado por los costos y mantenimiento de múltiples copias de archivos en caso de error de usuario, puede hacer esto por menos de 15 mil dólares. Si necesita hacer copias de seguridad de un gran número de servidores y requiere altos niveles de rendimiento y sistemas de respaldo durante todo el día en que el post-procesamiento a largo plazo puede ser un problema, se puede hacer desde 50 mil dólares.
Otra buena noticia -la configuración y funcionamiento de estos dispositivos fue en general muy simple- hemos tenido más problemas para la creación de nuevos perfiles en Netbackup que para conectar y configurar los dispositivos. Todos fueron conectados a través de Ethernet, ya sea a un volumen iSCSI o CIFS, o por Fibre Channel. Todos apoyaron el protocolo de la Netback Open Storage Technology (OST) para copias de seguridad aceleradas.
El tiempo que tomó para completar una copia de seguridad solo se midió como el tiempo total para terminar una copia de seguridad y deduplicarla. Dado que la deduplicación está generalmente programada para un período fuera de las horas, a veces hay que esperar a que la copia de seguridad se complete, y luego iniciar manualmente la deduplicación.
El tiempo que utiliza un backup para completarse a sí mismo no fue considerado en la puntuación, ya que todos los sistemas probados fueron capaces de saturar una sola conexión, ya sea Gigabit Ethernet o Fibre Channel de 4Gbit, lo que significa que el rendimiento de copia de seguridad se vio limitado por la conexión, no por el dispositivo.
La velocidad de copia de seguridad sería de interés para las organizaciones con ventanas cortas de copias de seguridad y una gran cantidad de datos a respaldar, pero las variaciones disponibles en las interfases, las velocidades de la interfase y el número de conexiones que admite, hace que surjan conclusiones que no son prácticas para poner a prueba. Aunque hemos probado con una interfase Gigabit Ethernet o Fibre Channel de 4Gb, todos los dispositivos están disponibles en varios modelos con múltiple Ethernet de 1G o 10G, o múltiples conexiones Fibre Channel de 8G, ofreciendo una gama de rendimiento de base para preparar un centro de datos empresarial.
Los dos sistemas de almacenamiento en línea de NetApp y Xiotech adoptaron diferentes enfoques ante los problemas. El sistema NetApp es un dispositivo autónomo destinado a ser utilizado como un sistema NAS, mientras que el dispositivo de Xiotech es una cabeza de front-end al que se puede conectar el almacenamiento. Ambos pueden presentar un sistema común de archivos de Internet (CIFS) y sistema de archivos de red (NFS) para los usuarios. CIFS es el estándar de Windows para compartir el almacenamiento, mientras que NFS es usado por los sistemas Unix. Mac OSX y Linux por lo general puede utilizar cualquiera de los dos. Ambos sistemas fueron capaces de encontrar y eliminar archivos duplicados, lo que redujo el almacenamiento requerido para almacenar los datos con algunos duplicados.
La eficiencia de aquí depende de cuántos archivos duplicados existen. Si tiene 100 directorios de los usuarios que tienen diferentes archivos en ellos, no verá mucha reducción. Si almacena 100 archivos de disco virtual que en su mayoría tienen los mismos datos, NetApp reducirá en gran medida el espacio necesario para mantenerlos, pero Xiotech no, ya que su deduplicación es a nivel de archivo, y que cada uno de los archivos de disco virtual tiene un nombre diferente. Si tiene 100 directorios de trabajo que tienen en su mayoría los mismos archivos en ellos, el dispositivo reducirá considerablemente el espacio de uso.
En el caso de estos dos dispositivos, los datos de rendimiento son difíciles de caracterizar, ya que ambos almacenan datos y deduplican después. En un entorno de producción, debe ser capaz de deduplicar en segundo plano sin afectar al rendimiento para los usuarios finales, especialmente una vez que los datos iniciales se copian en el dispositivo.
Finalmente, el sistema Compellent se utilizó para la configuración de la prueba, y demostró la eficiencia de la deduplicación de instantáneas y réplicas. El sistema fue utilizado para tomar instantáneas semanales de los datos durante un periodo de tiempo, y luego la instantánea más antigua se montó como un nuevo volumen. A pesar de que los dos volúmenes pesaron poco menos de 600GB cada uno, el espacio real utilizado en la SAN fue inferior a 650GB para todas las instantáneas, ya que solo fueron almacenados los cambios de la instantánea anterior.
Estos son los análisis de cada uno:
 
Barracuda Backup Service modelo 690
Barracuda Backup Service (BBS) modelo 690 es un dispositivo 1U, de cuatro bahías que puede almacenar hasta 4TB (capacidad bruta). Otros modelos van desde 250GB hasta 24TB. El aparato es inusual, ya que no es solo un dispositivo de copia de seguridad local, sino que también puede funcionar como una memoria caché para un servicio de copia de seguridad fuera del sitio.
Puede ser otro dispositivo en un centro de datos o en la oficina central, o en la nube de Barracuda, o una combinación de las dos. Barracuda sugiere que la capacidad total del sistema al que se le hará un backup sea de aproximadamente la mitad de la capacidad del aparato -el modelo 690 de 4TB puede respaldar esencialmente un servidor de 2TB por tiempo indefinido.
Además, a diferencia de los demás productos probados, el BBS incluye el software de copia de seguridad, que funciona en cualquier versión reciente de Windows Server o Workstation, e incluye soporte de archivos abiertos para SQL Server y Exchange, así como Windows 7, Vista y XP. El BBS también se puede utilizar para proporcionar un objetivo de seguridad para el software de copia de seguridad, incluyendo el Netbackup 7.0 utilizado para esta prueba.
El software para respaldo incluido funciona bien, y sería suficiente para cualquier organización pequeña, así como para otras mucho más grandes. Incluye políticas flexibles, sofisticadas capacidades de programación, herramientas de buena información y una sencilla interfase de restauración como autoservicio, que los usuarios finales pueden utilizar para restaurar por si mismos los archivos.
La configuración del dispositivo es muy sencilla -la guía de inicio rápido de dos páginas puede ser toda la documentación que necesiten muchas organizaciones. El dispositivo tiene una dirección IP mediante DHCP por defecto, por lo que incluso la configuración básica de red solo es necesaria si quiere darle una dirección estática. El resto de la configuración implica el establecimiento de objetivos de seguridad y la configuración del sistema para conectarse a los sistemas de copia de seguridad remotos, ya sea a otros dispositivos Barracuda o en la nube. Con una única interfase Ethernet gigabit, la BBS 690 no puede ofrecer la velocidad que tienen algunos de los otros sistemas, pero fue capaz de respaldar los datos de la prueba con relativa rapidez, y sería lo suficientemente rápido para la máxima cantidad sugerida de datos, dos terabytes.
Los datos enviados a la nube se cifran y solo se incluyen los cambios, por lo que se mantiene el tráfico en la WAN al mínimo necesario. Para la verdadera tolerancia a fallas de clase empresarial, los datos se pueden restaurar directamente desde el dispositivo, de la nube de Barracuda; o para restauraciones completas en el caso de un desastre en el centro de datos, los datos pueden ser enviados en disco a una nueva ubicación.
El sistema incluye el informe de errores a través de correo electrónico, así como buenas herramientas de informes y una interesante interfase web. La deduplicación funcionó como se esperaba, con poco de espacio adicional utilizado por una segunda copia de seguridad de los datos de prueba. BBS ofrece deduplicación en línea, lo que significa que los datos se procesan a medida que se almacenan -esto significa que no se necesita espacio adicional de almacenamiento para mantener los datos hasta que se procesan. A un precio de 9.999 dólares, más las cuotas mensuales de almacenamiento en la nube, el Barracuda Backup Service es una excelente manera de añadir una completa recuperación de desastres a una organización con un bajo costo inicial y toda la funcionalidad que se podría desear, incluyendo software de copia de seguridad.
 
Sistema de respaldo de ExaGrid basado en disco
El EX10000E de ExaGrid cuenta con capacidad bruta de 23TB y 10TB de capacidad utilizable. Según la prueba, también incluye seis interfases Ethernet de 1G, y está disponible con interfases Ethernet 10G. Las copias de seguridad se completan rápidamente ya que la unidad hace el procesamiento posterior -la deduplicación se realiza después de que la copia de seguridad se ha completado. La hora que se muestra en la tabla es tanto para la copia de seguridad como para la deduplicación. Las copias de seguridad por si solas se completaron en menos de una hora, luego el post-procesamiento se inició de forma automática. Por ello, el sistema tiene una capacidad bruta de 23TB y una capacidad útil de 10TB -el resto se utiliza para mantener los datos hasta que la deduplicación haya terminado. La cantidad utilizada para la zona de aterrizaje se puede ajustar si se desea, aumentar la capacidad de uso o el tamaño de la zona de aterrizaje, pero el valor por defecto es aproximadamente la mitad para cada uno.
La documentación incluye información especializada para el uso de NetBackup. Esto hizo que el trabajo de Netbackup con el sistema sea mucho más simple. También están disponibles guías similares para los productos de copia de seguridad.
La configuración inicial es muy sencilla, y la adición de unidades a una instalación existente es también muy fácil. Los sistemas múltiples crean, de inmediato, un clúster altamente disponible y fácilmente escalable. La gestión del sistema es sencilla, y hay muy poca diferencia en complejidad entre la administración de un sistema de copia de seguridad único en una locación y la administración de un número de aparatos en varios lugares. Las herramientas de informes son excelentes, e incluyen alertas por correo electrónico para errores designados.
Mientras que su precio de 58.900 dólares es relativamente alto, el rendimiento, la escalabilidad y el calibre de la documentación y el apoyo de la empresa reflejan la orientación del sistema. Para un centro de datos que necesita soportar varias copias de seguridad de varios servidores a la vez durante una corta ventana de copia de seguridad, la EX10000E debe estar en la pequeña lista a considerar. Un modelo básico está disponible a partir de 14.900 dólares.
Dispositivo de deduplicación FalconStor
El FalconStor FDS SA101 es un dispositivo de bajo costo con una gran capacidad de expansión y un buen conjunto de características que incluye la replicación WAN a otros dispositivos. También hay una opción para un dispositivo virtual que se ejecuta como una máquina virtual en VMware, o un dispositivo de puerta de enlace que utiliza el almacenamiento existente para crear una cuota de deduplicación para las copias de seguridad.
La unidad que recibimos para la prueba soporta seis unidades y cuatro interfases Ethernet gigabit. Se le pueden añadir estantes de unidades adicionales para ampliar su capacidad hasta 68TB, también se le puede agregar otra interfase gigabyte o 10G. El File-Interface Deduplication System (FDS) de FalconStor incluye un soporte de replicación y OST. Puede replicar los datos a un segundo dispositivo sobre una conexión WAN mediante el cifrado y la deduplicación para minimizar el tráfico WAN.
El sistema ofrece procesamiento posterior o híbrido que comienza la deduplicación 30 segundos después de iniciada la copia de seguridad, lo que reduce la cantidad de espacio de aterrizaje necesaria para almacenar los datos antes de que comience la deduplicación. Se pueden establecer políticas para excluir los datos de la deduplicación por tipo, edad o ubicación del archivo de datos.
Configurar el sistema es sencillo, y el set up inicial basado en web incluye la descarga del software de administración.
Con un costo de 10.900 dólares, el sistema de FalconStor ofrece muchas funcionalidades para su precio, con capacidad de expansión y gran tolerancia a fallas a través de la replicación, sin costos adicionales por licencias.
Sistema de respaldo HP StoreOnce
El sistema de respaldo HP StoreOnce D2D4324 es el más caro en la prueba por un amplio margen, con un precio de 149.999 dólares, pero también ofrece la mayor capacidad de uso a 18TB, y el rendimiento más rápido por un amplio margen, con tiempos de entre cuatro o cinco veces más rápido que los demás para completar las copias de seguridad, debido a la interfase Fibre Channel de 8Gbps. El tiempo utilizado para completar el procesamiento posterior y la deduplicación también es extremadamente rápido. La escalabilidad es también excelente, con un máximo de tres estantes adicionales con una capacidad total de 72TB.
La unidad es compatible con Fibre Channel, iSCSI y recursos compartidos de red para copias de seguridad específicas, por lo que es un sistema muy flexible que puede soportar casi cualquier tipo de software de backup. Al igual que ExaGrid, HP incluye guías especializados para utilizar el dispositivo con una variedad de software de copia de seguridad, incluyendo Netbackup. Esto hace que la configuración inicial sea mucho más simple. La configuración de la unidad fue muy sencilla, y no hubo problemas con hacer funcionar la interfase de Fibre Channel.
El D2D4324 está disponible con una licencia de replicación, que incluye el software de replicación de gestión para simplificar el proceso de configuración de la réplica local o remota. El sistema puede soportar muchas réplicas, por lo que al menos 50 unidades remotas pueden consolidar copias de seguridad a la D2D4324. Según HP, un D2D4324 de 72TB correctamente configurado puede admitir hasta 20 transmisiones simultáneas, respaldando un total de 4TB por hora.
Aunque el D2D4324 no es barato, ofrece un verdadero rendimiento y escalabilidad de clase empresarial, con gran facilidad de uso. Con la capacidad de respaldar muchos servidores de manera simultánea, es capaz de caber en los entornos de centro de datos más grandes y proporcionar seguridad a los datos en decenas de servidores.
Dispositivo de deduplicación de respaldo Quantum Disk
DXi4520 de Quantum es un dispositivo de 2U con ocho unidades, una capacidad útil de 4.4TB, y cuatro puertos Ethernet gigabit. Incluye soporte OST, soporte para realizar copias de seguridad de máquinas virtuales, replicación, capacidad de almacenamiento conectado a la red (NAS) y herramientas avanzadas de informes que ofrecen útiles funciones de diagnóstico y monitoreo. Los informes también incluyen un seguimiento histórico de la cantidad de espacio consumido para respaldar una acción particular -lo que indica tanto la eficacia de la deduplicación y cuánta información se está cambiando en esa acción.
La replicación es una función muy útil que permite crear otra copia de los datos respaldados fuera del sitio. A diferencia de la mayoría de los demás productos, la capacidad de replicación viene incluida, aunque aún necesitará de un segundo dispositivo hacia el cual replicar.
La unión de puertos es muy sencilla de configurar, aunque esto también depende en parte del switch al que está conectado el dispositivo. Para nuestras pruebas, hemos utilizado un único puerto Ethernet, ya que el servidor a respaldar tenía una sola conexión, y no habría mejorado su rendimiento.
Con un precio de 22.500 dólares, el DXi4520 es más caro que el Barracuda o FalconStor, pero incluye la capacidad de replicación, cuatro puertos Ethernet, toda la funcionalidad NAS, y excelentes informes.
Sistema NetApp FAS 2040
El sistema FAS 2040 de NetApp no está pensado como un objetivo de respaldo, sino más o menos como un sistema NAS estándar. Las características ofrecidas por el 2040 reflejan un sofisticado sistema SAN, incluyendo instantáneas de volumen, aprovisionamiento fino, replicación, múltiples niveles de RAID, una consola de administración flexible, y deduplicación. El sistema es un dispositivo 3U de 12 unidades que se ha configurado con unidades SAS de 300GB para nuestra aplicación, con el fin de proporcionar almacenamiento de alto rendimiento.
La deduplicación de almacenamiento primario es dramáticamente diferente de la deduplicación de un destino de respaldo. En lugar de los datos que normalmente se escriben una vez y nunca más, los datos escritos en el almacenamiento primario se pueden agregar con regularidad, cambiar a menudo y eliminarlos ocasionalmente. El software de deduplicación debe ser capaz de hacer frente a la continua modificación de los datos, sin afectar su disponibilidad para el usuario final. Esto significa que los datos no pueden ser bloqueados mientras que la deduplicación se lleva a cabo -los datos deben estar disponibles todo el tiempo.
La configuración del 2040 fue sencilla. Instalarlo, ponerlo en línea y dejarlo listo para su uso tomó menos de media hora.
La prueba de la función de deduplicación fuera de línea fue diferente que con las copias de seguridad. En lugar de hacer varias copias de seguridad, copiamos dos volúmenes en el dispositivo. El primer volumen se copó, luego fue copiado de nuevo como un nuevo volumen, y luego el segundo volumen con algunos datos cambiados fue copiado como otro nuevo volumen. El NetApp exhibió un rendimiento muy bueno con los datos adicionales a copiar. La segunda copia con los mismos datos consumió muy poco espacio adicional en el sistema, y el tercero usó solo un poco más de espacio que los archivos modificados.
El volumen inicial de 589GB copiado al sistema, consumió 566GB de espacio después de la eliminación de datos duplicados. Al añadir el volumen cambiado con 32GB de datos modificados aumentó el espacio usado en solo 604GB. Una tercera copia con los mismos datos aumentó el espacio utilizado a solo un total de 605GB. Esto significa que los tres volúmenes, cada uno de 589GB, se copiaron en el sistema, y el espacio total de uso fue solo 605GB. Aceptado, este grado de similitud entre el volumen representa el extremo en lugar de la norma, pero verifica las funciones de deduplicación como se esperaba.
Con un precio de 25 mil dólares para 3,6TB de capacidad bruta, el 2040 ofrece una excelente función como sistema NAS, un gran rendimiento y la eficiencia en la deduplicación adicional sin costo extra.
Xiotech File Storage Controller y el ISE Storage Blades
El controlador de almacenamiento de archivos Xiotech no es realmente un dispositivo de almacenamiento. Se trata de un servidor de 1U que ejecuta una versión ajustada de Windows Storage Server, que puede ser conectado a todo el almacenamiento que quiera, ya sea a través de iSCSI o Fibre Channel. Para esta prueba, el almacenamiento era un sistema Xiotech ISE Storage Blade de 9.6TB conectado a través de Fibre Channel. El controlador de almacenamiento presenta el almacenamiento a través de iSCSI, CIFS, NFS, FTP o HTTP.
La deduplicación está en el nivel del archivo, en lugar del nivel de sub-bloque, como todos los otros dispositivos evaluados. Esto significa que los dos archivos que comparten principalmente los mismos datos, por ejemplo un archivo de 600MB de vídeo en bruto, y una versión editada de 650MB, consumen 1,25GB, mientras que en el sistema de NetApp usaría alrededor de 655MB.
Una ventaja del controlador de almacenamiento es que la adición de bloques de almacenamiento es simple y barata, ya que el controlador puede ser la parte frontal por hasta 256 Storage Blades. Se puede utilizar tanto con ISE y Block Storage Controllers de Xiotech. Cuando se utiliza Block Storage Controller, se puede invocar el aprovisionamiento fino.
El sistema Xiotech ofrece tres veces la capacidad del sistema de NetApp por un poco más del doble del precio. Ofrece dispositivas y otras características SAN, y un buen rendimiento, aunque con una eficiencia algo menor que el sistema NetApp.
Cuando los tres volúmenes fueron copiados a Xiotech, el primer volumen de 589GB ocupó 581GB en el sistema Xiotech después de la deduplicación. Cuando el segundo volumen se copió a Xiotech, el espacio utilizado aumentó a 965GB, y cuando se copió el tercer volumen, el espacio utilizado aumentó a 971GB, en comparación con 566GB, 604GB y 605GB con NetApp. Por lo tanto, NetApp cuesta más por gigabyte al principio, pero hace un mejor uso del espacio. La forma en que funcionará con datos del mundo real dependerá en gran medida de los tipos de datos y la cantidad de archivos similares o idénticos que fueron almacenados en múltiples ocasiones.
A un costo de 62 mil dólares por 9.6TB, el Xiotec File Storage Controller y el ISE Blades ofrecen un sistema sencillo y fácil de ampliar que provee un buen conjunto de características de almacenamiento SAN, así como el aumento en la eficiencia de la deduplicación a nivel de archivo, a un menor costo por GB que el nivel de bloque de NetApp.
Compellent (Dell) Storage Center
El Compellent Storage Center en realidad no ha sido evaluado como parte de esta revisión, pero es instructivo en cómo la deduplicación puede ser utilizada en un sistema SAN de otra manera. Los dos volúmenes utilizados para poner a prueba los sistemas fueron almacenados en un SAN Compellent. Los dos volúmenes representaban instantáneas de un volumen de producción tomadas automáticamente por el sistema con cuatro meses de diferencia, tiempo durante el cual algunos de los 4552 archivos, que ocuparon 31.7GB de espacio, fueron cambiados o añadidos al volumen. Las dos instantáneas solo cambiaron los datos en el sistema -el espacio total utilizado por ambas instantáneas, no fue de 589GB por cada una, sino alrededor de 32GB, lo que representa los cambios realizados en el volumen.
El sistema Compellent también deduplica entre los volúmenes -sería posible la creación de 50 instantáneas de un volumen de 100GB, montando cada instantánea en un volumen aparte, y con 50 volúmenes de arranque, sin dejar de utilizar solo un poco más de 100GB para los 50 volúmenes, por lo menos hasta que los volúmenes tengan archivos añadidos individualmente. Para entornos de virtualización o de carga en los sistemas SAN, esto ofrece una gran mejora en la eficiencia de los volúmenes individuales de cada servidor.
Logan G. Harbaugh, Network World (US).