Tecnología

 

¿Qué es la deduplicación?

La deduplicación es una tecnología de reducción de datos orientada a eliminar datos redundantes (duplicados) en un sistema de almacenamiento de datos, almacenando solo una instancia de cada elemento, con el objetivo de reducir el espacio de almacenamiento y el consumo de ancho de banda de red. La tecnología de deduplicación se basa en un índice que referencia la ubicación de cada bloque de datos almacenado en el repositorio. El software que realiza este proceso busca cada nuevo dato que llega al sistema entre todos los datos ya almacenados previamente y almacena este dato solo si no coincide con ningún dato almacenado previamente.

Por ejemplo, suponga que una compañía tiene 100 empleados y que el buzón de correo de cada empleado tiene 1GB. Sin embargo, la mayor parte de los emails serán iguales: emails distribuidos o reenviados entre empleados o emails enviados a varios empleados. Estos 100GB de datos que ocupa el servidor de correo almacenan básicamente la misma información. La deduplicación asegura que solo la información única es almacenada en disco. El resto de información duplicada es sustituida por referencias, de forma que virtualmente vemos que los datos ocupan 100GB, pero realmente pueden llegar a ocupar 10GB.

Hay básicamente tres tipos de tecnología de deduplicación:

  • Deduplicación a nivel de fichero. Solo almacena una copia de cada fichero repetido y es equivalente al backup incremental.
  • Deduplicación a nivel de bloque. Divide la información en bloques y solo almacena una copia de cada bloque repetido.
  • Deduplicación a nivel de byte. Analiza el contenido de la información a ser deduplicada a nivel de byte y almacena la información única. Esta es la única tecnología que garantiza la eliminación de datos redundantes.

Como podemos comprobar diferentes tecnologías de deduplicación proporcionan diferente control de granularidad en el proceso de eliminación de datos redundantes: a nivel de fichero, de bloque o a nivel de byte.

Cuando evalúe un producto con deduplicación es importante que entienda el nivel de granularidad que proporciona.

[ Haga click aquí para obtener el White Paper de deduplicación de Lortu ]

Beneficios de la tecnología de deduplicación.

Evitando almacenar datos duplicados, se consiguen ahorros de almacenamiento de datos impresionantes. Por ejemplo las tecnologías de deduplicación a nivel de byte permiten reducir la cantidad total de espacio utilizado para el almacenamiento de datos a un ratio de 50 a 1 o más, dependiendo del tipo de datos y entorno. En otras palabras, si hoy almacena un terabyte de datos, mañana esa capacidad se reduce a 20GB y los 980GB restantes quedan disponibles para almacenar más datos con la misma capacidad de almacenamiento. De esta forma puede retrasar durante años la necesidad de comprar más discos para ampliar su capacidad de almacenamiento de datos.

Esta capacidad de compactación además implica que puede enviar los datos a través de una línea WAN a un emplazamiento remoto para protegerse ante desastres.

¿Cómo difiere la deduplicación de otras tecnologías similares?

La tecnología de deduplicación difiere de la compresión en que la compresión solo analiza patrones de datos repetidos en bloques reducidos de información. Por ejemplo, un fichero comprimido no puede ser comprimido de nuevo por su alta entropía. La deduplicación reduce los datos duplicados independientemente del formato interno del fichero, comparando el contenido del fichero con el contenido almacenado en el repositorio hasta ese momento y extrayendo los bloques que son únicos. Esto proporciona una capacidad de compactación muy superior a la compresión. De hecho la mayor parte de los productos aplican algoritmos de compresión una vez que se ha aplicado la deduplicación para aumentar aún más la capacidad de compactación.

La deduplicación además difiere de los backups incrementales y diferenciales en que solo son almacenados los cambios a nivel de byte. Los backups incrementales almacenan completamente los ficheros que han cambiado, independientemente de si ha cambiado el fichero completo o solo un byte de dicho fichero. Si un fichero tiene 500MB, se almacenarán los 500MB aunque solo haya sido modificado un byte. La tecnología de deduplicación permite almacenar solo los datos que han cambiado dentro del fichero, no el fichero completo.

[ Haga click aquí para obtener el White Paper de deduplicación de Lortu ]

Diferencias de la tecnología de deduplicación de Lortu con respecto a otras tecnologías de deduplicación.

Hay varias formas de implementar la deduplicación y aunque cada sistema tiene sus ventajas e inconvenientes, algunas son mucho más óptimas que otras.

Principales diferencias entre cada tipo de tecnología:

Deduplicación Post-process vs. Deduplicación in-line:

La principal ventaja de la deduplicación post-process en relación a la deduplicación in-line es su mayor velocidad en el proceso de almacenamiento de backup, reduciendo la ventana de tiempo de backup. Esto es debido a que la información es primero almacenada en el dispositivo y luego deduplicado sin interferir en el proceso de almacenamiento de backups.

Lortu implementa un sistema de deduplicación post-process.

Diferencia binaria a nivel de Byte vs. pattern matching (almacena un hash por cada patrón o bloque):

El sistema basado en Pattern matching es menos escalable que el basado en diferencia binaria a medida que crece la cantidad de datos a deduplicar. Ello es debido a que los sistemas basados en Pattern matching utilizan una tabla de hashes que a medida que crece requiere de más CPU y memoria para realizar las búsquedas. Sin embargo el mayor inconveniente de las tecnologías basadas en Pattern matching es el tiempo de restauración.

Si el tiempo de backup es crítico, el de restauración es mucho más crítico. Como los patrones están esparcidos por todo el disco en bloques de datos muy pequeños, el sistema requiere leer uno o dos clusters por cada pequeño patrón de datos a restaurar. Esto implica que con estos sistemas, el tiempo de restauración puede ser de 10 veces mayor o más con respecto a un sistema sin deduplicación. Con los sistemas basados en diferencia binaria, la información es almacenada en bloques mucho más grandes y normalmente el tiempo de restauración es similar al de un sistema sin deduplicación.

Además las tecnologías basadas en Pattern matching requieren varias semanas hasta que el proceso de deduplicación sea eficiente. Con los sistemas de deduplicación de diferencia binaria a nivel de byte la deduplicación es muy eficiente a partir del segundo backup y va mejorando a medida que se almacenan nuevos backups.

Lortu implementa un sistema de deduplicación de diferencia binaria a nivel de byte.

Agnóstico a los datos vs. content-aware:

Las tecnologías agnósticas a los datos pueden trabajar con cualquier tipo de dato o formato de fichero. El inconveniente de las tecnologías "content-aware" es que necesitan conocer el formato de los ficheros que tratan. Si el formato es diferente al esperado (por ejemplo una nueva versión de la aplicación) o si simplemente la aplicación no es soportada por la tecnología, el proceso de deduplicación no es posible.

La tecnología de deduplicación de Lortu es agnóstica a los datos. Puede deduplicar datos de cualquier tipo, formato de fichero o tipo de fichero.

[ Haga click aquí para obtener el White Paper de deduplicación de Lortu ]