Desduplicación global real
La desduplicación global real es un método efectivo para disminuir las necesidades de almacenamiento
de copias de seguridad mediante la eliminación de los datos redundantes o duplicados. Se trata de un
método efectivo porque solo se almacena una instancia de los datos en varias copias de seguridad en el
repositorio. Los datos redundantes se almacenan, aunque no físicamente; simplemente se reemplazan
por un puntero a la única instancia de datos en el repositorio.
Las aplicaciones de copia de seguridad convencionales realizan copias de seguridad completas
repetitivas todas las semanas. Sin embargo, el servidor realiza copias del bloque incrementales a nivel de
bloque de la máquina. Este enfoque permanente incremental, combinado con la desduplicación de los
datos, permite reducir drásticamente el volumen total de datos confirmados en el disco.
El diseño de disco convencional de un servidor consta de un sistema operativo, de aplicaciones y de
datos. En la mayoría de los entornos, los administradores suelen usar un tipo habitual de sistema
operativo de escritorio y de servidor en varios sistemas para una implementación y una administración
efectivas. Cuando la copia de seguridad se realiza a nivel de bloque en varias máquinas al mismo tiempo,
se ofrece una vista más granular de lo que contiene la copia de seguridad y lo que no, con independencia
del origen. Entre estos datos se incluye el sistema operativo, las aplicaciones y los datos de aplicaciones
del entorno.
Ilustración 4. Diagrama de desduplicación
El servidor realiza la desduplicación de datos en línea basada en destino, donde los datos de instantánea
se transmiten al Core antes de que se desdupliquen. La desduplicación de datos en línea indica
simplemente que los datos se desduplican antes de que se confirmen en el disco. Se trata de algo
diferente a la desduplicación en origen o de posprocesamiento, donde los datos se desduplican en el
origen antes de transferirse al destino para el almacenamiento, y en el posprocesamiento los datos se
envían sin procesar al destino, donde se analizan y desduplican una vez confirmados en el disco. La
desduplicación en origen consume muchos recursos del sistema de la máquina mientras que la
desduplicación de datos de posprocesamiento necesita todos los datos requeridos en disco (una mayor
sobrecarga de capacidad inicial) antes de comenzar el proceso de desduplicación. Por otro lado, la
desduplicación de datos en línea no requiere capacidad de disco adicional ni ciclos de CPU en el origen
o en el Core para el proceso de desduplicación. Por último, las aplicaciones de copia de seguridad
17