Category: Top » View » Spanish-89038


Datos Deduplication - una descripción detallada

El deduplication de los datos o el solo citar como ejemplo esencialmente refiere a la eliminación de datos redundantes. En el proceso del deduplication, los datos duplicados se suprimen, dejando solamente una copia (solo caso) de los datos que se almacenarán. Sin embargo, el poner en un índice de todos los datos todavía se conserva si que los datos estén requeridos nunca.

Ejemplo
Un sistema típico del email pudo contener 100 casos del mismo accesorio del archivo de 1 MB. Si se sostiene o está archivada la plataforma del email, los 100 casos se ahorran, requiriendo el espacio de almacenaje de 100 MB. Con el deduplication de los datos, solamente un caso del accesorio se almacena realmente; cada caso subsecuente apenas se refiere de nuevo a la una copia ahorrada que reduce almacenaje y demanda de la anchura de banda a solamente 1 MB.

Clasificación tecnológica
Las ventajas prácticas de esta tecnología dependen de varios factores como -
1. Punto del uso - fuente contra blanco
2. Época del uso - en línea contra postprocese
3. granulosidad - archivo contra nivel del subarchivo
4. algoritmo - bloques de tamaño fijo contra segmentos de datos de la longitud variable.

La blanco contra fuente basó Deduplication
La blanco basó actos del deduplication en los medios de almacenaje de datos de la blanco. En este caso el cliente es sin modificar y no consciente de cualquier deduplication. El motor del deduplication puede encajado en el arsenal del hardware, que se puede utilizar como dispositivo de NAS/SAN con capacidades del deduplication. Puede también ser ofrecido alternativamente como aplicación independiente de software o del soporte físico que actúe como intermediario entre el servidor de reserva y los órdenes del almacenaje. En ambos casos mejora solamente la utilización de almacenaje.

Blanco contra la fuente Deduplication
En la fuente contraria basada el deduplication actúa en los datos en la fuente antes de que se haya movido. Un agente de reserva enterado del deduplication está instalado en el cliente que sostiene solamente datos únicos. El resultado es utilización mejorada de la anchura de banda y de almacenaje. Pero, esto impone la carga de cómputo adicional ante el cliente de reserva.

En línea contra postprocese Deduplication
En la blanco basada el deduplication, el motor del deduplication puede procesar los datos para los duplicados en tiempo real (es decir a medida que su envíe a la blanco) o después de su almacenado en el almacenaje de la blanco.

El anterior se llama deduplication en línea. Las ventajas obvias son -
1. Aumente de eficacia total como los datos se pasan y se procesan solamente una vez
2. Los datos procesados están instantáneamente disponibles para el poste - procesos del almacenaje como la recuperación y la réplica que reducen la ventana de RPO y de RTO.

las desventajas son -
1. La disminución adentro escribe rendimiento de procesamiento
2. El grado del deduplication es menos - solamente el acercamiento de longitud fija del deduplication del bloque puede ser uso

El deduplication en línea procesó solamente bloques crudos entrantes y no tiene ningún conocimiento de los archivos o de la archivo-estructura. Esto lo fuerza para utilizar el acercamiento de longitud fija del bloque (discutido en detalles más adelante).

En línea contra el proceso Deduplication del poste
El deduplication del postprocesar asincrónicamente actúa en los datos almacenados. Y tiene un exacto enfrente de efecto sobre ventajas y desventajas del deduplication en línea enumerado arriba.

Archivo contra el nivel Deduplication del subarchivo
El algoritmo duplicado del retiro puede ser aplicado en niveles completos del archivo o del subarchivo. Los duplicados llenos del nivel del archivo se pueden eliminar fácilmente por la sola suma de comprobación calculadora de los datos y de compararla del archivo completo contra sumas de comprobación existentes de archivos ya sostenidos. Es simple y rápida, pero el grado del deduplication es muy menos, pues no aborda el problema de diversos archivos interiores encontrados contenido duplicado o de los grupos de datos (e.g. email).

La técnica del deduplication del nivel del subarchivo rompe el archivo en bloques fijos o variables más pequeños del tamaño, y después utiliza algoritmo basado picadillo estándar para encontrar bloques similares.

Segmentos de datos Variable-Length de longitud fija de los bloques v/s
El acercamiento de longitud fija del bloque, como el nombre sugiere, divide los archivos en bloques de tamaño fijo de la longitud y utiliza acercamiento basado simple de la suma de comprobación (MD5/SHA etc.) para encontrar los duplicados. Aunque sea posible buscar bloques repetidos, el acercamiento proporciona eficacia muy limitada. La razón es que la oportunidad primaria para la reducción de datos consiste en encontrar bloques duplicados en dos grupos de datos transmitidos que se compongan sobre todo - pero no totalmente - de los mismos segmentos de datos.

Conjuntos de datos y alineación del bloque
Por ejemplo, los bloques de datos similares pueden estar presentes en diversas compensaciones en dos diversos grupos de datos. Es decir el límite de bloque de datos similares puede ser diferente. Esto es muy común cuando algunos octetos se insertan en un archivo, y cuando los procesos cambiados del archivo otra vez y las divisorias en bloques de longitud fija, todos los bloques aparecen haber cambiado.

Por lo tanto, dos grupos de datos con una pequeña cantidad de diferencia son probables tener muy pocos bloques idénticos de la longitud fija.

La tecnología del segmento de datos Variable-Length divide la secuencia de datos en segmentos de datos de la longitud variable usando una metodología que pueda encontrar los mismos límites de bloque en diversos localizaciones y contextos. Esto permite que los límites “floten” dentro de la secuencia de datos de modo que los cambios en una porción del grupo de datos tengan poco o nada de impacto en los límites en otras localizaciones del grupo de datos.

Ventajas del ROI
Cada organización tiene una capacidad de generar datos. El grado de ahorros depende sobre - pero no no directamente proporcional - el número de usos o de usuarios finales que generan datos.

Total los ahorros del deduplication dependen de parámetros siguientes -
1. No. de los usos o de los usuarios finales que generan datos
2. Datos totales
3. Cambio diario en datos
4. Tipo de datos (medios etc. de los documentos de los email)
5. Política de reserva (semanal-llena - diariamente-incremental o diariamente-lleno)
6. Periodo de validez (90 días, 1 año etc.)
7. Tecnología de Deduplication en el lugar

Las ventajas reales del deduplication se realizan una vez que el mismo grupo de datos se procesa las épocas múltiples sobre un palmo de la hora para el semanario/diariamente los respaldos. Esto es especialmente verdad para la tecnología del segmento de datos de la longitud variable que tiene una capacidad mucho mejor para ocuparse de inserciones arbitrarias del octeto.

Números
Mientras que algunos vendedores demandan cocientes del 1:300 del ahorro de la anchura de banda/del almacenaje. Nuestras estadísticas del cliente demuestran eso, los resultados están entre el 1:4 al 1:50 para el deduplication basado fuente.



Sobre el autor

Jaspreet Singh es evangelista del producto en el software de Druvaa. Druvaa es abastecedor principal para las soluciones de la recuperación de catástrofes y de la protección de datos de la empresa.

El artículo fue tomado del poste del blog - http://blog.druvaa.com/2009/01/09/understanding-data-deduplication/

Lea más sobre el producto en - http://www.druvaa.com/products/insync.html




Rate, comment or bookmark this article

Seed Newsvine
Bookmark this article in your preferred program
AddThis Social Bookmark Button

Tags:

Este artículo ha sido traducido automáticamente de la fuente Inglés.

¿Cree usted que esta es una mala traducción?
Traducir este artículo, y usted gana dinero!

Creative Commons License
This article is licensed under a Creative Commons Attribution-Noncommercial-No Derivative Works 3.0 License.