La déduplication des données est une technologie de stockage répandue qui optimise la capacité de stockage. Elle élimine les données redondantes en supprimant les doublons, ne conservant ainsi qu'une seule copie, comme illustré ci-dessous. Cette technologie permet de réduire considérablement les besoins en espace de stockage physique et de répondre à la demande croissante de données. La déduplication offre de nombreux avantages pratiques, notamment :
| (1) | Respecter les exigences en matière de retour sur investissement (ROI) et de coût total de possession (TCO) ; |
| (2) | La croissance rapide des données peut être efficacement contrôlée ; |
| (3) | Augmenter l'espace de stockage effectif et améliorer l'efficacité du stockage ; |
| (4) | Réduisez les coûts totaux de stockage et de gestion ; |
| (5) | Économisez la bande passante du réseau pour la transmission des données ; |
| (6) | Réduisez les coûts d'exploitation et de maintenance tels que l'espace, l'alimentation électrique et le refroidissement. |
La déduplication est largement utilisée dans les systèmes de sauvegarde et d'archivage de données, car de nombreuses données dupliquées apparaissent après plusieurs sauvegardes, ce qui la rend particulièrement adaptée. En réalité, la déduplication peut être utilisée dans de nombreuses situations, notamment pour les données en ligne, quasi en ligne et hors ligne. Elle peut être implémentée dans les systèmes de fichiers, les gestionnaires de volumes, les NAS et les SAN. La déduplication peut également servir à la reprise après sinistre, à la transmission et à la synchronisation des données, et peut être utilisée comme technique de compression pour le regroupement des données. La déduplication permet à de nombreuses applications de réduire le stockage des données, d'économiser la bande passante réseau, d'améliorer l'efficacité du stockage, de réduire la durée des sauvegardes et de réaliser des économies.
La déduplication comporte deux dimensions principales : les taux de déduplication et les performances. Les performances de la déduplication dépendent de la technologie d’implémentation spécifique, tandis que le taux de déduplication est déterminé par les caractéristiques des données elles-mêmes et les modèles d’application, comme indiqué dans le tableau ci-dessous. Les fournisseurs de stockage annoncent actuellement des taux de déduplication allant de 20:1 à 500:1.
| Taux de déduplication élevé | faible taux de déduplication |
| Données créées par l'utilisateur | Données issues du monde naturel |
| faible taux de changement des données | taux de changement élevé des données |
| Données de référence, données inactives | Données actives |
| application à faible taux de changement de données | Application à taux de changement de données élevé |
| Sauvegarde complète des données | Sauvegarde incrémentielle des données |
| stockage de données à long terme | stockage de données à court terme |
| Large gamme d'applications de données | Gamme restreinte d'applications de données |
| Traitement continu des données métier | Traitement général des données commerciales |
| segmentation des données à petite échelle | Segmentation des mégadonnées |
| Segmentation des données allongée | Segmentation des données à longueur fixe |
| Contenu des données perçu | Contenu des données inconnu |
| Déduplication des données temporelles | Déduplication des données spatiales |
Points d'implémentation de la déduplication
Divers facteurs doivent être pris en compte lors du développement ou de l'application de la technologie de déduplication, car ces facteurs affectent directement ses performances et son efficacité.
| (1) | Quoi | Quelles données sont dépondérées ? |
| (2) | Quand | Quand le poids sera-t-il éliminé ? |
| (3) | Où | Où se situe la perte de poids ? |
| (4) | Comment | Comment perdre du poids ? |
Technologie de déduplication des clés
Le processus de déduplication d'un système de stockage se déroule généralement comme suit : le fichier de données est d'abord divisé en ensembles de données. Pour chaque bloc, une empreinte numérique est calculée. Ensuite, une recherche par hachage d'empreinte numérique permet d'identifier les blocs de données dupliqués. Seul l'index du bloc est conservé ; sinon, le bloc est considéré comme unique et des métadonnées sont créées. Ainsi, un fichier physique dans le système de stockage correspond à une représentation logique d'un ensemble de métadonnées d'empreinte numérique. Lors de la lecture d'un fichier, le fichier logique est lu en premier, puis, selon la séquence d'empreintes numériques, le bloc de données correspondant est extrait du système de stockage afin de restaurer la copie du fichier physique. Ce processus montre que les technologies clés de la déduplication comprennent principalement la segmentation des blocs de données, le calcul de leur empreinte numérique et leur récupération.
(1) Segmentation des blocs de données de fichiers
(2) Calcul de l'empreinte digitale du bloc de données
(3) Récupération des blocs de données
Pour trouver ces modèles recommandés pour démarrer votre déduplication de paquets réseau :
Courtier de paquets réseau Mylinking™ (NPB) ML-NPB-640048 ports SFP+ 10GE et 4 ports QSFP28 40GE/100GE, débit maximal de 880 Gbit/s
Courtier de paquets réseau Mylinking™ (NPB) ML-NPB-56606 ports QSFP28 40GE/100GE et 48 ports SFP28 10GE/25GE, débit maximal de 1,8 Tbit/s
Courtier de paquets réseau Mylinking™ (NPB) ML-NPB-506048 ports SFP+ 10GE et 2 ports QSFP 40GE, débit maximal de 560 Gbit/s
Courtier de paquets réseau Mylinking™ (NPB) ML-NPB-486048 ports SFP+ 10GE, débit maximal de 480 Gbit/s, fonction Plus
Courtier de paquets réseau Mylinking™ (NPB) ML-NPB-481048 ports SFP+ 10GE, débit maximal de 480 Gbit/s
Mylinking™ Network Packet Broker (NPB) ML-NPB-2410P24 ports SFP+ 10GE, débit maximal de 240 Gbit/s, fonction DPI
Courtier de paquets réseau Mylinking™ (NPB) ML-NPB-6400
48 ports SFP+ 10GE et 4 ports QSFP28 40GE/100GE, débit maximal de 880 Gbit/s
Date de publication : 18 octobre 2022

