1. Le concept de masquage des données
Le masquage de données est une méthode technique permettant de convertir, modifier ou masquer des données sensibles telles que les numéros de téléphone portable, les numéros de carte bancaire et autres informations confidentielles, conformément aux règles et politiques de masquage définies. Cette technique est principalement utilisée pour empêcher l'accès direct aux données sensibles dans des environnements non sécurisés.
Principe du masquage des données : Le masquage des données doit préserver les caractéristiques, les règles métier et la pertinence des données d’origine afin de garantir que les développements, les tests et les analyses ultérieurs ne soient pas affectés. Il convient de s’assurer de la cohérence et de la validité des données avant et après le masquage.
2. Classification par masquage des données
Le masquage des données peut être divisé en masquage statique des données (SDM) et en masquage dynamique des données (DDM).
Masquage statique des données (SDM)Le masquage statique des données nécessite la création d'une base de données dédiée, hors production, afin de l'isoler de l'environnement de production. Les données sensibles sont extraites de la base de données de production puis stockées dans la base de données hors production. Ainsi, les données désensibilisées sont isolées de l'environnement de production, ce qui répond aux besoins métiers et garantit la sécurité des données de production.
Masquage dynamique des données (DDM)Il est généralement utilisé en production pour démasquer les données sensibles en temps réel. Parfois, différents niveaux de masquage sont nécessaires pour lire les mêmes données sensibles dans différentes situations. Par exemple, différents rôles et permissions peuvent nécessiter différents schémas de masquage.
application de masquage des rapports et des produits de données
Ces scénarios incluent principalement les produits de surveillance des données internes ou les panneaux d'affichage, les produits de données de services externes et les rapports basés sur l'analyse des données, tels que les rapports d'activité et les revues de projets.
3. Solution de masquage des données
Les schémas de masquage de données courants comprennent : l’invalidation, la valeur aléatoire, le remplacement de données, le chiffrement symétrique, la valeur moyenne, le décalage et l’arrondi, etc.
AnnulationL'invalidation consiste à chiffrer, tronquer ou masquer des données sensibles. Ce procédé remplace généralement les données réelles par des symboles spéciaux (comme *). L'opération est simple, mais les utilisateurs ne peuvent pas connaître le format des données originales, ce qui peut affecter leur utilisation ultérieure.
Valeur aléatoireLa valeur aléatoire correspond au remplacement aléatoire des données sensibles (les chiffres remplacent les lettres et les caractères spéciaux remplacent les caractères spéciaux). Cette méthode de masquage garantit, dans une certaine mesure, le format des données sensibles et facilite leur utilisation ultérieure. Des dictionnaires de masquage peuvent être nécessaires pour certains mots importants, tels que les noms de personnes et de lieux.
Remplacement des donnéesLe remplacement de données est similaire au masquage des valeurs nulles et aléatoires, sauf qu'au lieu d'utiliser des caractères spéciaux ou des valeurs aléatoires, les données de masquage sont remplacées par une valeur spécifique.
Chiffrement symétriqueLe chiffrement symétrique est une méthode de masquage réversible particulière. Il chiffre les données sensibles à l'aide de clés et d'algorithmes de chiffrement. Le format du texte chiffré est cohérent avec les données originales selon des règles logiques.
MoyenneLa méthode de la moyenne est souvent utilisée en statistique. Pour des données numériques, on calcule d'abord leur moyenne, puis on répartit aléatoirement les valeurs désensibilisées autour de cette moyenne, de manière à maintenir la somme des données constante.
Décalage et arrondiCette méthode modifie les données numériques par décalage aléatoire. L'arrondi par décalage garantit l'authenticité approximative de la plage tout en préservant la sécurité des données. Plus proche des données réelles que les méthodes précédentes, elle revêt une grande importance dans le contexte de l'analyse des mégadonnées.
Le modèle de recommandation «ML-NPB-5660" pour le masquage des données
4. Techniques de masquage de données couramment utilisées
(1) Techniques statistiques
Échantillonnage et agrégation des données
- Échantillonnage des données : L'analyse et l'évaluation de l'ensemble de données original par la sélection d'un sous-ensemble représentatif de celui-ci constituent une méthode importante pour améliorer l'efficacité des techniques de dépersonnalisation.
- Agrégation des données : En tant qu'ensemble de techniques statistiques (telles que la sommation, le comptage, la moyenne, le maximum et le minimum) appliquées aux attributs des microdonnées, le résultat est représentatif de tous les enregistrements de l'ensemble de données d'origine.
(2) Cryptographie
La cryptographie est une méthode courante pour désensibiliser ou renforcer l'efficacité de la désensibilisation. Différents types d'algorithmes de chiffrement peuvent produire différents effets de désensibilisation.
- Chiffrement déterministe : Chiffrement symétrique non aléatoire. Il traite généralement des données d’identification et peut déchiffrer et restaurer le texte chiffré pour retrouver l’identifiant original si nécessaire, mais la clé doit être correctement protégée.
Chiffrement irréversible : une fonction de hachage est utilisée pour traiter les données, généralement des données d’identification. Ces données ne peuvent être déchiffrées directement et la correspondance entre elles doit être conservée. De plus, en raison de la nature même de la fonction de hachage, des collisions de données peuvent survenir.
Chiffrement homomorphe : L’algorithme de chiffrement homomorphe est utilisé. Sa caractéristique est que le résultat de l’opération sur le texte chiffré est identique à celui de l’opération sur le texte clair après déchiffrement. C’est pourquoi il est couramment utilisé pour le traitement des nombres, mais son utilisation reste limitée pour des raisons de performance.
(3) Technologie des systèmes
La technologie de suppression efface ou masque les données qui ne répondent pas aux exigences de protection de la vie privée, mais ne les publie pas.
- Masquage : il s'agit de la méthode de désensibilisation la plus courante consistant à masquer la valeur d'un attribut, par exemple le numéro de l'adversaire, la carte d'identité est marquée d'un astérisque ou l'adresse est tronquée.
- Suppression locale : désigne le processus de suppression de valeurs d'attributs spécifiques (colonnes), en supprimant les champs de données non essentiels ;
- Suppression d'enregistrements : désigne le processus de suppression d'enregistrements spécifiques (lignes), la suppression d'enregistrements de données non essentiels.
(4) Technologie des pseudonymes
La pseudonymisation est une technique d'anonymisation qui utilise un pseudonyme pour remplacer un identifiant direct (ou tout autre identifiant sensible). Les techniques de pseudonymisation créent des identifiants uniques pour chaque personne concernée, au lieu d'identifiants directs ou sensibles.
- Il peut générer des valeurs aléatoires indépendamment pour correspondre à l'ID d'origine, enregistrer la table de correspondance et contrôler strictement l'accès à cette table.
- Vous pouvez également utiliser le chiffrement pour produire des pseudonymes, mais vous devez conserver la clé de déchiffrement en lieu sûr ;
Cette technologie est largement utilisée dans le cas d'un grand nombre d'utilisateurs de données indépendants, comme OpenID dans le scénario de plateforme ouverte, où différents développeurs obtiennent différents OpenID pour le même utilisateur.
(5) Techniques de généralisation
La généralisation est une technique d'anonymisation qui réduit la granularité des attributs sélectionnés dans un ensemble de données et fournit une description plus générale et abstraite de ces données. Facile à mettre en œuvre, la généralisation préserve l'authenticité des données au niveau de l'enregistrement. Elle est couramment utilisée dans les produits et rapports de données.
- Arrondi : consiste à sélectionner une base d’arrondi pour l’attribut sélectionné, par exemple un arrondi supérieur ou inférieur, donnant des résultats de 100, 500, 1 000 et 10 000.
- Techniques de codage haut et bas : remplacer les valeurs supérieures (ou inférieures) au seuil par un seuil représentant le niveau supérieur (ou inférieur), ce qui donne un résultat « supérieur à X » ou « inférieur à X ».
(6) Techniques de randomisation
La randomisation, technique d'anonymisation, consiste à modifier la valeur d'un attribut par randomisation, de sorte que la valeur obtenue diffère de sa valeur réelle d'origine. Ce processus réduit la capacité d'un attaquant à déduire la valeur d'un attribut à partir d'autres valeurs d'attributs dans le même enregistrement de données, mais affecte l'authenticité des données résultantes, ce qui est fréquent avec les données de test en production.
Date de publication : 27 septembre 2022



