1. Le concept de masquage des données
Le masquage des données est également appelé « masquage de données ». Il s'agit d'une méthode technique permettant de convertir, de modifier ou de masquer des données sensibles telles que les numéros de téléphone portable, de carte bancaire et autres informations, lorsque des règles et politiques de masquage sont définies. Cette technique est principalement utilisée pour empêcher l'utilisation directe de données sensibles dans des environnements non fiables.
Principe de masquage des données : le masquage des données doit préserver les caractéristiques, les règles métier et la pertinence des données d'origine afin de garantir que le développement, les tests et l'analyse ultérieurs ne seront pas affectés. Il est essentiel de garantir la cohérence et la validité des données avant et après le masquage.
2. Classification du masquage des données
Le masquage des données peut être divisé en masquage des données statiques (SDM) et masquage des données dynamiques (DDM).
Masquage statique des données (SDM)Le masquage statique des données nécessite la création d'une nouvelle base de données d'environnement hors production pour l'isoler de l'environnement de production. Les données sensibles sont extraites de la base de données de production, puis stockées dans cette dernière. De cette manière, les données désensibilisées sont isolées de l'environnement de production, ce qui répond aux besoins métier et garantit la sécurité des données de production.
Masquage dynamique des données (DDM): Il est généralement utilisé en production pour désensibiliser les données sensibles en temps réel. Parfois, différents niveaux de masquage sont nécessaires pour lire les mêmes données sensibles dans différentes situations. Par exemple, différents rôles et autorisations peuvent mettre en œuvre différents schémas de masquage.
Application de masquage de rapports de données et de produits de données
Ces scénarios incluent principalement des produits de surveillance de données internes ou des panneaux d'affichage, des produits de données de services externes et des rapports basés sur l'analyse de données, tels que des rapports commerciaux et des revues de projets.
3. Solution de masquage des données
Les schémas de masquage de données courants incluent : l'invalidation, la valeur aléatoire, le remplacement de données, le cryptage symétrique, la valeur moyenne, le décalage et l'arrondi, etc.
AnnulationL'invalidation désigne le chiffrement, la troncature ou le masquage de données sensibles. Ce procédé remplace généralement les données réelles par des symboles spéciaux (tels que *). L'opération est simple, mais les utilisateurs ne peuvent pas connaître le format des données d'origine, ce qui peut affecter les applications ultérieures.
Valeur aléatoire: La valeur aléatoire désigne le remplacement aléatoire de données sensibles (les chiffres sont remplacés par des nombres, les lettres par des lettres et les caractères par des caractères). Cette méthode de masquage garantit, dans une certaine mesure, le format des données sensibles et facilite leur exploitation ultérieure. Des dictionnaires de masquage peuvent être nécessaires pour certains mots significatifs, tels que les noms de personnes et de lieux.
Remplacement des données:Le remplacement des données est similaire au masquage des valeurs nulles et aléatoires, sauf qu'au lieu d'utiliser des caractères spéciaux ou des valeurs aléatoires, les données de masquage sont remplacées par une valeur spécifique.
Cryptage symétriqueLe chiffrement symétrique est une méthode de masquage réversible spéciale. Il chiffre les données sensibles à l'aide de clés et d'algorithmes de chiffrement. Le format du texte chiffré est cohérent avec les données d'origine selon des règles logiques.
Moyenne: Le schéma de moyenne est souvent utilisé dans les scénarios statistiques. Pour les données numériques, nous calculons d'abord leur moyenne, puis distribuons aléatoirement les valeurs désensibilisées autour de cette moyenne, maintenant ainsi la somme des données constante.
Décalage et arrondiCette méthode modifie les données numériques par décalage aléatoire. L'arrondi du décalage garantit l'authenticité approximative de la plage tout en préservant la sécurité des données, plus proches des données réelles que les schémas précédents, et revêt une importance capitale dans le contexte de l'analyse du Big Data.
Le modèle de recommandation "ML-NPB-5660" pour le masquage des données
4. Techniques de masquage de données couramment utilisées
(1). Techniques statistiques
Échantillonnage et agrégation des données
- Échantillonnage des données : L’analyse et l’évaluation de l’ensemble de données d’origine en sélectionnant un sous-ensemble représentatif de l’ensemble de données est une méthode importante pour améliorer l’efficacité des techniques de désidentification.
- Agrégation de données : En tant qu'ensemble de techniques statistiques (telles que la sommation, le comptage, la moyenne, le maximum et le minimum) appliquées aux attributs des microdonnées, le résultat est représentatif de tous les enregistrements de l'ensemble de données d'origine.
(2). Cryptographie
La cryptographie est une méthode courante pour désensibiliser ou améliorer l'efficacité de la désensibilisation. Différents types d'algorithmes de chiffrement permettent d'obtenir différents effets de désensibilisation.
- Chiffrement déterministe : chiffrement symétrique non aléatoire. Il traite généralement les données d'identification et peut déchiffrer et restaurer le texte chiffré à l'identifiant d'origine si nécessaire, mais la clé doit être correctement protégée.
- Chiffrement irréversible : la fonction de hachage est utilisée pour traiter les données, généralement utilisées pour les données d'identification. Elle ne peut pas être déchiffrée directement et la relation de mappage doit être sauvegardée. De plus, en raison de la fonctionnalité de la fonction de hachage, des collisions de données peuvent se produire.
Chiffrement homomorphe : L'algorithme homomorphe du texte chiffré est utilisé. Il se caractérise par le fait que le résultat de l'opération sur le texte chiffré est identique à celui de l'opération sur le texte clair après déchiffrement. Il est donc couramment utilisé pour traiter des champs numériques, mais son utilisation est limitée pour des raisons de performances.
(3). Technologie des systèmes
La technologie de suppression supprime ou protège les éléments de données qui ne répondent pas aux normes de protection de la vie privée, mais ne les publie pas.
- Masquage : il s'agit de la méthode de désensibilisation la plus courante pour masquer la valeur d'attribut, comme le numéro de l'adversaire, la carte d'identité est marquée d'un astérisque ou l'adresse est tronquée.
- Suppression locale : fait référence au processus de suppression de valeurs d'attributs spécifiques (colonnes), en supprimant les champs de données non essentiels ;
- Suppression d'enregistrements : fait référence au processus de suppression d'enregistrements spécifiques (lignes), en supprimant les enregistrements de données non essentiels.
(4). Technologie des pseudonymes
Le pseudonymisation est une technique de dépersonnalisation qui utilise un pseudonyme pour remplacer un identifiant direct (ou un autre identifiant sensible). Les techniques de pseudonymisation créent des identifiants uniques pour chaque personne concernée, au lieu d'identifiants directs ou sensibles.
- Il peut générer des valeurs aléatoires indépendamment pour correspondre à l'ID d'origine, enregistrer la table de mappage et contrôler strictement l'accès à la table de mappage.
- Vous pouvez également utiliser le cryptage pour produire des pseudonymes, mais vous devez conserver correctement la clé de décryptage ;
Cette technologie est largement utilisée dans le cas d'un grand nombre d'utilisateurs de données indépendants, comme OpenID dans le scénario de plate-forme ouverte, où différents développeurs obtiennent différents Openids pour le même utilisateur.
(5). Techniques de généralisation
La technique de généralisation désigne une technique d'anonymisation qui réduit la granularité des attributs sélectionnés dans un ensemble de données et fournit une description plus générale et abstraite des données. Cette technique est facile à mettre en œuvre et permet de protéger l'authenticité des données au niveau des enregistrements. Elle est couramment utilisée dans les produits et rapports de données.
- Arrondi : consiste à sélectionner une base d'arrondi pour l'attribut sélectionné, comme une analyse médico-légale à la hausse ou à la baisse, donnant les résultats 100, 500, 1K et 10K
- Techniques de codage supérieur et inférieur : Remplacez les valeurs supérieures (ou inférieures) au seuil par un seuil représentant le niveau supérieur (ou inférieur), ce qui donne un résultat « supérieur à X » ou « inférieur à X »
(6). Techniques de randomisation
En tant que technique de désidentification, la technologie de randomisation consiste à modifier la valeur d'un attribut par randomisation, de sorte que la valeur obtenue après randomisation soit différente de la valeur réelle d'origine. Ce processus réduit la capacité d'un attaquant à déduire une valeur d'attribut à partir d'autres valeurs d'attribut du même enregistrement de données, mais affecte l'authenticité des données obtenues, ce qui est courant avec les données de test en production.
Date de publication : 27 septembre 2022