1. Le concept de masquage des données
Le masquage des données est également connu sous le nom de masquage des données. Il s'agit d'une méthode technique pour convertir, modifier ou couvrir des données sensibles telles que le numéro de téléphone mobile, le numéro de carte bancaire et d'autres informations lorsque nous avons donné des règles et des politiques de masquage. Cette technique est principalement utilisée pour empêcher les données sensibles d'être utilisées directement dans des environnements peu fiables.
Principe de masquage des données: le masquage des données devrait maintenir les caractéristiques des données, les règles métier et la pertinence des données d'origine pour garantir que le développement, les tests et l'analyse des données ultérieurs ne seront pas affectés par le masquage. Assurer la cohérence et la validité des données avant et après le masquage.
2. Classification de masquage des données
Le masquage des données peut être divisé en masquage de données statique (SDM) et en masquage dynamique des données (DDM).
Masquage des données statiques (SDM): Le masquage des données statique nécessite la mise en place d'une nouvelle base de données sur l'environnement non production pour l'isolement de l'environnement de production. Les données sensibles sont extraites de la base de données de production puis stockées dans la base de données non en production. De cette façon, les données désensibilisées sont isolées de l'environnement de production, qui répond aux besoins de l'entreprise et assure la sécurité des données de production.
Masquage des données dynamiques (DDM): Il est généralement utilisé dans l'environnement de production pour désensibiliser les données sensibles en temps réel. Parfois, différents niveaux de masquage sont nécessaires pour lire les mêmes données sensibles dans différentes situations. Par exemple, différents rôles et autorisations peuvent mettre en œuvre différents schémas de masquage.
Application de masquage de rapports de données et de données sur les données
Ces scénarios incluent principalement des produits de surveillance des données internes ou des panneaux d'affichage, des produits de données de service externes et des rapports basés sur l'analyse des données, tels que les rapports d'entreprise et l'examen du projet.
3. Solution de masquage des données
Les schémas de masquage des données communs comprennent: l'invalidation, la valeur aléatoire, le remplacement des données, le cryptage symétrique, la valeur moyenne, le décalage et l'arrondi, etc.
Annulation: L'invalidation fait référence au chiffrement, à la troncature ou à la cachette de données sensibles. Ce schéma remplace généralement les données réelles par des symboles spéciaux (tels que *). L'opération est simple, mais les utilisateurs ne peuvent pas connaître le format des données d'origine, ce qui peut affecter les applications de données ultérieures.
Valeur aléatoire: La valeur aléatoire fait référence au remplacement aléatoire des données sensibles (les numéros remplacent les chiffres, les lettres remplacent les lettres et les caractères remplacent les caractères). Cette méthode de masquage assurera le format des données sensibles dans une certaine mesure et facilitera l'application de données ultérieure. Des dictionnaires de masquage peuvent être nécessaires pour des mots significatifs, tels que les noms de personnes et de lieux.
Remplacement des données: Le remplacement des données est similaire au masquage des valeurs nuls et aléatoires, sauf qu'au lieu d'utiliser des caractères spéciaux ou des valeurs aléatoires, les données de masquage sont remplacées par une valeur spécifique.
Cryptage symétrique: Le cryptage symétrique est une méthode de masquage réversible spéciale. Il crypte les données sensibles à travers des clés de chiffrement et des algorithmes. Le format de texte chiffré est cohérent avec les données d'origine dans les règles logiques.
Moyenne: Le schéma moyen est souvent utilisé dans les scénarios statistiques. Pour les données numériques, nous calculons d'abord leur moyenne, puis distribuons au hasard les valeurs désensibilisées autour de la moyenne, gardant ainsi la somme des données constantes.
Décalage et arrondi: Cette méthode modifie les données numériques par changement aléatoire. L'arrondissement de décalage garantit l'authenticité approximative de la plage tout en maintenant la sécurité des données, qui est plus proche des données réelles que les schémas précédents, et a une grande importance dans le scénario d'analyse des mégadonnées.
Le modèle recommandé "ML-NPB-5660"Pour le masquage des données
4. Techniques de masquage des données couramment utilisées
(1). Techniques statistiques
Échantillonnage de données et agrégation de données
- Échantillonnage des données: L'analyse et l'évaluation de l'ensemble de données d'origine en sélectionnant un sous-ensemble représentatif de l'ensemble de données sont une méthode importante pour améliorer l'efficacité des techniques d'identification.
- Aggrégation de données: En tant que collecte de techniques statistiques (telles que la sommation, le comptage, la moyenne, le maximum et le minimum) appliquées aux attributs dans les microdata, le résultat est représentatif de tous les enregistrements dans l'ensemble de données d'origine.
(2). Cryptographie
La cryptographie est une méthode courante pour désensibiliser ou améliorer l'efficacité de la désensibilisation. Différents types d'algorithmes de chiffrement peuvent obtenir différents effets de désensibilisation.
- Encryption déterministe: un cryptage symétrique non aléatoire. Il traite généralement les données d'identification et peut décrypter et restaurer le texte chiffré vers l'ID d'origine lorsque cela est nécessaire, mais la clé doit être correctement protégée.
- Encryption irréversible: la fonction de hachage est utilisée pour traiter les données, qui est généralement utilisée pour les données d'ID. Il ne peut pas être directement déchiffré et la relation de cartographie doit être sauvée. De plus, en raison de la fonctionnalité de la fonction de hachage, une collision de données peut se produire.
- Encryption homomorphe: l'algorithme homorphe du texte chiffré est utilisé. Sa caractéristique est que le résultat de l'opération de texte chiffré est le même que celui de l'opération en texte clair après décryptage. Par conséquent, il est couramment utilisé pour traiter les champs numériques, mais il n'est pas largement utilisé pour des raisons de performance.
(3). Technologie du système
La technologie de suppression supprime ou protège les éléments de données qui ne répondent pas à la protection de la vie privée, mais ne les publie pas.
- Masquage: il fait référence à la méthode de désensibilisation la plus courante pour masquer la valeur d'attribut, telle que le numéro d'adversaire, la carte d'identification est marquée d'un astérisque, ou l'adresse est tronquée.
- Suppression locale: fait référence au processus de suppression des valeurs d'attribut spécifiques (colonnes), en supprimant les champs de données non essentiels;
- Suppression des enregistrements: fait référence au processus de suppression des enregistrements spécifiques (lignes), en supprimant les enregistrements de données non essentiels.
(4). Technologie pseudonyme
Le pseudomanning est une technique d'identification qui utilise un pseudonyme pour remplacer un identifiant direct (ou un autre identifiant sensible). Les techniques pseudonymes créent des identifiants uniques pour chaque sujet d'information individuelle, au lieu d'identifiants directs ou sensibles.
- Il peut générer des valeurs aléatoires indépendamment pour correspondre à l'ID d'origine, enregistrer la table de mappage et contrôler strictement l'accès à la table de mappage.
- Vous pouvez également utiliser le cryptage pour produire des pseudonymes, mais vous devez garder correctement la clé de déchiffrement;
Cette technologie est largement utilisée dans le cas d'un grand nombre d'utilisateurs de données indépendants, tels qu'OpenID dans le scénario de plate-forme ouverte, où différents développeurs obtiennent différents OpenID pour le même utilisateur.
(5). Techniques de généralisation
La technique de généralisation fait référence à une technique d'identification qui réduit la granularité des attributs sélectionnés dans un ensemble de données et fournit une description plus générale et abstraite des données. La technologie de généralisation est facile à mettre en œuvre et peut protéger l'authenticité des données de niveau record. Il est couramment utilisé dans les produits de données ou les rapports de données.
- Arrondi: implique la sélection d'une base d'arrondi pour l'attribut sélectionné, comme la criminalistique ascendante ou vers le bas, donnant des résultats 100, 500, 1k et 10k
- Techniques de codage supérieur et inférieure: Remplacez les valeurs supérieures (ou en dessous) le seuil avec un seuil représentant le niveau supérieur (ou inférieur), donnant le résultat de "au-dessus x" ou "en dessous de x"
(6). Techniques de randomisation
En tant que type de technique d'identification, la technologie de randomisation fait référence à la modification de la valeur d'un attribut par randomisation, de sorte que la valeur après randomisation est différente de la valeur réelle d'origine. Ce processus réduit la capacité d'un attaquant à dériver une valeur d'attribut à partir d'autres valeurs d'attribut dans le même enregistrement de données, mais affecte l'authenticité des données résultantes, ce qui est courant avec les données de test de production.
Temps de poste: sept-27-2022