Quelle est la technologie et la solution de masquage des données dans Network Packet Broker ?

1. Le concept de masquage des données

Le masquage des données est également appelé masquage des données. Il s'agit d'une méthode technique permettant de convertir, modifier ou masquer des données sensibles telles que le numéro de téléphone portable, le numéro de carte bancaire et d'autres informations lorsque nous avons donné des règles et politiques de masquage. Cette technique est principalement utilisée pour empêcher que des données sensibles soient utilisées directement dans des environnements peu fiables.

Principe de masquage des données : le masquage des données doit conserver les caractéristiques des données d'origine, les règles métier et la pertinence des données pour garantir que le développement, les tests et l'analyse des données ultérieurs ne seront pas affectés par le masquage. Assurez la cohérence et la validité des données avant et après le masquage.

2. Classification du masquage des données

Le masquage des données peut être divisé en masquage de données statiques (SDM) et masquage de données dynamique (DDM).

Masquage des données statiques (SDM): Le masquage des données statiques nécessite la création d'une nouvelle base de données d'environnement hors production pour l'isoler de l'environnement de production. Les données sensibles sont extraites de la base de données de production puis stockées dans la base de données hors production. De cette manière, les données désensibilisées sont isolées de l’environnement de production, ce qui répond aux besoins métiers et assure la sécurité des données de production.

MJF

Masquage dynamique des données (DDM): Il est généralement utilisé dans l’environnement de production pour désensibiliser les données sensibles en temps réel. Parfois, différents niveaux de masquage sont nécessaires pour lire les mêmes données sensibles dans différentes situations. Par exemple, différents rôles et autorisations peuvent implémenter différents schémas de masquage.

DDM

Application de reporting de données et de masquage de produits de données

Ces scénarios incluent principalement des produits de surveillance des données internes ou des panneaux d'affichage, des produits de données de services externes et des rapports basés sur l'analyse des données, tels que des rapports commerciaux et des examens de projets.

masquage du produit de reporting des données

3. Solution de masquage des données

Les schémas courants de masquage des données comprennent : l'invalidation, la valeur aléatoire, le remplacement des données, le cryptage symétrique, la valeur moyenne, le décalage et l'arrondi, etc.

Annulation: L'invalidation fait référence au cryptage, à la troncature ou au masquage de données sensibles. Ce schéma remplace généralement les données réelles par des symboles spéciaux (tels que *). L'opération est simple, mais les utilisateurs ne peuvent pas connaître le format des données originales, ce qui peut affecter les applications de données ultérieures.

Valeur aléatoire: La valeur aléatoire fait référence au remplacement aléatoire de données sensibles (les chiffres remplacent les chiffres, les lettres remplacent les lettres et les caractères remplacent les caractères). Cette méthode de masquage garantira dans une certaine mesure le format des données sensibles et facilitera l’application ultérieure des données. Des dictionnaires de masquage peuvent être nécessaires pour certains mots significatifs, tels que les noms de personnes et de lieux.

Remplacement des données: Le remplacement des données est similaire au masquage des valeurs nulles et aléatoires, sauf qu'au lieu d'utiliser des caractères spéciaux ou des valeurs aléatoires, les données de masquage sont remplacées par une valeur spécifique.

Chiffrement symétrique: Le cryptage symétrique est une méthode spéciale de masquage réversible. Il crypte les données sensibles grâce à des clés de cryptage et des algorithmes. Le format du texte chiffré est cohérent avec les données originales dans les règles logiques.

Moyenne: Le schéma moyen est souvent utilisé dans les scénarios statistiques. Pour les données numériques, nous calculons d’abord leur moyenne, puis distribuons aléatoirement les valeurs désensibilisées autour de la moyenne, gardant ainsi la somme des données constante.

Décalage et arrondi: Cette méthode modifie les données numériques par décalage aléatoire. L'arrondi décalé garantit l'authenticité approximative de la plage tout en maintenant la sécurité des données, qui est plus proche des données réelles que les schémas précédents, et revêt une grande importance dans le scénario d'analyse du Big Data.

ML-NPB-5660-数据脱敏

Le modèle recommandé "ML-NPB-5660" pour le masquage des données

4. Techniques de masquage des données couramment utilisées

(1). Techniques statistiques

Échantillonnage et agrégation de données

- Échantillonnage de données : l'analyse et l'évaluation de l'ensemble de données d'origine en sélectionnant un sous-ensemble représentatif de l'ensemble de données constituent une méthode importante pour améliorer l'efficacité des techniques de désidentification.

- Agrégation de données : en tant qu'ensemble de techniques statistiques (telles que la sommation, le comptage, la moyenne, le maximum et le minimum) appliquées aux attributs des microdonnées, le résultat est représentatif de tous les enregistrements de l'ensemble de données d'origine.

(2). Cryptographie

La cryptographie est une méthode courante pour désensibiliser ou améliorer l'efficacité de la désensibilisation. Différents types d’algorithmes de chiffrement peuvent produire différents effets de désensibilisation.

- Chiffrement déterministe : Un chiffrement symétrique non aléatoire. Il traite généralement les données d'identification et peut déchiffrer et restaurer le texte chiffré à l'identifiant d'origine si nécessaire, mais la clé doit être correctement protégée.

- Cryptage irréversible : La fonction de hachage est utilisée pour traiter les données, qui sont généralement utilisées pour les données d'identification. Il ne peut pas être directement déchiffré et la relation de mappage doit être enregistrée. De plus, en raison de la fonctionnalité de hachage, une collision de données peut se produire.

- Cryptage homomorphe : L'algorithme homomorphe du texte chiffré est utilisé. Sa caractéristique est que le résultat de l’opération de texte chiffré est le même que celui de l’opération de texte en clair après déchiffrement. Par conséquent, il est couramment utilisé pour traiter des champs numériques, mais il n’est pas largement utilisé pour des raisons de performances.

(3). Technologie du système

La technologie de suppression supprime ou protège les éléments de données qui ne respectent pas la protection de la vie privée, mais ne les publie pas.

- Masquage : il s'agit de la méthode de désensibilisation la plus courante pour masquer la valeur d'un attribut, comme le numéro de l'adversaire, la carte d'identité marquée d'un astérisque ou l'adresse tronquée.

- Suppression locale : fait référence au processus de suppression de valeurs d'attributs spécifiques (colonnes), supprimant les champs de données non essentiels ;

- Suppression d'enregistrements : fait référence au processus de suppression d'enregistrements spécifiques (lignes), de suppression d'enregistrements de données non essentiels.

(4). Technologie des pseudonymes

Le pseudomanning est une technique de désidentification qui utilise un pseudonyme pour remplacer un identifiant direct (ou un autre identifiant sensible). Les techniques de pseudonyme créent des identifiants uniques pour chaque sujet d'information individuel, au lieu d'identifiants directs ou sensibles.

- Il peut générer des valeurs aléatoires indépendamment pour correspondre à l'ID d'origine, enregistrer la table de mappage et contrôler strictement l'accès à la table de mappage.

- Vous pouvez également utiliser le cryptage pour produire des pseudonymes, mais vous devez conserver correctement la clé de déchiffrement ;

Cette technologie est largement utilisée dans le cas d'un grand nombre d'utilisateurs de données indépendants, comme OpenID dans le scénario de plateforme ouverte, où différents développeurs obtiennent différents Openids pour le même utilisateur.

(5). Techniques de généralisation

La technique de généralisation fait référence à une technique de désidentification qui réduit la granularité des attributs sélectionnés dans un ensemble de données et fournit une description plus générale et abstraite des données. La technologie de généralisation est facile à mettre en œuvre et peut protéger l’authenticité des données au niveau de l’enregistrement. Il est couramment utilisé dans les produits de données ou les rapports de données.

- Arrondi : implique la sélection d'une base d'arrondi pour l'attribut sélectionné, telle que la criminalistique à la hausse ou à la baisse, donnant des résultats de 100, 500, 1K et 10K.

- Techniques de codage haut et bas : remplacez les valeurs supérieures (ou inférieures) au seuil par un seuil représentant le niveau supérieur (ou inférieur), donnant un résultat "au-dessus de X" ou "en dessous de X".

(6). Techniques de randomisation

En tant que sorte de technique de désidentification, la technologie de randomisation fait référence à la modification de la valeur d'un attribut par randomisation, de sorte que la valeur après randomisation soit différente de la valeur réelle d'origine. Ce processus réduit la capacité d'un attaquant à dériver une valeur d'attribut à partir d'autres valeurs d'attribut dans le même enregistrement de données, mais affecte l'authenticité des données résultantes, ce qui est courant avec les données de test de production.


Heure de publication : 27 septembre 2022