Questions relatives à la confidentialité différentielle

Questions relatives à la confidentialité différentielle post thumbnail image

La confidentialité différentielle (DP) est une approche visant à préserver la confidentialité des enregistrements individuels dans une base de données, tout en permettant l’analyse statistique. Elle est aujourd’hui perçue comme la méthode de référence dans le domaine de la confidentialité des données. Elle a été adoptée par le US Census Bureau et plusieurs grandes entreprises du secteur, et a bénéficié d’une présence médiatique très visible. La DP a développé une vaste littérature de recherche.

D’autre part

, elle fait également l’objet de controverses, et maintenant, de poursuites judiciaires.

Quelques remarques préparatoires :

Je fais de la recherche dans le domaine de la confidentialité des données depuis de nombreuses années, par exemple dans le cadre du Symposium de l’IEEE sur la sécurité et la confidentialité, de l’ACM Trans. on Database Systems, de plusieurs chapitres de livres et de travaux en cours sur arXiv. J’ai été nommé membre du groupe de travail 11.3 de l’IFIP sur la sécurité des bases de données dans les années 1990. L’article de l’ACM TODS a été financé en partie par le Census Bureau.

Notation : la base de données est constituée de n enregistrements sur p variables.

Le paquet R diffpriv rend l’utilisation des méthodes standard de DP facile à mettre en œuvre, et est recommandé à tout lecteur qui souhaite approfondir ces questions.

Voici un exemple classique de la question de la confidentialité. Supposons que nous ayons une base de données d’employés, et qu’un intrus sache qu’il n’y a qu’une seule femme ingénieur électricien dans le formulaire.

L

‘intrus soumet une requête sur le salaire moyen de toutes les femmes ingénieurs électriciens, et obtient ainsi illicitement son salaire.

Qu’est-ce que le DP ?

Techniquement, DP n’est qu’un critère et non une méthode, mais le terme est généralement utilisé pour désigner les méthodes dont la dérivation est motivée par ce critère.

Le DP est en fait basé sur une approche très ancienne et largement utilisée de la confidentialité des données, la perturbation par le bruit aléatoire

. C’est assez simple. Supposons que nous disposions d’une base de données comprenant une variable salariale, considérée comme confidentielle. Nous ajoutons un bruit aléatoire, de moyenne 0, pour cacher le revenu réel d’une personne aux intrus. La méthode

DP diffère des autres méthodes basées sur le bruit, car elle revendique une mesure quantitative de la confidentialité.

Pourquoi ajouter du bruit ?

La motivation est que, puisque le bruit ajouté a une moyenne de 0, les chercheurs qui font des analyses statistiques légitimes peuvent toujours faire leur travail. Ils travaillent avec des moyennes, et le salaire moyen dans la base de données sous forme bruyante devrait être assez proche de celui des données originales, le bruit s’annulant en grande partie. (Nous verrons ci-dessous, cependant, que cette vision est trop simple, que ce soit dans les méthodes DP ou les méthodes classiques basées sur le bruit).

Dans les méthodes DP, le bruit est généralement ajouté à la statistique finale, par exemple à une moyenne d’intérêt, plutôt que directement aux variables.

L’une des questions est de savoir s’il faut ajouter une valeur de bruit différente chaque fois qu’une requête arrive sur le serveur de données, ou s’il faut ajouter le bruit une seule fois et ensuite rendre les données perturbées accessibles au public.

Les

méthodes DP tendent à faire le premier choix, alors que l’on utilise classiquement la seconde approche.

Utilité :

Un problème connexe est que pour la plupart des paramètres DP, une version DP distincte doit être développée pour chaque méthode statistique. Si un utilisateur veut, par exemple, effectuer une régression quantile, il doit vérifier si une version du PD a été développée et si le code est disponible pour celle-ci. Avec les méthodes classiques de protection de la vie privée, une fois l’ensemble de données perturbé, les utilisateurs peuvent appliquer la méthode statistique de leur choix. Je compare cela à un parc d’attractions. Les méthodes classiques donnent un « laissez-passer journalier » qui permet de profiter de n’importe quel manège ; DP exige un billet distinct pour chaque manège.

Compromis vie privée/précision :

<p>Avec n’importe quelle méthode de confidentialité des données, DP ou classique, il n’y a pas de solution parfaite. On peut seulement choisir un « réglage de cadran » dans une gamme de compromis. Ces derniers sont de deux types principaux :

  • Il existe un compromis entre la protection de la vie privée des individus d’une part, et la préservation de la précision statistique pour les chercheurs. Plus la variance du bruit ajouté est grande, plus la vie privée est préservée, mais plus les erreurs standard des quantités statistiques calculées à partir des données perturbées sont importantes.
  • Tout aussi important, bien que rarement mentionné, se pose le problème de l’atténuation des relations entre les variables. Il s’agit là de l’élément central de la plupart des types d’analyse de données, qui consiste à trouver et à quantifier les relations ; pourtant, plus on ajoute de bruit aux données, plus les relations rapportées seront faibles. Ce problème se pose dans l’addition classique de bruit, et se retrouve dans certaines méthodes DP, comme celles qui ajoutent du bruit aux comptages dans les tableaux de contingence. Nous avons donc ici non seulement un problème de variance mais aussi un problème de biais ; les valeurs absolues des corrélations, des coefficients de régression, etc. sont biaisées vers le bas. Une solution partielle consiste à rendre la structure de corrélation du bruit égale à celle des données, mais cela ne s’applique pas aux variables catégorielles (où l’approche de l’ajout de bruit n’a de toute façon pas beaucoup de sens).

Autres méthodes classiques de contrôle de la divulgation statistique :

Deux autres grandes méthodes de protection des données doivent être mentionnées ici.

  1. La suppression des cellules : Toute requête dont les conditions sont satisfaites par un seul enregistrement de la base de données est rejetée. Dans l’exemple de l’EE féminin ci-dessus, par exemple, la requête de cet intrus ne recevrait tout simplement pas de réponse. L’un des problèmes de cette approche est qu’elle est vulnérable aux attaques par différenciation d’ensembles. L’intrus pourrait interroger le total des salaires de tous les EE, puis interroger les EE masculins, et enfin soustraire pour obtenir illicitement le salaire de l’EE féminin. Des méthodes élaborées ont été développées pour contrer de telles attaques.
  2. Échange de données : Pour un certain sous-ensemble de données – choisi soit de manière aléatoire, soit en fonction de la vulnérabilité d’un enregistrement aux attaques – certaines des données d’un enregistrement sont échangées avec celles d’un enregistrement similaire. Dans l’exemple de l’EE féminine, nous pourrions échanger la profession ou les salaires, par exemple.

Notez qu’aucune de ces méthodes ne permet d’éviter le problème des compromis entre confidentialité et précision. Dans la suppression des cellules, plus on impose de suppression, plus les problèmes de variance et de biais dans les analyses statistiques sont importants. L’échange de données ajoute essentiellement du bruit, ce qui entraîne également une variance et un biais.

Le critère de confidentialité DP :

Puisque le DP ajoute du bruit aléatoire, le critère DP est formulé en termes probabilistes. Considérons deux ensembles de données, D et D’, avec les mêmes variables et le même nombre d’enregistrements n, mais différant par un enregistrement. Considérons une requête Q donnée. Dénotons les réponses par Q(D) et Q(D’). Alors le critère DP est, pour tout ensemble S dans l’image de Q,

P(Q(D) dans S) < P(Q(D’) dans S) exp(ε)

pour toutes les paires (D,D’) possibles et pour un petit paramètre d’accord ε. Plus ε est petit, plus la confidentialité est grande.

Notez que la définition implique toutes les paires (D,D’) possibles ; D ici n’est PAS seulement la base de données réelle à portée de main (bien qu’il existe un concept de sensibilité locale dans lequel D est effectivement notre base de données réelle). D’un autre côté, en traitant une requête, nous utilisons la base de données à portée de main, et nous calculons le niveau de bruit pour la requête en fonction de n pour cette D.

Les méthodes conformes à la DP ont ont été développés pour diverses quantités statistiques, produisant des formules pour la variance du bruit en fonction de ε et une limite supérieure anticipée de Δ = |Q(D) – Q(D’)|. Là encore, cette limite supérieure doit s’appliquer à toutes les paires (D,D’) possibles. Pour la taille humaine, par exemple, nous savons que personne n’aura une taille de, disons, 300 cm, ce qui pourrait prendre pour Δ Si notre requête Q() concerne la taille moyenne, nous divisons Δ par n ; c’est une limite plutôt négligée, mais elle fonctionnerait.

Problèmes avec les revendications de confidentialité quantifiable garantie de DP :

(De nombreuses failles ont été revendiquées pour DP, mais à ma connaissance, cette analyse est nouvelle).

Considérons à nouveau l’exemple de l’EE féminine. Un problème qui surgit immédiatement est que, puisqu’il s’agit d’une moyenne conditionnelle, Q(D) et/ou Q(D’) seront souvent indéfinis.

Il n’est pas certain que les implémentations existantes de DP soient préparées à gérer cela. Par exemple, considérez le paquet diffpriv. Il semble ne rien faire pour traiter ce problème. La bibliothèque de confidentialité différentielle de Google utilise SQL, nous avons des problèmes :

Si l’accès à la base de données se fait via SQL, le problème consisterait à renvoyer NULL si l’ensemble de conditionnement est vide pour un certain D ou D’. Puisque de telles requêtes sont essentielles à l’analyse des données, ce serait un problème sérieux.

Il n’est pas certain que l’algorithme TopDown du Census Bureau gère le problème non plus. Il traite les données comme un tableau de contingence géant, en ajoutant du bruit à chaque cellule. Toutes les requêtes sont ensuite traitées comme des fonctions du nombre de cellules, sans ajout de bruit supplémentaire.

Un problème majeur semble être que de nombreuses cellules dont le nombre de cellules était différent de 0 à l’origine seront maintenant des 0 dans la version bruyante des données. Le bruit aléatoire ajouté produira des nombres négatifs dans de nombreux cas, et bien que la procédure du Bureau les change en au moins 0, beaucoup resteront à 0. On a alors le problème du « dénominateur 0 » décrit ci-dessus.

Un autre problème concerne les requêtes pour les totaux, par exemple le total des salaires de toutes les travailleuses. Le bruit qui serait ajouté, par exemple sur la base du salaire maximum, serait le même, qu’il y ait 10 ou 1000 femmes dans l’entreprise. Alors que DP donnerait un bruit mathématiquement correct ici, le fait que le bruit soit le même quelle que soit la taille globale du total ne semble pas justifié.

Problèmes de biais :

Comme indiqué, les méthodes de PD qui fonctionnent sur des tableaux de contingence en ajoutant des valeurs de bruit indépendantes au nombre de cellules peuvent atténuer la corrélation et donc produire un biais. Le biais sera substantiel pour les petits tableaux.

Un autre problème, également dans les tableaux de contingence DP, est que le biais peut provenir du post-traitement. Si un bruit laplacien est ajouté aux comptes, certains comptes peuvent être négatifs. Comme le montrent Zhu et al, le post-traitement pour obtenir la non négativité peut entraîner un biais.

L’adoption de la méthode DP par le US Census Bureau :

La méthodologie DP du Census Bureau remplace l’approche basée sur la permutation utilisée dans les précédents rapports de recensement. Bien que mon objectif dans cet essai ait été principalement de discuter de la méthode DP en général, je vais faire quelques commentaires.

Tout d’abord, que compte faire le Bureau ? Il va adopter une approche en deux phases. Il considère la base de données comme un tableau de contingence extrêmement large (« histogramme », selon sa terminologie). Ensuite, il ajoute du bruit au nombre de cellules. Ensuite, ils modifient les comptes de cellules pour satisfaire à la non négativité et à certaines autres contraintes, par exemple en prenant le nombre total de résidents dans un bloc de recensement comme invariant. L’histogramme final perturbé est rendu public.

Pourquoi font-ils cela ? Les simulations du Bureau indiquent qu’avec des ressources informatiques très importantes et éventuellement des données externes, un intrus pourrait reconstituer une grande partie des données originales, non perturbées.

Critiques du plan de PDD du Census Bureau :

En plus des préoccupations générales concernant le PDD, il existe également des préoccupations spécifiques aux méthodes de PDD du Bureau.

Le Bureau admet que le produit est une donnée synthétique. Eh bien, toute donnée perturbée n’est-elle pas synthétique ? Oui, mais ici TOUTES les données sont perturbées, par opposition au swapping, où seule une petite fraction des données change.

Il va sans dire que l’utilisation de données synthétiques suscite l’indignation de nombreux chercheurs. Ils ne s’y fient pas et ont donné des exemples de résultats indésirables, de distorsions substantielles qui pourraient avoir de graves répercussions sur les travaux de recherche dans les secteurs commercial, industriel et scientifique. On craint également de graves répercussions sur le redécoupage des circonscriptions électorales de l’année prochaine, qui s’appuie fortement sur les données de recensement, même si une analyse est plus optimiste.

Il y a déjà eu un procès contre l’utilisation du DP par le Bureau. On peut s’attendre à ce qu’il y en ait d’autres, une fois que le Bureau aura publié ses données – et que le redécoupage électoral aura été effectué sur la base de ces données. Il s’agit donc une fois de plus d’un compromis entre la vie privée et l’exactitude. Les critiques disent que les scénarios de reconstruction du Bureau sont improbables et exagérés. Si l’on ajoute à cela la nature illusoire des garanties de confidentialité du DP, le problème s’aggrave encore.

Commentaires finaux :

Comment en sommes-nous arrivés là ? La PD a de sérieux défauts. Pourtant, elle s’est largement imposée dans le domaine de la confidentialité des données. En plus d’avoir été choisi comme base des données de recensement, il est quelque peu utilisé dans l’industrie. Apple, par exemple, utilise l’addition classique de bruit, appliquée aux données brutes, mais avec un budget de confidentialité DP.

Comme nous l’avons indiqué, les premiers développements du DP ont été réalisés principalement par des chercheurs en informatique. Les gens de CS voient le monde en termes de…

Source :

La confidentialité différentielle (DP) est une approche visant à préserver la confidentialité des enregistrements individuels dans une base de données, tout en permettant l’analyse statistique. Elle est aujourd’hui perçue comme la méthode de référence dans le domaine de la confidentialité des données. Elle a été adoptée par le US Census Bureau et plusieurs grandes entreprises du secteur, et a bénéficié d’une présence médiatique très visible. La DP a développé une vaste littérature de recherche. D’autre part, elle fait également l’objet de controverses et, désormais, de poursuites judiciaires.

Quelques remarques préparatoires :

Je fais de la recherche dans le domaine de la confidentialité des données depuis de nombreuses années, par exemple, IEEE Symposium on Security and Privacy ; ACM Trans. on Database Systems ; plusieurs chapitres de livres ; et travaux en cours, arXiv. J’ai été nommé membre du groupe de travail 11.3 de l’IFIP sur la sécurité des bases de données dans les années 1990. L’article de l’ACM TODS a été financé en partie par le Census Bureau.

Notation : la base de données est constituée de n enregistrements sur p variables.

Le paquet R diffpriv rend l’utilisation des méthodes standard de DP facile à mettre en œuvre, et est recommandé à tout lecteur qui souhaite approfondir ces questions.

Voici un exemple classique de la question de la confidentialité. Supposons que nous ayons une base de données d’employés, et qu’un intrus sache qu’il n’y a qu’une seule femme ingénieur électricien dans le formulaire. L’intrus soumet une requête sur le salaire moyen de toutes les femmes ingénieurs électriciens, et obtient ainsi illicitement son salaire.

Qu’est-ce que le DP ?</p>

Techniquement, DP n’est qu’un critère, pas une méthode, mais le terme est généralement pris pour désigner les méthodes dont la dérivation est motivée par ce critère.

La DP est en fait basée sur une approche très ancienne et largement utilisée de la confidentialité des données, la perturbation par le bruit aléatoire

. C’est assez simple. Supposons que nous disposions d’une base de données comprenant une variable salariale, considérée comme confidentielle. Nous ajoutons un bruit aléatoire, de moyenne 0, pour cacher le revenu réel d’une personne aux intrus. La méthode

DP diffère des autres méthodes basées sur le bruit, car elle revendique une mesure quantitative de la confidentialité.

Pourquoi ajouter du bruit ?

La motivation est que, puisque le bruit ajouté a une moyenne de 0, les chercheurs qui font des analyses statistiques légitimes peuvent toujours faire leur travail. Ils travaillent avec des moyennes, et le salaire moyen dans la base de données sous forme bruyante devrait être assez proche de celui des données originales, le bruit s’annulant en grande partie. (Nous verrons ci-dessous, cependant, que cette vision est trop simple, que ce soit dans les méthodes DP ou les méthodes classiques basées sur le bruit).

Dans les méthodes DP, le bruit est généralement ajouté à la statistique finale, par exemple à une moyenne d’intérêt, plutôt que directement aux variables.

La question est de savoir s’il faut ajouter une valeur de bruit différente chaque fois qu’une requête arrive sur le serveur de données, ou s’il faut ajouter le bruit une seule fois et ensuite rendre les données perturbées accessibles au public.

Les

méthodes DP tendent à faire le premier choix, tandis que l’approche classique est la seconde.

Utilité :

Un problème connexe est que pour la plupart des paramètres DP, une version DP distincte doit être développée pour chaque méthode statistique. Si un utilisateur veut, par exemple, effectuer une régression quantile, il doit vérifier si une version du PD a été développée et si le code est disponible pour celle-ci. Avec les méthodes classiques de protection de la vie privée, une fois l’ensemble de données perturbé, les utilisateurs peuvent appliquer la méthode statistique de leur choix. Je compare cela à un parc d’attractions. Les méthodes classiques donnent un « laissez-passer pour la journée » qui permet de profiter de n’importe quel manège ; la méthode DP exige un billet distinct pour chaque manège.

Compromis vie privée/exactitude :

Quelle que soit la méthode de protection des données, qu’elle soit classique ou non, il n’existe pas de solution parfaite. On peut seulement choisir un « réglage de cadran » dans une gamme de compromis. Ces derniers sont de deux types principaux

:

  • Il existe un compromis entre la protection de la vie privée des individus d’une part, et la préservation de la précision statistique pour les chercheurs d’autre part. Plus la variance du bruit ajouté est grande, plus la vie privée est préservée, mais plus les erreurs standard des quantités statistiques calculées à partir des données perturbées sont importantes.
  • Tout aussi important, bien que rarement mentionné, se pose le problème de l’atténuation des relations entre les variables. Il s’agit là de l’élément central de la plupart des types d’analyse de données, qui consiste à trouver et à quantifier les relations ; or, plus on ajoute de bruit aux données, plus les relations rapportées seront faibles. Ce problème se pose dans l’addition classique de bruit, et se retrouve dans certaines méthodes DP, comme celles qui ajoutent du bruit aux comptages dans les tableaux de contingence. Nous avons donc ici non seulement un problème de variance mais aussi un problème de biais ; les valeurs absolues des corrélations, des coefficients de régression, etc. sont biaisées vers le bas. Une solution partielle consiste à rendre la structure de corrélation du bruit égale à celle des données, mais cela ne s’applique pas aux variables catégorielles (où l’approche de l’ajout de bruit n’a de toute façon pas beaucoup de sens).

Autres méthodes classiques de contrôle statistique de la divulgation :

Deux autres grandes méthodes de confidentialité des données doivent être mentionnées ici. <

/p>

  1. Suppression de cellules : Toute requête dont les conditions sont satisfaites par un seul enregistrement de la base de données est rejetée. Dans l’exemple de l’EE féminin ci-dessus, par exemple, la requête de cet intrus ne recevrait tout simplement pas de réponse. L’un des problèmes de cette approche est qu’elle est vulnérable aux attaques par différenciation d’ensembles. L’intrus pourrait interroger le total des salaires de tous les EE, puis interroger les EE masculins, et enfin soustraire pour obtenir illicitement le salaire de l’EE féminin. Des méthodes élaborées ont été développées pour contrer de telles attaques.
  2. Échange de données : Pour un certain sous-ensemble de données – choisi soit de manière aléatoire, soit en fonction de la vulnérabilité d’un enregistrement aux attaques – certaines des données d’un enregistrement sont échangées avec celles d’un enregistrement similaire. Dans l’exemple de l’EE féminine, nous pourrions échanger la profession ou les salaires, par exemple.

Notez qu’aucune de ces méthodes ne permet d’éviter le problème des compromis entre confidentialité et précision. Dans la suppression des cellules, plus on impose de suppression, plus les problèmes de variance et de biais dans les analyses statistiques sont importants.

L’

échange de données ajoute essentiellement du bruit, ce qui entraîne à nouveau la variance et le biais.

Le critère de confidentialité de DP :

Puisque la DP ajoute un bruit aléatoire, le critère de DP est formulé en termes probabilistes. Considérons deux ensembles de données, D et D’, avec les mêmes variables et le même nombre d’enregistrements n, mais différant par un enregistrement. Considérons une requête Q donnée. Dénotons les réponses par Q(D) et Q(D’). Alors le critère DP est, pour tout ensemble S dans l’image de Q,

P(Q(D) dans S) < P(Q(D’) dans S) exp(ε)

pour toutes les paires (D,D’) possibles et pour un petit paramètre d’accord ε. Plus ε est petit, plus la confidentialité est grande.

Notez que la définition implique toutes les paires (D,D’) possibles ; D ici n’est PAS seulement la base de données réelle à portée de main (bien qu’il existe un concept de sensibilité locale

dans lequel D est effectivement notre base de données réelle). D’

autre part, lors du traitement d’une requête, nous utilisons la base de données en question, et nous calculons le niveau de bruit pour la requête en fonction de n pour cette D.

Des méthodes conformes au DP ont été développées pour diverses quantités statistiques, produisant des formules pour la variance du bruit en fonction de ε et une limite supérieure anticipée sur Δ = |Q(D) – Q(D’)|. Là encore, cette limite supérieure doit s’appliquer à toutes les paires (D,D’) possibles. Pour la taille humaine, par exemple, nous savons que personne n’aura une taille de, disons, 300 cm, ce qui pourrait prendre pour Δ. Si notre requête Q() concerne la taille moyenne, nous divisons Δ par n ; c’est une limite plutôt négligée, mais elle fonctionnerait.

Problèmes avec les revendications de confidentialité garantie quantifiable de DP :

(De nombreuses failles ont été revendiquées pour DP, mais à ma connaissance, cette analyse est nouvelle).

Considérons à nouveau l’exemple de l’EE féminin. Un problème qui surgit immédiatement est que, puisqu’il s’agit d’une moyenne conditionnelle, Q(D) et/ou Q(D’) seront souvent indéfinis.

Il n’est pas certain que les implémentations existantes de DP soient préparées à gérer cela. Par exemple, considérez le paquet diffpriv. Il semble ne rien faire pour traiter ce problème. La bibliothèque de confidentialité différentielle de Google utilise SQL, nous avons des problèmes :

Si l’accès à la base de données se fait via SQL, le problème consisterait à renvoyer NULL si l’ensemble de conditionnement est vide pour un certain D ou D’. Puisque de telles requêtes sont essentielles à l’analyse des données, ce serait un problème sérieux.

Il n’est pas certain que l’algorithme TopDown du Census Bureau gère le problème non plus. Il traite les données comme un tableau de contingence géant, en ajoutant du bruit à chaque cellule. Toutes les requêtes sont les

n traitées comme des fonctions du nombre de cellules, sans ajout de bruit supplémentaire.

Un problème majeur semble être que de nombreuses cellules dont le nombre de cellules était différent de 0 à l’origine seront désormais des 0 dans la version bruyante des données. Le bruit aléatoire ajouté produira des nombres négatifs dans de nombreux cas, et bien que la procédure du Bureau les change en au moins 0, beaucoup resteront à 0. On a alors le problème du « dénominateur 0 » décrit ci-dessus.

Un autre problème concerne les requêtes pour les totaux, par exemple le total des salaires de toutes les travailleuses. Le bruit qui serait ajouté, par exemple sur la base du salaire maximum, serait le même, qu’il y ait 10 ou 1000 femmes dans l’entreprise. Alors que DP donnerait un bruit mathématiquement correct ici, le fait que le bruit soit le même quelle que soit la taille globale du total ne semble pas justifié.

Problèmes de biais :

Comme indiqué, les méthodes de PD qui fonctionnent sur des tableaux de contingence en ajoutant des valeurs de bruit indépendantes au nombre de cellules peuvent atténuer la corrélation et donc produire un biais. Le biais sera substantiel pour les petits tableaux.

Un autre problème, également dans les tableaux de contingence DP, est que le biais peut provenir du post-traitement. Si un bruit laplacien est ajouté aux comptes, certains comptes peuvent être négatifs. Comme le montrent Zhu et al, le post-traitement pour obtenir la non négativité peut entraîner un biais.

L’adoption de la méthode DP par le US Census Bureau :

La méthodologie DP du Census Bureau remplace l’approche basée sur la permutation utilisée dans les précédents rapports de recensement. Bien que mon objectif dans cet essai ait été principalement de discuter de la méthode DP en général, je vais faire quelques commentaires.

Tout d’abord, que compte faire le Bureau ? Il va adopter une approche en deux phases. Il considère la base de données comme un tableau de contingence extrêmement large (« histogramme », selon sa terminologie). Ensuite, il ajoute du bruit au nombre de cellules. Ensuite, ils modifient les comptes de cellules pour satisfaire à la non négativité et à certaines autres contraintes, par exemple en prenant le nombre total de résidents dans un bloc de recensement comme invariant. L’histogramme final perturbé est rendu public.

Pourquoi font-ils cela ? Les simulations du Bureau indiquent qu’avec des ressources informatiques très importantes et éventuellement des données externes, un intrus pourrait reconstruire une grande partie des données originales non perturbées.

Critiques du plan de PDD du Census Bureau :

En plus des préoccupations générales concernant le PDD, il existe également des préoccupations spécifiques aux méthodes de PDD du Bureau.

Le Bureau admet que le produit est une donnée synthétique. Eh bien, toute donnée perturbée n’est-elle pas synthétique ? Oui, mais ici TOUTES les données sont perturbées, par opposition au swapping, où seule une petite fraction des données change.

Il va sans dire que l’utilisation de données synthétiques suscite l’indignation de nombreux chercheurs. Ils ne s’y fient pas et ont donné des exemples de résultats indésirables, de distorsions substantielles qui pourraient avoir de graves répercussions sur les travaux de recherche dans les secteurs commercial, industriel et scientifique. On craint également de graves répercussions sur le redécoupage des circonscriptions électorales de l’année prochaine, qui s’appuie fortement sur les données de recensement, même si une analyse est plus optimiste.

Il y a déjà eu un procès contre l’utilisation du DP par le Bureau. On peut s’attendre à ce qu’il y en ait d’autres, une fois que le Bureau aura publié ses données – et que le redécoupage électoral aura été effectué sur la base de ces données. Il s’agit donc une fois de plus d’un compromis entre la vie privée et l’exactitude. Les critiques disent que les scénarios de reconstruction du Bureau sont improbables et exagérés. Si l’on ajoute à cela la nature illusoire des garanties de confidentialité du DP, le problème devient encore plus grave.

e.

Commentaires finaux :

Comment en sommes-nous arrivés là ? Le DP présente de graves lacunes. Pourtant, elle s’est largement implantée dans le domaine de la confidentialité des données. En plus d’avoir été choisie comme base des données de recensement, elle est quelque peu utilisée dans l’industrie. Apple, par exemple, utilise l’addition classique de bruit, appliquée aux données brutes, mais avec un budget de confidentialité DP.

Comme nous l’avons indiqué, les premiers développements du DP ont été réalisés principalement par des chercheurs en informatique. Les gens de CS voient le monde en termes de…


Continuer la lecture : https://matloff.wordpress.com/2021/08/04/whats-not-what-in-differential-privacy/

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.

Related Post