confidentialité des données michel béra
Post on 05-Jun-2015
522 Views
Preview:
DESCRIPTION
TRANSCRIPT
Michel BERA Professeur du Conservatoire national des arts et métiers
Chaire de modélisation statistique du risque, département IMATH
Mardi 9 juillet 2014 Université d’été de l’Institut des actuaires
Confidentialité des données
Ce dont je ne parlerai pas (extraits)
• La data science -> voir exposé suivant! • Le juridique -> voir la conférence au Groupe Big Data de
Fabrice Naftalski (partner, E&Y) • La CNIL : de nombreuses actions sur les données
personnelles sont parfaitement interdites, mais peu le savent (ex : arrêt pages jaunes, banque avec filiale assurantielle captive, données génétiques)
• L’audit demandé à l’Institut des données de santé par le rapport Bras (2013) : Gouvernance et utilisation des données de santé
Le « Snowden Point » (6 juin 2013)
• C’est un « tipping point » (point de basculement sociologique)
• Brutalement toute la « population » se rend compte que des données massives sont collectées et utilisées à des fins commerciales, voire mystérieuses (militaires, etc.)
• Besoin de protection, de « confidentialité des données » : sorte d’approche Amish face aux données..
Esther Dyson (USA)
• Toute personne devrait être en mesure de « négocier » librement la mise à disposition par elle des données qui la concerne (PC Forum - 1995 ?)
• C’était avant la « découverte » de la théorie des réseaux sociaux! (Barabasi, Linked)
• Problème du « banc de poissons » • Problème de la mutualisation • Problème de la cohorte (permet la « preuve »)
De quoi peut-on parler : de la protection des données personnelles (1)
• Première question: que font les américains? • rechercher des solutions « technologiques » (ici
data science) – cf Rapport Obama (mai14) • construire (et breveter) des méthodes
scientifiques – La k-anonymisation (Latanya Sweeney, Professor of
Government and Technology in Residence at Harvard University) – 2002
– La K-indistinguability (micro-aggregation) : clusters -> Defays – Le floutage (confidentialité différentielle) Cynthia Dwork
• Mettre en place des standards mondiaux (ex : MIT Open PDS)
De quoi peut-on parler : de la protection des données personnelles (2)
• Seconde question: que font les français? • chercher des solutions « technologiques » : ex :
La « bulle » du CASD : Antoine Frachot/GENES • Construire des algorithmes de cryptage (FOIN :
Fonction d’occultation des informations nominatives) – Catherine Quantin
• Les systèmes souverains d’hébergement de données et de puissance de calcul (ex : Cloudwatt, Thalès)
• Définir et gérer des stratégies « open data »
Un focus sur les données de santé US
• Gros travail sur les notions de « statistical de-identification » (HIPAA – Health Insurance Portability and Accountability Act)
• Papiers « terrifiants » réguliers en grand public: – En génomique (ré-identification) – En données de comportement (géolocalisation, 5
points pour identifier à 95% une personne, etc.) – Attaques de ré-identification (Laura Sweeney again) – etc.
Conclusion • Le modèle français peut faire école européenne a
minimis (CNIL et al.) • Il est sot de se priver d’avancées extraordinaires pour le
bien-être des peuples par un excès de précautions/floutage/anonymisation (ex : sida)
• Principe d’un ordre de travail sur les données, qui rend la main à l’homme en final : Data Driven -> Evidence Based -> commission d’experts statuant sur les recommandations de la machine, pour que l’homme reste au centre
• Application à la confidentialité des données personnelles : le « data driven open data » (DDOD)
Merci pour votre attention …
top related