gérer et diffuser ses données: principes et bonnes pratiques

104
Gérer et diffuser ses données: principes et bonnes pratiques 1 Formation doctorale LASH et DESPEG 2 e partie de la formation Open science et données de la recherche co-organisée par l’URFIST de Nice et le SCD de l’UNS Mathieu Saby SCD-BU UNS [email protected]

Upload: mathieu-saby

Post on 08-Apr-2017

32 views

Category:

Education


1 download

TRANSCRIPT

Page 1: Gérer et diffuser ses données: principes et bonnes pratiques

Geacuterer et diffuser ses donneacutees

principes et bonnes pratiques

1

Formation doctorale LASH et DESPEG2e partie de la formation Open science et donneacutees de la recherche co-organiseacutee par lrsquoURFIST de Nice et le SCD de lrsquoUNS

Mathieu Saby

SCD-BU UNS

donnees-scdunicefr

Plan

1 Les donneacutees de la recherche et leur gestion

2 Produire ou reacuteutiliser des donneacutees

3 Stocker ses donneacutees en seacutecuriteacute

4 Organiser ses donneacutees

5 Documenter ses donneacutees

6 Enjeux juridiques et eacutethiques

7 Partager et diffuser ses donneacutees

8 Stocker et archiver apregraves le projet

9 Contacts sur la gestion des donneacutees

2Mathieu Saby - avrilmai 2016

1 Les donneacutees de la recherche et

leur gestion De quoi parle-t-on

3Mathieu Saby - avrilmai 2016

Les donneacutees de la recherche en bref

Deacutefinition eacutelastique

Au sens strict eacuteleacutements discrets structureacutes et analysables statistiquement porteurs dinformations sur des faits ou objets du monde reacuteel

Au sens large tous les mateacuteriaux analyseacutes ou interpreacuteteacutes lors dune recherche

4Mathieu Saby - avrilmai 2016

Les donneacutees de la recherche en bref

Production et utilisation croissante

Mouvement geacuteneacuteral douvertureagrave des fins de validation et de reacuteutilisationsoutenu par des financeurs de la recherche (dont

lUE) des eacutediteurs des universiteacutes desorganismes internationaux

5Mathieu Saby - avrilmai 2016

Les donneacutees de la recherche en bref

Diffeacuterents modes de creacuteation

Expeacuterience (en laboratoire sur le terrainhellip)

Observation (par questionnaire enquecircte mesure

captation recueil de traces)

Simulation ou modeacutelisation numeacuterique

Extraction agrave partir de sources

6Mathieu Saby - avrilmai 2016

Les donneacutees de la recherche en bref

Diffeacuterentes formes

7Mathieu Saby - avrilmai 2016

Les donneacutees de la recherche en bref

Diffeacuterents supports

Nativement numeacuterique

Analogique (livres cassettes photos objetshellip)

Numeacuterisation de support analogique

8Mathieu Saby - avrilmai 2016

Peut-on parler de donneacutees en SHS

Dans vos recherches ou votre discipline pensez-vous produire ou reacuteutiliser des donneacutees

9Mathieu Saby - avrilmai 2016

Peut-on parler de donneacutees en SHS

Dimension empirique variable selon les disciplines et les approches meacutethodologiques

Vocabulaire riche pour deacutesigner les mateacuteriaux de recherche sources corpus traces enquecircteshellip et parfois seulement laquo donneacutees raquo

Reproductibiliteacute non revendiqueacutee dans certaines disciplines

Les donneacutees laquo brutes raquo sont souvent deacutejagrave une laquo interpreacutetation raquo du reacuteel

10Mathieu Saby - avrilmai 2016

Peut-on parler de donneacutees en SHS

Mais les approches numeacuteriques peuvent renouveler plus ou moins profondeacutement la maniegravere dappreacutehender les mateacuteriaux de recherche

Quelques exemples franccedilais dans diffeacuterentes disciplines

Cf Myriam Posner (2015) Humanities data a necessary contradiction

11Mathieu Saby - avrilmai 2016

Labex Transfers (plusieurs projets)

Meacutedialab (idem)

Labex Obvil (idem)

Symogih (idem)

Labex Arts-H2H (idem)

Biblissima (idem)

Montaigne agrave loeuvre

ColostrumCriminocorpus

Peut-on parler de donneacutees en SHS

Tournant numeacuterique soutenu par des infrastructures et des reacuteseaux en France Humanum Progedo OpenEdition Perseacutee Maisons des Sciences de lHomme Reacuteseaux disciplinaires

Mais aussi en Europe et agrave lrsquoeacutetranger

12Mathieu Saby - avrilmai 2016

La gestion des donneacutees de la recherche

Une expression barbarehellip

Mais chaque chercheur fait de la gestion des donneacutees comme Monsieur Jourdain de la prose

13Mathieu Saby - avrilmai 2016

il y a plus de quarante ans que je dis de la prose sans

que jrsquoen susse rien et je vous suis le plus obligeacute du

monde de mrsquoavoir appris cela

La gestion des donneacutees de la recherche

Ensemble de pratiques parfois quotidiennes parfois plus exceptionnelles meneacutees par les chercheurs etou par du personnel speacutecialiseacute pour faciliter

pendant le projet lexploitation et la seacutecurisation des donneacutees

apregraves la fin du projet leur preacuteservation leur partage et leur reacuteutilisation

14Mathieu Saby - avrilmai 2016

Le cycle de vie des donneacutees

15Mathieu Saby - avrilmai 2016

Pendant le projet

Apregraves le projet

Preacuteservation des donneacutees

Reacuteutilisation des donneacuteesSocieacuteteacute

Autres projets de recherche

Creacuteation ou collecte de

donneacutees brutes

+

Utilisation de donneacutees

existantes

Traitement analyse

interpreacutetation des donneacutees

Publication (article livre

thegravese)

+

Partage des donneacutees

Planification

du projet

+

Planification de la gestion des donneacutees

Les plans de gestion de donneacutees

Besoin dexpliciter et de formaliser la gestion des donneacutees

Exemple la base de donneacutees linguistique CLAPI (et site de meacutethodologie associeacutee Corinte)

16Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

DMP (Data Management Plan)

Outil pour planifier la gestion des donneacutees et la rendre plus efficace

Pas exigeacute lors drsquoun doctorat mais deacutemarche qui peut ecirctre inspirante

17Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Document formel preacutecisant la maniegravere dont seront produites traiteacutees deacutecrites diffuseacutees et conserveacutees les donneacutees au cours et agrave lrsquoissue du projet Pratique Syntheacutetique Prospectif Eacutevolutif

18Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Une utiliteacute pour le projet lui-mecircme Drsquoautant plus utile que les donneacutees sont

Nombreuses varieacutees complexes Uniques Couteuses ou difficiles agrave produire Sensibles Utiles agrave drsquoautres personnes

Et que le projet est Collaboratif Long

19Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Une utiliteacute administrative Reacutepondre aux exigences de certains financeurs

Systeacutematique aux USA et Royaume-Uni mais tregraves rare en France

Agences de financements publiques et fondations Universiteacutes et organismes de recherche Union Europeacuteenne (projet pilote pour certains

projets du programme Horizon 2020)

20Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Pas de modegravele unique mais des eacuteleacutements et rubriques qui se recoupent souvent

Pour reacutediger un PGD Modegravele imposeacute par le financeur A deacutefaut adopter un modegravele existant en lrsquoadaptant

au besoin Des outils informatiques DMPonline DMPTool

21Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Un modegravele britannique (Digital curation center V4 2014)

Informations administratives

Collecte des donneacutees organisation

Documentation et meacutetadonneacutees

Ethique et cadre leacutegal

Stockage sauvegarde seacutecuriteacute

Archivage

Partage des donneacutees

Responsabiliteacutes et moyens

22Mathieu Saby - avrilmai 2016

Apregraves le projet

Les plans de gestion de donneacutees

Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)

Informations relatives au projet

Responsabiliteacute des donneacutees reacutepartition des rocircles

Ressources neacutecessaires agrave la mise en œuvre

Pour chaque jeu de donneacutees

Description du jeu de donneacutees

Stockage accegraves et seacutecuriteacute des donneacutees

Documentation et organisation des donneacutees

Disseacutemination du jeux de donneacutees (apregraves le projet)

Seacutelection et archivage

23Mathieu Saby - avrilmai 2016

2 Produire ou reacuteutiliser des donneacutees

24Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Le projet peut-il reacuteutiliser des donneacutees

existantes

Inteacuterecirct et limites

Conditions daccegraves

Coucirct

25Mathieu Saby - avrilmai 2016

Produire des donneacutees

Des donneacutees seront-elles produites

Eleacutement central ou secondaire du projet

Combien de jeux de donneacutees ou densembles

distincts

Quel degreacute de reproductibiliteacute des donneacutees

Quel inteacuterecirct pour la recherche ou des acteurs

de la socieacuteteacute

26Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Plusieurs sources possibles

Autres projets de recherche

Organismes priveacutes

Donneacutees publiques

Accegraves libre et gratuit France eacutetranger institutions internationales

Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes

enquecirctes)

Accegraves payant certaines donneacutees INSEE ou IGNhellip

Institutions culturelles (museacutees bibliothegraveques archives) situation

variable

27Mathieu Saby - avrilmai 2016

Produire des donneacutees

Mode de creacuteation ou de collecte

Type de donneacutees

Support

28Mathieu Saby - avrilmai 2016

Produire des donneacutees

Eacutetapes et niveaux drsquoeacutelaboration des donneacutees

au cours du projet

Ces eacutetapes sont-elles documenteacutees et

reproductibles (mateacuteriel logiciels meacutethodes

algorithmes code informatique)

29Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet (histoire maritime)

Navigocorpus 1 archives

30Mathieu Saby - avrilmai 2016

DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave

leacutepoque moderneLettre de lINSHS 2013 p 23-25

Produire des donneacutees

Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees

accessible en ligne

31Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees

32Mathieu Saby - avrilmai 2016

MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)

Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111

Produire des donneacutees

33Mathieu Saby - avrilmai 2016

Formats de fichiers

Qui doit pouvoir les lire Pour combien de temps

Pour un usage agrave long terme privileacutegier des

formats ouverts

Utilisables librement et gratuitement

Bien documenteacutes

Non lieacutes agrave un logiciel speacutecifique

FACILE - Service de validation de formats du CINES

Formats conseilleacutes par Data Archive (UK)

Produire des donneacutees

Ex de formats agrave la peacuterenniteacute garantie

34Mathieu Saby - avrilmai 2016

(PDFA

uniquement)

Sert de cadre base agrave de tregraves

nombreux formats avec des

extensions diverses

POR

(Fichier SPSS

portable)

Produire des donneacutees

Ex de formats courants sans peacuterenniteacute garantie

35Mathieu Saby - avrilmai 2016

Fichiers proprieacutetaires SPSS

STATA SAS NVIVO Altasti etc

3 Stocker ses donneacutees en seacutecuriteacute

36Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

37Mathieu Saby - avrilmai 2016

Dapregraves vous quels risques pegravesent sur les

donneacutees pendant un projet

Des risques agrave eacutevaluer

38Mathieu Saby - avrilmai 2016

Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise

organisation erreur de manipulation)

Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)

Lecture impossible (obsolescence du format ou du mateacuteriel)

Compreacutehension impossible (mauvaise organisation perte du contexte

ou de la documentation associeacutee)

Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)

Bonnes pratiques

Stockage et sauvegarde seacutecuriseacutee

Organisation adeacutequate

Documentation adeacutequate

39Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

40Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

Stockage adapteacute

Usages deacutesireacutes partage des donneacutees avec

partenaires internes ou externes stockage

sauvegarde ou publication

Caracteacuteristiques des donneacutees donneacutees

publiquesconfidentiellessecregravetes Quel

dommage causerait leur perte ou leur diffusion

Capaciteacutes

Tarifs

41Mathieu Saby - avrilmai 2016

Stockage adapteacute

42Mathieu Saby - avrilmai 2016

Supports de stockage Risques Avantages

Reacuteseau seacutecuriseacute (universiteacute

laboratoire)

Pannes de serveur erreur

humaine

seacutecuriteacute sauvegarde

automatique

Disque dur dordinateur

personnel ou professionnel

Pannes vol erreur

humaine

Cloud commercial dont cloud

proposeacute par lrsquouniversiteacute

(OneDrive)

Vol de mot de passe

Disparition des socieacuteteacutes

Cadre juridique parfois

flou

partage faciliteacute

synchronisation

automatique avec PC

Supports externes (cleacute USB

disque externe CDROM

DVDROM)

Deacuteteacuterioration des

supports perte vol

Sauvegarde meacutethodique

Mecircme en cas de stockage adapteacute neacutecessiteacute de

sauvegardes reacuteguliegraveres et freacutequentes

Utile pour se proteacuteger de ses propres erreurs

Ideacutealement 2 sauvegardes sur supports

diffeacuterents dont une stockeacutee physiquement agrave

distance (ex cloud + disque externe)

43Mathieu Saby - avrilmai 2016

Protection

Mots de passe fiables Agrave ne jamais partager

Eacuteviter les ordinateurs inconnus

Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles

Le cloud

Les transferts par courriel

44Mathieu Saby - avrilmai 2016

Cryptage

Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)

Veracrypt (Mac et PC) CryptSync (PC)

Cloud chiffreacute Tresorit Securesafe Synchcom

Spideroak

Attention aux effets secondaires du cryptage (perte

deacutefinitive des fichiershellip)

45Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 2: Gérer et diffuser ses données: principes et bonnes pratiques

Plan

1 Les donneacutees de la recherche et leur gestion

2 Produire ou reacuteutiliser des donneacutees

3 Stocker ses donneacutees en seacutecuriteacute

4 Organiser ses donneacutees

5 Documenter ses donneacutees

6 Enjeux juridiques et eacutethiques

7 Partager et diffuser ses donneacutees

8 Stocker et archiver apregraves le projet

9 Contacts sur la gestion des donneacutees

2Mathieu Saby - avrilmai 2016

1 Les donneacutees de la recherche et

leur gestion De quoi parle-t-on

3Mathieu Saby - avrilmai 2016

Les donneacutees de la recherche en bref

Deacutefinition eacutelastique

Au sens strict eacuteleacutements discrets structureacutes et analysables statistiquement porteurs dinformations sur des faits ou objets du monde reacuteel

Au sens large tous les mateacuteriaux analyseacutes ou interpreacuteteacutes lors dune recherche

4Mathieu Saby - avrilmai 2016

Les donneacutees de la recherche en bref

Production et utilisation croissante

Mouvement geacuteneacuteral douvertureagrave des fins de validation et de reacuteutilisationsoutenu par des financeurs de la recherche (dont

lUE) des eacutediteurs des universiteacutes desorganismes internationaux

5Mathieu Saby - avrilmai 2016

Les donneacutees de la recherche en bref

Diffeacuterents modes de creacuteation

Expeacuterience (en laboratoire sur le terrainhellip)

Observation (par questionnaire enquecircte mesure

captation recueil de traces)

Simulation ou modeacutelisation numeacuterique

Extraction agrave partir de sources

6Mathieu Saby - avrilmai 2016

Les donneacutees de la recherche en bref

Diffeacuterentes formes

7Mathieu Saby - avrilmai 2016

Les donneacutees de la recherche en bref

Diffeacuterents supports

Nativement numeacuterique

Analogique (livres cassettes photos objetshellip)

Numeacuterisation de support analogique

8Mathieu Saby - avrilmai 2016

Peut-on parler de donneacutees en SHS

Dans vos recherches ou votre discipline pensez-vous produire ou reacuteutiliser des donneacutees

9Mathieu Saby - avrilmai 2016

Peut-on parler de donneacutees en SHS

Dimension empirique variable selon les disciplines et les approches meacutethodologiques

Vocabulaire riche pour deacutesigner les mateacuteriaux de recherche sources corpus traces enquecircteshellip et parfois seulement laquo donneacutees raquo

Reproductibiliteacute non revendiqueacutee dans certaines disciplines

Les donneacutees laquo brutes raquo sont souvent deacutejagrave une laquo interpreacutetation raquo du reacuteel

10Mathieu Saby - avrilmai 2016

Peut-on parler de donneacutees en SHS

Mais les approches numeacuteriques peuvent renouveler plus ou moins profondeacutement la maniegravere dappreacutehender les mateacuteriaux de recherche

Quelques exemples franccedilais dans diffeacuterentes disciplines

Cf Myriam Posner (2015) Humanities data a necessary contradiction

11Mathieu Saby - avrilmai 2016

Labex Transfers (plusieurs projets)

Meacutedialab (idem)

Labex Obvil (idem)

Symogih (idem)

Labex Arts-H2H (idem)

Biblissima (idem)

Montaigne agrave loeuvre

ColostrumCriminocorpus

Peut-on parler de donneacutees en SHS

Tournant numeacuterique soutenu par des infrastructures et des reacuteseaux en France Humanum Progedo OpenEdition Perseacutee Maisons des Sciences de lHomme Reacuteseaux disciplinaires

Mais aussi en Europe et agrave lrsquoeacutetranger

12Mathieu Saby - avrilmai 2016

La gestion des donneacutees de la recherche

Une expression barbarehellip

Mais chaque chercheur fait de la gestion des donneacutees comme Monsieur Jourdain de la prose

13Mathieu Saby - avrilmai 2016

il y a plus de quarante ans que je dis de la prose sans

que jrsquoen susse rien et je vous suis le plus obligeacute du

monde de mrsquoavoir appris cela

La gestion des donneacutees de la recherche

Ensemble de pratiques parfois quotidiennes parfois plus exceptionnelles meneacutees par les chercheurs etou par du personnel speacutecialiseacute pour faciliter

pendant le projet lexploitation et la seacutecurisation des donneacutees

apregraves la fin du projet leur preacuteservation leur partage et leur reacuteutilisation

14Mathieu Saby - avrilmai 2016

Le cycle de vie des donneacutees

15Mathieu Saby - avrilmai 2016

Pendant le projet

Apregraves le projet

Preacuteservation des donneacutees

Reacuteutilisation des donneacuteesSocieacuteteacute

Autres projets de recherche

Creacuteation ou collecte de

donneacutees brutes

+

Utilisation de donneacutees

existantes

Traitement analyse

interpreacutetation des donneacutees

Publication (article livre

thegravese)

+

Partage des donneacutees

Planification

du projet

+

Planification de la gestion des donneacutees

Les plans de gestion de donneacutees

Besoin dexpliciter et de formaliser la gestion des donneacutees

Exemple la base de donneacutees linguistique CLAPI (et site de meacutethodologie associeacutee Corinte)

16Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

DMP (Data Management Plan)

Outil pour planifier la gestion des donneacutees et la rendre plus efficace

Pas exigeacute lors drsquoun doctorat mais deacutemarche qui peut ecirctre inspirante

17Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Document formel preacutecisant la maniegravere dont seront produites traiteacutees deacutecrites diffuseacutees et conserveacutees les donneacutees au cours et agrave lrsquoissue du projet Pratique Syntheacutetique Prospectif Eacutevolutif

18Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Une utiliteacute pour le projet lui-mecircme Drsquoautant plus utile que les donneacutees sont

Nombreuses varieacutees complexes Uniques Couteuses ou difficiles agrave produire Sensibles Utiles agrave drsquoautres personnes

Et que le projet est Collaboratif Long

19Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Une utiliteacute administrative Reacutepondre aux exigences de certains financeurs

Systeacutematique aux USA et Royaume-Uni mais tregraves rare en France

Agences de financements publiques et fondations Universiteacutes et organismes de recherche Union Europeacuteenne (projet pilote pour certains

projets du programme Horizon 2020)

20Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Pas de modegravele unique mais des eacuteleacutements et rubriques qui se recoupent souvent

Pour reacutediger un PGD Modegravele imposeacute par le financeur A deacutefaut adopter un modegravele existant en lrsquoadaptant

au besoin Des outils informatiques DMPonline DMPTool

21Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Un modegravele britannique (Digital curation center V4 2014)

Informations administratives

Collecte des donneacutees organisation

Documentation et meacutetadonneacutees

Ethique et cadre leacutegal

Stockage sauvegarde seacutecuriteacute

Archivage

Partage des donneacutees

Responsabiliteacutes et moyens

22Mathieu Saby - avrilmai 2016

Apregraves le projet

Les plans de gestion de donneacutees

Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)

Informations relatives au projet

Responsabiliteacute des donneacutees reacutepartition des rocircles

Ressources neacutecessaires agrave la mise en œuvre

Pour chaque jeu de donneacutees

Description du jeu de donneacutees

Stockage accegraves et seacutecuriteacute des donneacutees

Documentation et organisation des donneacutees

Disseacutemination du jeux de donneacutees (apregraves le projet)

Seacutelection et archivage

23Mathieu Saby - avrilmai 2016

2 Produire ou reacuteutiliser des donneacutees

24Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Le projet peut-il reacuteutiliser des donneacutees

existantes

Inteacuterecirct et limites

Conditions daccegraves

Coucirct

25Mathieu Saby - avrilmai 2016

Produire des donneacutees

Des donneacutees seront-elles produites

Eleacutement central ou secondaire du projet

Combien de jeux de donneacutees ou densembles

distincts

Quel degreacute de reproductibiliteacute des donneacutees

Quel inteacuterecirct pour la recherche ou des acteurs

de la socieacuteteacute

26Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Plusieurs sources possibles

Autres projets de recherche

Organismes priveacutes

Donneacutees publiques

Accegraves libre et gratuit France eacutetranger institutions internationales

Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes

enquecirctes)

Accegraves payant certaines donneacutees INSEE ou IGNhellip

Institutions culturelles (museacutees bibliothegraveques archives) situation

variable

27Mathieu Saby - avrilmai 2016

Produire des donneacutees

Mode de creacuteation ou de collecte

Type de donneacutees

Support

28Mathieu Saby - avrilmai 2016

Produire des donneacutees

Eacutetapes et niveaux drsquoeacutelaboration des donneacutees

au cours du projet

Ces eacutetapes sont-elles documenteacutees et

reproductibles (mateacuteriel logiciels meacutethodes

algorithmes code informatique)

29Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet (histoire maritime)

Navigocorpus 1 archives

30Mathieu Saby - avrilmai 2016

DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave

leacutepoque moderneLettre de lINSHS 2013 p 23-25

Produire des donneacutees

Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees

accessible en ligne

31Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees

32Mathieu Saby - avrilmai 2016

MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)

Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111

Produire des donneacutees

33Mathieu Saby - avrilmai 2016

Formats de fichiers

Qui doit pouvoir les lire Pour combien de temps

Pour un usage agrave long terme privileacutegier des

formats ouverts

Utilisables librement et gratuitement

Bien documenteacutes

Non lieacutes agrave un logiciel speacutecifique

FACILE - Service de validation de formats du CINES

Formats conseilleacutes par Data Archive (UK)

Produire des donneacutees

Ex de formats agrave la peacuterenniteacute garantie

34Mathieu Saby - avrilmai 2016

(PDFA

uniquement)

Sert de cadre base agrave de tregraves

nombreux formats avec des

extensions diverses

POR

(Fichier SPSS

portable)

Produire des donneacutees

Ex de formats courants sans peacuterenniteacute garantie

35Mathieu Saby - avrilmai 2016

Fichiers proprieacutetaires SPSS

STATA SAS NVIVO Altasti etc

3 Stocker ses donneacutees en seacutecuriteacute

36Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

37Mathieu Saby - avrilmai 2016

Dapregraves vous quels risques pegravesent sur les

donneacutees pendant un projet

Des risques agrave eacutevaluer

38Mathieu Saby - avrilmai 2016

Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise

organisation erreur de manipulation)

Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)

Lecture impossible (obsolescence du format ou du mateacuteriel)

Compreacutehension impossible (mauvaise organisation perte du contexte

ou de la documentation associeacutee)

Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)

Bonnes pratiques

Stockage et sauvegarde seacutecuriseacutee

Organisation adeacutequate

Documentation adeacutequate

39Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

40Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

Stockage adapteacute

Usages deacutesireacutes partage des donneacutees avec

partenaires internes ou externes stockage

sauvegarde ou publication

Caracteacuteristiques des donneacutees donneacutees

publiquesconfidentiellessecregravetes Quel

dommage causerait leur perte ou leur diffusion

Capaciteacutes

Tarifs

41Mathieu Saby - avrilmai 2016

Stockage adapteacute

42Mathieu Saby - avrilmai 2016

Supports de stockage Risques Avantages

Reacuteseau seacutecuriseacute (universiteacute

laboratoire)

Pannes de serveur erreur

humaine

seacutecuriteacute sauvegarde

automatique

Disque dur dordinateur

personnel ou professionnel

Pannes vol erreur

humaine

Cloud commercial dont cloud

proposeacute par lrsquouniversiteacute

(OneDrive)

Vol de mot de passe

Disparition des socieacuteteacutes

Cadre juridique parfois

flou

partage faciliteacute

synchronisation

automatique avec PC

Supports externes (cleacute USB

disque externe CDROM

DVDROM)

Deacuteteacuterioration des

supports perte vol

Sauvegarde meacutethodique

Mecircme en cas de stockage adapteacute neacutecessiteacute de

sauvegardes reacuteguliegraveres et freacutequentes

Utile pour se proteacuteger de ses propres erreurs

Ideacutealement 2 sauvegardes sur supports

diffeacuterents dont une stockeacutee physiquement agrave

distance (ex cloud + disque externe)

43Mathieu Saby - avrilmai 2016

Protection

Mots de passe fiables Agrave ne jamais partager

Eacuteviter les ordinateurs inconnus

Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles

Le cloud

Les transferts par courriel

44Mathieu Saby - avrilmai 2016

Cryptage

Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)

Veracrypt (Mac et PC) CryptSync (PC)

Cloud chiffreacute Tresorit Securesafe Synchcom

Spideroak

Attention aux effets secondaires du cryptage (perte

deacutefinitive des fichiershellip)

45Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 3: Gérer et diffuser ses données: principes et bonnes pratiques

1 Les donneacutees de la recherche et

leur gestion De quoi parle-t-on

3Mathieu Saby - avrilmai 2016

Les donneacutees de la recherche en bref

Deacutefinition eacutelastique

Au sens strict eacuteleacutements discrets structureacutes et analysables statistiquement porteurs dinformations sur des faits ou objets du monde reacuteel

Au sens large tous les mateacuteriaux analyseacutes ou interpreacuteteacutes lors dune recherche

4Mathieu Saby - avrilmai 2016

Les donneacutees de la recherche en bref

Production et utilisation croissante

Mouvement geacuteneacuteral douvertureagrave des fins de validation et de reacuteutilisationsoutenu par des financeurs de la recherche (dont

lUE) des eacutediteurs des universiteacutes desorganismes internationaux

5Mathieu Saby - avrilmai 2016

Les donneacutees de la recherche en bref

Diffeacuterents modes de creacuteation

Expeacuterience (en laboratoire sur le terrainhellip)

Observation (par questionnaire enquecircte mesure

captation recueil de traces)

Simulation ou modeacutelisation numeacuterique

Extraction agrave partir de sources

6Mathieu Saby - avrilmai 2016

Les donneacutees de la recherche en bref

Diffeacuterentes formes

7Mathieu Saby - avrilmai 2016

Les donneacutees de la recherche en bref

Diffeacuterents supports

Nativement numeacuterique

Analogique (livres cassettes photos objetshellip)

Numeacuterisation de support analogique

8Mathieu Saby - avrilmai 2016

Peut-on parler de donneacutees en SHS

Dans vos recherches ou votre discipline pensez-vous produire ou reacuteutiliser des donneacutees

9Mathieu Saby - avrilmai 2016

Peut-on parler de donneacutees en SHS

Dimension empirique variable selon les disciplines et les approches meacutethodologiques

Vocabulaire riche pour deacutesigner les mateacuteriaux de recherche sources corpus traces enquecircteshellip et parfois seulement laquo donneacutees raquo

Reproductibiliteacute non revendiqueacutee dans certaines disciplines

Les donneacutees laquo brutes raquo sont souvent deacutejagrave une laquo interpreacutetation raquo du reacuteel

10Mathieu Saby - avrilmai 2016

Peut-on parler de donneacutees en SHS

Mais les approches numeacuteriques peuvent renouveler plus ou moins profondeacutement la maniegravere dappreacutehender les mateacuteriaux de recherche

Quelques exemples franccedilais dans diffeacuterentes disciplines

Cf Myriam Posner (2015) Humanities data a necessary contradiction

11Mathieu Saby - avrilmai 2016

Labex Transfers (plusieurs projets)

Meacutedialab (idem)

Labex Obvil (idem)

Symogih (idem)

Labex Arts-H2H (idem)

Biblissima (idem)

Montaigne agrave loeuvre

ColostrumCriminocorpus

Peut-on parler de donneacutees en SHS

Tournant numeacuterique soutenu par des infrastructures et des reacuteseaux en France Humanum Progedo OpenEdition Perseacutee Maisons des Sciences de lHomme Reacuteseaux disciplinaires

Mais aussi en Europe et agrave lrsquoeacutetranger

12Mathieu Saby - avrilmai 2016

La gestion des donneacutees de la recherche

Une expression barbarehellip

Mais chaque chercheur fait de la gestion des donneacutees comme Monsieur Jourdain de la prose

13Mathieu Saby - avrilmai 2016

il y a plus de quarante ans que je dis de la prose sans

que jrsquoen susse rien et je vous suis le plus obligeacute du

monde de mrsquoavoir appris cela

La gestion des donneacutees de la recherche

Ensemble de pratiques parfois quotidiennes parfois plus exceptionnelles meneacutees par les chercheurs etou par du personnel speacutecialiseacute pour faciliter

pendant le projet lexploitation et la seacutecurisation des donneacutees

apregraves la fin du projet leur preacuteservation leur partage et leur reacuteutilisation

14Mathieu Saby - avrilmai 2016

Le cycle de vie des donneacutees

15Mathieu Saby - avrilmai 2016

Pendant le projet

Apregraves le projet

Preacuteservation des donneacutees

Reacuteutilisation des donneacuteesSocieacuteteacute

Autres projets de recherche

Creacuteation ou collecte de

donneacutees brutes

+

Utilisation de donneacutees

existantes

Traitement analyse

interpreacutetation des donneacutees

Publication (article livre

thegravese)

+

Partage des donneacutees

Planification

du projet

+

Planification de la gestion des donneacutees

Les plans de gestion de donneacutees

Besoin dexpliciter et de formaliser la gestion des donneacutees

Exemple la base de donneacutees linguistique CLAPI (et site de meacutethodologie associeacutee Corinte)

16Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

DMP (Data Management Plan)

Outil pour planifier la gestion des donneacutees et la rendre plus efficace

Pas exigeacute lors drsquoun doctorat mais deacutemarche qui peut ecirctre inspirante

17Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Document formel preacutecisant la maniegravere dont seront produites traiteacutees deacutecrites diffuseacutees et conserveacutees les donneacutees au cours et agrave lrsquoissue du projet Pratique Syntheacutetique Prospectif Eacutevolutif

18Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Une utiliteacute pour le projet lui-mecircme Drsquoautant plus utile que les donneacutees sont

Nombreuses varieacutees complexes Uniques Couteuses ou difficiles agrave produire Sensibles Utiles agrave drsquoautres personnes

Et que le projet est Collaboratif Long

19Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Une utiliteacute administrative Reacutepondre aux exigences de certains financeurs

Systeacutematique aux USA et Royaume-Uni mais tregraves rare en France

Agences de financements publiques et fondations Universiteacutes et organismes de recherche Union Europeacuteenne (projet pilote pour certains

projets du programme Horizon 2020)

20Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Pas de modegravele unique mais des eacuteleacutements et rubriques qui se recoupent souvent

Pour reacutediger un PGD Modegravele imposeacute par le financeur A deacutefaut adopter un modegravele existant en lrsquoadaptant

au besoin Des outils informatiques DMPonline DMPTool

21Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Un modegravele britannique (Digital curation center V4 2014)

Informations administratives

Collecte des donneacutees organisation

Documentation et meacutetadonneacutees

Ethique et cadre leacutegal

Stockage sauvegarde seacutecuriteacute

Archivage

Partage des donneacutees

Responsabiliteacutes et moyens

22Mathieu Saby - avrilmai 2016

Apregraves le projet

Les plans de gestion de donneacutees

Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)

Informations relatives au projet

Responsabiliteacute des donneacutees reacutepartition des rocircles

Ressources neacutecessaires agrave la mise en œuvre

Pour chaque jeu de donneacutees

Description du jeu de donneacutees

Stockage accegraves et seacutecuriteacute des donneacutees

Documentation et organisation des donneacutees

Disseacutemination du jeux de donneacutees (apregraves le projet)

Seacutelection et archivage

23Mathieu Saby - avrilmai 2016

2 Produire ou reacuteutiliser des donneacutees

24Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Le projet peut-il reacuteutiliser des donneacutees

existantes

Inteacuterecirct et limites

Conditions daccegraves

Coucirct

25Mathieu Saby - avrilmai 2016

Produire des donneacutees

Des donneacutees seront-elles produites

Eleacutement central ou secondaire du projet

Combien de jeux de donneacutees ou densembles

distincts

Quel degreacute de reproductibiliteacute des donneacutees

Quel inteacuterecirct pour la recherche ou des acteurs

de la socieacuteteacute

26Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Plusieurs sources possibles

Autres projets de recherche

Organismes priveacutes

Donneacutees publiques

Accegraves libre et gratuit France eacutetranger institutions internationales

Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes

enquecirctes)

Accegraves payant certaines donneacutees INSEE ou IGNhellip

Institutions culturelles (museacutees bibliothegraveques archives) situation

variable

27Mathieu Saby - avrilmai 2016

Produire des donneacutees

Mode de creacuteation ou de collecte

Type de donneacutees

Support

28Mathieu Saby - avrilmai 2016

Produire des donneacutees

Eacutetapes et niveaux drsquoeacutelaboration des donneacutees

au cours du projet

Ces eacutetapes sont-elles documenteacutees et

reproductibles (mateacuteriel logiciels meacutethodes

algorithmes code informatique)

29Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet (histoire maritime)

Navigocorpus 1 archives

30Mathieu Saby - avrilmai 2016

DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave

leacutepoque moderneLettre de lINSHS 2013 p 23-25

Produire des donneacutees

Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees

accessible en ligne

31Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees

32Mathieu Saby - avrilmai 2016

MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)

Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111

Produire des donneacutees

33Mathieu Saby - avrilmai 2016

Formats de fichiers

Qui doit pouvoir les lire Pour combien de temps

Pour un usage agrave long terme privileacutegier des

formats ouverts

Utilisables librement et gratuitement

Bien documenteacutes

Non lieacutes agrave un logiciel speacutecifique

FACILE - Service de validation de formats du CINES

Formats conseilleacutes par Data Archive (UK)

Produire des donneacutees

Ex de formats agrave la peacuterenniteacute garantie

34Mathieu Saby - avrilmai 2016

(PDFA

uniquement)

Sert de cadre base agrave de tregraves

nombreux formats avec des

extensions diverses

POR

(Fichier SPSS

portable)

Produire des donneacutees

Ex de formats courants sans peacuterenniteacute garantie

35Mathieu Saby - avrilmai 2016

Fichiers proprieacutetaires SPSS

STATA SAS NVIVO Altasti etc

3 Stocker ses donneacutees en seacutecuriteacute

36Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

37Mathieu Saby - avrilmai 2016

Dapregraves vous quels risques pegravesent sur les

donneacutees pendant un projet

Des risques agrave eacutevaluer

38Mathieu Saby - avrilmai 2016

Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise

organisation erreur de manipulation)

Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)

Lecture impossible (obsolescence du format ou du mateacuteriel)

Compreacutehension impossible (mauvaise organisation perte du contexte

ou de la documentation associeacutee)

Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)

Bonnes pratiques

Stockage et sauvegarde seacutecuriseacutee

Organisation adeacutequate

Documentation adeacutequate

39Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

40Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

Stockage adapteacute

Usages deacutesireacutes partage des donneacutees avec

partenaires internes ou externes stockage

sauvegarde ou publication

Caracteacuteristiques des donneacutees donneacutees

publiquesconfidentiellessecregravetes Quel

dommage causerait leur perte ou leur diffusion

Capaciteacutes

Tarifs

41Mathieu Saby - avrilmai 2016

Stockage adapteacute

42Mathieu Saby - avrilmai 2016

Supports de stockage Risques Avantages

Reacuteseau seacutecuriseacute (universiteacute

laboratoire)

Pannes de serveur erreur

humaine

seacutecuriteacute sauvegarde

automatique

Disque dur dordinateur

personnel ou professionnel

Pannes vol erreur

humaine

Cloud commercial dont cloud

proposeacute par lrsquouniversiteacute

(OneDrive)

Vol de mot de passe

Disparition des socieacuteteacutes

Cadre juridique parfois

flou

partage faciliteacute

synchronisation

automatique avec PC

Supports externes (cleacute USB

disque externe CDROM

DVDROM)

Deacuteteacuterioration des

supports perte vol

Sauvegarde meacutethodique

Mecircme en cas de stockage adapteacute neacutecessiteacute de

sauvegardes reacuteguliegraveres et freacutequentes

Utile pour se proteacuteger de ses propres erreurs

Ideacutealement 2 sauvegardes sur supports

diffeacuterents dont une stockeacutee physiquement agrave

distance (ex cloud + disque externe)

43Mathieu Saby - avrilmai 2016

Protection

Mots de passe fiables Agrave ne jamais partager

Eacuteviter les ordinateurs inconnus

Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles

Le cloud

Les transferts par courriel

44Mathieu Saby - avrilmai 2016

Cryptage

Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)

Veracrypt (Mac et PC) CryptSync (PC)

Cloud chiffreacute Tresorit Securesafe Synchcom

Spideroak

Attention aux effets secondaires du cryptage (perte

deacutefinitive des fichiershellip)

45Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 4: Gérer et diffuser ses données: principes et bonnes pratiques

Les donneacutees de la recherche en bref

Deacutefinition eacutelastique

Au sens strict eacuteleacutements discrets structureacutes et analysables statistiquement porteurs dinformations sur des faits ou objets du monde reacuteel

Au sens large tous les mateacuteriaux analyseacutes ou interpreacuteteacutes lors dune recherche

4Mathieu Saby - avrilmai 2016

Les donneacutees de la recherche en bref

Production et utilisation croissante

Mouvement geacuteneacuteral douvertureagrave des fins de validation et de reacuteutilisationsoutenu par des financeurs de la recherche (dont

lUE) des eacutediteurs des universiteacutes desorganismes internationaux

5Mathieu Saby - avrilmai 2016

Les donneacutees de la recherche en bref

Diffeacuterents modes de creacuteation

Expeacuterience (en laboratoire sur le terrainhellip)

Observation (par questionnaire enquecircte mesure

captation recueil de traces)

Simulation ou modeacutelisation numeacuterique

Extraction agrave partir de sources

6Mathieu Saby - avrilmai 2016

Les donneacutees de la recherche en bref

Diffeacuterentes formes

7Mathieu Saby - avrilmai 2016

Les donneacutees de la recherche en bref

Diffeacuterents supports

Nativement numeacuterique

Analogique (livres cassettes photos objetshellip)

Numeacuterisation de support analogique

8Mathieu Saby - avrilmai 2016

Peut-on parler de donneacutees en SHS

Dans vos recherches ou votre discipline pensez-vous produire ou reacuteutiliser des donneacutees

9Mathieu Saby - avrilmai 2016

Peut-on parler de donneacutees en SHS

Dimension empirique variable selon les disciplines et les approches meacutethodologiques

Vocabulaire riche pour deacutesigner les mateacuteriaux de recherche sources corpus traces enquecircteshellip et parfois seulement laquo donneacutees raquo

Reproductibiliteacute non revendiqueacutee dans certaines disciplines

Les donneacutees laquo brutes raquo sont souvent deacutejagrave une laquo interpreacutetation raquo du reacuteel

10Mathieu Saby - avrilmai 2016

Peut-on parler de donneacutees en SHS

Mais les approches numeacuteriques peuvent renouveler plus ou moins profondeacutement la maniegravere dappreacutehender les mateacuteriaux de recherche

Quelques exemples franccedilais dans diffeacuterentes disciplines

Cf Myriam Posner (2015) Humanities data a necessary contradiction

11Mathieu Saby - avrilmai 2016

Labex Transfers (plusieurs projets)

Meacutedialab (idem)

Labex Obvil (idem)

Symogih (idem)

Labex Arts-H2H (idem)

Biblissima (idem)

Montaigne agrave loeuvre

ColostrumCriminocorpus

Peut-on parler de donneacutees en SHS

Tournant numeacuterique soutenu par des infrastructures et des reacuteseaux en France Humanum Progedo OpenEdition Perseacutee Maisons des Sciences de lHomme Reacuteseaux disciplinaires

Mais aussi en Europe et agrave lrsquoeacutetranger

12Mathieu Saby - avrilmai 2016

La gestion des donneacutees de la recherche

Une expression barbarehellip

Mais chaque chercheur fait de la gestion des donneacutees comme Monsieur Jourdain de la prose

13Mathieu Saby - avrilmai 2016

il y a plus de quarante ans que je dis de la prose sans

que jrsquoen susse rien et je vous suis le plus obligeacute du

monde de mrsquoavoir appris cela

La gestion des donneacutees de la recherche

Ensemble de pratiques parfois quotidiennes parfois plus exceptionnelles meneacutees par les chercheurs etou par du personnel speacutecialiseacute pour faciliter

pendant le projet lexploitation et la seacutecurisation des donneacutees

apregraves la fin du projet leur preacuteservation leur partage et leur reacuteutilisation

14Mathieu Saby - avrilmai 2016

Le cycle de vie des donneacutees

15Mathieu Saby - avrilmai 2016

Pendant le projet

Apregraves le projet

Preacuteservation des donneacutees

Reacuteutilisation des donneacuteesSocieacuteteacute

Autres projets de recherche

Creacuteation ou collecte de

donneacutees brutes

+

Utilisation de donneacutees

existantes

Traitement analyse

interpreacutetation des donneacutees

Publication (article livre

thegravese)

+

Partage des donneacutees

Planification

du projet

+

Planification de la gestion des donneacutees

Les plans de gestion de donneacutees

Besoin dexpliciter et de formaliser la gestion des donneacutees

Exemple la base de donneacutees linguistique CLAPI (et site de meacutethodologie associeacutee Corinte)

16Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

DMP (Data Management Plan)

Outil pour planifier la gestion des donneacutees et la rendre plus efficace

Pas exigeacute lors drsquoun doctorat mais deacutemarche qui peut ecirctre inspirante

17Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Document formel preacutecisant la maniegravere dont seront produites traiteacutees deacutecrites diffuseacutees et conserveacutees les donneacutees au cours et agrave lrsquoissue du projet Pratique Syntheacutetique Prospectif Eacutevolutif

18Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Une utiliteacute pour le projet lui-mecircme Drsquoautant plus utile que les donneacutees sont

Nombreuses varieacutees complexes Uniques Couteuses ou difficiles agrave produire Sensibles Utiles agrave drsquoautres personnes

Et que le projet est Collaboratif Long

19Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Une utiliteacute administrative Reacutepondre aux exigences de certains financeurs

Systeacutematique aux USA et Royaume-Uni mais tregraves rare en France

Agences de financements publiques et fondations Universiteacutes et organismes de recherche Union Europeacuteenne (projet pilote pour certains

projets du programme Horizon 2020)

20Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Pas de modegravele unique mais des eacuteleacutements et rubriques qui se recoupent souvent

Pour reacutediger un PGD Modegravele imposeacute par le financeur A deacutefaut adopter un modegravele existant en lrsquoadaptant

au besoin Des outils informatiques DMPonline DMPTool

21Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Un modegravele britannique (Digital curation center V4 2014)

Informations administratives

Collecte des donneacutees organisation

Documentation et meacutetadonneacutees

Ethique et cadre leacutegal

Stockage sauvegarde seacutecuriteacute

Archivage

Partage des donneacutees

Responsabiliteacutes et moyens

22Mathieu Saby - avrilmai 2016

Apregraves le projet

Les plans de gestion de donneacutees

Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)

Informations relatives au projet

Responsabiliteacute des donneacutees reacutepartition des rocircles

Ressources neacutecessaires agrave la mise en œuvre

Pour chaque jeu de donneacutees

Description du jeu de donneacutees

Stockage accegraves et seacutecuriteacute des donneacutees

Documentation et organisation des donneacutees

Disseacutemination du jeux de donneacutees (apregraves le projet)

Seacutelection et archivage

23Mathieu Saby - avrilmai 2016

2 Produire ou reacuteutiliser des donneacutees

24Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Le projet peut-il reacuteutiliser des donneacutees

existantes

Inteacuterecirct et limites

Conditions daccegraves

Coucirct

25Mathieu Saby - avrilmai 2016

Produire des donneacutees

Des donneacutees seront-elles produites

Eleacutement central ou secondaire du projet

Combien de jeux de donneacutees ou densembles

distincts

Quel degreacute de reproductibiliteacute des donneacutees

Quel inteacuterecirct pour la recherche ou des acteurs

de la socieacuteteacute

26Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Plusieurs sources possibles

Autres projets de recherche

Organismes priveacutes

Donneacutees publiques

Accegraves libre et gratuit France eacutetranger institutions internationales

Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes

enquecirctes)

Accegraves payant certaines donneacutees INSEE ou IGNhellip

Institutions culturelles (museacutees bibliothegraveques archives) situation

variable

27Mathieu Saby - avrilmai 2016

Produire des donneacutees

Mode de creacuteation ou de collecte

Type de donneacutees

Support

28Mathieu Saby - avrilmai 2016

Produire des donneacutees

Eacutetapes et niveaux drsquoeacutelaboration des donneacutees

au cours du projet

Ces eacutetapes sont-elles documenteacutees et

reproductibles (mateacuteriel logiciels meacutethodes

algorithmes code informatique)

29Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet (histoire maritime)

Navigocorpus 1 archives

30Mathieu Saby - avrilmai 2016

DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave

leacutepoque moderneLettre de lINSHS 2013 p 23-25

Produire des donneacutees

Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees

accessible en ligne

31Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees

32Mathieu Saby - avrilmai 2016

MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)

Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111

Produire des donneacutees

33Mathieu Saby - avrilmai 2016

Formats de fichiers

Qui doit pouvoir les lire Pour combien de temps

Pour un usage agrave long terme privileacutegier des

formats ouverts

Utilisables librement et gratuitement

Bien documenteacutes

Non lieacutes agrave un logiciel speacutecifique

FACILE - Service de validation de formats du CINES

Formats conseilleacutes par Data Archive (UK)

Produire des donneacutees

Ex de formats agrave la peacuterenniteacute garantie

34Mathieu Saby - avrilmai 2016

(PDFA

uniquement)

Sert de cadre base agrave de tregraves

nombreux formats avec des

extensions diverses

POR

(Fichier SPSS

portable)

Produire des donneacutees

Ex de formats courants sans peacuterenniteacute garantie

35Mathieu Saby - avrilmai 2016

Fichiers proprieacutetaires SPSS

STATA SAS NVIVO Altasti etc

3 Stocker ses donneacutees en seacutecuriteacute

36Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

37Mathieu Saby - avrilmai 2016

Dapregraves vous quels risques pegravesent sur les

donneacutees pendant un projet

Des risques agrave eacutevaluer

38Mathieu Saby - avrilmai 2016

Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise

organisation erreur de manipulation)

Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)

Lecture impossible (obsolescence du format ou du mateacuteriel)

Compreacutehension impossible (mauvaise organisation perte du contexte

ou de la documentation associeacutee)

Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)

Bonnes pratiques

Stockage et sauvegarde seacutecuriseacutee

Organisation adeacutequate

Documentation adeacutequate

39Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

40Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

Stockage adapteacute

Usages deacutesireacutes partage des donneacutees avec

partenaires internes ou externes stockage

sauvegarde ou publication

Caracteacuteristiques des donneacutees donneacutees

publiquesconfidentiellessecregravetes Quel

dommage causerait leur perte ou leur diffusion

Capaciteacutes

Tarifs

41Mathieu Saby - avrilmai 2016

Stockage adapteacute

42Mathieu Saby - avrilmai 2016

Supports de stockage Risques Avantages

Reacuteseau seacutecuriseacute (universiteacute

laboratoire)

Pannes de serveur erreur

humaine

seacutecuriteacute sauvegarde

automatique

Disque dur dordinateur

personnel ou professionnel

Pannes vol erreur

humaine

Cloud commercial dont cloud

proposeacute par lrsquouniversiteacute

(OneDrive)

Vol de mot de passe

Disparition des socieacuteteacutes

Cadre juridique parfois

flou

partage faciliteacute

synchronisation

automatique avec PC

Supports externes (cleacute USB

disque externe CDROM

DVDROM)

Deacuteteacuterioration des

supports perte vol

Sauvegarde meacutethodique

Mecircme en cas de stockage adapteacute neacutecessiteacute de

sauvegardes reacuteguliegraveres et freacutequentes

Utile pour se proteacuteger de ses propres erreurs

Ideacutealement 2 sauvegardes sur supports

diffeacuterents dont une stockeacutee physiquement agrave

distance (ex cloud + disque externe)

43Mathieu Saby - avrilmai 2016

Protection

Mots de passe fiables Agrave ne jamais partager

Eacuteviter les ordinateurs inconnus

Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles

Le cloud

Les transferts par courriel

44Mathieu Saby - avrilmai 2016

Cryptage

Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)

Veracrypt (Mac et PC) CryptSync (PC)

Cloud chiffreacute Tresorit Securesafe Synchcom

Spideroak

Attention aux effets secondaires du cryptage (perte

deacutefinitive des fichiershellip)

45Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 5: Gérer et diffuser ses données: principes et bonnes pratiques

Les donneacutees de la recherche en bref

Production et utilisation croissante

Mouvement geacuteneacuteral douvertureagrave des fins de validation et de reacuteutilisationsoutenu par des financeurs de la recherche (dont

lUE) des eacutediteurs des universiteacutes desorganismes internationaux

5Mathieu Saby - avrilmai 2016

Les donneacutees de la recherche en bref

Diffeacuterents modes de creacuteation

Expeacuterience (en laboratoire sur le terrainhellip)

Observation (par questionnaire enquecircte mesure

captation recueil de traces)

Simulation ou modeacutelisation numeacuterique

Extraction agrave partir de sources

6Mathieu Saby - avrilmai 2016

Les donneacutees de la recherche en bref

Diffeacuterentes formes

7Mathieu Saby - avrilmai 2016

Les donneacutees de la recherche en bref

Diffeacuterents supports

Nativement numeacuterique

Analogique (livres cassettes photos objetshellip)

Numeacuterisation de support analogique

8Mathieu Saby - avrilmai 2016

Peut-on parler de donneacutees en SHS

Dans vos recherches ou votre discipline pensez-vous produire ou reacuteutiliser des donneacutees

9Mathieu Saby - avrilmai 2016

Peut-on parler de donneacutees en SHS

Dimension empirique variable selon les disciplines et les approches meacutethodologiques

Vocabulaire riche pour deacutesigner les mateacuteriaux de recherche sources corpus traces enquecircteshellip et parfois seulement laquo donneacutees raquo

Reproductibiliteacute non revendiqueacutee dans certaines disciplines

Les donneacutees laquo brutes raquo sont souvent deacutejagrave une laquo interpreacutetation raquo du reacuteel

10Mathieu Saby - avrilmai 2016

Peut-on parler de donneacutees en SHS

Mais les approches numeacuteriques peuvent renouveler plus ou moins profondeacutement la maniegravere dappreacutehender les mateacuteriaux de recherche

Quelques exemples franccedilais dans diffeacuterentes disciplines

Cf Myriam Posner (2015) Humanities data a necessary contradiction

11Mathieu Saby - avrilmai 2016

Labex Transfers (plusieurs projets)

Meacutedialab (idem)

Labex Obvil (idem)

Symogih (idem)

Labex Arts-H2H (idem)

Biblissima (idem)

Montaigne agrave loeuvre

ColostrumCriminocorpus

Peut-on parler de donneacutees en SHS

Tournant numeacuterique soutenu par des infrastructures et des reacuteseaux en France Humanum Progedo OpenEdition Perseacutee Maisons des Sciences de lHomme Reacuteseaux disciplinaires

Mais aussi en Europe et agrave lrsquoeacutetranger

12Mathieu Saby - avrilmai 2016

La gestion des donneacutees de la recherche

Une expression barbarehellip

Mais chaque chercheur fait de la gestion des donneacutees comme Monsieur Jourdain de la prose

13Mathieu Saby - avrilmai 2016

il y a plus de quarante ans que je dis de la prose sans

que jrsquoen susse rien et je vous suis le plus obligeacute du

monde de mrsquoavoir appris cela

La gestion des donneacutees de la recherche

Ensemble de pratiques parfois quotidiennes parfois plus exceptionnelles meneacutees par les chercheurs etou par du personnel speacutecialiseacute pour faciliter

pendant le projet lexploitation et la seacutecurisation des donneacutees

apregraves la fin du projet leur preacuteservation leur partage et leur reacuteutilisation

14Mathieu Saby - avrilmai 2016

Le cycle de vie des donneacutees

15Mathieu Saby - avrilmai 2016

Pendant le projet

Apregraves le projet

Preacuteservation des donneacutees

Reacuteutilisation des donneacuteesSocieacuteteacute

Autres projets de recherche

Creacuteation ou collecte de

donneacutees brutes

+

Utilisation de donneacutees

existantes

Traitement analyse

interpreacutetation des donneacutees

Publication (article livre

thegravese)

+

Partage des donneacutees

Planification

du projet

+

Planification de la gestion des donneacutees

Les plans de gestion de donneacutees

Besoin dexpliciter et de formaliser la gestion des donneacutees

Exemple la base de donneacutees linguistique CLAPI (et site de meacutethodologie associeacutee Corinte)

16Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

DMP (Data Management Plan)

Outil pour planifier la gestion des donneacutees et la rendre plus efficace

Pas exigeacute lors drsquoun doctorat mais deacutemarche qui peut ecirctre inspirante

17Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Document formel preacutecisant la maniegravere dont seront produites traiteacutees deacutecrites diffuseacutees et conserveacutees les donneacutees au cours et agrave lrsquoissue du projet Pratique Syntheacutetique Prospectif Eacutevolutif

18Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Une utiliteacute pour le projet lui-mecircme Drsquoautant plus utile que les donneacutees sont

Nombreuses varieacutees complexes Uniques Couteuses ou difficiles agrave produire Sensibles Utiles agrave drsquoautres personnes

Et que le projet est Collaboratif Long

19Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Une utiliteacute administrative Reacutepondre aux exigences de certains financeurs

Systeacutematique aux USA et Royaume-Uni mais tregraves rare en France

Agences de financements publiques et fondations Universiteacutes et organismes de recherche Union Europeacuteenne (projet pilote pour certains

projets du programme Horizon 2020)

20Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Pas de modegravele unique mais des eacuteleacutements et rubriques qui se recoupent souvent

Pour reacutediger un PGD Modegravele imposeacute par le financeur A deacutefaut adopter un modegravele existant en lrsquoadaptant

au besoin Des outils informatiques DMPonline DMPTool

21Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Un modegravele britannique (Digital curation center V4 2014)

Informations administratives

Collecte des donneacutees organisation

Documentation et meacutetadonneacutees

Ethique et cadre leacutegal

Stockage sauvegarde seacutecuriteacute

Archivage

Partage des donneacutees

Responsabiliteacutes et moyens

22Mathieu Saby - avrilmai 2016

Apregraves le projet

Les plans de gestion de donneacutees

Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)

Informations relatives au projet

Responsabiliteacute des donneacutees reacutepartition des rocircles

Ressources neacutecessaires agrave la mise en œuvre

Pour chaque jeu de donneacutees

Description du jeu de donneacutees

Stockage accegraves et seacutecuriteacute des donneacutees

Documentation et organisation des donneacutees

Disseacutemination du jeux de donneacutees (apregraves le projet)

Seacutelection et archivage

23Mathieu Saby - avrilmai 2016

2 Produire ou reacuteutiliser des donneacutees

24Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Le projet peut-il reacuteutiliser des donneacutees

existantes

Inteacuterecirct et limites

Conditions daccegraves

Coucirct

25Mathieu Saby - avrilmai 2016

Produire des donneacutees

Des donneacutees seront-elles produites

Eleacutement central ou secondaire du projet

Combien de jeux de donneacutees ou densembles

distincts

Quel degreacute de reproductibiliteacute des donneacutees

Quel inteacuterecirct pour la recherche ou des acteurs

de la socieacuteteacute

26Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Plusieurs sources possibles

Autres projets de recherche

Organismes priveacutes

Donneacutees publiques

Accegraves libre et gratuit France eacutetranger institutions internationales

Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes

enquecirctes)

Accegraves payant certaines donneacutees INSEE ou IGNhellip

Institutions culturelles (museacutees bibliothegraveques archives) situation

variable

27Mathieu Saby - avrilmai 2016

Produire des donneacutees

Mode de creacuteation ou de collecte

Type de donneacutees

Support

28Mathieu Saby - avrilmai 2016

Produire des donneacutees

Eacutetapes et niveaux drsquoeacutelaboration des donneacutees

au cours du projet

Ces eacutetapes sont-elles documenteacutees et

reproductibles (mateacuteriel logiciels meacutethodes

algorithmes code informatique)

29Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet (histoire maritime)

Navigocorpus 1 archives

30Mathieu Saby - avrilmai 2016

DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave

leacutepoque moderneLettre de lINSHS 2013 p 23-25

Produire des donneacutees

Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees

accessible en ligne

31Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees

32Mathieu Saby - avrilmai 2016

MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)

Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111

Produire des donneacutees

33Mathieu Saby - avrilmai 2016

Formats de fichiers

Qui doit pouvoir les lire Pour combien de temps

Pour un usage agrave long terme privileacutegier des

formats ouverts

Utilisables librement et gratuitement

Bien documenteacutes

Non lieacutes agrave un logiciel speacutecifique

FACILE - Service de validation de formats du CINES

Formats conseilleacutes par Data Archive (UK)

Produire des donneacutees

Ex de formats agrave la peacuterenniteacute garantie

34Mathieu Saby - avrilmai 2016

(PDFA

uniquement)

Sert de cadre base agrave de tregraves

nombreux formats avec des

extensions diverses

POR

(Fichier SPSS

portable)

Produire des donneacutees

Ex de formats courants sans peacuterenniteacute garantie

35Mathieu Saby - avrilmai 2016

Fichiers proprieacutetaires SPSS

STATA SAS NVIVO Altasti etc

3 Stocker ses donneacutees en seacutecuriteacute

36Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

37Mathieu Saby - avrilmai 2016

Dapregraves vous quels risques pegravesent sur les

donneacutees pendant un projet

Des risques agrave eacutevaluer

38Mathieu Saby - avrilmai 2016

Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise

organisation erreur de manipulation)

Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)

Lecture impossible (obsolescence du format ou du mateacuteriel)

Compreacutehension impossible (mauvaise organisation perte du contexte

ou de la documentation associeacutee)

Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)

Bonnes pratiques

Stockage et sauvegarde seacutecuriseacutee

Organisation adeacutequate

Documentation adeacutequate

39Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

40Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

Stockage adapteacute

Usages deacutesireacutes partage des donneacutees avec

partenaires internes ou externes stockage

sauvegarde ou publication

Caracteacuteristiques des donneacutees donneacutees

publiquesconfidentiellessecregravetes Quel

dommage causerait leur perte ou leur diffusion

Capaciteacutes

Tarifs

41Mathieu Saby - avrilmai 2016

Stockage adapteacute

42Mathieu Saby - avrilmai 2016

Supports de stockage Risques Avantages

Reacuteseau seacutecuriseacute (universiteacute

laboratoire)

Pannes de serveur erreur

humaine

seacutecuriteacute sauvegarde

automatique

Disque dur dordinateur

personnel ou professionnel

Pannes vol erreur

humaine

Cloud commercial dont cloud

proposeacute par lrsquouniversiteacute

(OneDrive)

Vol de mot de passe

Disparition des socieacuteteacutes

Cadre juridique parfois

flou

partage faciliteacute

synchronisation

automatique avec PC

Supports externes (cleacute USB

disque externe CDROM

DVDROM)

Deacuteteacuterioration des

supports perte vol

Sauvegarde meacutethodique

Mecircme en cas de stockage adapteacute neacutecessiteacute de

sauvegardes reacuteguliegraveres et freacutequentes

Utile pour se proteacuteger de ses propres erreurs

Ideacutealement 2 sauvegardes sur supports

diffeacuterents dont une stockeacutee physiquement agrave

distance (ex cloud + disque externe)

43Mathieu Saby - avrilmai 2016

Protection

Mots de passe fiables Agrave ne jamais partager

Eacuteviter les ordinateurs inconnus

Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles

Le cloud

Les transferts par courriel

44Mathieu Saby - avrilmai 2016

Cryptage

Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)

Veracrypt (Mac et PC) CryptSync (PC)

Cloud chiffreacute Tresorit Securesafe Synchcom

Spideroak

Attention aux effets secondaires du cryptage (perte

deacutefinitive des fichiershellip)

45Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 6: Gérer et diffuser ses données: principes et bonnes pratiques

Les donneacutees de la recherche en bref

Diffeacuterents modes de creacuteation

Expeacuterience (en laboratoire sur le terrainhellip)

Observation (par questionnaire enquecircte mesure

captation recueil de traces)

Simulation ou modeacutelisation numeacuterique

Extraction agrave partir de sources

6Mathieu Saby - avrilmai 2016

Les donneacutees de la recherche en bref

Diffeacuterentes formes

7Mathieu Saby - avrilmai 2016

Les donneacutees de la recherche en bref

Diffeacuterents supports

Nativement numeacuterique

Analogique (livres cassettes photos objetshellip)

Numeacuterisation de support analogique

8Mathieu Saby - avrilmai 2016

Peut-on parler de donneacutees en SHS

Dans vos recherches ou votre discipline pensez-vous produire ou reacuteutiliser des donneacutees

9Mathieu Saby - avrilmai 2016

Peut-on parler de donneacutees en SHS

Dimension empirique variable selon les disciplines et les approches meacutethodologiques

Vocabulaire riche pour deacutesigner les mateacuteriaux de recherche sources corpus traces enquecircteshellip et parfois seulement laquo donneacutees raquo

Reproductibiliteacute non revendiqueacutee dans certaines disciplines

Les donneacutees laquo brutes raquo sont souvent deacutejagrave une laquo interpreacutetation raquo du reacuteel

10Mathieu Saby - avrilmai 2016

Peut-on parler de donneacutees en SHS

Mais les approches numeacuteriques peuvent renouveler plus ou moins profondeacutement la maniegravere dappreacutehender les mateacuteriaux de recherche

Quelques exemples franccedilais dans diffeacuterentes disciplines

Cf Myriam Posner (2015) Humanities data a necessary contradiction

11Mathieu Saby - avrilmai 2016

Labex Transfers (plusieurs projets)

Meacutedialab (idem)

Labex Obvil (idem)

Symogih (idem)

Labex Arts-H2H (idem)

Biblissima (idem)

Montaigne agrave loeuvre

ColostrumCriminocorpus

Peut-on parler de donneacutees en SHS

Tournant numeacuterique soutenu par des infrastructures et des reacuteseaux en France Humanum Progedo OpenEdition Perseacutee Maisons des Sciences de lHomme Reacuteseaux disciplinaires

Mais aussi en Europe et agrave lrsquoeacutetranger

12Mathieu Saby - avrilmai 2016

La gestion des donneacutees de la recherche

Une expression barbarehellip

Mais chaque chercheur fait de la gestion des donneacutees comme Monsieur Jourdain de la prose

13Mathieu Saby - avrilmai 2016

il y a plus de quarante ans que je dis de la prose sans

que jrsquoen susse rien et je vous suis le plus obligeacute du

monde de mrsquoavoir appris cela

La gestion des donneacutees de la recherche

Ensemble de pratiques parfois quotidiennes parfois plus exceptionnelles meneacutees par les chercheurs etou par du personnel speacutecialiseacute pour faciliter

pendant le projet lexploitation et la seacutecurisation des donneacutees

apregraves la fin du projet leur preacuteservation leur partage et leur reacuteutilisation

14Mathieu Saby - avrilmai 2016

Le cycle de vie des donneacutees

15Mathieu Saby - avrilmai 2016

Pendant le projet

Apregraves le projet

Preacuteservation des donneacutees

Reacuteutilisation des donneacuteesSocieacuteteacute

Autres projets de recherche

Creacuteation ou collecte de

donneacutees brutes

+

Utilisation de donneacutees

existantes

Traitement analyse

interpreacutetation des donneacutees

Publication (article livre

thegravese)

+

Partage des donneacutees

Planification

du projet

+

Planification de la gestion des donneacutees

Les plans de gestion de donneacutees

Besoin dexpliciter et de formaliser la gestion des donneacutees

Exemple la base de donneacutees linguistique CLAPI (et site de meacutethodologie associeacutee Corinte)

16Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

DMP (Data Management Plan)

Outil pour planifier la gestion des donneacutees et la rendre plus efficace

Pas exigeacute lors drsquoun doctorat mais deacutemarche qui peut ecirctre inspirante

17Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Document formel preacutecisant la maniegravere dont seront produites traiteacutees deacutecrites diffuseacutees et conserveacutees les donneacutees au cours et agrave lrsquoissue du projet Pratique Syntheacutetique Prospectif Eacutevolutif

18Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Une utiliteacute pour le projet lui-mecircme Drsquoautant plus utile que les donneacutees sont

Nombreuses varieacutees complexes Uniques Couteuses ou difficiles agrave produire Sensibles Utiles agrave drsquoautres personnes

Et que le projet est Collaboratif Long

19Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Une utiliteacute administrative Reacutepondre aux exigences de certains financeurs

Systeacutematique aux USA et Royaume-Uni mais tregraves rare en France

Agences de financements publiques et fondations Universiteacutes et organismes de recherche Union Europeacuteenne (projet pilote pour certains

projets du programme Horizon 2020)

20Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Pas de modegravele unique mais des eacuteleacutements et rubriques qui se recoupent souvent

Pour reacutediger un PGD Modegravele imposeacute par le financeur A deacutefaut adopter un modegravele existant en lrsquoadaptant

au besoin Des outils informatiques DMPonline DMPTool

21Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Un modegravele britannique (Digital curation center V4 2014)

Informations administratives

Collecte des donneacutees organisation

Documentation et meacutetadonneacutees

Ethique et cadre leacutegal

Stockage sauvegarde seacutecuriteacute

Archivage

Partage des donneacutees

Responsabiliteacutes et moyens

22Mathieu Saby - avrilmai 2016

Apregraves le projet

Les plans de gestion de donneacutees

Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)

Informations relatives au projet

Responsabiliteacute des donneacutees reacutepartition des rocircles

Ressources neacutecessaires agrave la mise en œuvre

Pour chaque jeu de donneacutees

Description du jeu de donneacutees

Stockage accegraves et seacutecuriteacute des donneacutees

Documentation et organisation des donneacutees

Disseacutemination du jeux de donneacutees (apregraves le projet)

Seacutelection et archivage

23Mathieu Saby - avrilmai 2016

2 Produire ou reacuteutiliser des donneacutees

24Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Le projet peut-il reacuteutiliser des donneacutees

existantes

Inteacuterecirct et limites

Conditions daccegraves

Coucirct

25Mathieu Saby - avrilmai 2016

Produire des donneacutees

Des donneacutees seront-elles produites

Eleacutement central ou secondaire du projet

Combien de jeux de donneacutees ou densembles

distincts

Quel degreacute de reproductibiliteacute des donneacutees

Quel inteacuterecirct pour la recherche ou des acteurs

de la socieacuteteacute

26Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Plusieurs sources possibles

Autres projets de recherche

Organismes priveacutes

Donneacutees publiques

Accegraves libre et gratuit France eacutetranger institutions internationales

Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes

enquecirctes)

Accegraves payant certaines donneacutees INSEE ou IGNhellip

Institutions culturelles (museacutees bibliothegraveques archives) situation

variable

27Mathieu Saby - avrilmai 2016

Produire des donneacutees

Mode de creacuteation ou de collecte

Type de donneacutees

Support

28Mathieu Saby - avrilmai 2016

Produire des donneacutees

Eacutetapes et niveaux drsquoeacutelaboration des donneacutees

au cours du projet

Ces eacutetapes sont-elles documenteacutees et

reproductibles (mateacuteriel logiciels meacutethodes

algorithmes code informatique)

29Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet (histoire maritime)

Navigocorpus 1 archives

30Mathieu Saby - avrilmai 2016

DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave

leacutepoque moderneLettre de lINSHS 2013 p 23-25

Produire des donneacutees

Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees

accessible en ligne

31Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees

32Mathieu Saby - avrilmai 2016

MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)

Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111

Produire des donneacutees

33Mathieu Saby - avrilmai 2016

Formats de fichiers

Qui doit pouvoir les lire Pour combien de temps

Pour un usage agrave long terme privileacutegier des

formats ouverts

Utilisables librement et gratuitement

Bien documenteacutes

Non lieacutes agrave un logiciel speacutecifique

FACILE - Service de validation de formats du CINES

Formats conseilleacutes par Data Archive (UK)

Produire des donneacutees

Ex de formats agrave la peacuterenniteacute garantie

34Mathieu Saby - avrilmai 2016

(PDFA

uniquement)

Sert de cadre base agrave de tregraves

nombreux formats avec des

extensions diverses

POR

(Fichier SPSS

portable)

Produire des donneacutees

Ex de formats courants sans peacuterenniteacute garantie

35Mathieu Saby - avrilmai 2016

Fichiers proprieacutetaires SPSS

STATA SAS NVIVO Altasti etc

3 Stocker ses donneacutees en seacutecuriteacute

36Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

37Mathieu Saby - avrilmai 2016

Dapregraves vous quels risques pegravesent sur les

donneacutees pendant un projet

Des risques agrave eacutevaluer

38Mathieu Saby - avrilmai 2016

Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise

organisation erreur de manipulation)

Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)

Lecture impossible (obsolescence du format ou du mateacuteriel)

Compreacutehension impossible (mauvaise organisation perte du contexte

ou de la documentation associeacutee)

Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)

Bonnes pratiques

Stockage et sauvegarde seacutecuriseacutee

Organisation adeacutequate

Documentation adeacutequate

39Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

40Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

Stockage adapteacute

Usages deacutesireacutes partage des donneacutees avec

partenaires internes ou externes stockage

sauvegarde ou publication

Caracteacuteristiques des donneacutees donneacutees

publiquesconfidentiellessecregravetes Quel

dommage causerait leur perte ou leur diffusion

Capaciteacutes

Tarifs

41Mathieu Saby - avrilmai 2016

Stockage adapteacute

42Mathieu Saby - avrilmai 2016

Supports de stockage Risques Avantages

Reacuteseau seacutecuriseacute (universiteacute

laboratoire)

Pannes de serveur erreur

humaine

seacutecuriteacute sauvegarde

automatique

Disque dur dordinateur

personnel ou professionnel

Pannes vol erreur

humaine

Cloud commercial dont cloud

proposeacute par lrsquouniversiteacute

(OneDrive)

Vol de mot de passe

Disparition des socieacuteteacutes

Cadre juridique parfois

flou

partage faciliteacute

synchronisation

automatique avec PC

Supports externes (cleacute USB

disque externe CDROM

DVDROM)

Deacuteteacuterioration des

supports perte vol

Sauvegarde meacutethodique

Mecircme en cas de stockage adapteacute neacutecessiteacute de

sauvegardes reacuteguliegraveres et freacutequentes

Utile pour se proteacuteger de ses propres erreurs

Ideacutealement 2 sauvegardes sur supports

diffeacuterents dont une stockeacutee physiquement agrave

distance (ex cloud + disque externe)

43Mathieu Saby - avrilmai 2016

Protection

Mots de passe fiables Agrave ne jamais partager

Eacuteviter les ordinateurs inconnus

Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles

Le cloud

Les transferts par courriel

44Mathieu Saby - avrilmai 2016

Cryptage

Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)

Veracrypt (Mac et PC) CryptSync (PC)

Cloud chiffreacute Tresorit Securesafe Synchcom

Spideroak

Attention aux effets secondaires du cryptage (perte

deacutefinitive des fichiershellip)

45Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 7: Gérer et diffuser ses données: principes et bonnes pratiques

Les donneacutees de la recherche en bref

Diffeacuterentes formes

7Mathieu Saby - avrilmai 2016

Les donneacutees de la recherche en bref

Diffeacuterents supports

Nativement numeacuterique

Analogique (livres cassettes photos objetshellip)

Numeacuterisation de support analogique

8Mathieu Saby - avrilmai 2016

Peut-on parler de donneacutees en SHS

Dans vos recherches ou votre discipline pensez-vous produire ou reacuteutiliser des donneacutees

9Mathieu Saby - avrilmai 2016

Peut-on parler de donneacutees en SHS

Dimension empirique variable selon les disciplines et les approches meacutethodologiques

Vocabulaire riche pour deacutesigner les mateacuteriaux de recherche sources corpus traces enquecircteshellip et parfois seulement laquo donneacutees raquo

Reproductibiliteacute non revendiqueacutee dans certaines disciplines

Les donneacutees laquo brutes raquo sont souvent deacutejagrave une laquo interpreacutetation raquo du reacuteel

10Mathieu Saby - avrilmai 2016

Peut-on parler de donneacutees en SHS

Mais les approches numeacuteriques peuvent renouveler plus ou moins profondeacutement la maniegravere dappreacutehender les mateacuteriaux de recherche

Quelques exemples franccedilais dans diffeacuterentes disciplines

Cf Myriam Posner (2015) Humanities data a necessary contradiction

11Mathieu Saby - avrilmai 2016

Labex Transfers (plusieurs projets)

Meacutedialab (idem)

Labex Obvil (idem)

Symogih (idem)

Labex Arts-H2H (idem)

Biblissima (idem)

Montaigne agrave loeuvre

ColostrumCriminocorpus

Peut-on parler de donneacutees en SHS

Tournant numeacuterique soutenu par des infrastructures et des reacuteseaux en France Humanum Progedo OpenEdition Perseacutee Maisons des Sciences de lHomme Reacuteseaux disciplinaires

Mais aussi en Europe et agrave lrsquoeacutetranger

12Mathieu Saby - avrilmai 2016

La gestion des donneacutees de la recherche

Une expression barbarehellip

Mais chaque chercheur fait de la gestion des donneacutees comme Monsieur Jourdain de la prose

13Mathieu Saby - avrilmai 2016

il y a plus de quarante ans que je dis de la prose sans

que jrsquoen susse rien et je vous suis le plus obligeacute du

monde de mrsquoavoir appris cela

La gestion des donneacutees de la recherche

Ensemble de pratiques parfois quotidiennes parfois plus exceptionnelles meneacutees par les chercheurs etou par du personnel speacutecialiseacute pour faciliter

pendant le projet lexploitation et la seacutecurisation des donneacutees

apregraves la fin du projet leur preacuteservation leur partage et leur reacuteutilisation

14Mathieu Saby - avrilmai 2016

Le cycle de vie des donneacutees

15Mathieu Saby - avrilmai 2016

Pendant le projet

Apregraves le projet

Preacuteservation des donneacutees

Reacuteutilisation des donneacuteesSocieacuteteacute

Autres projets de recherche

Creacuteation ou collecte de

donneacutees brutes

+

Utilisation de donneacutees

existantes

Traitement analyse

interpreacutetation des donneacutees

Publication (article livre

thegravese)

+

Partage des donneacutees

Planification

du projet

+

Planification de la gestion des donneacutees

Les plans de gestion de donneacutees

Besoin dexpliciter et de formaliser la gestion des donneacutees

Exemple la base de donneacutees linguistique CLAPI (et site de meacutethodologie associeacutee Corinte)

16Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

DMP (Data Management Plan)

Outil pour planifier la gestion des donneacutees et la rendre plus efficace

Pas exigeacute lors drsquoun doctorat mais deacutemarche qui peut ecirctre inspirante

17Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Document formel preacutecisant la maniegravere dont seront produites traiteacutees deacutecrites diffuseacutees et conserveacutees les donneacutees au cours et agrave lrsquoissue du projet Pratique Syntheacutetique Prospectif Eacutevolutif

18Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Une utiliteacute pour le projet lui-mecircme Drsquoautant plus utile que les donneacutees sont

Nombreuses varieacutees complexes Uniques Couteuses ou difficiles agrave produire Sensibles Utiles agrave drsquoautres personnes

Et que le projet est Collaboratif Long

19Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Une utiliteacute administrative Reacutepondre aux exigences de certains financeurs

Systeacutematique aux USA et Royaume-Uni mais tregraves rare en France

Agences de financements publiques et fondations Universiteacutes et organismes de recherche Union Europeacuteenne (projet pilote pour certains

projets du programme Horizon 2020)

20Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Pas de modegravele unique mais des eacuteleacutements et rubriques qui se recoupent souvent

Pour reacutediger un PGD Modegravele imposeacute par le financeur A deacutefaut adopter un modegravele existant en lrsquoadaptant

au besoin Des outils informatiques DMPonline DMPTool

21Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Un modegravele britannique (Digital curation center V4 2014)

Informations administratives

Collecte des donneacutees organisation

Documentation et meacutetadonneacutees

Ethique et cadre leacutegal

Stockage sauvegarde seacutecuriteacute

Archivage

Partage des donneacutees

Responsabiliteacutes et moyens

22Mathieu Saby - avrilmai 2016

Apregraves le projet

Les plans de gestion de donneacutees

Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)

Informations relatives au projet

Responsabiliteacute des donneacutees reacutepartition des rocircles

Ressources neacutecessaires agrave la mise en œuvre

Pour chaque jeu de donneacutees

Description du jeu de donneacutees

Stockage accegraves et seacutecuriteacute des donneacutees

Documentation et organisation des donneacutees

Disseacutemination du jeux de donneacutees (apregraves le projet)

Seacutelection et archivage

23Mathieu Saby - avrilmai 2016

2 Produire ou reacuteutiliser des donneacutees

24Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Le projet peut-il reacuteutiliser des donneacutees

existantes

Inteacuterecirct et limites

Conditions daccegraves

Coucirct

25Mathieu Saby - avrilmai 2016

Produire des donneacutees

Des donneacutees seront-elles produites

Eleacutement central ou secondaire du projet

Combien de jeux de donneacutees ou densembles

distincts

Quel degreacute de reproductibiliteacute des donneacutees

Quel inteacuterecirct pour la recherche ou des acteurs

de la socieacuteteacute

26Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Plusieurs sources possibles

Autres projets de recherche

Organismes priveacutes

Donneacutees publiques

Accegraves libre et gratuit France eacutetranger institutions internationales

Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes

enquecirctes)

Accegraves payant certaines donneacutees INSEE ou IGNhellip

Institutions culturelles (museacutees bibliothegraveques archives) situation

variable

27Mathieu Saby - avrilmai 2016

Produire des donneacutees

Mode de creacuteation ou de collecte

Type de donneacutees

Support

28Mathieu Saby - avrilmai 2016

Produire des donneacutees

Eacutetapes et niveaux drsquoeacutelaboration des donneacutees

au cours du projet

Ces eacutetapes sont-elles documenteacutees et

reproductibles (mateacuteriel logiciels meacutethodes

algorithmes code informatique)

29Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet (histoire maritime)

Navigocorpus 1 archives

30Mathieu Saby - avrilmai 2016

DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave

leacutepoque moderneLettre de lINSHS 2013 p 23-25

Produire des donneacutees

Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees

accessible en ligne

31Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees

32Mathieu Saby - avrilmai 2016

MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)

Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111

Produire des donneacutees

33Mathieu Saby - avrilmai 2016

Formats de fichiers

Qui doit pouvoir les lire Pour combien de temps

Pour un usage agrave long terme privileacutegier des

formats ouverts

Utilisables librement et gratuitement

Bien documenteacutes

Non lieacutes agrave un logiciel speacutecifique

FACILE - Service de validation de formats du CINES

Formats conseilleacutes par Data Archive (UK)

Produire des donneacutees

Ex de formats agrave la peacuterenniteacute garantie

34Mathieu Saby - avrilmai 2016

(PDFA

uniquement)

Sert de cadre base agrave de tregraves

nombreux formats avec des

extensions diverses

POR

(Fichier SPSS

portable)

Produire des donneacutees

Ex de formats courants sans peacuterenniteacute garantie

35Mathieu Saby - avrilmai 2016

Fichiers proprieacutetaires SPSS

STATA SAS NVIVO Altasti etc

3 Stocker ses donneacutees en seacutecuriteacute

36Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

37Mathieu Saby - avrilmai 2016

Dapregraves vous quels risques pegravesent sur les

donneacutees pendant un projet

Des risques agrave eacutevaluer

38Mathieu Saby - avrilmai 2016

Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise

organisation erreur de manipulation)

Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)

Lecture impossible (obsolescence du format ou du mateacuteriel)

Compreacutehension impossible (mauvaise organisation perte du contexte

ou de la documentation associeacutee)

Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)

Bonnes pratiques

Stockage et sauvegarde seacutecuriseacutee

Organisation adeacutequate

Documentation adeacutequate

39Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

40Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

Stockage adapteacute

Usages deacutesireacutes partage des donneacutees avec

partenaires internes ou externes stockage

sauvegarde ou publication

Caracteacuteristiques des donneacutees donneacutees

publiquesconfidentiellessecregravetes Quel

dommage causerait leur perte ou leur diffusion

Capaciteacutes

Tarifs

41Mathieu Saby - avrilmai 2016

Stockage adapteacute

42Mathieu Saby - avrilmai 2016

Supports de stockage Risques Avantages

Reacuteseau seacutecuriseacute (universiteacute

laboratoire)

Pannes de serveur erreur

humaine

seacutecuriteacute sauvegarde

automatique

Disque dur dordinateur

personnel ou professionnel

Pannes vol erreur

humaine

Cloud commercial dont cloud

proposeacute par lrsquouniversiteacute

(OneDrive)

Vol de mot de passe

Disparition des socieacuteteacutes

Cadre juridique parfois

flou

partage faciliteacute

synchronisation

automatique avec PC

Supports externes (cleacute USB

disque externe CDROM

DVDROM)

Deacuteteacuterioration des

supports perte vol

Sauvegarde meacutethodique

Mecircme en cas de stockage adapteacute neacutecessiteacute de

sauvegardes reacuteguliegraveres et freacutequentes

Utile pour se proteacuteger de ses propres erreurs

Ideacutealement 2 sauvegardes sur supports

diffeacuterents dont une stockeacutee physiquement agrave

distance (ex cloud + disque externe)

43Mathieu Saby - avrilmai 2016

Protection

Mots de passe fiables Agrave ne jamais partager

Eacuteviter les ordinateurs inconnus

Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles

Le cloud

Les transferts par courriel

44Mathieu Saby - avrilmai 2016

Cryptage

Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)

Veracrypt (Mac et PC) CryptSync (PC)

Cloud chiffreacute Tresorit Securesafe Synchcom

Spideroak

Attention aux effets secondaires du cryptage (perte

deacutefinitive des fichiershellip)

45Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 8: Gérer et diffuser ses données: principes et bonnes pratiques

Les donneacutees de la recherche en bref

Diffeacuterents supports

Nativement numeacuterique

Analogique (livres cassettes photos objetshellip)

Numeacuterisation de support analogique

8Mathieu Saby - avrilmai 2016

Peut-on parler de donneacutees en SHS

Dans vos recherches ou votre discipline pensez-vous produire ou reacuteutiliser des donneacutees

9Mathieu Saby - avrilmai 2016

Peut-on parler de donneacutees en SHS

Dimension empirique variable selon les disciplines et les approches meacutethodologiques

Vocabulaire riche pour deacutesigner les mateacuteriaux de recherche sources corpus traces enquecircteshellip et parfois seulement laquo donneacutees raquo

Reproductibiliteacute non revendiqueacutee dans certaines disciplines

Les donneacutees laquo brutes raquo sont souvent deacutejagrave une laquo interpreacutetation raquo du reacuteel

10Mathieu Saby - avrilmai 2016

Peut-on parler de donneacutees en SHS

Mais les approches numeacuteriques peuvent renouveler plus ou moins profondeacutement la maniegravere dappreacutehender les mateacuteriaux de recherche

Quelques exemples franccedilais dans diffeacuterentes disciplines

Cf Myriam Posner (2015) Humanities data a necessary contradiction

11Mathieu Saby - avrilmai 2016

Labex Transfers (plusieurs projets)

Meacutedialab (idem)

Labex Obvil (idem)

Symogih (idem)

Labex Arts-H2H (idem)

Biblissima (idem)

Montaigne agrave loeuvre

ColostrumCriminocorpus

Peut-on parler de donneacutees en SHS

Tournant numeacuterique soutenu par des infrastructures et des reacuteseaux en France Humanum Progedo OpenEdition Perseacutee Maisons des Sciences de lHomme Reacuteseaux disciplinaires

Mais aussi en Europe et agrave lrsquoeacutetranger

12Mathieu Saby - avrilmai 2016

La gestion des donneacutees de la recherche

Une expression barbarehellip

Mais chaque chercheur fait de la gestion des donneacutees comme Monsieur Jourdain de la prose

13Mathieu Saby - avrilmai 2016

il y a plus de quarante ans que je dis de la prose sans

que jrsquoen susse rien et je vous suis le plus obligeacute du

monde de mrsquoavoir appris cela

La gestion des donneacutees de la recherche

Ensemble de pratiques parfois quotidiennes parfois plus exceptionnelles meneacutees par les chercheurs etou par du personnel speacutecialiseacute pour faciliter

pendant le projet lexploitation et la seacutecurisation des donneacutees

apregraves la fin du projet leur preacuteservation leur partage et leur reacuteutilisation

14Mathieu Saby - avrilmai 2016

Le cycle de vie des donneacutees

15Mathieu Saby - avrilmai 2016

Pendant le projet

Apregraves le projet

Preacuteservation des donneacutees

Reacuteutilisation des donneacuteesSocieacuteteacute

Autres projets de recherche

Creacuteation ou collecte de

donneacutees brutes

+

Utilisation de donneacutees

existantes

Traitement analyse

interpreacutetation des donneacutees

Publication (article livre

thegravese)

+

Partage des donneacutees

Planification

du projet

+

Planification de la gestion des donneacutees

Les plans de gestion de donneacutees

Besoin dexpliciter et de formaliser la gestion des donneacutees

Exemple la base de donneacutees linguistique CLAPI (et site de meacutethodologie associeacutee Corinte)

16Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

DMP (Data Management Plan)

Outil pour planifier la gestion des donneacutees et la rendre plus efficace

Pas exigeacute lors drsquoun doctorat mais deacutemarche qui peut ecirctre inspirante

17Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Document formel preacutecisant la maniegravere dont seront produites traiteacutees deacutecrites diffuseacutees et conserveacutees les donneacutees au cours et agrave lrsquoissue du projet Pratique Syntheacutetique Prospectif Eacutevolutif

18Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Une utiliteacute pour le projet lui-mecircme Drsquoautant plus utile que les donneacutees sont

Nombreuses varieacutees complexes Uniques Couteuses ou difficiles agrave produire Sensibles Utiles agrave drsquoautres personnes

Et que le projet est Collaboratif Long

19Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Une utiliteacute administrative Reacutepondre aux exigences de certains financeurs

Systeacutematique aux USA et Royaume-Uni mais tregraves rare en France

Agences de financements publiques et fondations Universiteacutes et organismes de recherche Union Europeacuteenne (projet pilote pour certains

projets du programme Horizon 2020)

20Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Pas de modegravele unique mais des eacuteleacutements et rubriques qui se recoupent souvent

Pour reacutediger un PGD Modegravele imposeacute par le financeur A deacutefaut adopter un modegravele existant en lrsquoadaptant

au besoin Des outils informatiques DMPonline DMPTool

21Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Un modegravele britannique (Digital curation center V4 2014)

Informations administratives

Collecte des donneacutees organisation

Documentation et meacutetadonneacutees

Ethique et cadre leacutegal

Stockage sauvegarde seacutecuriteacute

Archivage

Partage des donneacutees

Responsabiliteacutes et moyens

22Mathieu Saby - avrilmai 2016

Apregraves le projet

Les plans de gestion de donneacutees

Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)

Informations relatives au projet

Responsabiliteacute des donneacutees reacutepartition des rocircles

Ressources neacutecessaires agrave la mise en œuvre

Pour chaque jeu de donneacutees

Description du jeu de donneacutees

Stockage accegraves et seacutecuriteacute des donneacutees

Documentation et organisation des donneacutees

Disseacutemination du jeux de donneacutees (apregraves le projet)

Seacutelection et archivage

23Mathieu Saby - avrilmai 2016

2 Produire ou reacuteutiliser des donneacutees

24Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Le projet peut-il reacuteutiliser des donneacutees

existantes

Inteacuterecirct et limites

Conditions daccegraves

Coucirct

25Mathieu Saby - avrilmai 2016

Produire des donneacutees

Des donneacutees seront-elles produites

Eleacutement central ou secondaire du projet

Combien de jeux de donneacutees ou densembles

distincts

Quel degreacute de reproductibiliteacute des donneacutees

Quel inteacuterecirct pour la recherche ou des acteurs

de la socieacuteteacute

26Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Plusieurs sources possibles

Autres projets de recherche

Organismes priveacutes

Donneacutees publiques

Accegraves libre et gratuit France eacutetranger institutions internationales

Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes

enquecirctes)

Accegraves payant certaines donneacutees INSEE ou IGNhellip

Institutions culturelles (museacutees bibliothegraveques archives) situation

variable

27Mathieu Saby - avrilmai 2016

Produire des donneacutees

Mode de creacuteation ou de collecte

Type de donneacutees

Support

28Mathieu Saby - avrilmai 2016

Produire des donneacutees

Eacutetapes et niveaux drsquoeacutelaboration des donneacutees

au cours du projet

Ces eacutetapes sont-elles documenteacutees et

reproductibles (mateacuteriel logiciels meacutethodes

algorithmes code informatique)

29Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet (histoire maritime)

Navigocorpus 1 archives

30Mathieu Saby - avrilmai 2016

DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave

leacutepoque moderneLettre de lINSHS 2013 p 23-25

Produire des donneacutees

Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees

accessible en ligne

31Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees

32Mathieu Saby - avrilmai 2016

MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)

Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111

Produire des donneacutees

33Mathieu Saby - avrilmai 2016

Formats de fichiers

Qui doit pouvoir les lire Pour combien de temps

Pour un usage agrave long terme privileacutegier des

formats ouverts

Utilisables librement et gratuitement

Bien documenteacutes

Non lieacutes agrave un logiciel speacutecifique

FACILE - Service de validation de formats du CINES

Formats conseilleacutes par Data Archive (UK)

Produire des donneacutees

Ex de formats agrave la peacuterenniteacute garantie

34Mathieu Saby - avrilmai 2016

(PDFA

uniquement)

Sert de cadre base agrave de tregraves

nombreux formats avec des

extensions diverses

POR

(Fichier SPSS

portable)

Produire des donneacutees

Ex de formats courants sans peacuterenniteacute garantie

35Mathieu Saby - avrilmai 2016

Fichiers proprieacutetaires SPSS

STATA SAS NVIVO Altasti etc

3 Stocker ses donneacutees en seacutecuriteacute

36Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

37Mathieu Saby - avrilmai 2016

Dapregraves vous quels risques pegravesent sur les

donneacutees pendant un projet

Des risques agrave eacutevaluer

38Mathieu Saby - avrilmai 2016

Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise

organisation erreur de manipulation)

Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)

Lecture impossible (obsolescence du format ou du mateacuteriel)

Compreacutehension impossible (mauvaise organisation perte du contexte

ou de la documentation associeacutee)

Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)

Bonnes pratiques

Stockage et sauvegarde seacutecuriseacutee

Organisation adeacutequate

Documentation adeacutequate

39Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

40Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

Stockage adapteacute

Usages deacutesireacutes partage des donneacutees avec

partenaires internes ou externes stockage

sauvegarde ou publication

Caracteacuteristiques des donneacutees donneacutees

publiquesconfidentiellessecregravetes Quel

dommage causerait leur perte ou leur diffusion

Capaciteacutes

Tarifs

41Mathieu Saby - avrilmai 2016

Stockage adapteacute

42Mathieu Saby - avrilmai 2016

Supports de stockage Risques Avantages

Reacuteseau seacutecuriseacute (universiteacute

laboratoire)

Pannes de serveur erreur

humaine

seacutecuriteacute sauvegarde

automatique

Disque dur dordinateur

personnel ou professionnel

Pannes vol erreur

humaine

Cloud commercial dont cloud

proposeacute par lrsquouniversiteacute

(OneDrive)

Vol de mot de passe

Disparition des socieacuteteacutes

Cadre juridique parfois

flou

partage faciliteacute

synchronisation

automatique avec PC

Supports externes (cleacute USB

disque externe CDROM

DVDROM)

Deacuteteacuterioration des

supports perte vol

Sauvegarde meacutethodique

Mecircme en cas de stockage adapteacute neacutecessiteacute de

sauvegardes reacuteguliegraveres et freacutequentes

Utile pour se proteacuteger de ses propres erreurs

Ideacutealement 2 sauvegardes sur supports

diffeacuterents dont une stockeacutee physiquement agrave

distance (ex cloud + disque externe)

43Mathieu Saby - avrilmai 2016

Protection

Mots de passe fiables Agrave ne jamais partager

Eacuteviter les ordinateurs inconnus

Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles

Le cloud

Les transferts par courriel

44Mathieu Saby - avrilmai 2016

Cryptage

Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)

Veracrypt (Mac et PC) CryptSync (PC)

Cloud chiffreacute Tresorit Securesafe Synchcom

Spideroak

Attention aux effets secondaires du cryptage (perte

deacutefinitive des fichiershellip)

45Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 9: Gérer et diffuser ses données: principes et bonnes pratiques

Peut-on parler de donneacutees en SHS

Dans vos recherches ou votre discipline pensez-vous produire ou reacuteutiliser des donneacutees

9Mathieu Saby - avrilmai 2016

Peut-on parler de donneacutees en SHS

Dimension empirique variable selon les disciplines et les approches meacutethodologiques

Vocabulaire riche pour deacutesigner les mateacuteriaux de recherche sources corpus traces enquecircteshellip et parfois seulement laquo donneacutees raquo

Reproductibiliteacute non revendiqueacutee dans certaines disciplines

Les donneacutees laquo brutes raquo sont souvent deacutejagrave une laquo interpreacutetation raquo du reacuteel

10Mathieu Saby - avrilmai 2016

Peut-on parler de donneacutees en SHS

Mais les approches numeacuteriques peuvent renouveler plus ou moins profondeacutement la maniegravere dappreacutehender les mateacuteriaux de recherche

Quelques exemples franccedilais dans diffeacuterentes disciplines

Cf Myriam Posner (2015) Humanities data a necessary contradiction

11Mathieu Saby - avrilmai 2016

Labex Transfers (plusieurs projets)

Meacutedialab (idem)

Labex Obvil (idem)

Symogih (idem)

Labex Arts-H2H (idem)

Biblissima (idem)

Montaigne agrave loeuvre

ColostrumCriminocorpus

Peut-on parler de donneacutees en SHS

Tournant numeacuterique soutenu par des infrastructures et des reacuteseaux en France Humanum Progedo OpenEdition Perseacutee Maisons des Sciences de lHomme Reacuteseaux disciplinaires

Mais aussi en Europe et agrave lrsquoeacutetranger

12Mathieu Saby - avrilmai 2016

La gestion des donneacutees de la recherche

Une expression barbarehellip

Mais chaque chercheur fait de la gestion des donneacutees comme Monsieur Jourdain de la prose

13Mathieu Saby - avrilmai 2016

il y a plus de quarante ans que je dis de la prose sans

que jrsquoen susse rien et je vous suis le plus obligeacute du

monde de mrsquoavoir appris cela

La gestion des donneacutees de la recherche

Ensemble de pratiques parfois quotidiennes parfois plus exceptionnelles meneacutees par les chercheurs etou par du personnel speacutecialiseacute pour faciliter

pendant le projet lexploitation et la seacutecurisation des donneacutees

apregraves la fin du projet leur preacuteservation leur partage et leur reacuteutilisation

14Mathieu Saby - avrilmai 2016

Le cycle de vie des donneacutees

15Mathieu Saby - avrilmai 2016

Pendant le projet

Apregraves le projet

Preacuteservation des donneacutees

Reacuteutilisation des donneacuteesSocieacuteteacute

Autres projets de recherche

Creacuteation ou collecte de

donneacutees brutes

+

Utilisation de donneacutees

existantes

Traitement analyse

interpreacutetation des donneacutees

Publication (article livre

thegravese)

+

Partage des donneacutees

Planification

du projet

+

Planification de la gestion des donneacutees

Les plans de gestion de donneacutees

Besoin dexpliciter et de formaliser la gestion des donneacutees

Exemple la base de donneacutees linguistique CLAPI (et site de meacutethodologie associeacutee Corinte)

16Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

DMP (Data Management Plan)

Outil pour planifier la gestion des donneacutees et la rendre plus efficace

Pas exigeacute lors drsquoun doctorat mais deacutemarche qui peut ecirctre inspirante

17Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Document formel preacutecisant la maniegravere dont seront produites traiteacutees deacutecrites diffuseacutees et conserveacutees les donneacutees au cours et agrave lrsquoissue du projet Pratique Syntheacutetique Prospectif Eacutevolutif

18Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Une utiliteacute pour le projet lui-mecircme Drsquoautant plus utile que les donneacutees sont

Nombreuses varieacutees complexes Uniques Couteuses ou difficiles agrave produire Sensibles Utiles agrave drsquoautres personnes

Et que le projet est Collaboratif Long

19Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Une utiliteacute administrative Reacutepondre aux exigences de certains financeurs

Systeacutematique aux USA et Royaume-Uni mais tregraves rare en France

Agences de financements publiques et fondations Universiteacutes et organismes de recherche Union Europeacuteenne (projet pilote pour certains

projets du programme Horizon 2020)

20Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Pas de modegravele unique mais des eacuteleacutements et rubriques qui se recoupent souvent

Pour reacutediger un PGD Modegravele imposeacute par le financeur A deacutefaut adopter un modegravele existant en lrsquoadaptant

au besoin Des outils informatiques DMPonline DMPTool

21Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Un modegravele britannique (Digital curation center V4 2014)

Informations administratives

Collecte des donneacutees organisation

Documentation et meacutetadonneacutees

Ethique et cadre leacutegal

Stockage sauvegarde seacutecuriteacute

Archivage

Partage des donneacutees

Responsabiliteacutes et moyens

22Mathieu Saby - avrilmai 2016

Apregraves le projet

Les plans de gestion de donneacutees

Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)

Informations relatives au projet

Responsabiliteacute des donneacutees reacutepartition des rocircles

Ressources neacutecessaires agrave la mise en œuvre

Pour chaque jeu de donneacutees

Description du jeu de donneacutees

Stockage accegraves et seacutecuriteacute des donneacutees

Documentation et organisation des donneacutees

Disseacutemination du jeux de donneacutees (apregraves le projet)

Seacutelection et archivage

23Mathieu Saby - avrilmai 2016

2 Produire ou reacuteutiliser des donneacutees

24Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Le projet peut-il reacuteutiliser des donneacutees

existantes

Inteacuterecirct et limites

Conditions daccegraves

Coucirct

25Mathieu Saby - avrilmai 2016

Produire des donneacutees

Des donneacutees seront-elles produites

Eleacutement central ou secondaire du projet

Combien de jeux de donneacutees ou densembles

distincts

Quel degreacute de reproductibiliteacute des donneacutees

Quel inteacuterecirct pour la recherche ou des acteurs

de la socieacuteteacute

26Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Plusieurs sources possibles

Autres projets de recherche

Organismes priveacutes

Donneacutees publiques

Accegraves libre et gratuit France eacutetranger institutions internationales

Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes

enquecirctes)

Accegraves payant certaines donneacutees INSEE ou IGNhellip

Institutions culturelles (museacutees bibliothegraveques archives) situation

variable

27Mathieu Saby - avrilmai 2016

Produire des donneacutees

Mode de creacuteation ou de collecte

Type de donneacutees

Support

28Mathieu Saby - avrilmai 2016

Produire des donneacutees

Eacutetapes et niveaux drsquoeacutelaboration des donneacutees

au cours du projet

Ces eacutetapes sont-elles documenteacutees et

reproductibles (mateacuteriel logiciels meacutethodes

algorithmes code informatique)

29Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet (histoire maritime)

Navigocorpus 1 archives

30Mathieu Saby - avrilmai 2016

DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave

leacutepoque moderneLettre de lINSHS 2013 p 23-25

Produire des donneacutees

Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees

accessible en ligne

31Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees

32Mathieu Saby - avrilmai 2016

MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)

Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111

Produire des donneacutees

33Mathieu Saby - avrilmai 2016

Formats de fichiers

Qui doit pouvoir les lire Pour combien de temps

Pour un usage agrave long terme privileacutegier des

formats ouverts

Utilisables librement et gratuitement

Bien documenteacutes

Non lieacutes agrave un logiciel speacutecifique

FACILE - Service de validation de formats du CINES

Formats conseilleacutes par Data Archive (UK)

Produire des donneacutees

Ex de formats agrave la peacuterenniteacute garantie

34Mathieu Saby - avrilmai 2016

(PDFA

uniquement)

Sert de cadre base agrave de tregraves

nombreux formats avec des

extensions diverses

POR

(Fichier SPSS

portable)

Produire des donneacutees

Ex de formats courants sans peacuterenniteacute garantie

35Mathieu Saby - avrilmai 2016

Fichiers proprieacutetaires SPSS

STATA SAS NVIVO Altasti etc

3 Stocker ses donneacutees en seacutecuriteacute

36Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

37Mathieu Saby - avrilmai 2016

Dapregraves vous quels risques pegravesent sur les

donneacutees pendant un projet

Des risques agrave eacutevaluer

38Mathieu Saby - avrilmai 2016

Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise

organisation erreur de manipulation)

Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)

Lecture impossible (obsolescence du format ou du mateacuteriel)

Compreacutehension impossible (mauvaise organisation perte du contexte

ou de la documentation associeacutee)

Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)

Bonnes pratiques

Stockage et sauvegarde seacutecuriseacutee

Organisation adeacutequate

Documentation adeacutequate

39Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

40Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

Stockage adapteacute

Usages deacutesireacutes partage des donneacutees avec

partenaires internes ou externes stockage

sauvegarde ou publication

Caracteacuteristiques des donneacutees donneacutees

publiquesconfidentiellessecregravetes Quel

dommage causerait leur perte ou leur diffusion

Capaciteacutes

Tarifs

41Mathieu Saby - avrilmai 2016

Stockage adapteacute

42Mathieu Saby - avrilmai 2016

Supports de stockage Risques Avantages

Reacuteseau seacutecuriseacute (universiteacute

laboratoire)

Pannes de serveur erreur

humaine

seacutecuriteacute sauvegarde

automatique

Disque dur dordinateur

personnel ou professionnel

Pannes vol erreur

humaine

Cloud commercial dont cloud

proposeacute par lrsquouniversiteacute

(OneDrive)

Vol de mot de passe

Disparition des socieacuteteacutes

Cadre juridique parfois

flou

partage faciliteacute

synchronisation

automatique avec PC

Supports externes (cleacute USB

disque externe CDROM

DVDROM)

Deacuteteacuterioration des

supports perte vol

Sauvegarde meacutethodique

Mecircme en cas de stockage adapteacute neacutecessiteacute de

sauvegardes reacuteguliegraveres et freacutequentes

Utile pour se proteacuteger de ses propres erreurs

Ideacutealement 2 sauvegardes sur supports

diffeacuterents dont une stockeacutee physiquement agrave

distance (ex cloud + disque externe)

43Mathieu Saby - avrilmai 2016

Protection

Mots de passe fiables Agrave ne jamais partager

Eacuteviter les ordinateurs inconnus

Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles

Le cloud

Les transferts par courriel

44Mathieu Saby - avrilmai 2016

Cryptage

Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)

Veracrypt (Mac et PC) CryptSync (PC)

Cloud chiffreacute Tresorit Securesafe Synchcom

Spideroak

Attention aux effets secondaires du cryptage (perte

deacutefinitive des fichiershellip)

45Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 10: Gérer et diffuser ses données: principes et bonnes pratiques

Peut-on parler de donneacutees en SHS

Dimension empirique variable selon les disciplines et les approches meacutethodologiques

Vocabulaire riche pour deacutesigner les mateacuteriaux de recherche sources corpus traces enquecircteshellip et parfois seulement laquo donneacutees raquo

Reproductibiliteacute non revendiqueacutee dans certaines disciplines

Les donneacutees laquo brutes raquo sont souvent deacutejagrave une laquo interpreacutetation raquo du reacuteel

10Mathieu Saby - avrilmai 2016

Peut-on parler de donneacutees en SHS

Mais les approches numeacuteriques peuvent renouveler plus ou moins profondeacutement la maniegravere dappreacutehender les mateacuteriaux de recherche

Quelques exemples franccedilais dans diffeacuterentes disciplines

Cf Myriam Posner (2015) Humanities data a necessary contradiction

11Mathieu Saby - avrilmai 2016

Labex Transfers (plusieurs projets)

Meacutedialab (idem)

Labex Obvil (idem)

Symogih (idem)

Labex Arts-H2H (idem)

Biblissima (idem)

Montaigne agrave loeuvre

ColostrumCriminocorpus

Peut-on parler de donneacutees en SHS

Tournant numeacuterique soutenu par des infrastructures et des reacuteseaux en France Humanum Progedo OpenEdition Perseacutee Maisons des Sciences de lHomme Reacuteseaux disciplinaires

Mais aussi en Europe et agrave lrsquoeacutetranger

12Mathieu Saby - avrilmai 2016

La gestion des donneacutees de la recherche

Une expression barbarehellip

Mais chaque chercheur fait de la gestion des donneacutees comme Monsieur Jourdain de la prose

13Mathieu Saby - avrilmai 2016

il y a plus de quarante ans que je dis de la prose sans

que jrsquoen susse rien et je vous suis le plus obligeacute du

monde de mrsquoavoir appris cela

La gestion des donneacutees de la recherche

Ensemble de pratiques parfois quotidiennes parfois plus exceptionnelles meneacutees par les chercheurs etou par du personnel speacutecialiseacute pour faciliter

pendant le projet lexploitation et la seacutecurisation des donneacutees

apregraves la fin du projet leur preacuteservation leur partage et leur reacuteutilisation

14Mathieu Saby - avrilmai 2016

Le cycle de vie des donneacutees

15Mathieu Saby - avrilmai 2016

Pendant le projet

Apregraves le projet

Preacuteservation des donneacutees

Reacuteutilisation des donneacuteesSocieacuteteacute

Autres projets de recherche

Creacuteation ou collecte de

donneacutees brutes

+

Utilisation de donneacutees

existantes

Traitement analyse

interpreacutetation des donneacutees

Publication (article livre

thegravese)

+

Partage des donneacutees

Planification

du projet

+

Planification de la gestion des donneacutees

Les plans de gestion de donneacutees

Besoin dexpliciter et de formaliser la gestion des donneacutees

Exemple la base de donneacutees linguistique CLAPI (et site de meacutethodologie associeacutee Corinte)

16Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

DMP (Data Management Plan)

Outil pour planifier la gestion des donneacutees et la rendre plus efficace

Pas exigeacute lors drsquoun doctorat mais deacutemarche qui peut ecirctre inspirante

17Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Document formel preacutecisant la maniegravere dont seront produites traiteacutees deacutecrites diffuseacutees et conserveacutees les donneacutees au cours et agrave lrsquoissue du projet Pratique Syntheacutetique Prospectif Eacutevolutif

18Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Une utiliteacute pour le projet lui-mecircme Drsquoautant plus utile que les donneacutees sont

Nombreuses varieacutees complexes Uniques Couteuses ou difficiles agrave produire Sensibles Utiles agrave drsquoautres personnes

Et que le projet est Collaboratif Long

19Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Une utiliteacute administrative Reacutepondre aux exigences de certains financeurs

Systeacutematique aux USA et Royaume-Uni mais tregraves rare en France

Agences de financements publiques et fondations Universiteacutes et organismes de recherche Union Europeacuteenne (projet pilote pour certains

projets du programme Horizon 2020)

20Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Pas de modegravele unique mais des eacuteleacutements et rubriques qui se recoupent souvent

Pour reacutediger un PGD Modegravele imposeacute par le financeur A deacutefaut adopter un modegravele existant en lrsquoadaptant

au besoin Des outils informatiques DMPonline DMPTool

21Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Un modegravele britannique (Digital curation center V4 2014)

Informations administratives

Collecte des donneacutees organisation

Documentation et meacutetadonneacutees

Ethique et cadre leacutegal

Stockage sauvegarde seacutecuriteacute

Archivage

Partage des donneacutees

Responsabiliteacutes et moyens

22Mathieu Saby - avrilmai 2016

Apregraves le projet

Les plans de gestion de donneacutees

Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)

Informations relatives au projet

Responsabiliteacute des donneacutees reacutepartition des rocircles

Ressources neacutecessaires agrave la mise en œuvre

Pour chaque jeu de donneacutees

Description du jeu de donneacutees

Stockage accegraves et seacutecuriteacute des donneacutees

Documentation et organisation des donneacutees

Disseacutemination du jeux de donneacutees (apregraves le projet)

Seacutelection et archivage

23Mathieu Saby - avrilmai 2016

2 Produire ou reacuteutiliser des donneacutees

24Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Le projet peut-il reacuteutiliser des donneacutees

existantes

Inteacuterecirct et limites

Conditions daccegraves

Coucirct

25Mathieu Saby - avrilmai 2016

Produire des donneacutees

Des donneacutees seront-elles produites

Eleacutement central ou secondaire du projet

Combien de jeux de donneacutees ou densembles

distincts

Quel degreacute de reproductibiliteacute des donneacutees

Quel inteacuterecirct pour la recherche ou des acteurs

de la socieacuteteacute

26Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Plusieurs sources possibles

Autres projets de recherche

Organismes priveacutes

Donneacutees publiques

Accegraves libre et gratuit France eacutetranger institutions internationales

Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes

enquecirctes)

Accegraves payant certaines donneacutees INSEE ou IGNhellip

Institutions culturelles (museacutees bibliothegraveques archives) situation

variable

27Mathieu Saby - avrilmai 2016

Produire des donneacutees

Mode de creacuteation ou de collecte

Type de donneacutees

Support

28Mathieu Saby - avrilmai 2016

Produire des donneacutees

Eacutetapes et niveaux drsquoeacutelaboration des donneacutees

au cours du projet

Ces eacutetapes sont-elles documenteacutees et

reproductibles (mateacuteriel logiciels meacutethodes

algorithmes code informatique)

29Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet (histoire maritime)

Navigocorpus 1 archives

30Mathieu Saby - avrilmai 2016

DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave

leacutepoque moderneLettre de lINSHS 2013 p 23-25

Produire des donneacutees

Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees

accessible en ligne

31Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees

32Mathieu Saby - avrilmai 2016

MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)

Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111

Produire des donneacutees

33Mathieu Saby - avrilmai 2016

Formats de fichiers

Qui doit pouvoir les lire Pour combien de temps

Pour un usage agrave long terme privileacutegier des

formats ouverts

Utilisables librement et gratuitement

Bien documenteacutes

Non lieacutes agrave un logiciel speacutecifique

FACILE - Service de validation de formats du CINES

Formats conseilleacutes par Data Archive (UK)

Produire des donneacutees

Ex de formats agrave la peacuterenniteacute garantie

34Mathieu Saby - avrilmai 2016

(PDFA

uniquement)

Sert de cadre base agrave de tregraves

nombreux formats avec des

extensions diverses

POR

(Fichier SPSS

portable)

Produire des donneacutees

Ex de formats courants sans peacuterenniteacute garantie

35Mathieu Saby - avrilmai 2016

Fichiers proprieacutetaires SPSS

STATA SAS NVIVO Altasti etc

3 Stocker ses donneacutees en seacutecuriteacute

36Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

37Mathieu Saby - avrilmai 2016

Dapregraves vous quels risques pegravesent sur les

donneacutees pendant un projet

Des risques agrave eacutevaluer

38Mathieu Saby - avrilmai 2016

Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise

organisation erreur de manipulation)

Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)

Lecture impossible (obsolescence du format ou du mateacuteriel)

Compreacutehension impossible (mauvaise organisation perte du contexte

ou de la documentation associeacutee)

Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)

Bonnes pratiques

Stockage et sauvegarde seacutecuriseacutee

Organisation adeacutequate

Documentation adeacutequate

39Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

40Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

Stockage adapteacute

Usages deacutesireacutes partage des donneacutees avec

partenaires internes ou externes stockage

sauvegarde ou publication

Caracteacuteristiques des donneacutees donneacutees

publiquesconfidentiellessecregravetes Quel

dommage causerait leur perte ou leur diffusion

Capaciteacutes

Tarifs

41Mathieu Saby - avrilmai 2016

Stockage adapteacute

42Mathieu Saby - avrilmai 2016

Supports de stockage Risques Avantages

Reacuteseau seacutecuriseacute (universiteacute

laboratoire)

Pannes de serveur erreur

humaine

seacutecuriteacute sauvegarde

automatique

Disque dur dordinateur

personnel ou professionnel

Pannes vol erreur

humaine

Cloud commercial dont cloud

proposeacute par lrsquouniversiteacute

(OneDrive)

Vol de mot de passe

Disparition des socieacuteteacutes

Cadre juridique parfois

flou

partage faciliteacute

synchronisation

automatique avec PC

Supports externes (cleacute USB

disque externe CDROM

DVDROM)

Deacuteteacuterioration des

supports perte vol

Sauvegarde meacutethodique

Mecircme en cas de stockage adapteacute neacutecessiteacute de

sauvegardes reacuteguliegraveres et freacutequentes

Utile pour se proteacuteger de ses propres erreurs

Ideacutealement 2 sauvegardes sur supports

diffeacuterents dont une stockeacutee physiquement agrave

distance (ex cloud + disque externe)

43Mathieu Saby - avrilmai 2016

Protection

Mots de passe fiables Agrave ne jamais partager

Eacuteviter les ordinateurs inconnus

Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles

Le cloud

Les transferts par courriel

44Mathieu Saby - avrilmai 2016

Cryptage

Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)

Veracrypt (Mac et PC) CryptSync (PC)

Cloud chiffreacute Tresorit Securesafe Synchcom

Spideroak

Attention aux effets secondaires du cryptage (perte

deacutefinitive des fichiershellip)

45Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 11: Gérer et diffuser ses données: principes et bonnes pratiques

Peut-on parler de donneacutees en SHS

Mais les approches numeacuteriques peuvent renouveler plus ou moins profondeacutement la maniegravere dappreacutehender les mateacuteriaux de recherche

Quelques exemples franccedilais dans diffeacuterentes disciplines

Cf Myriam Posner (2015) Humanities data a necessary contradiction

11Mathieu Saby - avrilmai 2016

Labex Transfers (plusieurs projets)

Meacutedialab (idem)

Labex Obvil (idem)

Symogih (idem)

Labex Arts-H2H (idem)

Biblissima (idem)

Montaigne agrave loeuvre

ColostrumCriminocorpus

Peut-on parler de donneacutees en SHS

Tournant numeacuterique soutenu par des infrastructures et des reacuteseaux en France Humanum Progedo OpenEdition Perseacutee Maisons des Sciences de lHomme Reacuteseaux disciplinaires

Mais aussi en Europe et agrave lrsquoeacutetranger

12Mathieu Saby - avrilmai 2016

La gestion des donneacutees de la recherche

Une expression barbarehellip

Mais chaque chercheur fait de la gestion des donneacutees comme Monsieur Jourdain de la prose

13Mathieu Saby - avrilmai 2016

il y a plus de quarante ans que je dis de la prose sans

que jrsquoen susse rien et je vous suis le plus obligeacute du

monde de mrsquoavoir appris cela

La gestion des donneacutees de la recherche

Ensemble de pratiques parfois quotidiennes parfois plus exceptionnelles meneacutees par les chercheurs etou par du personnel speacutecialiseacute pour faciliter

pendant le projet lexploitation et la seacutecurisation des donneacutees

apregraves la fin du projet leur preacuteservation leur partage et leur reacuteutilisation

14Mathieu Saby - avrilmai 2016

Le cycle de vie des donneacutees

15Mathieu Saby - avrilmai 2016

Pendant le projet

Apregraves le projet

Preacuteservation des donneacutees

Reacuteutilisation des donneacuteesSocieacuteteacute

Autres projets de recherche

Creacuteation ou collecte de

donneacutees brutes

+

Utilisation de donneacutees

existantes

Traitement analyse

interpreacutetation des donneacutees

Publication (article livre

thegravese)

+

Partage des donneacutees

Planification

du projet

+

Planification de la gestion des donneacutees

Les plans de gestion de donneacutees

Besoin dexpliciter et de formaliser la gestion des donneacutees

Exemple la base de donneacutees linguistique CLAPI (et site de meacutethodologie associeacutee Corinte)

16Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

DMP (Data Management Plan)

Outil pour planifier la gestion des donneacutees et la rendre plus efficace

Pas exigeacute lors drsquoun doctorat mais deacutemarche qui peut ecirctre inspirante

17Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Document formel preacutecisant la maniegravere dont seront produites traiteacutees deacutecrites diffuseacutees et conserveacutees les donneacutees au cours et agrave lrsquoissue du projet Pratique Syntheacutetique Prospectif Eacutevolutif

18Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Une utiliteacute pour le projet lui-mecircme Drsquoautant plus utile que les donneacutees sont

Nombreuses varieacutees complexes Uniques Couteuses ou difficiles agrave produire Sensibles Utiles agrave drsquoautres personnes

Et que le projet est Collaboratif Long

19Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Une utiliteacute administrative Reacutepondre aux exigences de certains financeurs

Systeacutematique aux USA et Royaume-Uni mais tregraves rare en France

Agences de financements publiques et fondations Universiteacutes et organismes de recherche Union Europeacuteenne (projet pilote pour certains

projets du programme Horizon 2020)

20Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Pas de modegravele unique mais des eacuteleacutements et rubriques qui se recoupent souvent

Pour reacutediger un PGD Modegravele imposeacute par le financeur A deacutefaut adopter un modegravele existant en lrsquoadaptant

au besoin Des outils informatiques DMPonline DMPTool

21Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Un modegravele britannique (Digital curation center V4 2014)

Informations administratives

Collecte des donneacutees organisation

Documentation et meacutetadonneacutees

Ethique et cadre leacutegal

Stockage sauvegarde seacutecuriteacute

Archivage

Partage des donneacutees

Responsabiliteacutes et moyens

22Mathieu Saby - avrilmai 2016

Apregraves le projet

Les plans de gestion de donneacutees

Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)

Informations relatives au projet

Responsabiliteacute des donneacutees reacutepartition des rocircles

Ressources neacutecessaires agrave la mise en œuvre

Pour chaque jeu de donneacutees

Description du jeu de donneacutees

Stockage accegraves et seacutecuriteacute des donneacutees

Documentation et organisation des donneacutees

Disseacutemination du jeux de donneacutees (apregraves le projet)

Seacutelection et archivage

23Mathieu Saby - avrilmai 2016

2 Produire ou reacuteutiliser des donneacutees

24Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Le projet peut-il reacuteutiliser des donneacutees

existantes

Inteacuterecirct et limites

Conditions daccegraves

Coucirct

25Mathieu Saby - avrilmai 2016

Produire des donneacutees

Des donneacutees seront-elles produites

Eleacutement central ou secondaire du projet

Combien de jeux de donneacutees ou densembles

distincts

Quel degreacute de reproductibiliteacute des donneacutees

Quel inteacuterecirct pour la recherche ou des acteurs

de la socieacuteteacute

26Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Plusieurs sources possibles

Autres projets de recherche

Organismes priveacutes

Donneacutees publiques

Accegraves libre et gratuit France eacutetranger institutions internationales

Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes

enquecirctes)

Accegraves payant certaines donneacutees INSEE ou IGNhellip

Institutions culturelles (museacutees bibliothegraveques archives) situation

variable

27Mathieu Saby - avrilmai 2016

Produire des donneacutees

Mode de creacuteation ou de collecte

Type de donneacutees

Support

28Mathieu Saby - avrilmai 2016

Produire des donneacutees

Eacutetapes et niveaux drsquoeacutelaboration des donneacutees

au cours du projet

Ces eacutetapes sont-elles documenteacutees et

reproductibles (mateacuteriel logiciels meacutethodes

algorithmes code informatique)

29Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet (histoire maritime)

Navigocorpus 1 archives

30Mathieu Saby - avrilmai 2016

DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave

leacutepoque moderneLettre de lINSHS 2013 p 23-25

Produire des donneacutees

Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees

accessible en ligne

31Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees

32Mathieu Saby - avrilmai 2016

MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)

Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111

Produire des donneacutees

33Mathieu Saby - avrilmai 2016

Formats de fichiers

Qui doit pouvoir les lire Pour combien de temps

Pour un usage agrave long terme privileacutegier des

formats ouverts

Utilisables librement et gratuitement

Bien documenteacutes

Non lieacutes agrave un logiciel speacutecifique

FACILE - Service de validation de formats du CINES

Formats conseilleacutes par Data Archive (UK)

Produire des donneacutees

Ex de formats agrave la peacuterenniteacute garantie

34Mathieu Saby - avrilmai 2016

(PDFA

uniquement)

Sert de cadre base agrave de tregraves

nombreux formats avec des

extensions diverses

POR

(Fichier SPSS

portable)

Produire des donneacutees

Ex de formats courants sans peacuterenniteacute garantie

35Mathieu Saby - avrilmai 2016

Fichiers proprieacutetaires SPSS

STATA SAS NVIVO Altasti etc

3 Stocker ses donneacutees en seacutecuriteacute

36Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

37Mathieu Saby - avrilmai 2016

Dapregraves vous quels risques pegravesent sur les

donneacutees pendant un projet

Des risques agrave eacutevaluer

38Mathieu Saby - avrilmai 2016

Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise

organisation erreur de manipulation)

Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)

Lecture impossible (obsolescence du format ou du mateacuteriel)

Compreacutehension impossible (mauvaise organisation perte du contexte

ou de la documentation associeacutee)

Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)

Bonnes pratiques

Stockage et sauvegarde seacutecuriseacutee

Organisation adeacutequate

Documentation adeacutequate

39Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

40Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

Stockage adapteacute

Usages deacutesireacutes partage des donneacutees avec

partenaires internes ou externes stockage

sauvegarde ou publication

Caracteacuteristiques des donneacutees donneacutees

publiquesconfidentiellessecregravetes Quel

dommage causerait leur perte ou leur diffusion

Capaciteacutes

Tarifs

41Mathieu Saby - avrilmai 2016

Stockage adapteacute

42Mathieu Saby - avrilmai 2016

Supports de stockage Risques Avantages

Reacuteseau seacutecuriseacute (universiteacute

laboratoire)

Pannes de serveur erreur

humaine

seacutecuriteacute sauvegarde

automatique

Disque dur dordinateur

personnel ou professionnel

Pannes vol erreur

humaine

Cloud commercial dont cloud

proposeacute par lrsquouniversiteacute

(OneDrive)

Vol de mot de passe

Disparition des socieacuteteacutes

Cadre juridique parfois

flou

partage faciliteacute

synchronisation

automatique avec PC

Supports externes (cleacute USB

disque externe CDROM

DVDROM)

Deacuteteacuterioration des

supports perte vol

Sauvegarde meacutethodique

Mecircme en cas de stockage adapteacute neacutecessiteacute de

sauvegardes reacuteguliegraveres et freacutequentes

Utile pour se proteacuteger de ses propres erreurs

Ideacutealement 2 sauvegardes sur supports

diffeacuterents dont une stockeacutee physiquement agrave

distance (ex cloud + disque externe)

43Mathieu Saby - avrilmai 2016

Protection

Mots de passe fiables Agrave ne jamais partager

Eacuteviter les ordinateurs inconnus

Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles

Le cloud

Les transferts par courriel

44Mathieu Saby - avrilmai 2016

Cryptage

Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)

Veracrypt (Mac et PC) CryptSync (PC)

Cloud chiffreacute Tresorit Securesafe Synchcom

Spideroak

Attention aux effets secondaires du cryptage (perte

deacutefinitive des fichiershellip)

45Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 12: Gérer et diffuser ses données: principes et bonnes pratiques

Peut-on parler de donneacutees en SHS

Tournant numeacuterique soutenu par des infrastructures et des reacuteseaux en France Humanum Progedo OpenEdition Perseacutee Maisons des Sciences de lHomme Reacuteseaux disciplinaires

Mais aussi en Europe et agrave lrsquoeacutetranger

12Mathieu Saby - avrilmai 2016

La gestion des donneacutees de la recherche

Une expression barbarehellip

Mais chaque chercheur fait de la gestion des donneacutees comme Monsieur Jourdain de la prose

13Mathieu Saby - avrilmai 2016

il y a plus de quarante ans que je dis de la prose sans

que jrsquoen susse rien et je vous suis le plus obligeacute du

monde de mrsquoavoir appris cela

La gestion des donneacutees de la recherche

Ensemble de pratiques parfois quotidiennes parfois plus exceptionnelles meneacutees par les chercheurs etou par du personnel speacutecialiseacute pour faciliter

pendant le projet lexploitation et la seacutecurisation des donneacutees

apregraves la fin du projet leur preacuteservation leur partage et leur reacuteutilisation

14Mathieu Saby - avrilmai 2016

Le cycle de vie des donneacutees

15Mathieu Saby - avrilmai 2016

Pendant le projet

Apregraves le projet

Preacuteservation des donneacutees

Reacuteutilisation des donneacuteesSocieacuteteacute

Autres projets de recherche

Creacuteation ou collecte de

donneacutees brutes

+

Utilisation de donneacutees

existantes

Traitement analyse

interpreacutetation des donneacutees

Publication (article livre

thegravese)

+

Partage des donneacutees

Planification

du projet

+

Planification de la gestion des donneacutees

Les plans de gestion de donneacutees

Besoin dexpliciter et de formaliser la gestion des donneacutees

Exemple la base de donneacutees linguistique CLAPI (et site de meacutethodologie associeacutee Corinte)

16Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

DMP (Data Management Plan)

Outil pour planifier la gestion des donneacutees et la rendre plus efficace

Pas exigeacute lors drsquoun doctorat mais deacutemarche qui peut ecirctre inspirante

17Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Document formel preacutecisant la maniegravere dont seront produites traiteacutees deacutecrites diffuseacutees et conserveacutees les donneacutees au cours et agrave lrsquoissue du projet Pratique Syntheacutetique Prospectif Eacutevolutif

18Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Une utiliteacute pour le projet lui-mecircme Drsquoautant plus utile que les donneacutees sont

Nombreuses varieacutees complexes Uniques Couteuses ou difficiles agrave produire Sensibles Utiles agrave drsquoautres personnes

Et que le projet est Collaboratif Long

19Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Une utiliteacute administrative Reacutepondre aux exigences de certains financeurs

Systeacutematique aux USA et Royaume-Uni mais tregraves rare en France

Agences de financements publiques et fondations Universiteacutes et organismes de recherche Union Europeacuteenne (projet pilote pour certains

projets du programme Horizon 2020)

20Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Pas de modegravele unique mais des eacuteleacutements et rubriques qui se recoupent souvent

Pour reacutediger un PGD Modegravele imposeacute par le financeur A deacutefaut adopter un modegravele existant en lrsquoadaptant

au besoin Des outils informatiques DMPonline DMPTool

21Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Un modegravele britannique (Digital curation center V4 2014)

Informations administratives

Collecte des donneacutees organisation

Documentation et meacutetadonneacutees

Ethique et cadre leacutegal

Stockage sauvegarde seacutecuriteacute

Archivage

Partage des donneacutees

Responsabiliteacutes et moyens

22Mathieu Saby - avrilmai 2016

Apregraves le projet

Les plans de gestion de donneacutees

Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)

Informations relatives au projet

Responsabiliteacute des donneacutees reacutepartition des rocircles

Ressources neacutecessaires agrave la mise en œuvre

Pour chaque jeu de donneacutees

Description du jeu de donneacutees

Stockage accegraves et seacutecuriteacute des donneacutees

Documentation et organisation des donneacutees

Disseacutemination du jeux de donneacutees (apregraves le projet)

Seacutelection et archivage

23Mathieu Saby - avrilmai 2016

2 Produire ou reacuteutiliser des donneacutees

24Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Le projet peut-il reacuteutiliser des donneacutees

existantes

Inteacuterecirct et limites

Conditions daccegraves

Coucirct

25Mathieu Saby - avrilmai 2016

Produire des donneacutees

Des donneacutees seront-elles produites

Eleacutement central ou secondaire du projet

Combien de jeux de donneacutees ou densembles

distincts

Quel degreacute de reproductibiliteacute des donneacutees

Quel inteacuterecirct pour la recherche ou des acteurs

de la socieacuteteacute

26Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Plusieurs sources possibles

Autres projets de recherche

Organismes priveacutes

Donneacutees publiques

Accegraves libre et gratuit France eacutetranger institutions internationales

Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes

enquecirctes)

Accegraves payant certaines donneacutees INSEE ou IGNhellip

Institutions culturelles (museacutees bibliothegraveques archives) situation

variable

27Mathieu Saby - avrilmai 2016

Produire des donneacutees

Mode de creacuteation ou de collecte

Type de donneacutees

Support

28Mathieu Saby - avrilmai 2016

Produire des donneacutees

Eacutetapes et niveaux drsquoeacutelaboration des donneacutees

au cours du projet

Ces eacutetapes sont-elles documenteacutees et

reproductibles (mateacuteriel logiciels meacutethodes

algorithmes code informatique)

29Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet (histoire maritime)

Navigocorpus 1 archives

30Mathieu Saby - avrilmai 2016

DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave

leacutepoque moderneLettre de lINSHS 2013 p 23-25

Produire des donneacutees

Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees

accessible en ligne

31Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees

32Mathieu Saby - avrilmai 2016

MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)

Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111

Produire des donneacutees

33Mathieu Saby - avrilmai 2016

Formats de fichiers

Qui doit pouvoir les lire Pour combien de temps

Pour un usage agrave long terme privileacutegier des

formats ouverts

Utilisables librement et gratuitement

Bien documenteacutes

Non lieacutes agrave un logiciel speacutecifique

FACILE - Service de validation de formats du CINES

Formats conseilleacutes par Data Archive (UK)

Produire des donneacutees

Ex de formats agrave la peacuterenniteacute garantie

34Mathieu Saby - avrilmai 2016

(PDFA

uniquement)

Sert de cadre base agrave de tregraves

nombreux formats avec des

extensions diverses

POR

(Fichier SPSS

portable)

Produire des donneacutees

Ex de formats courants sans peacuterenniteacute garantie

35Mathieu Saby - avrilmai 2016

Fichiers proprieacutetaires SPSS

STATA SAS NVIVO Altasti etc

3 Stocker ses donneacutees en seacutecuriteacute

36Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

37Mathieu Saby - avrilmai 2016

Dapregraves vous quels risques pegravesent sur les

donneacutees pendant un projet

Des risques agrave eacutevaluer

38Mathieu Saby - avrilmai 2016

Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise

organisation erreur de manipulation)

Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)

Lecture impossible (obsolescence du format ou du mateacuteriel)

Compreacutehension impossible (mauvaise organisation perte du contexte

ou de la documentation associeacutee)

Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)

Bonnes pratiques

Stockage et sauvegarde seacutecuriseacutee

Organisation adeacutequate

Documentation adeacutequate

39Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

40Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

Stockage adapteacute

Usages deacutesireacutes partage des donneacutees avec

partenaires internes ou externes stockage

sauvegarde ou publication

Caracteacuteristiques des donneacutees donneacutees

publiquesconfidentiellessecregravetes Quel

dommage causerait leur perte ou leur diffusion

Capaciteacutes

Tarifs

41Mathieu Saby - avrilmai 2016

Stockage adapteacute

42Mathieu Saby - avrilmai 2016

Supports de stockage Risques Avantages

Reacuteseau seacutecuriseacute (universiteacute

laboratoire)

Pannes de serveur erreur

humaine

seacutecuriteacute sauvegarde

automatique

Disque dur dordinateur

personnel ou professionnel

Pannes vol erreur

humaine

Cloud commercial dont cloud

proposeacute par lrsquouniversiteacute

(OneDrive)

Vol de mot de passe

Disparition des socieacuteteacutes

Cadre juridique parfois

flou

partage faciliteacute

synchronisation

automatique avec PC

Supports externes (cleacute USB

disque externe CDROM

DVDROM)

Deacuteteacuterioration des

supports perte vol

Sauvegarde meacutethodique

Mecircme en cas de stockage adapteacute neacutecessiteacute de

sauvegardes reacuteguliegraveres et freacutequentes

Utile pour se proteacuteger de ses propres erreurs

Ideacutealement 2 sauvegardes sur supports

diffeacuterents dont une stockeacutee physiquement agrave

distance (ex cloud + disque externe)

43Mathieu Saby - avrilmai 2016

Protection

Mots de passe fiables Agrave ne jamais partager

Eacuteviter les ordinateurs inconnus

Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles

Le cloud

Les transferts par courriel

44Mathieu Saby - avrilmai 2016

Cryptage

Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)

Veracrypt (Mac et PC) CryptSync (PC)

Cloud chiffreacute Tresorit Securesafe Synchcom

Spideroak

Attention aux effets secondaires du cryptage (perte

deacutefinitive des fichiershellip)

45Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 13: Gérer et diffuser ses données: principes et bonnes pratiques

La gestion des donneacutees de la recherche

Une expression barbarehellip

Mais chaque chercheur fait de la gestion des donneacutees comme Monsieur Jourdain de la prose

13Mathieu Saby - avrilmai 2016

il y a plus de quarante ans que je dis de la prose sans

que jrsquoen susse rien et je vous suis le plus obligeacute du

monde de mrsquoavoir appris cela

La gestion des donneacutees de la recherche

Ensemble de pratiques parfois quotidiennes parfois plus exceptionnelles meneacutees par les chercheurs etou par du personnel speacutecialiseacute pour faciliter

pendant le projet lexploitation et la seacutecurisation des donneacutees

apregraves la fin du projet leur preacuteservation leur partage et leur reacuteutilisation

14Mathieu Saby - avrilmai 2016

Le cycle de vie des donneacutees

15Mathieu Saby - avrilmai 2016

Pendant le projet

Apregraves le projet

Preacuteservation des donneacutees

Reacuteutilisation des donneacuteesSocieacuteteacute

Autres projets de recherche

Creacuteation ou collecte de

donneacutees brutes

+

Utilisation de donneacutees

existantes

Traitement analyse

interpreacutetation des donneacutees

Publication (article livre

thegravese)

+

Partage des donneacutees

Planification

du projet

+

Planification de la gestion des donneacutees

Les plans de gestion de donneacutees

Besoin dexpliciter et de formaliser la gestion des donneacutees

Exemple la base de donneacutees linguistique CLAPI (et site de meacutethodologie associeacutee Corinte)

16Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

DMP (Data Management Plan)

Outil pour planifier la gestion des donneacutees et la rendre plus efficace

Pas exigeacute lors drsquoun doctorat mais deacutemarche qui peut ecirctre inspirante

17Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Document formel preacutecisant la maniegravere dont seront produites traiteacutees deacutecrites diffuseacutees et conserveacutees les donneacutees au cours et agrave lrsquoissue du projet Pratique Syntheacutetique Prospectif Eacutevolutif

18Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Une utiliteacute pour le projet lui-mecircme Drsquoautant plus utile que les donneacutees sont

Nombreuses varieacutees complexes Uniques Couteuses ou difficiles agrave produire Sensibles Utiles agrave drsquoautres personnes

Et que le projet est Collaboratif Long

19Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Une utiliteacute administrative Reacutepondre aux exigences de certains financeurs

Systeacutematique aux USA et Royaume-Uni mais tregraves rare en France

Agences de financements publiques et fondations Universiteacutes et organismes de recherche Union Europeacuteenne (projet pilote pour certains

projets du programme Horizon 2020)

20Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Pas de modegravele unique mais des eacuteleacutements et rubriques qui se recoupent souvent

Pour reacutediger un PGD Modegravele imposeacute par le financeur A deacutefaut adopter un modegravele existant en lrsquoadaptant

au besoin Des outils informatiques DMPonline DMPTool

21Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Un modegravele britannique (Digital curation center V4 2014)

Informations administratives

Collecte des donneacutees organisation

Documentation et meacutetadonneacutees

Ethique et cadre leacutegal

Stockage sauvegarde seacutecuriteacute

Archivage

Partage des donneacutees

Responsabiliteacutes et moyens

22Mathieu Saby - avrilmai 2016

Apregraves le projet

Les plans de gestion de donneacutees

Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)

Informations relatives au projet

Responsabiliteacute des donneacutees reacutepartition des rocircles

Ressources neacutecessaires agrave la mise en œuvre

Pour chaque jeu de donneacutees

Description du jeu de donneacutees

Stockage accegraves et seacutecuriteacute des donneacutees

Documentation et organisation des donneacutees

Disseacutemination du jeux de donneacutees (apregraves le projet)

Seacutelection et archivage

23Mathieu Saby - avrilmai 2016

2 Produire ou reacuteutiliser des donneacutees

24Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Le projet peut-il reacuteutiliser des donneacutees

existantes

Inteacuterecirct et limites

Conditions daccegraves

Coucirct

25Mathieu Saby - avrilmai 2016

Produire des donneacutees

Des donneacutees seront-elles produites

Eleacutement central ou secondaire du projet

Combien de jeux de donneacutees ou densembles

distincts

Quel degreacute de reproductibiliteacute des donneacutees

Quel inteacuterecirct pour la recherche ou des acteurs

de la socieacuteteacute

26Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Plusieurs sources possibles

Autres projets de recherche

Organismes priveacutes

Donneacutees publiques

Accegraves libre et gratuit France eacutetranger institutions internationales

Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes

enquecirctes)

Accegraves payant certaines donneacutees INSEE ou IGNhellip

Institutions culturelles (museacutees bibliothegraveques archives) situation

variable

27Mathieu Saby - avrilmai 2016

Produire des donneacutees

Mode de creacuteation ou de collecte

Type de donneacutees

Support

28Mathieu Saby - avrilmai 2016

Produire des donneacutees

Eacutetapes et niveaux drsquoeacutelaboration des donneacutees

au cours du projet

Ces eacutetapes sont-elles documenteacutees et

reproductibles (mateacuteriel logiciels meacutethodes

algorithmes code informatique)

29Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet (histoire maritime)

Navigocorpus 1 archives

30Mathieu Saby - avrilmai 2016

DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave

leacutepoque moderneLettre de lINSHS 2013 p 23-25

Produire des donneacutees

Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees

accessible en ligne

31Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees

32Mathieu Saby - avrilmai 2016

MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)

Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111

Produire des donneacutees

33Mathieu Saby - avrilmai 2016

Formats de fichiers

Qui doit pouvoir les lire Pour combien de temps

Pour un usage agrave long terme privileacutegier des

formats ouverts

Utilisables librement et gratuitement

Bien documenteacutes

Non lieacutes agrave un logiciel speacutecifique

FACILE - Service de validation de formats du CINES

Formats conseilleacutes par Data Archive (UK)

Produire des donneacutees

Ex de formats agrave la peacuterenniteacute garantie

34Mathieu Saby - avrilmai 2016

(PDFA

uniquement)

Sert de cadre base agrave de tregraves

nombreux formats avec des

extensions diverses

POR

(Fichier SPSS

portable)

Produire des donneacutees

Ex de formats courants sans peacuterenniteacute garantie

35Mathieu Saby - avrilmai 2016

Fichiers proprieacutetaires SPSS

STATA SAS NVIVO Altasti etc

3 Stocker ses donneacutees en seacutecuriteacute

36Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

37Mathieu Saby - avrilmai 2016

Dapregraves vous quels risques pegravesent sur les

donneacutees pendant un projet

Des risques agrave eacutevaluer

38Mathieu Saby - avrilmai 2016

Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise

organisation erreur de manipulation)

Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)

Lecture impossible (obsolescence du format ou du mateacuteriel)

Compreacutehension impossible (mauvaise organisation perte du contexte

ou de la documentation associeacutee)

Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)

Bonnes pratiques

Stockage et sauvegarde seacutecuriseacutee

Organisation adeacutequate

Documentation adeacutequate

39Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

40Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

Stockage adapteacute

Usages deacutesireacutes partage des donneacutees avec

partenaires internes ou externes stockage

sauvegarde ou publication

Caracteacuteristiques des donneacutees donneacutees

publiquesconfidentiellessecregravetes Quel

dommage causerait leur perte ou leur diffusion

Capaciteacutes

Tarifs

41Mathieu Saby - avrilmai 2016

Stockage adapteacute

42Mathieu Saby - avrilmai 2016

Supports de stockage Risques Avantages

Reacuteseau seacutecuriseacute (universiteacute

laboratoire)

Pannes de serveur erreur

humaine

seacutecuriteacute sauvegarde

automatique

Disque dur dordinateur

personnel ou professionnel

Pannes vol erreur

humaine

Cloud commercial dont cloud

proposeacute par lrsquouniversiteacute

(OneDrive)

Vol de mot de passe

Disparition des socieacuteteacutes

Cadre juridique parfois

flou

partage faciliteacute

synchronisation

automatique avec PC

Supports externes (cleacute USB

disque externe CDROM

DVDROM)

Deacuteteacuterioration des

supports perte vol

Sauvegarde meacutethodique

Mecircme en cas de stockage adapteacute neacutecessiteacute de

sauvegardes reacuteguliegraveres et freacutequentes

Utile pour se proteacuteger de ses propres erreurs

Ideacutealement 2 sauvegardes sur supports

diffeacuterents dont une stockeacutee physiquement agrave

distance (ex cloud + disque externe)

43Mathieu Saby - avrilmai 2016

Protection

Mots de passe fiables Agrave ne jamais partager

Eacuteviter les ordinateurs inconnus

Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles

Le cloud

Les transferts par courriel

44Mathieu Saby - avrilmai 2016

Cryptage

Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)

Veracrypt (Mac et PC) CryptSync (PC)

Cloud chiffreacute Tresorit Securesafe Synchcom

Spideroak

Attention aux effets secondaires du cryptage (perte

deacutefinitive des fichiershellip)

45Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 14: Gérer et diffuser ses données: principes et bonnes pratiques

La gestion des donneacutees de la recherche

Ensemble de pratiques parfois quotidiennes parfois plus exceptionnelles meneacutees par les chercheurs etou par du personnel speacutecialiseacute pour faciliter

pendant le projet lexploitation et la seacutecurisation des donneacutees

apregraves la fin du projet leur preacuteservation leur partage et leur reacuteutilisation

14Mathieu Saby - avrilmai 2016

Le cycle de vie des donneacutees

15Mathieu Saby - avrilmai 2016

Pendant le projet

Apregraves le projet

Preacuteservation des donneacutees

Reacuteutilisation des donneacuteesSocieacuteteacute

Autres projets de recherche

Creacuteation ou collecte de

donneacutees brutes

+

Utilisation de donneacutees

existantes

Traitement analyse

interpreacutetation des donneacutees

Publication (article livre

thegravese)

+

Partage des donneacutees

Planification

du projet

+

Planification de la gestion des donneacutees

Les plans de gestion de donneacutees

Besoin dexpliciter et de formaliser la gestion des donneacutees

Exemple la base de donneacutees linguistique CLAPI (et site de meacutethodologie associeacutee Corinte)

16Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

DMP (Data Management Plan)

Outil pour planifier la gestion des donneacutees et la rendre plus efficace

Pas exigeacute lors drsquoun doctorat mais deacutemarche qui peut ecirctre inspirante

17Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Document formel preacutecisant la maniegravere dont seront produites traiteacutees deacutecrites diffuseacutees et conserveacutees les donneacutees au cours et agrave lrsquoissue du projet Pratique Syntheacutetique Prospectif Eacutevolutif

18Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Une utiliteacute pour le projet lui-mecircme Drsquoautant plus utile que les donneacutees sont

Nombreuses varieacutees complexes Uniques Couteuses ou difficiles agrave produire Sensibles Utiles agrave drsquoautres personnes

Et que le projet est Collaboratif Long

19Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Une utiliteacute administrative Reacutepondre aux exigences de certains financeurs

Systeacutematique aux USA et Royaume-Uni mais tregraves rare en France

Agences de financements publiques et fondations Universiteacutes et organismes de recherche Union Europeacuteenne (projet pilote pour certains

projets du programme Horizon 2020)

20Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Pas de modegravele unique mais des eacuteleacutements et rubriques qui se recoupent souvent

Pour reacutediger un PGD Modegravele imposeacute par le financeur A deacutefaut adopter un modegravele existant en lrsquoadaptant

au besoin Des outils informatiques DMPonline DMPTool

21Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Un modegravele britannique (Digital curation center V4 2014)

Informations administratives

Collecte des donneacutees organisation

Documentation et meacutetadonneacutees

Ethique et cadre leacutegal

Stockage sauvegarde seacutecuriteacute

Archivage

Partage des donneacutees

Responsabiliteacutes et moyens

22Mathieu Saby - avrilmai 2016

Apregraves le projet

Les plans de gestion de donneacutees

Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)

Informations relatives au projet

Responsabiliteacute des donneacutees reacutepartition des rocircles

Ressources neacutecessaires agrave la mise en œuvre

Pour chaque jeu de donneacutees

Description du jeu de donneacutees

Stockage accegraves et seacutecuriteacute des donneacutees

Documentation et organisation des donneacutees

Disseacutemination du jeux de donneacutees (apregraves le projet)

Seacutelection et archivage

23Mathieu Saby - avrilmai 2016

2 Produire ou reacuteutiliser des donneacutees

24Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Le projet peut-il reacuteutiliser des donneacutees

existantes

Inteacuterecirct et limites

Conditions daccegraves

Coucirct

25Mathieu Saby - avrilmai 2016

Produire des donneacutees

Des donneacutees seront-elles produites

Eleacutement central ou secondaire du projet

Combien de jeux de donneacutees ou densembles

distincts

Quel degreacute de reproductibiliteacute des donneacutees

Quel inteacuterecirct pour la recherche ou des acteurs

de la socieacuteteacute

26Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Plusieurs sources possibles

Autres projets de recherche

Organismes priveacutes

Donneacutees publiques

Accegraves libre et gratuit France eacutetranger institutions internationales

Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes

enquecirctes)

Accegraves payant certaines donneacutees INSEE ou IGNhellip

Institutions culturelles (museacutees bibliothegraveques archives) situation

variable

27Mathieu Saby - avrilmai 2016

Produire des donneacutees

Mode de creacuteation ou de collecte

Type de donneacutees

Support

28Mathieu Saby - avrilmai 2016

Produire des donneacutees

Eacutetapes et niveaux drsquoeacutelaboration des donneacutees

au cours du projet

Ces eacutetapes sont-elles documenteacutees et

reproductibles (mateacuteriel logiciels meacutethodes

algorithmes code informatique)

29Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet (histoire maritime)

Navigocorpus 1 archives

30Mathieu Saby - avrilmai 2016

DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave

leacutepoque moderneLettre de lINSHS 2013 p 23-25

Produire des donneacutees

Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees

accessible en ligne

31Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees

32Mathieu Saby - avrilmai 2016

MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)

Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111

Produire des donneacutees

33Mathieu Saby - avrilmai 2016

Formats de fichiers

Qui doit pouvoir les lire Pour combien de temps

Pour un usage agrave long terme privileacutegier des

formats ouverts

Utilisables librement et gratuitement

Bien documenteacutes

Non lieacutes agrave un logiciel speacutecifique

FACILE - Service de validation de formats du CINES

Formats conseilleacutes par Data Archive (UK)

Produire des donneacutees

Ex de formats agrave la peacuterenniteacute garantie

34Mathieu Saby - avrilmai 2016

(PDFA

uniquement)

Sert de cadre base agrave de tregraves

nombreux formats avec des

extensions diverses

POR

(Fichier SPSS

portable)

Produire des donneacutees

Ex de formats courants sans peacuterenniteacute garantie

35Mathieu Saby - avrilmai 2016

Fichiers proprieacutetaires SPSS

STATA SAS NVIVO Altasti etc

3 Stocker ses donneacutees en seacutecuriteacute

36Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

37Mathieu Saby - avrilmai 2016

Dapregraves vous quels risques pegravesent sur les

donneacutees pendant un projet

Des risques agrave eacutevaluer

38Mathieu Saby - avrilmai 2016

Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise

organisation erreur de manipulation)

Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)

Lecture impossible (obsolescence du format ou du mateacuteriel)

Compreacutehension impossible (mauvaise organisation perte du contexte

ou de la documentation associeacutee)

Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)

Bonnes pratiques

Stockage et sauvegarde seacutecuriseacutee

Organisation adeacutequate

Documentation adeacutequate

39Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

40Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

Stockage adapteacute

Usages deacutesireacutes partage des donneacutees avec

partenaires internes ou externes stockage

sauvegarde ou publication

Caracteacuteristiques des donneacutees donneacutees

publiquesconfidentiellessecregravetes Quel

dommage causerait leur perte ou leur diffusion

Capaciteacutes

Tarifs

41Mathieu Saby - avrilmai 2016

Stockage adapteacute

42Mathieu Saby - avrilmai 2016

Supports de stockage Risques Avantages

Reacuteseau seacutecuriseacute (universiteacute

laboratoire)

Pannes de serveur erreur

humaine

seacutecuriteacute sauvegarde

automatique

Disque dur dordinateur

personnel ou professionnel

Pannes vol erreur

humaine

Cloud commercial dont cloud

proposeacute par lrsquouniversiteacute

(OneDrive)

Vol de mot de passe

Disparition des socieacuteteacutes

Cadre juridique parfois

flou

partage faciliteacute

synchronisation

automatique avec PC

Supports externes (cleacute USB

disque externe CDROM

DVDROM)

Deacuteteacuterioration des

supports perte vol

Sauvegarde meacutethodique

Mecircme en cas de stockage adapteacute neacutecessiteacute de

sauvegardes reacuteguliegraveres et freacutequentes

Utile pour se proteacuteger de ses propres erreurs

Ideacutealement 2 sauvegardes sur supports

diffeacuterents dont une stockeacutee physiquement agrave

distance (ex cloud + disque externe)

43Mathieu Saby - avrilmai 2016

Protection

Mots de passe fiables Agrave ne jamais partager

Eacuteviter les ordinateurs inconnus

Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles

Le cloud

Les transferts par courriel

44Mathieu Saby - avrilmai 2016

Cryptage

Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)

Veracrypt (Mac et PC) CryptSync (PC)

Cloud chiffreacute Tresorit Securesafe Synchcom

Spideroak

Attention aux effets secondaires du cryptage (perte

deacutefinitive des fichiershellip)

45Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 15: Gérer et diffuser ses données: principes et bonnes pratiques

Le cycle de vie des donneacutees

15Mathieu Saby - avrilmai 2016

Pendant le projet

Apregraves le projet

Preacuteservation des donneacutees

Reacuteutilisation des donneacuteesSocieacuteteacute

Autres projets de recherche

Creacuteation ou collecte de

donneacutees brutes

+

Utilisation de donneacutees

existantes

Traitement analyse

interpreacutetation des donneacutees

Publication (article livre

thegravese)

+

Partage des donneacutees

Planification

du projet

+

Planification de la gestion des donneacutees

Les plans de gestion de donneacutees

Besoin dexpliciter et de formaliser la gestion des donneacutees

Exemple la base de donneacutees linguistique CLAPI (et site de meacutethodologie associeacutee Corinte)

16Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

DMP (Data Management Plan)

Outil pour planifier la gestion des donneacutees et la rendre plus efficace

Pas exigeacute lors drsquoun doctorat mais deacutemarche qui peut ecirctre inspirante

17Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Document formel preacutecisant la maniegravere dont seront produites traiteacutees deacutecrites diffuseacutees et conserveacutees les donneacutees au cours et agrave lrsquoissue du projet Pratique Syntheacutetique Prospectif Eacutevolutif

18Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Une utiliteacute pour le projet lui-mecircme Drsquoautant plus utile que les donneacutees sont

Nombreuses varieacutees complexes Uniques Couteuses ou difficiles agrave produire Sensibles Utiles agrave drsquoautres personnes

Et que le projet est Collaboratif Long

19Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Une utiliteacute administrative Reacutepondre aux exigences de certains financeurs

Systeacutematique aux USA et Royaume-Uni mais tregraves rare en France

Agences de financements publiques et fondations Universiteacutes et organismes de recherche Union Europeacuteenne (projet pilote pour certains

projets du programme Horizon 2020)

20Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Pas de modegravele unique mais des eacuteleacutements et rubriques qui se recoupent souvent

Pour reacutediger un PGD Modegravele imposeacute par le financeur A deacutefaut adopter un modegravele existant en lrsquoadaptant

au besoin Des outils informatiques DMPonline DMPTool

21Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Un modegravele britannique (Digital curation center V4 2014)

Informations administratives

Collecte des donneacutees organisation

Documentation et meacutetadonneacutees

Ethique et cadre leacutegal

Stockage sauvegarde seacutecuriteacute

Archivage

Partage des donneacutees

Responsabiliteacutes et moyens

22Mathieu Saby - avrilmai 2016

Apregraves le projet

Les plans de gestion de donneacutees

Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)

Informations relatives au projet

Responsabiliteacute des donneacutees reacutepartition des rocircles

Ressources neacutecessaires agrave la mise en œuvre

Pour chaque jeu de donneacutees

Description du jeu de donneacutees

Stockage accegraves et seacutecuriteacute des donneacutees

Documentation et organisation des donneacutees

Disseacutemination du jeux de donneacutees (apregraves le projet)

Seacutelection et archivage

23Mathieu Saby - avrilmai 2016

2 Produire ou reacuteutiliser des donneacutees

24Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Le projet peut-il reacuteutiliser des donneacutees

existantes

Inteacuterecirct et limites

Conditions daccegraves

Coucirct

25Mathieu Saby - avrilmai 2016

Produire des donneacutees

Des donneacutees seront-elles produites

Eleacutement central ou secondaire du projet

Combien de jeux de donneacutees ou densembles

distincts

Quel degreacute de reproductibiliteacute des donneacutees

Quel inteacuterecirct pour la recherche ou des acteurs

de la socieacuteteacute

26Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Plusieurs sources possibles

Autres projets de recherche

Organismes priveacutes

Donneacutees publiques

Accegraves libre et gratuit France eacutetranger institutions internationales

Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes

enquecirctes)

Accegraves payant certaines donneacutees INSEE ou IGNhellip

Institutions culturelles (museacutees bibliothegraveques archives) situation

variable

27Mathieu Saby - avrilmai 2016

Produire des donneacutees

Mode de creacuteation ou de collecte

Type de donneacutees

Support

28Mathieu Saby - avrilmai 2016

Produire des donneacutees

Eacutetapes et niveaux drsquoeacutelaboration des donneacutees

au cours du projet

Ces eacutetapes sont-elles documenteacutees et

reproductibles (mateacuteriel logiciels meacutethodes

algorithmes code informatique)

29Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet (histoire maritime)

Navigocorpus 1 archives

30Mathieu Saby - avrilmai 2016

DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave

leacutepoque moderneLettre de lINSHS 2013 p 23-25

Produire des donneacutees

Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees

accessible en ligne

31Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees

32Mathieu Saby - avrilmai 2016

MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)

Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111

Produire des donneacutees

33Mathieu Saby - avrilmai 2016

Formats de fichiers

Qui doit pouvoir les lire Pour combien de temps

Pour un usage agrave long terme privileacutegier des

formats ouverts

Utilisables librement et gratuitement

Bien documenteacutes

Non lieacutes agrave un logiciel speacutecifique

FACILE - Service de validation de formats du CINES

Formats conseilleacutes par Data Archive (UK)

Produire des donneacutees

Ex de formats agrave la peacuterenniteacute garantie

34Mathieu Saby - avrilmai 2016

(PDFA

uniquement)

Sert de cadre base agrave de tregraves

nombreux formats avec des

extensions diverses

POR

(Fichier SPSS

portable)

Produire des donneacutees

Ex de formats courants sans peacuterenniteacute garantie

35Mathieu Saby - avrilmai 2016

Fichiers proprieacutetaires SPSS

STATA SAS NVIVO Altasti etc

3 Stocker ses donneacutees en seacutecuriteacute

36Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

37Mathieu Saby - avrilmai 2016

Dapregraves vous quels risques pegravesent sur les

donneacutees pendant un projet

Des risques agrave eacutevaluer

38Mathieu Saby - avrilmai 2016

Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise

organisation erreur de manipulation)

Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)

Lecture impossible (obsolescence du format ou du mateacuteriel)

Compreacutehension impossible (mauvaise organisation perte du contexte

ou de la documentation associeacutee)

Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)

Bonnes pratiques

Stockage et sauvegarde seacutecuriseacutee

Organisation adeacutequate

Documentation adeacutequate

39Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

40Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

Stockage adapteacute

Usages deacutesireacutes partage des donneacutees avec

partenaires internes ou externes stockage

sauvegarde ou publication

Caracteacuteristiques des donneacutees donneacutees

publiquesconfidentiellessecregravetes Quel

dommage causerait leur perte ou leur diffusion

Capaciteacutes

Tarifs

41Mathieu Saby - avrilmai 2016

Stockage adapteacute

42Mathieu Saby - avrilmai 2016

Supports de stockage Risques Avantages

Reacuteseau seacutecuriseacute (universiteacute

laboratoire)

Pannes de serveur erreur

humaine

seacutecuriteacute sauvegarde

automatique

Disque dur dordinateur

personnel ou professionnel

Pannes vol erreur

humaine

Cloud commercial dont cloud

proposeacute par lrsquouniversiteacute

(OneDrive)

Vol de mot de passe

Disparition des socieacuteteacutes

Cadre juridique parfois

flou

partage faciliteacute

synchronisation

automatique avec PC

Supports externes (cleacute USB

disque externe CDROM

DVDROM)

Deacuteteacuterioration des

supports perte vol

Sauvegarde meacutethodique

Mecircme en cas de stockage adapteacute neacutecessiteacute de

sauvegardes reacuteguliegraveres et freacutequentes

Utile pour se proteacuteger de ses propres erreurs

Ideacutealement 2 sauvegardes sur supports

diffeacuterents dont une stockeacutee physiquement agrave

distance (ex cloud + disque externe)

43Mathieu Saby - avrilmai 2016

Protection

Mots de passe fiables Agrave ne jamais partager

Eacuteviter les ordinateurs inconnus

Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles

Le cloud

Les transferts par courriel

44Mathieu Saby - avrilmai 2016

Cryptage

Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)

Veracrypt (Mac et PC) CryptSync (PC)

Cloud chiffreacute Tresorit Securesafe Synchcom

Spideroak

Attention aux effets secondaires du cryptage (perte

deacutefinitive des fichiershellip)

45Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 16: Gérer et diffuser ses données: principes et bonnes pratiques

Les plans de gestion de donneacutees

Besoin dexpliciter et de formaliser la gestion des donneacutees

Exemple la base de donneacutees linguistique CLAPI (et site de meacutethodologie associeacutee Corinte)

16Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

DMP (Data Management Plan)

Outil pour planifier la gestion des donneacutees et la rendre plus efficace

Pas exigeacute lors drsquoun doctorat mais deacutemarche qui peut ecirctre inspirante

17Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Document formel preacutecisant la maniegravere dont seront produites traiteacutees deacutecrites diffuseacutees et conserveacutees les donneacutees au cours et agrave lrsquoissue du projet Pratique Syntheacutetique Prospectif Eacutevolutif

18Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Une utiliteacute pour le projet lui-mecircme Drsquoautant plus utile que les donneacutees sont

Nombreuses varieacutees complexes Uniques Couteuses ou difficiles agrave produire Sensibles Utiles agrave drsquoautres personnes

Et que le projet est Collaboratif Long

19Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Une utiliteacute administrative Reacutepondre aux exigences de certains financeurs

Systeacutematique aux USA et Royaume-Uni mais tregraves rare en France

Agences de financements publiques et fondations Universiteacutes et organismes de recherche Union Europeacuteenne (projet pilote pour certains

projets du programme Horizon 2020)

20Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Pas de modegravele unique mais des eacuteleacutements et rubriques qui se recoupent souvent

Pour reacutediger un PGD Modegravele imposeacute par le financeur A deacutefaut adopter un modegravele existant en lrsquoadaptant

au besoin Des outils informatiques DMPonline DMPTool

21Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Un modegravele britannique (Digital curation center V4 2014)

Informations administratives

Collecte des donneacutees organisation

Documentation et meacutetadonneacutees

Ethique et cadre leacutegal

Stockage sauvegarde seacutecuriteacute

Archivage

Partage des donneacutees

Responsabiliteacutes et moyens

22Mathieu Saby - avrilmai 2016

Apregraves le projet

Les plans de gestion de donneacutees

Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)

Informations relatives au projet

Responsabiliteacute des donneacutees reacutepartition des rocircles

Ressources neacutecessaires agrave la mise en œuvre

Pour chaque jeu de donneacutees

Description du jeu de donneacutees

Stockage accegraves et seacutecuriteacute des donneacutees

Documentation et organisation des donneacutees

Disseacutemination du jeux de donneacutees (apregraves le projet)

Seacutelection et archivage

23Mathieu Saby - avrilmai 2016

2 Produire ou reacuteutiliser des donneacutees

24Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Le projet peut-il reacuteutiliser des donneacutees

existantes

Inteacuterecirct et limites

Conditions daccegraves

Coucirct

25Mathieu Saby - avrilmai 2016

Produire des donneacutees

Des donneacutees seront-elles produites

Eleacutement central ou secondaire du projet

Combien de jeux de donneacutees ou densembles

distincts

Quel degreacute de reproductibiliteacute des donneacutees

Quel inteacuterecirct pour la recherche ou des acteurs

de la socieacuteteacute

26Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Plusieurs sources possibles

Autres projets de recherche

Organismes priveacutes

Donneacutees publiques

Accegraves libre et gratuit France eacutetranger institutions internationales

Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes

enquecirctes)

Accegraves payant certaines donneacutees INSEE ou IGNhellip

Institutions culturelles (museacutees bibliothegraveques archives) situation

variable

27Mathieu Saby - avrilmai 2016

Produire des donneacutees

Mode de creacuteation ou de collecte

Type de donneacutees

Support

28Mathieu Saby - avrilmai 2016

Produire des donneacutees

Eacutetapes et niveaux drsquoeacutelaboration des donneacutees

au cours du projet

Ces eacutetapes sont-elles documenteacutees et

reproductibles (mateacuteriel logiciels meacutethodes

algorithmes code informatique)

29Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet (histoire maritime)

Navigocorpus 1 archives

30Mathieu Saby - avrilmai 2016

DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave

leacutepoque moderneLettre de lINSHS 2013 p 23-25

Produire des donneacutees

Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees

accessible en ligne

31Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees

32Mathieu Saby - avrilmai 2016

MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)

Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111

Produire des donneacutees

33Mathieu Saby - avrilmai 2016

Formats de fichiers

Qui doit pouvoir les lire Pour combien de temps

Pour un usage agrave long terme privileacutegier des

formats ouverts

Utilisables librement et gratuitement

Bien documenteacutes

Non lieacutes agrave un logiciel speacutecifique

FACILE - Service de validation de formats du CINES

Formats conseilleacutes par Data Archive (UK)

Produire des donneacutees

Ex de formats agrave la peacuterenniteacute garantie

34Mathieu Saby - avrilmai 2016

(PDFA

uniquement)

Sert de cadre base agrave de tregraves

nombreux formats avec des

extensions diverses

POR

(Fichier SPSS

portable)

Produire des donneacutees

Ex de formats courants sans peacuterenniteacute garantie

35Mathieu Saby - avrilmai 2016

Fichiers proprieacutetaires SPSS

STATA SAS NVIVO Altasti etc

3 Stocker ses donneacutees en seacutecuriteacute

36Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

37Mathieu Saby - avrilmai 2016

Dapregraves vous quels risques pegravesent sur les

donneacutees pendant un projet

Des risques agrave eacutevaluer

38Mathieu Saby - avrilmai 2016

Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise

organisation erreur de manipulation)

Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)

Lecture impossible (obsolescence du format ou du mateacuteriel)

Compreacutehension impossible (mauvaise organisation perte du contexte

ou de la documentation associeacutee)

Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)

Bonnes pratiques

Stockage et sauvegarde seacutecuriseacutee

Organisation adeacutequate

Documentation adeacutequate

39Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

40Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

Stockage adapteacute

Usages deacutesireacutes partage des donneacutees avec

partenaires internes ou externes stockage

sauvegarde ou publication

Caracteacuteristiques des donneacutees donneacutees

publiquesconfidentiellessecregravetes Quel

dommage causerait leur perte ou leur diffusion

Capaciteacutes

Tarifs

41Mathieu Saby - avrilmai 2016

Stockage adapteacute

42Mathieu Saby - avrilmai 2016

Supports de stockage Risques Avantages

Reacuteseau seacutecuriseacute (universiteacute

laboratoire)

Pannes de serveur erreur

humaine

seacutecuriteacute sauvegarde

automatique

Disque dur dordinateur

personnel ou professionnel

Pannes vol erreur

humaine

Cloud commercial dont cloud

proposeacute par lrsquouniversiteacute

(OneDrive)

Vol de mot de passe

Disparition des socieacuteteacutes

Cadre juridique parfois

flou

partage faciliteacute

synchronisation

automatique avec PC

Supports externes (cleacute USB

disque externe CDROM

DVDROM)

Deacuteteacuterioration des

supports perte vol

Sauvegarde meacutethodique

Mecircme en cas de stockage adapteacute neacutecessiteacute de

sauvegardes reacuteguliegraveres et freacutequentes

Utile pour se proteacuteger de ses propres erreurs

Ideacutealement 2 sauvegardes sur supports

diffeacuterents dont une stockeacutee physiquement agrave

distance (ex cloud + disque externe)

43Mathieu Saby - avrilmai 2016

Protection

Mots de passe fiables Agrave ne jamais partager

Eacuteviter les ordinateurs inconnus

Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles

Le cloud

Les transferts par courriel

44Mathieu Saby - avrilmai 2016

Cryptage

Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)

Veracrypt (Mac et PC) CryptSync (PC)

Cloud chiffreacute Tresorit Securesafe Synchcom

Spideroak

Attention aux effets secondaires du cryptage (perte

deacutefinitive des fichiershellip)

45Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 17: Gérer et diffuser ses données: principes et bonnes pratiques

Les plans de gestion de donneacutees

DMP (Data Management Plan)

Outil pour planifier la gestion des donneacutees et la rendre plus efficace

Pas exigeacute lors drsquoun doctorat mais deacutemarche qui peut ecirctre inspirante

17Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Document formel preacutecisant la maniegravere dont seront produites traiteacutees deacutecrites diffuseacutees et conserveacutees les donneacutees au cours et agrave lrsquoissue du projet Pratique Syntheacutetique Prospectif Eacutevolutif

18Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Une utiliteacute pour le projet lui-mecircme Drsquoautant plus utile que les donneacutees sont

Nombreuses varieacutees complexes Uniques Couteuses ou difficiles agrave produire Sensibles Utiles agrave drsquoautres personnes

Et que le projet est Collaboratif Long

19Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Une utiliteacute administrative Reacutepondre aux exigences de certains financeurs

Systeacutematique aux USA et Royaume-Uni mais tregraves rare en France

Agences de financements publiques et fondations Universiteacutes et organismes de recherche Union Europeacuteenne (projet pilote pour certains

projets du programme Horizon 2020)

20Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Pas de modegravele unique mais des eacuteleacutements et rubriques qui se recoupent souvent

Pour reacutediger un PGD Modegravele imposeacute par le financeur A deacutefaut adopter un modegravele existant en lrsquoadaptant

au besoin Des outils informatiques DMPonline DMPTool

21Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Un modegravele britannique (Digital curation center V4 2014)

Informations administratives

Collecte des donneacutees organisation

Documentation et meacutetadonneacutees

Ethique et cadre leacutegal

Stockage sauvegarde seacutecuriteacute

Archivage

Partage des donneacutees

Responsabiliteacutes et moyens

22Mathieu Saby - avrilmai 2016

Apregraves le projet

Les plans de gestion de donneacutees

Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)

Informations relatives au projet

Responsabiliteacute des donneacutees reacutepartition des rocircles

Ressources neacutecessaires agrave la mise en œuvre

Pour chaque jeu de donneacutees

Description du jeu de donneacutees

Stockage accegraves et seacutecuriteacute des donneacutees

Documentation et organisation des donneacutees

Disseacutemination du jeux de donneacutees (apregraves le projet)

Seacutelection et archivage

23Mathieu Saby - avrilmai 2016

2 Produire ou reacuteutiliser des donneacutees

24Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Le projet peut-il reacuteutiliser des donneacutees

existantes

Inteacuterecirct et limites

Conditions daccegraves

Coucirct

25Mathieu Saby - avrilmai 2016

Produire des donneacutees

Des donneacutees seront-elles produites

Eleacutement central ou secondaire du projet

Combien de jeux de donneacutees ou densembles

distincts

Quel degreacute de reproductibiliteacute des donneacutees

Quel inteacuterecirct pour la recherche ou des acteurs

de la socieacuteteacute

26Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Plusieurs sources possibles

Autres projets de recherche

Organismes priveacutes

Donneacutees publiques

Accegraves libre et gratuit France eacutetranger institutions internationales

Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes

enquecirctes)

Accegraves payant certaines donneacutees INSEE ou IGNhellip

Institutions culturelles (museacutees bibliothegraveques archives) situation

variable

27Mathieu Saby - avrilmai 2016

Produire des donneacutees

Mode de creacuteation ou de collecte

Type de donneacutees

Support

28Mathieu Saby - avrilmai 2016

Produire des donneacutees

Eacutetapes et niveaux drsquoeacutelaboration des donneacutees

au cours du projet

Ces eacutetapes sont-elles documenteacutees et

reproductibles (mateacuteriel logiciels meacutethodes

algorithmes code informatique)

29Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet (histoire maritime)

Navigocorpus 1 archives

30Mathieu Saby - avrilmai 2016

DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave

leacutepoque moderneLettre de lINSHS 2013 p 23-25

Produire des donneacutees

Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees

accessible en ligne

31Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees

32Mathieu Saby - avrilmai 2016

MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)

Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111

Produire des donneacutees

33Mathieu Saby - avrilmai 2016

Formats de fichiers

Qui doit pouvoir les lire Pour combien de temps

Pour un usage agrave long terme privileacutegier des

formats ouverts

Utilisables librement et gratuitement

Bien documenteacutes

Non lieacutes agrave un logiciel speacutecifique

FACILE - Service de validation de formats du CINES

Formats conseilleacutes par Data Archive (UK)

Produire des donneacutees

Ex de formats agrave la peacuterenniteacute garantie

34Mathieu Saby - avrilmai 2016

(PDFA

uniquement)

Sert de cadre base agrave de tregraves

nombreux formats avec des

extensions diverses

POR

(Fichier SPSS

portable)

Produire des donneacutees

Ex de formats courants sans peacuterenniteacute garantie

35Mathieu Saby - avrilmai 2016

Fichiers proprieacutetaires SPSS

STATA SAS NVIVO Altasti etc

3 Stocker ses donneacutees en seacutecuriteacute

36Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

37Mathieu Saby - avrilmai 2016

Dapregraves vous quels risques pegravesent sur les

donneacutees pendant un projet

Des risques agrave eacutevaluer

38Mathieu Saby - avrilmai 2016

Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise

organisation erreur de manipulation)

Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)

Lecture impossible (obsolescence du format ou du mateacuteriel)

Compreacutehension impossible (mauvaise organisation perte du contexte

ou de la documentation associeacutee)

Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)

Bonnes pratiques

Stockage et sauvegarde seacutecuriseacutee

Organisation adeacutequate

Documentation adeacutequate

39Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

40Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

Stockage adapteacute

Usages deacutesireacutes partage des donneacutees avec

partenaires internes ou externes stockage

sauvegarde ou publication

Caracteacuteristiques des donneacutees donneacutees

publiquesconfidentiellessecregravetes Quel

dommage causerait leur perte ou leur diffusion

Capaciteacutes

Tarifs

41Mathieu Saby - avrilmai 2016

Stockage adapteacute

42Mathieu Saby - avrilmai 2016

Supports de stockage Risques Avantages

Reacuteseau seacutecuriseacute (universiteacute

laboratoire)

Pannes de serveur erreur

humaine

seacutecuriteacute sauvegarde

automatique

Disque dur dordinateur

personnel ou professionnel

Pannes vol erreur

humaine

Cloud commercial dont cloud

proposeacute par lrsquouniversiteacute

(OneDrive)

Vol de mot de passe

Disparition des socieacuteteacutes

Cadre juridique parfois

flou

partage faciliteacute

synchronisation

automatique avec PC

Supports externes (cleacute USB

disque externe CDROM

DVDROM)

Deacuteteacuterioration des

supports perte vol

Sauvegarde meacutethodique

Mecircme en cas de stockage adapteacute neacutecessiteacute de

sauvegardes reacuteguliegraveres et freacutequentes

Utile pour se proteacuteger de ses propres erreurs

Ideacutealement 2 sauvegardes sur supports

diffeacuterents dont une stockeacutee physiquement agrave

distance (ex cloud + disque externe)

43Mathieu Saby - avrilmai 2016

Protection

Mots de passe fiables Agrave ne jamais partager

Eacuteviter les ordinateurs inconnus

Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles

Le cloud

Les transferts par courriel

44Mathieu Saby - avrilmai 2016

Cryptage

Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)

Veracrypt (Mac et PC) CryptSync (PC)

Cloud chiffreacute Tresorit Securesafe Synchcom

Spideroak

Attention aux effets secondaires du cryptage (perte

deacutefinitive des fichiershellip)

45Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 18: Gérer et diffuser ses données: principes et bonnes pratiques

Les plans de gestion de donneacutees

Document formel preacutecisant la maniegravere dont seront produites traiteacutees deacutecrites diffuseacutees et conserveacutees les donneacutees au cours et agrave lrsquoissue du projet Pratique Syntheacutetique Prospectif Eacutevolutif

18Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Une utiliteacute pour le projet lui-mecircme Drsquoautant plus utile que les donneacutees sont

Nombreuses varieacutees complexes Uniques Couteuses ou difficiles agrave produire Sensibles Utiles agrave drsquoautres personnes

Et que le projet est Collaboratif Long

19Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Une utiliteacute administrative Reacutepondre aux exigences de certains financeurs

Systeacutematique aux USA et Royaume-Uni mais tregraves rare en France

Agences de financements publiques et fondations Universiteacutes et organismes de recherche Union Europeacuteenne (projet pilote pour certains

projets du programme Horizon 2020)

20Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Pas de modegravele unique mais des eacuteleacutements et rubriques qui se recoupent souvent

Pour reacutediger un PGD Modegravele imposeacute par le financeur A deacutefaut adopter un modegravele existant en lrsquoadaptant

au besoin Des outils informatiques DMPonline DMPTool

21Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Un modegravele britannique (Digital curation center V4 2014)

Informations administratives

Collecte des donneacutees organisation

Documentation et meacutetadonneacutees

Ethique et cadre leacutegal

Stockage sauvegarde seacutecuriteacute

Archivage

Partage des donneacutees

Responsabiliteacutes et moyens

22Mathieu Saby - avrilmai 2016

Apregraves le projet

Les plans de gestion de donneacutees

Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)

Informations relatives au projet

Responsabiliteacute des donneacutees reacutepartition des rocircles

Ressources neacutecessaires agrave la mise en œuvre

Pour chaque jeu de donneacutees

Description du jeu de donneacutees

Stockage accegraves et seacutecuriteacute des donneacutees

Documentation et organisation des donneacutees

Disseacutemination du jeux de donneacutees (apregraves le projet)

Seacutelection et archivage

23Mathieu Saby - avrilmai 2016

2 Produire ou reacuteutiliser des donneacutees

24Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Le projet peut-il reacuteutiliser des donneacutees

existantes

Inteacuterecirct et limites

Conditions daccegraves

Coucirct

25Mathieu Saby - avrilmai 2016

Produire des donneacutees

Des donneacutees seront-elles produites

Eleacutement central ou secondaire du projet

Combien de jeux de donneacutees ou densembles

distincts

Quel degreacute de reproductibiliteacute des donneacutees

Quel inteacuterecirct pour la recherche ou des acteurs

de la socieacuteteacute

26Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Plusieurs sources possibles

Autres projets de recherche

Organismes priveacutes

Donneacutees publiques

Accegraves libre et gratuit France eacutetranger institutions internationales

Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes

enquecirctes)

Accegraves payant certaines donneacutees INSEE ou IGNhellip

Institutions culturelles (museacutees bibliothegraveques archives) situation

variable

27Mathieu Saby - avrilmai 2016

Produire des donneacutees

Mode de creacuteation ou de collecte

Type de donneacutees

Support

28Mathieu Saby - avrilmai 2016

Produire des donneacutees

Eacutetapes et niveaux drsquoeacutelaboration des donneacutees

au cours du projet

Ces eacutetapes sont-elles documenteacutees et

reproductibles (mateacuteriel logiciels meacutethodes

algorithmes code informatique)

29Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet (histoire maritime)

Navigocorpus 1 archives

30Mathieu Saby - avrilmai 2016

DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave

leacutepoque moderneLettre de lINSHS 2013 p 23-25

Produire des donneacutees

Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees

accessible en ligne

31Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees

32Mathieu Saby - avrilmai 2016

MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)

Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111

Produire des donneacutees

33Mathieu Saby - avrilmai 2016

Formats de fichiers

Qui doit pouvoir les lire Pour combien de temps

Pour un usage agrave long terme privileacutegier des

formats ouverts

Utilisables librement et gratuitement

Bien documenteacutes

Non lieacutes agrave un logiciel speacutecifique

FACILE - Service de validation de formats du CINES

Formats conseilleacutes par Data Archive (UK)

Produire des donneacutees

Ex de formats agrave la peacuterenniteacute garantie

34Mathieu Saby - avrilmai 2016

(PDFA

uniquement)

Sert de cadre base agrave de tregraves

nombreux formats avec des

extensions diverses

POR

(Fichier SPSS

portable)

Produire des donneacutees

Ex de formats courants sans peacuterenniteacute garantie

35Mathieu Saby - avrilmai 2016

Fichiers proprieacutetaires SPSS

STATA SAS NVIVO Altasti etc

3 Stocker ses donneacutees en seacutecuriteacute

36Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

37Mathieu Saby - avrilmai 2016

Dapregraves vous quels risques pegravesent sur les

donneacutees pendant un projet

Des risques agrave eacutevaluer

38Mathieu Saby - avrilmai 2016

Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise

organisation erreur de manipulation)

Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)

Lecture impossible (obsolescence du format ou du mateacuteriel)

Compreacutehension impossible (mauvaise organisation perte du contexte

ou de la documentation associeacutee)

Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)

Bonnes pratiques

Stockage et sauvegarde seacutecuriseacutee

Organisation adeacutequate

Documentation adeacutequate

39Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

40Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

Stockage adapteacute

Usages deacutesireacutes partage des donneacutees avec

partenaires internes ou externes stockage

sauvegarde ou publication

Caracteacuteristiques des donneacutees donneacutees

publiquesconfidentiellessecregravetes Quel

dommage causerait leur perte ou leur diffusion

Capaciteacutes

Tarifs

41Mathieu Saby - avrilmai 2016

Stockage adapteacute

42Mathieu Saby - avrilmai 2016

Supports de stockage Risques Avantages

Reacuteseau seacutecuriseacute (universiteacute

laboratoire)

Pannes de serveur erreur

humaine

seacutecuriteacute sauvegarde

automatique

Disque dur dordinateur

personnel ou professionnel

Pannes vol erreur

humaine

Cloud commercial dont cloud

proposeacute par lrsquouniversiteacute

(OneDrive)

Vol de mot de passe

Disparition des socieacuteteacutes

Cadre juridique parfois

flou

partage faciliteacute

synchronisation

automatique avec PC

Supports externes (cleacute USB

disque externe CDROM

DVDROM)

Deacuteteacuterioration des

supports perte vol

Sauvegarde meacutethodique

Mecircme en cas de stockage adapteacute neacutecessiteacute de

sauvegardes reacuteguliegraveres et freacutequentes

Utile pour se proteacuteger de ses propres erreurs

Ideacutealement 2 sauvegardes sur supports

diffeacuterents dont une stockeacutee physiquement agrave

distance (ex cloud + disque externe)

43Mathieu Saby - avrilmai 2016

Protection

Mots de passe fiables Agrave ne jamais partager

Eacuteviter les ordinateurs inconnus

Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles

Le cloud

Les transferts par courriel

44Mathieu Saby - avrilmai 2016

Cryptage

Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)

Veracrypt (Mac et PC) CryptSync (PC)

Cloud chiffreacute Tresorit Securesafe Synchcom

Spideroak

Attention aux effets secondaires du cryptage (perte

deacutefinitive des fichiershellip)

45Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 19: Gérer et diffuser ses données: principes et bonnes pratiques

Les plans de gestion de donneacutees

Une utiliteacute pour le projet lui-mecircme Drsquoautant plus utile que les donneacutees sont

Nombreuses varieacutees complexes Uniques Couteuses ou difficiles agrave produire Sensibles Utiles agrave drsquoautres personnes

Et que le projet est Collaboratif Long

19Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Une utiliteacute administrative Reacutepondre aux exigences de certains financeurs

Systeacutematique aux USA et Royaume-Uni mais tregraves rare en France

Agences de financements publiques et fondations Universiteacutes et organismes de recherche Union Europeacuteenne (projet pilote pour certains

projets du programme Horizon 2020)

20Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Pas de modegravele unique mais des eacuteleacutements et rubriques qui se recoupent souvent

Pour reacutediger un PGD Modegravele imposeacute par le financeur A deacutefaut adopter un modegravele existant en lrsquoadaptant

au besoin Des outils informatiques DMPonline DMPTool

21Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Un modegravele britannique (Digital curation center V4 2014)

Informations administratives

Collecte des donneacutees organisation

Documentation et meacutetadonneacutees

Ethique et cadre leacutegal

Stockage sauvegarde seacutecuriteacute

Archivage

Partage des donneacutees

Responsabiliteacutes et moyens

22Mathieu Saby - avrilmai 2016

Apregraves le projet

Les plans de gestion de donneacutees

Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)

Informations relatives au projet

Responsabiliteacute des donneacutees reacutepartition des rocircles

Ressources neacutecessaires agrave la mise en œuvre

Pour chaque jeu de donneacutees

Description du jeu de donneacutees

Stockage accegraves et seacutecuriteacute des donneacutees

Documentation et organisation des donneacutees

Disseacutemination du jeux de donneacutees (apregraves le projet)

Seacutelection et archivage

23Mathieu Saby - avrilmai 2016

2 Produire ou reacuteutiliser des donneacutees

24Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Le projet peut-il reacuteutiliser des donneacutees

existantes

Inteacuterecirct et limites

Conditions daccegraves

Coucirct

25Mathieu Saby - avrilmai 2016

Produire des donneacutees

Des donneacutees seront-elles produites

Eleacutement central ou secondaire du projet

Combien de jeux de donneacutees ou densembles

distincts

Quel degreacute de reproductibiliteacute des donneacutees

Quel inteacuterecirct pour la recherche ou des acteurs

de la socieacuteteacute

26Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Plusieurs sources possibles

Autres projets de recherche

Organismes priveacutes

Donneacutees publiques

Accegraves libre et gratuit France eacutetranger institutions internationales

Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes

enquecirctes)

Accegraves payant certaines donneacutees INSEE ou IGNhellip

Institutions culturelles (museacutees bibliothegraveques archives) situation

variable

27Mathieu Saby - avrilmai 2016

Produire des donneacutees

Mode de creacuteation ou de collecte

Type de donneacutees

Support

28Mathieu Saby - avrilmai 2016

Produire des donneacutees

Eacutetapes et niveaux drsquoeacutelaboration des donneacutees

au cours du projet

Ces eacutetapes sont-elles documenteacutees et

reproductibles (mateacuteriel logiciels meacutethodes

algorithmes code informatique)

29Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet (histoire maritime)

Navigocorpus 1 archives

30Mathieu Saby - avrilmai 2016

DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave

leacutepoque moderneLettre de lINSHS 2013 p 23-25

Produire des donneacutees

Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees

accessible en ligne

31Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees

32Mathieu Saby - avrilmai 2016

MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)

Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111

Produire des donneacutees

33Mathieu Saby - avrilmai 2016

Formats de fichiers

Qui doit pouvoir les lire Pour combien de temps

Pour un usage agrave long terme privileacutegier des

formats ouverts

Utilisables librement et gratuitement

Bien documenteacutes

Non lieacutes agrave un logiciel speacutecifique

FACILE - Service de validation de formats du CINES

Formats conseilleacutes par Data Archive (UK)

Produire des donneacutees

Ex de formats agrave la peacuterenniteacute garantie

34Mathieu Saby - avrilmai 2016

(PDFA

uniquement)

Sert de cadre base agrave de tregraves

nombreux formats avec des

extensions diverses

POR

(Fichier SPSS

portable)

Produire des donneacutees

Ex de formats courants sans peacuterenniteacute garantie

35Mathieu Saby - avrilmai 2016

Fichiers proprieacutetaires SPSS

STATA SAS NVIVO Altasti etc

3 Stocker ses donneacutees en seacutecuriteacute

36Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

37Mathieu Saby - avrilmai 2016

Dapregraves vous quels risques pegravesent sur les

donneacutees pendant un projet

Des risques agrave eacutevaluer

38Mathieu Saby - avrilmai 2016

Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise

organisation erreur de manipulation)

Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)

Lecture impossible (obsolescence du format ou du mateacuteriel)

Compreacutehension impossible (mauvaise organisation perte du contexte

ou de la documentation associeacutee)

Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)

Bonnes pratiques

Stockage et sauvegarde seacutecuriseacutee

Organisation adeacutequate

Documentation adeacutequate

39Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

40Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

Stockage adapteacute

Usages deacutesireacutes partage des donneacutees avec

partenaires internes ou externes stockage

sauvegarde ou publication

Caracteacuteristiques des donneacutees donneacutees

publiquesconfidentiellessecregravetes Quel

dommage causerait leur perte ou leur diffusion

Capaciteacutes

Tarifs

41Mathieu Saby - avrilmai 2016

Stockage adapteacute

42Mathieu Saby - avrilmai 2016

Supports de stockage Risques Avantages

Reacuteseau seacutecuriseacute (universiteacute

laboratoire)

Pannes de serveur erreur

humaine

seacutecuriteacute sauvegarde

automatique

Disque dur dordinateur

personnel ou professionnel

Pannes vol erreur

humaine

Cloud commercial dont cloud

proposeacute par lrsquouniversiteacute

(OneDrive)

Vol de mot de passe

Disparition des socieacuteteacutes

Cadre juridique parfois

flou

partage faciliteacute

synchronisation

automatique avec PC

Supports externes (cleacute USB

disque externe CDROM

DVDROM)

Deacuteteacuterioration des

supports perte vol

Sauvegarde meacutethodique

Mecircme en cas de stockage adapteacute neacutecessiteacute de

sauvegardes reacuteguliegraveres et freacutequentes

Utile pour se proteacuteger de ses propres erreurs

Ideacutealement 2 sauvegardes sur supports

diffeacuterents dont une stockeacutee physiquement agrave

distance (ex cloud + disque externe)

43Mathieu Saby - avrilmai 2016

Protection

Mots de passe fiables Agrave ne jamais partager

Eacuteviter les ordinateurs inconnus

Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles

Le cloud

Les transferts par courriel

44Mathieu Saby - avrilmai 2016

Cryptage

Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)

Veracrypt (Mac et PC) CryptSync (PC)

Cloud chiffreacute Tresorit Securesafe Synchcom

Spideroak

Attention aux effets secondaires du cryptage (perte

deacutefinitive des fichiershellip)

45Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 20: Gérer et diffuser ses données: principes et bonnes pratiques

Les plans de gestion de donneacutees

Une utiliteacute administrative Reacutepondre aux exigences de certains financeurs

Systeacutematique aux USA et Royaume-Uni mais tregraves rare en France

Agences de financements publiques et fondations Universiteacutes et organismes de recherche Union Europeacuteenne (projet pilote pour certains

projets du programme Horizon 2020)

20Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Pas de modegravele unique mais des eacuteleacutements et rubriques qui se recoupent souvent

Pour reacutediger un PGD Modegravele imposeacute par le financeur A deacutefaut adopter un modegravele existant en lrsquoadaptant

au besoin Des outils informatiques DMPonline DMPTool

21Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Un modegravele britannique (Digital curation center V4 2014)

Informations administratives

Collecte des donneacutees organisation

Documentation et meacutetadonneacutees

Ethique et cadre leacutegal

Stockage sauvegarde seacutecuriteacute

Archivage

Partage des donneacutees

Responsabiliteacutes et moyens

22Mathieu Saby - avrilmai 2016

Apregraves le projet

Les plans de gestion de donneacutees

Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)

Informations relatives au projet

Responsabiliteacute des donneacutees reacutepartition des rocircles

Ressources neacutecessaires agrave la mise en œuvre

Pour chaque jeu de donneacutees

Description du jeu de donneacutees

Stockage accegraves et seacutecuriteacute des donneacutees

Documentation et organisation des donneacutees

Disseacutemination du jeux de donneacutees (apregraves le projet)

Seacutelection et archivage

23Mathieu Saby - avrilmai 2016

2 Produire ou reacuteutiliser des donneacutees

24Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Le projet peut-il reacuteutiliser des donneacutees

existantes

Inteacuterecirct et limites

Conditions daccegraves

Coucirct

25Mathieu Saby - avrilmai 2016

Produire des donneacutees

Des donneacutees seront-elles produites

Eleacutement central ou secondaire du projet

Combien de jeux de donneacutees ou densembles

distincts

Quel degreacute de reproductibiliteacute des donneacutees

Quel inteacuterecirct pour la recherche ou des acteurs

de la socieacuteteacute

26Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Plusieurs sources possibles

Autres projets de recherche

Organismes priveacutes

Donneacutees publiques

Accegraves libre et gratuit France eacutetranger institutions internationales

Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes

enquecirctes)

Accegraves payant certaines donneacutees INSEE ou IGNhellip

Institutions culturelles (museacutees bibliothegraveques archives) situation

variable

27Mathieu Saby - avrilmai 2016

Produire des donneacutees

Mode de creacuteation ou de collecte

Type de donneacutees

Support

28Mathieu Saby - avrilmai 2016

Produire des donneacutees

Eacutetapes et niveaux drsquoeacutelaboration des donneacutees

au cours du projet

Ces eacutetapes sont-elles documenteacutees et

reproductibles (mateacuteriel logiciels meacutethodes

algorithmes code informatique)

29Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet (histoire maritime)

Navigocorpus 1 archives

30Mathieu Saby - avrilmai 2016

DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave

leacutepoque moderneLettre de lINSHS 2013 p 23-25

Produire des donneacutees

Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees

accessible en ligne

31Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees

32Mathieu Saby - avrilmai 2016

MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)

Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111

Produire des donneacutees

33Mathieu Saby - avrilmai 2016

Formats de fichiers

Qui doit pouvoir les lire Pour combien de temps

Pour un usage agrave long terme privileacutegier des

formats ouverts

Utilisables librement et gratuitement

Bien documenteacutes

Non lieacutes agrave un logiciel speacutecifique

FACILE - Service de validation de formats du CINES

Formats conseilleacutes par Data Archive (UK)

Produire des donneacutees

Ex de formats agrave la peacuterenniteacute garantie

34Mathieu Saby - avrilmai 2016

(PDFA

uniquement)

Sert de cadre base agrave de tregraves

nombreux formats avec des

extensions diverses

POR

(Fichier SPSS

portable)

Produire des donneacutees

Ex de formats courants sans peacuterenniteacute garantie

35Mathieu Saby - avrilmai 2016

Fichiers proprieacutetaires SPSS

STATA SAS NVIVO Altasti etc

3 Stocker ses donneacutees en seacutecuriteacute

36Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

37Mathieu Saby - avrilmai 2016

Dapregraves vous quels risques pegravesent sur les

donneacutees pendant un projet

Des risques agrave eacutevaluer

38Mathieu Saby - avrilmai 2016

Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise

organisation erreur de manipulation)

Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)

Lecture impossible (obsolescence du format ou du mateacuteriel)

Compreacutehension impossible (mauvaise organisation perte du contexte

ou de la documentation associeacutee)

Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)

Bonnes pratiques

Stockage et sauvegarde seacutecuriseacutee

Organisation adeacutequate

Documentation adeacutequate

39Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

40Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

Stockage adapteacute

Usages deacutesireacutes partage des donneacutees avec

partenaires internes ou externes stockage

sauvegarde ou publication

Caracteacuteristiques des donneacutees donneacutees

publiquesconfidentiellessecregravetes Quel

dommage causerait leur perte ou leur diffusion

Capaciteacutes

Tarifs

41Mathieu Saby - avrilmai 2016

Stockage adapteacute

42Mathieu Saby - avrilmai 2016

Supports de stockage Risques Avantages

Reacuteseau seacutecuriseacute (universiteacute

laboratoire)

Pannes de serveur erreur

humaine

seacutecuriteacute sauvegarde

automatique

Disque dur dordinateur

personnel ou professionnel

Pannes vol erreur

humaine

Cloud commercial dont cloud

proposeacute par lrsquouniversiteacute

(OneDrive)

Vol de mot de passe

Disparition des socieacuteteacutes

Cadre juridique parfois

flou

partage faciliteacute

synchronisation

automatique avec PC

Supports externes (cleacute USB

disque externe CDROM

DVDROM)

Deacuteteacuterioration des

supports perte vol

Sauvegarde meacutethodique

Mecircme en cas de stockage adapteacute neacutecessiteacute de

sauvegardes reacuteguliegraveres et freacutequentes

Utile pour se proteacuteger de ses propres erreurs

Ideacutealement 2 sauvegardes sur supports

diffeacuterents dont une stockeacutee physiquement agrave

distance (ex cloud + disque externe)

43Mathieu Saby - avrilmai 2016

Protection

Mots de passe fiables Agrave ne jamais partager

Eacuteviter les ordinateurs inconnus

Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles

Le cloud

Les transferts par courriel

44Mathieu Saby - avrilmai 2016

Cryptage

Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)

Veracrypt (Mac et PC) CryptSync (PC)

Cloud chiffreacute Tresorit Securesafe Synchcom

Spideroak

Attention aux effets secondaires du cryptage (perte

deacutefinitive des fichiershellip)

45Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 21: Gérer et diffuser ses données: principes et bonnes pratiques

Les plans de gestion de donneacutees

Pas de modegravele unique mais des eacuteleacutements et rubriques qui se recoupent souvent

Pour reacutediger un PGD Modegravele imposeacute par le financeur A deacutefaut adopter un modegravele existant en lrsquoadaptant

au besoin Des outils informatiques DMPonline DMPTool

21Mathieu Saby - avrilmai 2016

Les plans de gestion de donneacutees

Un modegravele britannique (Digital curation center V4 2014)

Informations administratives

Collecte des donneacutees organisation

Documentation et meacutetadonneacutees

Ethique et cadre leacutegal

Stockage sauvegarde seacutecuriteacute

Archivage

Partage des donneacutees

Responsabiliteacutes et moyens

22Mathieu Saby - avrilmai 2016

Apregraves le projet

Les plans de gestion de donneacutees

Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)

Informations relatives au projet

Responsabiliteacute des donneacutees reacutepartition des rocircles

Ressources neacutecessaires agrave la mise en œuvre

Pour chaque jeu de donneacutees

Description du jeu de donneacutees

Stockage accegraves et seacutecuriteacute des donneacutees

Documentation et organisation des donneacutees

Disseacutemination du jeux de donneacutees (apregraves le projet)

Seacutelection et archivage

23Mathieu Saby - avrilmai 2016

2 Produire ou reacuteutiliser des donneacutees

24Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Le projet peut-il reacuteutiliser des donneacutees

existantes

Inteacuterecirct et limites

Conditions daccegraves

Coucirct

25Mathieu Saby - avrilmai 2016

Produire des donneacutees

Des donneacutees seront-elles produites

Eleacutement central ou secondaire du projet

Combien de jeux de donneacutees ou densembles

distincts

Quel degreacute de reproductibiliteacute des donneacutees

Quel inteacuterecirct pour la recherche ou des acteurs

de la socieacuteteacute

26Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Plusieurs sources possibles

Autres projets de recherche

Organismes priveacutes

Donneacutees publiques

Accegraves libre et gratuit France eacutetranger institutions internationales

Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes

enquecirctes)

Accegraves payant certaines donneacutees INSEE ou IGNhellip

Institutions culturelles (museacutees bibliothegraveques archives) situation

variable

27Mathieu Saby - avrilmai 2016

Produire des donneacutees

Mode de creacuteation ou de collecte

Type de donneacutees

Support

28Mathieu Saby - avrilmai 2016

Produire des donneacutees

Eacutetapes et niveaux drsquoeacutelaboration des donneacutees

au cours du projet

Ces eacutetapes sont-elles documenteacutees et

reproductibles (mateacuteriel logiciels meacutethodes

algorithmes code informatique)

29Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet (histoire maritime)

Navigocorpus 1 archives

30Mathieu Saby - avrilmai 2016

DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave

leacutepoque moderneLettre de lINSHS 2013 p 23-25

Produire des donneacutees

Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees

accessible en ligne

31Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees

32Mathieu Saby - avrilmai 2016

MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)

Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111

Produire des donneacutees

33Mathieu Saby - avrilmai 2016

Formats de fichiers

Qui doit pouvoir les lire Pour combien de temps

Pour un usage agrave long terme privileacutegier des

formats ouverts

Utilisables librement et gratuitement

Bien documenteacutes

Non lieacutes agrave un logiciel speacutecifique

FACILE - Service de validation de formats du CINES

Formats conseilleacutes par Data Archive (UK)

Produire des donneacutees

Ex de formats agrave la peacuterenniteacute garantie

34Mathieu Saby - avrilmai 2016

(PDFA

uniquement)

Sert de cadre base agrave de tregraves

nombreux formats avec des

extensions diverses

POR

(Fichier SPSS

portable)

Produire des donneacutees

Ex de formats courants sans peacuterenniteacute garantie

35Mathieu Saby - avrilmai 2016

Fichiers proprieacutetaires SPSS

STATA SAS NVIVO Altasti etc

3 Stocker ses donneacutees en seacutecuriteacute

36Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

37Mathieu Saby - avrilmai 2016

Dapregraves vous quels risques pegravesent sur les

donneacutees pendant un projet

Des risques agrave eacutevaluer

38Mathieu Saby - avrilmai 2016

Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise

organisation erreur de manipulation)

Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)

Lecture impossible (obsolescence du format ou du mateacuteriel)

Compreacutehension impossible (mauvaise organisation perte du contexte

ou de la documentation associeacutee)

Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)

Bonnes pratiques

Stockage et sauvegarde seacutecuriseacutee

Organisation adeacutequate

Documentation adeacutequate

39Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

40Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

Stockage adapteacute

Usages deacutesireacutes partage des donneacutees avec

partenaires internes ou externes stockage

sauvegarde ou publication

Caracteacuteristiques des donneacutees donneacutees

publiquesconfidentiellessecregravetes Quel

dommage causerait leur perte ou leur diffusion

Capaciteacutes

Tarifs

41Mathieu Saby - avrilmai 2016

Stockage adapteacute

42Mathieu Saby - avrilmai 2016

Supports de stockage Risques Avantages

Reacuteseau seacutecuriseacute (universiteacute

laboratoire)

Pannes de serveur erreur

humaine

seacutecuriteacute sauvegarde

automatique

Disque dur dordinateur

personnel ou professionnel

Pannes vol erreur

humaine

Cloud commercial dont cloud

proposeacute par lrsquouniversiteacute

(OneDrive)

Vol de mot de passe

Disparition des socieacuteteacutes

Cadre juridique parfois

flou

partage faciliteacute

synchronisation

automatique avec PC

Supports externes (cleacute USB

disque externe CDROM

DVDROM)

Deacuteteacuterioration des

supports perte vol

Sauvegarde meacutethodique

Mecircme en cas de stockage adapteacute neacutecessiteacute de

sauvegardes reacuteguliegraveres et freacutequentes

Utile pour se proteacuteger de ses propres erreurs

Ideacutealement 2 sauvegardes sur supports

diffeacuterents dont une stockeacutee physiquement agrave

distance (ex cloud + disque externe)

43Mathieu Saby - avrilmai 2016

Protection

Mots de passe fiables Agrave ne jamais partager

Eacuteviter les ordinateurs inconnus

Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles

Le cloud

Les transferts par courriel

44Mathieu Saby - avrilmai 2016

Cryptage

Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)

Veracrypt (Mac et PC) CryptSync (PC)

Cloud chiffreacute Tresorit Securesafe Synchcom

Spideroak

Attention aux effets secondaires du cryptage (perte

deacutefinitive des fichiershellip)

45Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 22: Gérer et diffuser ses données: principes et bonnes pratiques

Les plans de gestion de donneacutees

Un modegravele britannique (Digital curation center V4 2014)

Informations administratives

Collecte des donneacutees organisation

Documentation et meacutetadonneacutees

Ethique et cadre leacutegal

Stockage sauvegarde seacutecuriteacute

Archivage

Partage des donneacutees

Responsabiliteacutes et moyens

22Mathieu Saby - avrilmai 2016

Apregraves le projet

Les plans de gestion de donneacutees

Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)

Informations relatives au projet

Responsabiliteacute des donneacutees reacutepartition des rocircles

Ressources neacutecessaires agrave la mise en œuvre

Pour chaque jeu de donneacutees

Description du jeu de donneacutees

Stockage accegraves et seacutecuriteacute des donneacutees

Documentation et organisation des donneacutees

Disseacutemination du jeux de donneacutees (apregraves le projet)

Seacutelection et archivage

23Mathieu Saby - avrilmai 2016

2 Produire ou reacuteutiliser des donneacutees

24Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Le projet peut-il reacuteutiliser des donneacutees

existantes

Inteacuterecirct et limites

Conditions daccegraves

Coucirct

25Mathieu Saby - avrilmai 2016

Produire des donneacutees

Des donneacutees seront-elles produites

Eleacutement central ou secondaire du projet

Combien de jeux de donneacutees ou densembles

distincts

Quel degreacute de reproductibiliteacute des donneacutees

Quel inteacuterecirct pour la recherche ou des acteurs

de la socieacuteteacute

26Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Plusieurs sources possibles

Autres projets de recherche

Organismes priveacutes

Donneacutees publiques

Accegraves libre et gratuit France eacutetranger institutions internationales

Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes

enquecirctes)

Accegraves payant certaines donneacutees INSEE ou IGNhellip

Institutions culturelles (museacutees bibliothegraveques archives) situation

variable

27Mathieu Saby - avrilmai 2016

Produire des donneacutees

Mode de creacuteation ou de collecte

Type de donneacutees

Support

28Mathieu Saby - avrilmai 2016

Produire des donneacutees

Eacutetapes et niveaux drsquoeacutelaboration des donneacutees

au cours du projet

Ces eacutetapes sont-elles documenteacutees et

reproductibles (mateacuteriel logiciels meacutethodes

algorithmes code informatique)

29Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet (histoire maritime)

Navigocorpus 1 archives

30Mathieu Saby - avrilmai 2016

DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave

leacutepoque moderneLettre de lINSHS 2013 p 23-25

Produire des donneacutees

Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees

accessible en ligne

31Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees

32Mathieu Saby - avrilmai 2016

MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)

Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111

Produire des donneacutees

33Mathieu Saby - avrilmai 2016

Formats de fichiers

Qui doit pouvoir les lire Pour combien de temps

Pour un usage agrave long terme privileacutegier des

formats ouverts

Utilisables librement et gratuitement

Bien documenteacutes

Non lieacutes agrave un logiciel speacutecifique

FACILE - Service de validation de formats du CINES

Formats conseilleacutes par Data Archive (UK)

Produire des donneacutees

Ex de formats agrave la peacuterenniteacute garantie

34Mathieu Saby - avrilmai 2016

(PDFA

uniquement)

Sert de cadre base agrave de tregraves

nombreux formats avec des

extensions diverses

POR

(Fichier SPSS

portable)

Produire des donneacutees

Ex de formats courants sans peacuterenniteacute garantie

35Mathieu Saby - avrilmai 2016

Fichiers proprieacutetaires SPSS

STATA SAS NVIVO Altasti etc

3 Stocker ses donneacutees en seacutecuriteacute

36Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

37Mathieu Saby - avrilmai 2016

Dapregraves vous quels risques pegravesent sur les

donneacutees pendant un projet

Des risques agrave eacutevaluer

38Mathieu Saby - avrilmai 2016

Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise

organisation erreur de manipulation)

Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)

Lecture impossible (obsolescence du format ou du mateacuteriel)

Compreacutehension impossible (mauvaise organisation perte du contexte

ou de la documentation associeacutee)

Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)

Bonnes pratiques

Stockage et sauvegarde seacutecuriseacutee

Organisation adeacutequate

Documentation adeacutequate

39Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

40Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

Stockage adapteacute

Usages deacutesireacutes partage des donneacutees avec

partenaires internes ou externes stockage

sauvegarde ou publication

Caracteacuteristiques des donneacutees donneacutees

publiquesconfidentiellessecregravetes Quel

dommage causerait leur perte ou leur diffusion

Capaciteacutes

Tarifs

41Mathieu Saby - avrilmai 2016

Stockage adapteacute

42Mathieu Saby - avrilmai 2016

Supports de stockage Risques Avantages

Reacuteseau seacutecuriseacute (universiteacute

laboratoire)

Pannes de serveur erreur

humaine

seacutecuriteacute sauvegarde

automatique

Disque dur dordinateur

personnel ou professionnel

Pannes vol erreur

humaine

Cloud commercial dont cloud

proposeacute par lrsquouniversiteacute

(OneDrive)

Vol de mot de passe

Disparition des socieacuteteacutes

Cadre juridique parfois

flou

partage faciliteacute

synchronisation

automatique avec PC

Supports externes (cleacute USB

disque externe CDROM

DVDROM)

Deacuteteacuterioration des

supports perte vol

Sauvegarde meacutethodique

Mecircme en cas de stockage adapteacute neacutecessiteacute de

sauvegardes reacuteguliegraveres et freacutequentes

Utile pour se proteacuteger de ses propres erreurs

Ideacutealement 2 sauvegardes sur supports

diffeacuterents dont une stockeacutee physiquement agrave

distance (ex cloud + disque externe)

43Mathieu Saby - avrilmai 2016

Protection

Mots de passe fiables Agrave ne jamais partager

Eacuteviter les ordinateurs inconnus

Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles

Le cloud

Les transferts par courriel

44Mathieu Saby - avrilmai 2016

Cryptage

Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)

Veracrypt (Mac et PC) CryptSync (PC)

Cloud chiffreacute Tresorit Securesafe Synchcom

Spideroak

Attention aux effets secondaires du cryptage (perte

deacutefinitive des fichiershellip)

45Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 23: Gérer et diffuser ses données: principes et bonnes pratiques

Les plans de gestion de donneacutees

Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)

Informations relatives au projet

Responsabiliteacute des donneacutees reacutepartition des rocircles

Ressources neacutecessaires agrave la mise en œuvre

Pour chaque jeu de donneacutees

Description du jeu de donneacutees

Stockage accegraves et seacutecuriteacute des donneacutees

Documentation et organisation des donneacutees

Disseacutemination du jeux de donneacutees (apregraves le projet)

Seacutelection et archivage

23Mathieu Saby - avrilmai 2016

2 Produire ou reacuteutiliser des donneacutees

24Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Le projet peut-il reacuteutiliser des donneacutees

existantes

Inteacuterecirct et limites

Conditions daccegraves

Coucirct

25Mathieu Saby - avrilmai 2016

Produire des donneacutees

Des donneacutees seront-elles produites

Eleacutement central ou secondaire du projet

Combien de jeux de donneacutees ou densembles

distincts

Quel degreacute de reproductibiliteacute des donneacutees

Quel inteacuterecirct pour la recherche ou des acteurs

de la socieacuteteacute

26Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Plusieurs sources possibles

Autres projets de recherche

Organismes priveacutes

Donneacutees publiques

Accegraves libre et gratuit France eacutetranger institutions internationales

Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes

enquecirctes)

Accegraves payant certaines donneacutees INSEE ou IGNhellip

Institutions culturelles (museacutees bibliothegraveques archives) situation

variable

27Mathieu Saby - avrilmai 2016

Produire des donneacutees

Mode de creacuteation ou de collecte

Type de donneacutees

Support

28Mathieu Saby - avrilmai 2016

Produire des donneacutees

Eacutetapes et niveaux drsquoeacutelaboration des donneacutees

au cours du projet

Ces eacutetapes sont-elles documenteacutees et

reproductibles (mateacuteriel logiciels meacutethodes

algorithmes code informatique)

29Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet (histoire maritime)

Navigocorpus 1 archives

30Mathieu Saby - avrilmai 2016

DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave

leacutepoque moderneLettre de lINSHS 2013 p 23-25

Produire des donneacutees

Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees

accessible en ligne

31Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees

32Mathieu Saby - avrilmai 2016

MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)

Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111

Produire des donneacutees

33Mathieu Saby - avrilmai 2016

Formats de fichiers

Qui doit pouvoir les lire Pour combien de temps

Pour un usage agrave long terme privileacutegier des

formats ouverts

Utilisables librement et gratuitement

Bien documenteacutes

Non lieacutes agrave un logiciel speacutecifique

FACILE - Service de validation de formats du CINES

Formats conseilleacutes par Data Archive (UK)

Produire des donneacutees

Ex de formats agrave la peacuterenniteacute garantie

34Mathieu Saby - avrilmai 2016

(PDFA

uniquement)

Sert de cadre base agrave de tregraves

nombreux formats avec des

extensions diverses

POR

(Fichier SPSS

portable)

Produire des donneacutees

Ex de formats courants sans peacuterenniteacute garantie

35Mathieu Saby - avrilmai 2016

Fichiers proprieacutetaires SPSS

STATA SAS NVIVO Altasti etc

3 Stocker ses donneacutees en seacutecuriteacute

36Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

37Mathieu Saby - avrilmai 2016

Dapregraves vous quels risques pegravesent sur les

donneacutees pendant un projet

Des risques agrave eacutevaluer

38Mathieu Saby - avrilmai 2016

Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise

organisation erreur de manipulation)

Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)

Lecture impossible (obsolescence du format ou du mateacuteriel)

Compreacutehension impossible (mauvaise organisation perte du contexte

ou de la documentation associeacutee)

Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)

Bonnes pratiques

Stockage et sauvegarde seacutecuriseacutee

Organisation adeacutequate

Documentation adeacutequate

39Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

40Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

Stockage adapteacute

Usages deacutesireacutes partage des donneacutees avec

partenaires internes ou externes stockage

sauvegarde ou publication

Caracteacuteristiques des donneacutees donneacutees

publiquesconfidentiellessecregravetes Quel

dommage causerait leur perte ou leur diffusion

Capaciteacutes

Tarifs

41Mathieu Saby - avrilmai 2016

Stockage adapteacute

42Mathieu Saby - avrilmai 2016

Supports de stockage Risques Avantages

Reacuteseau seacutecuriseacute (universiteacute

laboratoire)

Pannes de serveur erreur

humaine

seacutecuriteacute sauvegarde

automatique

Disque dur dordinateur

personnel ou professionnel

Pannes vol erreur

humaine

Cloud commercial dont cloud

proposeacute par lrsquouniversiteacute

(OneDrive)

Vol de mot de passe

Disparition des socieacuteteacutes

Cadre juridique parfois

flou

partage faciliteacute

synchronisation

automatique avec PC

Supports externes (cleacute USB

disque externe CDROM

DVDROM)

Deacuteteacuterioration des

supports perte vol

Sauvegarde meacutethodique

Mecircme en cas de stockage adapteacute neacutecessiteacute de

sauvegardes reacuteguliegraveres et freacutequentes

Utile pour se proteacuteger de ses propres erreurs

Ideacutealement 2 sauvegardes sur supports

diffeacuterents dont une stockeacutee physiquement agrave

distance (ex cloud + disque externe)

43Mathieu Saby - avrilmai 2016

Protection

Mots de passe fiables Agrave ne jamais partager

Eacuteviter les ordinateurs inconnus

Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles

Le cloud

Les transferts par courriel

44Mathieu Saby - avrilmai 2016

Cryptage

Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)

Veracrypt (Mac et PC) CryptSync (PC)

Cloud chiffreacute Tresorit Securesafe Synchcom

Spideroak

Attention aux effets secondaires du cryptage (perte

deacutefinitive des fichiershellip)

45Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 24: Gérer et diffuser ses données: principes et bonnes pratiques

2 Produire ou reacuteutiliser des donneacutees

24Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Le projet peut-il reacuteutiliser des donneacutees

existantes

Inteacuterecirct et limites

Conditions daccegraves

Coucirct

25Mathieu Saby - avrilmai 2016

Produire des donneacutees

Des donneacutees seront-elles produites

Eleacutement central ou secondaire du projet

Combien de jeux de donneacutees ou densembles

distincts

Quel degreacute de reproductibiliteacute des donneacutees

Quel inteacuterecirct pour la recherche ou des acteurs

de la socieacuteteacute

26Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Plusieurs sources possibles

Autres projets de recherche

Organismes priveacutes

Donneacutees publiques

Accegraves libre et gratuit France eacutetranger institutions internationales

Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes

enquecirctes)

Accegraves payant certaines donneacutees INSEE ou IGNhellip

Institutions culturelles (museacutees bibliothegraveques archives) situation

variable

27Mathieu Saby - avrilmai 2016

Produire des donneacutees

Mode de creacuteation ou de collecte

Type de donneacutees

Support

28Mathieu Saby - avrilmai 2016

Produire des donneacutees

Eacutetapes et niveaux drsquoeacutelaboration des donneacutees

au cours du projet

Ces eacutetapes sont-elles documenteacutees et

reproductibles (mateacuteriel logiciels meacutethodes

algorithmes code informatique)

29Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet (histoire maritime)

Navigocorpus 1 archives

30Mathieu Saby - avrilmai 2016

DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave

leacutepoque moderneLettre de lINSHS 2013 p 23-25

Produire des donneacutees

Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees

accessible en ligne

31Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees

32Mathieu Saby - avrilmai 2016

MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)

Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111

Produire des donneacutees

33Mathieu Saby - avrilmai 2016

Formats de fichiers

Qui doit pouvoir les lire Pour combien de temps

Pour un usage agrave long terme privileacutegier des

formats ouverts

Utilisables librement et gratuitement

Bien documenteacutes

Non lieacutes agrave un logiciel speacutecifique

FACILE - Service de validation de formats du CINES

Formats conseilleacutes par Data Archive (UK)

Produire des donneacutees

Ex de formats agrave la peacuterenniteacute garantie

34Mathieu Saby - avrilmai 2016

(PDFA

uniquement)

Sert de cadre base agrave de tregraves

nombreux formats avec des

extensions diverses

POR

(Fichier SPSS

portable)

Produire des donneacutees

Ex de formats courants sans peacuterenniteacute garantie

35Mathieu Saby - avrilmai 2016

Fichiers proprieacutetaires SPSS

STATA SAS NVIVO Altasti etc

3 Stocker ses donneacutees en seacutecuriteacute

36Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

37Mathieu Saby - avrilmai 2016

Dapregraves vous quels risques pegravesent sur les

donneacutees pendant un projet

Des risques agrave eacutevaluer

38Mathieu Saby - avrilmai 2016

Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise

organisation erreur de manipulation)

Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)

Lecture impossible (obsolescence du format ou du mateacuteriel)

Compreacutehension impossible (mauvaise organisation perte du contexte

ou de la documentation associeacutee)

Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)

Bonnes pratiques

Stockage et sauvegarde seacutecuriseacutee

Organisation adeacutequate

Documentation adeacutequate

39Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

40Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

Stockage adapteacute

Usages deacutesireacutes partage des donneacutees avec

partenaires internes ou externes stockage

sauvegarde ou publication

Caracteacuteristiques des donneacutees donneacutees

publiquesconfidentiellessecregravetes Quel

dommage causerait leur perte ou leur diffusion

Capaciteacutes

Tarifs

41Mathieu Saby - avrilmai 2016

Stockage adapteacute

42Mathieu Saby - avrilmai 2016

Supports de stockage Risques Avantages

Reacuteseau seacutecuriseacute (universiteacute

laboratoire)

Pannes de serveur erreur

humaine

seacutecuriteacute sauvegarde

automatique

Disque dur dordinateur

personnel ou professionnel

Pannes vol erreur

humaine

Cloud commercial dont cloud

proposeacute par lrsquouniversiteacute

(OneDrive)

Vol de mot de passe

Disparition des socieacuteteacutes

Cadre juridique parfois

flou

partage faciliteacute

synchronisation

automatique avec PC

Supports externes (cleacute USB

disque externe CDROM

DVDROM)

Deacuteteacuterioration des

supports perte vol

Sauvegarde meacutethodique

Mecircme en cas de stockage adapteacute neacutecessiteacute de

sauvegardes reacuteguliegraveres et freacutequentes

Utile pour se proteacuteger de ses propres erreurs

Ideacutealement 2 sauvegardes sur supports

diffeacuterents dont une stockeacutee physiquement agrave

distance (ex cloud + disque externe)

43Mathieu Saby - avrilmai 2016

Protection

Mots de passe fiables Agrave ne jamais partager

Eacuteviter les ordinateurs inconnus

Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles

Le cloud

Les transferts par courriel

44Mathieu Saby - avrilmai 2016

Cryptage

Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)

Veracrypt (Mac et PC) CryptSync (PC)

Cloud chiffreacute Tresorit Securesafe Synchcom

Spideroak

Attention aux effets secondaires du cryptage (perte

deacutefinitive des fichiershellip)

45Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 25: Gérer et diffuser ses données: principes et bonnes pratiques

Reacuteutiliser des donneacutees existantes

Le projet peut-il reacuteutiliser des donneacutees

existantes

Inteacuterecirct et limites

Conditions daccegraves

Coucirct

25Mathieu Saby - avrilmai 2016

Produire des donneacutees

Des donneacutees seront-elles produites

Eleacutement central ou secondaire du projet

Combien de jeux de donneacutees ou densembles

distincts

Quel degreacute de reproductibiliteacute des donneacutees

Quel inteacuterecirct pour la recherche ou des acteurs

de la socieacuteteacute

26Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Plusieurs sources possibles

Autres projets de recherche

Organismes priveacutes

Donneacutees publiques

Accegraves libre et gratuit France eacutetranger institutions internationales

Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes

enquecirctes)

Accegraves payant certaines donneacutees INSEE ou IGNhellip

Institutions culturelles (museacutees bibliothegraveques archives) situation

variable

27Mathieu Saby - avrilmai 2016

Produire des donneacutees

Mode de creacuteation ou de collecte

Type de donneacutees

Support

28Mathieu Saby - avrilmai 2016

Produire des donneacutees

Eacutetapes et niveaux drsquoeacutelaboration des donneacutees

au cours du projet

Ces eacutetapes sont-elles documenteacutees et

reproductibles (mateacuteriel logiciels meacutethodes

algorithmes code informatique)

29Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet (histoire maritime)

Navigocorpus 1 archives

30Mathieu Saby - avrilmai 2016

DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave

leacutepoque moderneLettre de lINSHS 2013 p 23-25

Produire des donneacutees

Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees

accessible en ligne

31Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees

32Mathieu Saby - avrilmai 2016

MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)

Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111

Produire des donneacutees

33Mathieu Saby - avrilmai 2016

Formats de fichiers

Qui doit pouvoir les lire Pour combien de temps

Pour un usage agrave long terme privileacutegier des

formats ouverts

Utilisables librement et gratuitement

Bien documenteacutes

Non lieacutes agrave un logiciel speacutecifique

FACILE - Service de validation de formats du CINES

Formats conseilleacutes par Data Archive (UK)

Produire des donneacutees

Ex de formats agrave la peacuterenniteacute garantie

34Mathieu Saby - avrilmai 2016

(PDFA

uniquement)

Sert de cadre base agrave de tregraves

nombreux formats avec des

extensions diverses

POR

(Fichier SPSS

portable)

Produire des donneacutees

Ex de formats courants sans peacuterenniteacute garantie

35Mathieu Saby - avrilmai 2016

Fichiers proprieacutetaires SPSS

STATA SAS NVIVO Altasti etc

3 Stocker ses donneacutees en seacutecuriteacute

36Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

37Mathieu Saby - avrilmai 2016

Dapregraves vous quels risques pegravesent sur les

donneacutees pendant un projet

Des risques agrave eacutevaluer

38Mathieu Saby - avrilmai 2016

Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise

organisation erreur de manipulation)

Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)

Lecture impossible (obsolescence du format ou du mateacuteriel)

Compreacutehension impossible (mauvaise organisation perte du contexte

ou de la documentation associeacutee)

Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)

Bonnes pratiques

Stockage et sauvegarde seacutecuriseacutee

Organisation adeacutequate

Documentation adeacutequate

39Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

40Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

Stockage adapteacute

Usages deacutesireacutes partage des donneacutees avec

partenaires internes ou externes stockage

sauvegarde ou publication

Caracteacuteristiques des donneacutees donneacutees

publiquesconfidentiellessecregravetes Quel

dommage causerait leur perte ou leur diffusion

Capaciteacutes

Tarifs

41Mathieu Saby - avrilmai 2016

Stockage adapteacute

42Mathieu Saby - avrilmai 2016

Supports de stockage Risques Avantages

Reacuteseau seacutecuriseacute (universiteacute

laboratoire)

Pannes de serveur erreur

humaine

seacutecuriteacute sauvegarde

automatique

Disque dur dordinateur

personnel ou professionnel

Pannes vol erreur

humaine

Cloud commercial dont cloud

proposeacute par lrsquouniversiteacute

(OneDrive)

Vol de mot de passe

Disparition des socieacuteteacutes

Cadre juridique parfois

flou

partage faciliteacute

synchronisation

automatique avec PC

Supports externes (cleacute USB

disque externe CDROM

DVDROM)

Deacuteteacuterioration des

supports perte vol

Sauvegarde meacutethodique

Mecircme en cas de stockage adapteacute neacutecessiteacute de

sauvegardes reacuteguliegraveres et freacutequentes

Utile pour se proteacuteger de ses propres erreurs

Ideacutealement 2 sauvegardes sur supports

diffeacuterents dont une stockeacutee physiquement agrave

distance (ex cloud + disque externe)

43Mathieu Saby - avrilmai 2016

Protection

Mots de passe fiables Agrave ne jamais partager

Eacuteviter les ordinateurs inconnus

Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles

Le cloud

Les transferts par courriel

44Mathieu Saby - avrilmai 2016

Cryptage

Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)

Veracrypt (Mac et PC) CryptSync (PC)

Cloud chiffreacute Tresorit Securesafe Synchcom

Spideroak

Attention aux effets secondaires du cryptage (perte

deacutefinitive des fichiershellip)

45Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 26: Gérer et diffuser ses données: principes et bonnes pratiques

Produire des donneacutees

Des donneacutees seront-elles produites

Eleacutement central ou secondaire du projet

Combien de jeux de donneacutees ou densembles

distincts

Quel degreacute de reproductibiliteacute des donneacutees

Quel inteacuterecirct pour la recherche ou des acteurs

de la socieacuteteacute

26Mathieu Saby - avrilmai 2016

Reacuteutiliser des donneacutees existantes

Plusieurs sources possibles

Autres projets de recherche

Organismes priveacutes

Donneacutees publiques

Accegraves libre et gratuit France eacutetranger institutions internationales

Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes

enquecirctes)

Accegraves payant certaines donneacutees INSEE ou IGNhellip

Institutions culturelles (museacutees bibliothegraveques archives) situation

variable

27Mathieu Saby - avrilmai 2016

Produire des donneacutees

Mode de creacuteation ou de collecte

Type de donneacutees

Support

28Mathieu Saby - avrilmai 2016

Produire des donneacutees

Eacutetapes et niveaux drsquoeacutelaboration des donneacutees

au cours du projet

Ces eacutetapes sont-elles documenteacutees et

reproductibles (mateacuteriel logiciels meacutethodes

algorithmes code informatique)

29Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet (histoire maritime)

Navigocorpus 1 archives

30Mathieu Saby - avrilmai 2016

DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave

leacutepoque moderneLettre de lINSHS 2013 p 23-25

Produire des donneacutees

Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees

accessible en ligne

31Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees

32Mathieu Saby - avrilmai 2016

MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)

Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111

Produire des donneacutees

33Mathieu Saby - avrilmai 2016

Formats de fichiers

Qui doit pouvoir les lire Pour combien de temps

Pour un usage agrave long terme privileacutegier des

formats ouverts

Utilisables librement et gratuitement

Bien documenteacutes

Non lieacutes agrave un logiciel speacutecifique

FACILE - Service de validation de formats du CINES

Formats conseilleacutes par Data Archive (UK)

Produire des donneacutees

Ex de formats agrave la peacuterenniteacute garantie

34Mathieu Saby - avrilmai 2016

(PDFA

uniquement)

Sert de cadre base agrave de tregraves

nombreux formats avec des

extensions diverses

POR

(Fichier SPSS

portable)

Produire des donneacutees

Ex de formats courants sans peacuterenniteacute garantie

35Mathieu Saby - avrilmai 2016

Fichiers proprieacutetaires SPSS

STATA SAS NVIVO Altasti etc

3 Stocker ses donneacutees en seacutecuriteacute

36Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

37Mathieu Saby - avrilmai 2016

Dapregraves vous quels risques pegravesent sur les

donneacutees pendant un projet

Des risques agrave eacutevaluer

38Mathieu Saby - avrilmai 2016

Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise

organisation erreur de manipulation)

Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)

Lecture impossible (obsolescence du format ou du mateacuteriel)

Compreacutehension impossible (mauvaise organisation perte du contexte

ou de la documentation associeacutee)

Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)

Bonnes pratiques

Stockage et sauvegarde seacutecuriseacutee

Organisation adeacutequate

Documentation adeacutequate

39Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

40Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

Stockage adapteacute

Usages deacutesireacutes partage des donneacutees avec

partenaires internes ou externes stockage

sauvegarde ou publication

Caracteacuteristiques des donneacutees donneacutees

publiquesconfidentiellessecregravetes Quel

dommage causerait leur perte ou leur diffusion

Capaciteacutes

Tarifs

41Mathieu Saby - avrilmai 2016

Stockage adapteacute

42Mathieu Saby - avrilmai 2016

Supports de stockage Risques Avantages

Reacuteseau seacutecuriseacute (universiteacute

laboratoire)

Pannes de serveur erreur

humaine

seacutecuriteacute sauvegarde

automatique

Disque dur dordinateur

personnel ou professionnel

Pannes vol erreur

humaine

Cloud commercial dont cloud

proposeacute par lrsquouniversiteacute

(OneDrive)

Vol de mot de passe

Disparition des socieacuteteacutes

Cadre juridique parfois

flou

partage faciliteacute

synchronisation

automatique avec PC

Supports externes (cleacute USB

disque externe CDROM

DVDROM)

Deacuteteacuterioration des

supports perte vol

Sauvegarde meacutethodique

Mecircme en cas de stockage adapteacute neacutecessiteacute de

sauvegardes reacuteguliegraveres et freacutequentes

Utile pour se proteacuteger de ses propres erreurs

Ideacutealement 2 sauvegardes sur supports

diffeacuterents dont une stockeacutee physiquement agrave

distance (ex cloud + disque externe)

43Mathieu Saby - avrilmai 2016

Protection

Mots de passe fiables Agrave ne jamais partager

Eacuteviter les ordinateurs inconnus

Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles

Le cloud

Les transferts par courriel

44Mathieu Saby - avrilmai 2016

Cryptage

Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)

Veracrypt (Mac et PC) CryptSync (PC)

Cloud chiffreacute Tresorit Securesafe Synchcom

Spideroak

Attention aux effets secondaires du cryptage (perte

deacutefinitive des fichiershellip)

45Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 27: Gérer et diffuser ses données: principes et bonnes pratiques

Reacuteutiliser des donneacutees existantes

Plusieurs sources possibles

Autres projets de recherche

Organismes priveacutes

Donneacutees publiques

Accegraves libre et gratuit France eacutetranger institutions internationales

Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes

enquecirctes)

Accegraves payant certaines donneacutees INSEE ou IGNhellip

Institutions culturelles (museacutees bibliothegraveques archives) situation

variable

27Mathieu Saby - avrilmai 2016

Produire des donneacutees

Mode de creacuteation ou de collecte

Type de donneacutees

Support

28Mathieu Saby - avrilmai 2016

Produire des donneacutees

Eacutetapes et niveaux drsquoeacutelaboration des donneacutees

au cours du projet

Ces eacutetapes sont-elles documenteacutees et

reproductibles (mateacuteriel logiciels meacutethodes

algorithmes code informatique)

29Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet (histoire maritime)

Navigocorpus 1 archives

30Mathieu Saby - avrilmai 2016

DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave

leacutepoque moderneLettre de lINSHS 2013 p 23-25

Produire des donneacutees

Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees

accessible en ligne

31Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees

32Mathieu Saby - avrilmai 2016

MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)

Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111

Produire des donneacutees

33Mathieu Saby - avrilmai 2016

Formats de fichiers

Qui doit pouvoir les lire Pour combien de temps

Pour un usage agrave long terme privileacutegier des

formats ouverts

Utilisables librement et gratuitement

Bien documenteacutes

Non lieacutes agrave un logiciel speacutecifique

FACILE - Service de validation de formats du CINES

Formats conseilleacutes par Data Archive (UK)

Produire des donneacutees

Ex de formats agrave la peacuterenniteacute garantie

34Mathieu Saby - avrilmai 2016

(PDFA

uniquement)

Sert de cadre base agrave de tregraves

nombreux formats avec des

extensions diverses

POR

(Fichier SPSS

portable)

Produire des donneacutees

Ex de formats courants sans peacuterenniteacute garantie

35Mathieu Saby - avrilmai 2016

Fichiers proprieacutetaires SPSS

STATA SAS NVIVO Altasti etc

3 Stocker ses donneacutees en seacutecuriteacute

36Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

37Mathieu Saby - avrilmai 2016

Dapregraves vous quels risques pegravesent sur les

donneacutees pendant un projet

Des risques agrave eacutevaluer

38Mathieu Saby - avrilmai 2016

Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise

organisation erreur de manipulation)

Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)

Lecture impossible (obsolescence du format ou du mateacuteriel)

Compreacutehension impossible (mauvaise organisation perte du contexte

ou de la documentation associeacutee)

Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)

Bonnes pratiques

Stockage et sauvegarde seacutecuriseacutee

Organisation adeacutequate

Documentation adeacutequate

39Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

40Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

Stockage adapteacute

Usages deacutesireacutes partage des donneacutees avec

partenaires internes ou externes stockage

sauvegarde ou publication

Caracteacuteristiques des donneacutees donneacutees

publiquesconfidentiellessecregravetes Quel

dommage causerait leur perte ou leur diffusion

Capaciteacutes

Tarifs

41Mathieu Saby - avrilmai 2016

Stockage adapteacute

42Mathieu Saby - avrilmai 2016

Supports de stockage Risques Avantages

Reacuteseau seacutecuriseacute (universiteacute

laboratoire)

Pannes de serveur erreur

humaine

seacutecuriteacute sauvegarde

automatique

Disque dur dordinateur

personnel ou professionnel

Pannes vol erreur

humaine

Cloud commercial dont cloud

proposeacute par lrsquouniversiteacute

(OneDrive)

Vol de mot de passe

Disparition des socieacuteteacutes

Cadre juridique parfois

flou

partage faciliteacute

synchronisation

automatique avec PC

Supports externes (cleacute USB

disque externe CDROM

DVDROM)

Deacuteteacuterioration des

supports perte vol

Sauvegarde meacutethodique

Mecircme en cas de stockage adapteacute neacutecessiteacute de

sauvegardes reacuteguliegraveres et freacutequentes

Utile pour se proteacuteger de ses propres erreurs

Ideacutealement 2 sauvegardes sur supports

diffeacuterents dont une stockeacutee physiquement agrave

distance (ex cloud + disque externe)

43Mathieu Saby - avrilmai 2016

Protection

Mots de passe fiables Agrave ne jamais partager

Eacuteviter les ordinateurs inconnus

Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles

Le cloud

Les transferts par courriel

44Mathieu Saby - avrilmai 2016

Cryptage

Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)

Veracrypt (Mac et PC) CryptSync (PC)

Cloud chiffreacute Tresorit Securesafe Synchcom

Spideroak

Attention aux effets secondaires du cryptage (perte

deacutefinitive des fichiershellip)

45Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 28: Gérer et diffuser ses données: principes et bonnes pratiques

Produire des donneacutees

Mode de creacuteation ou de collecte

Type de donneacutees

Support

28Mathieu Saby - avrilmai 2016

Produire des donneacutees

Eacutetapes et niveaux drsquoeacutelaboration des donneacutees

au cours du projet

Ces eacutetapes sont-elles documenteacutees et

reproductibles (mateacuteriel logiciels meacutethodes

algorithmes code informatique)

29Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet (histoire maritime)

Navigocorpus 1 archives

30Mathieu Saby - avrilmai 2016

DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave

leacutepoque moderneLettre de lINSHS 2013 p 23-25

Produire des donneacutees

Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees

accessible en ligne

31Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees

32Mathieu Saby - avrilmai 2016

MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)

Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111

Produire des donneacutees

33Mathieu Saby - avrilmai 2016

Formats de fichiers

Qui doit pouvoir les lire Pour combien de temps

Pour un usage agrave long terme privileacutegier des

formats ouverts

Utilisables librement et gratuitement

Bien documenteacutes

Non lieacutes agrave un logiciel speacutecifique

FACILE - Service de validation de formats du CINES

Formats conseilleacutes par Data Archive (UK)

Produire des donneacutees

Ex de formats agrave la peacuterenniteacute garantie

34Mathieu Saby - avrilmai 2016

(PDFA

uniquement)

Sert de cadre base agrave de tregraves

nombreux formats avec des

extensions diverses

POR

(Fichier SPSS

portable)

Produire des donneacutees

Ex de formats courants sans peacuterenniteacute garantie

35Mathieu Saby - avrilmai 2016

Fichiers proprieacutetaires SPSS

STATA SAS NVIVO Altasti etc

3 Stocker ses donneacutees en seacutecuriteacute

36Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

37Mathieu Saby - avrilmai 2016

Dapregraves vous quels risques pegravesent sur les

donneacutees pendant un projet

Des risques agrave eacutevaluer

38Mathieu Saby - avrilmai 2016

Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise

organisation erreur de manipulation)

Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)

Lecture impossible (obsolescence du format ou du mateacuteriel)

Compreacutehension impossible (mauvaise organisation perte du contexte

ou de la documentation associeacutee)

Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)

Bonnes pratiques

Stockage et sauvegarde seacutecuriseacutee

Organisation adeacutequate

Documentation adeacutequate

39Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

40Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

Stockage adapteacute

Usages deacutesireacutes partage des donneacutees avec

partenaires internes ou externes stockage

sauvegarde ou publication

Caracteacuteristiques des donneacutees donneacutees

publiquesconfidentiellessecregravetes Quel

dommage causerait leur perte ou leur diffusion

Capaciteacutes

Tarifs

41Mathieu Saby - avrilmai 2016

Stockage adapteacute

42Mathieu Saby - avrilmai 2016

Supports de stockage Risques Avantages

Reacuteseau seacutecuriseacute (universiteacute

laboratoire)

Pannes de serveur erreur

humaine

seacutecuriteacute sauvegarde

automatique

Disque dur dordinateur

personnel ou professionnel

Pannes vol erreur

humaine

Cloud commercial dont cloud

proposeacute par lrsquouniversiteacute

(OneDrive)

Vol de mot de passe

Disparition des socieacuteteacutes

Cadre juridique parfois

flou

partage faciliteacute

synchronisation

automatique avec PC

Supports externes (cleacute USB

disque externe CDROM

DVDROM)

Deacuteteacuterioration des

supports perte vol

Sauvegarde meacutethodique

Mecircme en cas de stockage adapteacute neacutecessiteacute de

sauvegardes reacuteguliegraveres et freacutequentes

Utile pour se proteacuteger de ses propres erreurs

Ideacutealement 2 sauvegardes sur supports

diffeacuterents dont une stockeacutee physiquement agrave

distance (ex cloud + disque externe)

43Mathieu Saby - avrilmai 2016

Protection

Mots de passe fiables Agrave ne jamais partager

Eacuteviter les ordinateurs inconnus

Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles

Le cloud

Les transferts par courriel

44Mathieu Saby - avrilmai 2016

Cryptage

Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)

Veracrypt (Mac et PC) CryptSync (PC)

Cloud chiffreacute Tresorit Securesafe Synchcom

Spideroak

Attention aux effets secondaires du cryptage (perte

deacutefinitive des fichiershellip)

45Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 29: Gérer et diffuser ses données: principes et bonnes pratiques

Produire des donneacutees

Eacutetapes et niveaux drsquoeacutelaboration des donneacutees

au cours du projet

Ces eacutetapes sont-elles documenteacutees et

reproductibles (mateacuteriel logiciels meacutethodes

algorithmes code informatique)

29Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet (histoire maritime)

Navigocorpus 1 archives

30Mathieu Saby - avrilmai 2016

DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave

leacutepoque moderneLettre de lINSHS 2013 p 23-25

Produire des donneacutees

Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees

accessible en ligne

31Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees

32Mathieu Saby - avrilmai 2016

MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)

Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111

Produire des donneacutees

33Mathieu Saby - avrilmai 2016

Formats de fichiers

Qui doit pouvoir les lire Pour combien de temps

Pour un usage agrave long terme privileacutegier des

formats ouverts

Utilisables librement et gratuitement

Bien documenteacutes

Non lieacutes agrave un logiciel speacutecifique

FACILE - Service de validation de formats du CINES

Formats conseilleacutes par Data Archive (UK)

Produire des donneacutees

Ex de formats agrave la peacuterenniteacute garantie

34Mathieu Saby - avrilmai 2016

(PDFA

uniquement)

Sert de cadre base agrave de tregraves

nombreux formats avec des

extensions diverses

POR

(Fichier SPSS

portable)

Produire des donneacutees

Ex de formats courants sans peacuterenniteacute garantie

35Mathieu Saby - avrilmai 2016

Fichiers proprieacutetaires SPSS

STATA SAS NVIVO Altasti etc

3 Stocker ses donneacutees en seacutecuriteacute

36Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

37Mathieu Saby - avrilmai 2016

Dapregraves vous quels risques pegravesent sur les

donneacutees pendant un projet

Des risques agrave eacutevaluer

38Mathieu Saby - avrilmai 2016

Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise

organisation erreur de manipulation)

Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)

Lecture impossible (obsolescence du format ou du mateacuteriel)

Compreacutehension impossible (mauvaise organisation perte du contexte

ou de la documentation associeacutee)

Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)

Bonnes pratiques

Stockage et sauvegarde seacutecuriseacutee

Organisation adeacutequate

Documentation adeacutequate

39Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

40Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

Stockage adapteacute

Usages deacutesireacutes partage des donneacutees avec

partenaires internes ou externes stockage

sauvegarde ou publication

Caracteacuteristiques des donneacutees donneacutees

publiquesconfidentiellessecregravetes Quel

dommage causerait leur perte ou leur diffusion

Capaciteacutes

Tarifs

41Mathieu Saby - avrilmai 2016

Stockage adapteacute

42Mathieu Saby - avrilmai 2016

Supports de stockage Risques Avantages

Reacuteseau seacutecuriseacute (universiteacute

laboratoire)

Pannes de serveur erreur

humaine

seacutecuriteacute sauvegarde

automatique

Disque dur dordinateur

personnel ou professionnel

Pannes vol erreur

humaine

Cloud commercial dont cloud

proposeacute par lrsquouniversiteacute

(OneDrive)

Vol de mot de passe

Disparition des socieacuteteacutes

Cadre juridique parfois

flou

partage faciliteacute

synchronisation

automatique avec PC

Supports externes (cleacute USB

disque externe CDROM

DVDROM)

Deacuteteacuterioration des

supports perte vol

Sauvegarde meacutethodique

Mecircme en cas de stockage adapteacute neacutecessiteacute de

sauvegardes reacuteguliegraveres et freacutequentes

Utile pour se proteacuteger de ses propres erreurs

Ideacutealement 2 sauvegardes sur supports

diffeacuterents dont une stockeacutee physiquement agrave

distance (ex cloud + disque externe)

43Mathieu Saby - avrilmai 2016

Protection

Mots de passe fiables Agrave ne jamais partager

Eacuteviter les ordinateurs inconnus

Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles

Le cloud

Les transferts par courriel

44Mathieu Saby - avrilmai 2016

Cryptage

Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)

Veracrypt (Mac et PC) CryptSync (PC)

Cloud chiffreacute Tresorit Securesafe Synchcom

Spideroak

Attention aux effets secondaires du cryptage (perte

deacutefinitive des fichiershellip)

45Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 30: Gérer et diffuser ses données: principes et bonnes pratiques

Produire des donneacutees

Exemple de projet (histoire maritime)

Navigocorpus 1 archives

30Mathieu Saby - avrilmai 2016

DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave

leacutepoque moderneLettre de lINSHS 2013 p 23-25

Produire des donneacutees

Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees

accessible en ligne

31Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees

32Mathieu Saby - avrilmai 2016

MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)

Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111

Produire des donneacutees

33Mathieu Saby - avrilmai 2016

Formats de fichiers

Qui doit pouvoir les lire Pour combien de temps

Pour un usage agrave long terme privileacutegier des

formats ouverts

Utilisables librement et gratuitement

Bien documenteacutes

Non lieacutes agrave un logiciel speacutecifique

FACILE - Service de validation de formats du CINES

Formats conseilleacutes par Data Archive (UK)

Produire des donneacutees

Ex de formats agrave la peacuterenniteacute garantie

34Mathieu Saby - avrilmai 2016

(PDFA

uniquement)

Sert de cadre base agrave de tregraves

nombreux formats avec des

extensions diverses

POR

(Fichier SPSS

portable)

Produire des donneacutees

Ex de formats courants sans peacuterenniteacute garantie

35Mathieu Saby - avrilmai 2016

Fichiers proprieacutetaires SPSS

STATA SAS NVIVO Altasti etc

3 Stocker ses donneacutees en seacutecuriteacute

36Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

37Mathieu Saby - avrilmai 2016

Dapregraves vous quels risques pegravesent sur les

donneacutees pendant un projet

Des risques agrave eacutevaluer

38Mathieu Saby - avrilmai 2016

Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise

organisation erreur de manipulation)

Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)

Lecture impossible (obsolescence du format ou du mateacuteriel)

Compreacutehension impossible (mauvaise organisation perte du contexte

ou de la documentation associeacutee)

Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)

Bonnes pratiques

Stockage et sauvegarde seacutecuriseacutee

Organisation adeacutequate

Documentation adeacutequate

39Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

40Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

Stockage adapteacute

Usages deacutesireacutes partage des donneacutees avec

partenaires internes ou externes stockage

sauvegarde ou publication

Caracteacuteristiques des donneacutees donneacutees

publiquesconfidentiellessecregravetes Quel

dommage causerait leur perte ou leur diffusion

Capaciteacutes

Tarifs

41Mathieu Saby - avrilmai 2016

Stockage adapteacute

42Mathieu Saby - avrilmai 2016

Supports de stockage Risques Avantages

Reacuteseau seacutecuriseacute (universiteacute

laboratoire)

Pannes de serveur erreur

humaine

seacutecuriteacute sauvegarde

automatique

Disque dur dordinateur

personnel ou professionnel

Pannes vol erreur

humaine

Cloud commercial dont cloud

proposeacute par lrsquouniversiteacute

(OneDrive)

Vol de mot de passe

Disparition des socieacuteteacutes

Cadre juridique parfois

flou

partage faciliteacute

synchronisation

automatique avec PC

Supports externes (cleacute USB

disque externe CDROM

DVDROM)

Deacuteteacuterioration des

supports perte vol

Sauvegarde meacutethodique

Mecircme en cas de stockage adapteacute neacutecessiteacute de

sauvegardes reacuteguliegraveres et freacutequentes

Utile pour se proteacuteger de ses propres erreurs

Ideacutealement 2 sauvegardes sur supports

diffeacuterents dont une stockeacutee physiquement agrave

distance (ex cloud + disque externe)

43Mathieu Saby - avrilmai 2016

Protection

Mots de passe fiables Agrave ne jamais partager

Eacuteviter les ordinateurs inconnus

Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles

Le cloud

Les transferts par courriel

44Mathieu Saby - avrilmai 2016

Cryptage

Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)

Veracrypt (Mac et PC) CryptSync (PC)

Cloud chiffreacute Tresorit Securesafe Synchcom

Spideroak

Attention aux effets secondaires du cryptage (perte

deacutefinitive des fichiershellip)

45Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 31: Gérer et diffuser ses données: principes et bonnes pratiques

Produire des donneacutees

Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees

accessible en ligne

31Mathieu Saby - avrilmai 2016

Produire des donneacutees

Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees

32Mathieu Saby - avrilmai 2016

MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)

Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111

Produire des donneacutees

33Mathieu Saby - avrilmai 2016

Formats de fichiers

Qui doit pouvoir les lire Pour combien de temps

Pour un usage agrave long terme privileacutegier des

formats ouverts

Utilisables librement et gratuitement

Bien documenteacutes

Non lieacutes agrave un logiciel speacutecifique

FACILE - Service de validation de formats du CINES

Formats conseilleacutes par Data Archive (UK)

Produire des donneacutees

Ex de formats agrave la peacuterenniteacute garantie

34Mathieu Saby - avrilmai 2016

(PDFA

uniquement)

Sert de cadre base agrave de tregraves

nombreux formats avec des

extensions diverses

POR

(Fichier SPSS

portable)

Produire des donneacutees

Ex de formats courants sans peacuterenniteacute garantie

35Mathieu Saby - avrilmai 2016

Fichiers proprieacutetaires SPSS

STATA SAS NVIVO Altasti etc

3 Stocker ses donneacutees en seacutecuriteacute

36Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

37Mathieu Saby - avrilmai 2016

Dapregraves vous quels risques pegravesent sur les

donneacutees pendant un projet

Des risques agrave eacutevaluer

38Mathieu Saby - avrilmai 2016

Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise

organisation erreur de manipulation)

Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)

Lecture impossible (obsolescence du format ou du mateacuteriel)

Compreacutehension impossible (mauvaise organisation perte du contexte

ou de la documentation associeacutee)

Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)

Bonnes pratiques

Stockage et sauvegarde seacutecuriseacutee

Organisation adeacutequate

Documentation adeacutequate

39Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

40Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

Stockage adapteacute

Usages deacutesireacutes partage des donneacutees avec

partenaires internes ou externes stockage

sauvegarde ou publication

Caracteacuteristiques des donneacutees donneacutees

publiquesconfidentiellessecregravetes Quel

dommage causerait leur perte ou leur diffusion

Capaciteacutes

Tarifs

41Mathieu Saby - avrilmai 2016

Stockage adapteacute

42Mathieu Saby - avrilmai 2016

Supports de stockage Risques Avantages

Reacuteseau seacutecuriseacute (universiteacute

laboratoire)

Pannes de serveur erreur

humaine

seacutecuriteacute sauvegarde

automatique

Disque dur dordinateur

personnel ou professionnel

Pannes vol erreur

humaine

Cloud commercial dont cloud

proposeacute par lrsquouniversiteacute

(OneDrive)

Vol de mot de passe

Disparition des socieacuteteacutes

Cadre juridique parfois

flou

partage faciliteacute

synchronisation

automatique avec PC

Supports externes (cleacute USB

disque externe CDROM

DVDROM)

Deacuteteacuterioration des

supports perte vol

Sauvegarde meacutethodique

Mecircme en cas de stockage adapteacute neacutecessiteacute de

sauvegardes reacuteguliegraveres et freacutequentes

Utile pour se proteacuteger de ses propres erreurs

Ideacutealement 2 sauvegardes sur supports

diffeacuterents dont une stockeacutee physiquement agrave

distance (ex cloud + disque externe)

43Mathieu Saby - avrilmai 2016

Protection

Mots de passe fiables Agrave ne jamais partager

Eacuteviter les ordinateurs inconnus

Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles

Le cloud

Les transferts par courriel

44Mathieu Saby - avrilmai 2016

Cryptage

Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)

Veracrypt (Mac et PC) CryptSync (PC)

Cloud chiffreacute Tresorit Securesafe Synchcom

Spideroak

Attention aux effets secondaires du cryptage (perte

deacutefinitive des fichiershellip)

45Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 32: Gérer et diffuser ses données: principes et bonnes pratiques

Produire des donneacutees

Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees

32Mathieu Saby - avrilmai 2016

MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)

Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111

Produire des donneacutees

33Mathieu Saby - avrilmai 2016

Formats de fichiers

Qui doit pouvoir les lire Pour combien de temps

Pour un usage agrave long terme privileacutegier des

formats ouverts

Utilisables librement et gratuitement

Bien documenteacutes

Non lieacutes agrave un logiciel speacutecifique

FACILE - Service de validation de formats du CINES

Formats conseilleacutes par Data Archive (UK)

Produire des donneacutees

Ex de formats agrave la peacuterenniteacute garantie

34Mathieu Saby - avrilmai 2016

(PDFA

uniquement)

Sert de cadre base agrave de tregraves

nombreux formats avec des

extensions diverses

POR

(Fichier SPSS

portable)

Produire des donneacutees

Ex de formats courants sans peacuterenniteacute garantie

35Mathieu Saby - avrilmai 2016

Fichiers proprieacutetaires SPSS

STATA SAS NVIVO Altasti etc

3 Stocker ses donneacutees en seacutecuriteacute

36Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

37Mathieu Saby - avrilmai 2016

Dapregraves vous quels risques pegravesent sur les

donneacutees pendant un projet

Des risques agrave eacutevaluer

38Mathieu Saby - avrilmai 2016

Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise

organisation erreur de manipulation)

Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)

Lecture impossible (obsolescence du format ou du mateacuteriel)

Compreacutehension impossible (mauvaise organisation perte du contexte

ou de la documentation associeacutee)

Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)

Bonnes pratiques

Stockage et sauvegarde seacutecuriseacutee

Organisation adeacutequate

Documentation adeacutequate

39Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

40Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

Stockage adapteacute

Usages deacutesireacutes partage des donneacutees avec

partenaires internes ou externes stockage

sauvegarde ou publication

Caracteacuteristiques des donneacutees donneacutees

publiquesconfidentiellessecregravetes Quel

dommage causerait leur perte ou leur diffusion

Capaciteacutes

Tarifs

41Mathieu Saby - avrilmai 2016

Stockage adapteacute

42Mathieu Saby - avrilmai 2016

Supports de stockage Risques Avantages

Reacuteseau seacutecuriseacute (universiteacute

laboratoire)

Pannes de serveur erreur

humaine

seacutecuriteacute sauvegarde

automatique

Disque dur dordinateur

personnel ou professionnel

Pannes vol erreur

humaine

Cloud commercial dont cloud

proposeacute par lrsquouniversiteacute

(OneDrive)

Vol de mot de passe

Disparition des socieacuteteacutes

Cadre juridique parfois

flou

partage faciliteacute

synchronisation

automatique avec PC

Supports externes (cleacute USB

disque externe CDROM

DVDROM)

Deacuteteacuterioration des

supports perte vol

Sauvegarde meacutethodique

Mecircme en cas de stockage adapteacute neacutecessiteacute de

sauvegardes reacuteguliegraveres et freacutequentes

Utile pour se proteacuteger de ses propres erreurs

Ideacutealement 2 sauvegardes sur supports

diffeacuterents dont une stockeacutee physiquement agrave

distance (ex cloud + disque externe)

43Mathieu Saby - avrilmai 2016

Protection

Mots de passe fiables Agrave ne jamais partager

Eacuteviter les ordinateurs inconnus

Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles

Le cloud

Les transferts par courriel

44Mathieu Saby - avrilmai 2016

Cryptage

Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)

Veracrypt (Mac et PC) CryptSync (PC)

Cloud chiffreacute Tresorit Securesafe Synchcom

Spideroak

Attention aux effets secondaires du cryptage (perte

deacutefinitive des fichiershellip)

45Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 33: Gérer et diffuser ses données: principes et bonnes pratiques

Produire des donneacutees

33Mathieu Saby - avrilmai 2016

Formats de fichiers

Qui doit pouvoir les lire Pour combien de temps

Pour un usage agrave long terme privileacutegier des

formats ouverts

Utilisables librement et gratuitement

Bien documenteacutes

Non lieacutes agrave un logiciel speacutecifique

FACILE - Service de validation de formats du CINES

Formats conseilleacutes par Data Archive (UK)

Produire des donneacutees

Ex de formats agrave la peacuterenniteacute garantie

34Mathieu Saby - avrilmai 2016

(PDFA

uniquement)

Sert de cadre base agrave de tregraves

nombreux formats avec des

extensions diverses

POR

(Fichier SPSS

portable)

Produire des donneacutees

Ex de formats courants sans peacuterenniteacute garantie

35Mathieu Saby - avrilmai 2016

Fichiers proprieacutetaires SPSS

STATA SAS NVIVO Altasti etc

3 Stocker ses donneacutees en seacutecuriteacute

36Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

37Mathieu Saby - avrilmai 2016

Dapregraves vous quels risques pegravesent sur les

donneacutees pendant un projet

Des risques agrave eacutevaluer

38Mathieu Saby - avrilmai 2016

Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise

organisation erreur de manipulation)

Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)

Lecture impossible (obsolescence du format ou du mateacuteriel)

Compreacutehension impossible (mauvaise organisation perte du contexte

ou de la documentation associeacutee)

Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)

Bonnes pratiques

Stockage et sauvegarde seacutecuriseacutee

Organisation adeacutequate

Documentation adeacutequate

39Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

40Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

Stockage adapteacute

Usages deacutesireacutes partage des donneacutees avec

partenaires internes ou externes stockage

sauvegarde ou publication

Caracteacuteristiques des donneacutees donneacutees

publiquesconfidentiellessecregravetes Quel

dommage causerait leur perte ou leur diffusion

Capaciteacutes

Tarifs

41Mathieu Saby - avrilmai 2016

Stockage adapteacute

42Mathieu Saby - avrilmai 2016

Supports de stockage Risques Avantages

Reacuteseau seacutecuriseacute (universiteacute

laboratoire)

Pannes de serveur erreur

humaine

seacutecuriteacute sauvegarde

automatique

Disque dur dordinateur

personnel ou professionnel

Pannes vol erreur

humaine

Cloud commercial dont cloud

proposeacute par lrsquouniversiteacute

(OneDrive)

Vol de mot de passe

Disparition des socieacuteteacutes

Cadre juridique parfois

flou

partage faciliteacute

synchronisation

automatique avec PC

Supports externes (cleacute USB

disque externe CDROM

DVDROM)

Deacuteteacuterioration des

supports perte vol

Sauvegarde meacutethodique

Mecircme en cas de stockage adapteacute neacutecessiteacute de

sauvegardes reacuteguliegraveres et freacutequentes

Utile pour se proteacuteger de ses propres erreurs

Ideacutealement 2 sauvegardes sur supports

diffeacuterents dont une stockeacutee physiquement agrave

distance (ex cloud + disque externe)

43Mathieu Saby - avrilmai 2016

Protection

Mots de passe fiables Agrave ne jamais partager

Eacuteviter les ordinateurs inconnus

Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles

Le cloud

Les transferts par courriel

44Mathieu Saby - avrilmai 2016

Cryptage

Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)

Veracrypt (Mac et PC) CryptSync (PC)

Cloud chiffreacute Tresorit Securesafe Synchcom

Spideroak

Attention aux effets secondaires du cryptage (perte

deacutefinitive des fichiershellip)

45Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 34: Gérer et diffuser ses données: principes et bonnes pratiques

Produire des donneacutees

Ex de formats agrave la peacuterenniteacute garantie

34Mathieu Saby - avrilmai 2016

(PDFA

uniquement)

Sert de cadre base agrave de tregraves

nombreux formats avec des

extensions diverses

POR

(Fichier SPSS

portable)

Produire des donneacutees

Ex de formats courants sans peacuterenniteacute garantie

35Mathieu Saby - avrilmai 2016

Fichiers proprieacutetaires SPSS

STATA SAS NVIVO Altasti etc

3 Stocker ses donneacutees en seacutecuriteacute

36Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

37Mathieu Saby - avrilmai 2016

Dapregraves vous quels risques pegravesent sur les

donneacutees pendant un projet

Des risques agrave eacutevaluer

38Mathieu Saby - avrilmai 2016

Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise

organisation erreur de manipulation)

Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)

Lecture impossible (obsolescence du format ou du mateacuteriel)

Compreacutehension impossible (mauvaise organisation perte du contexte

ou de la documentation associeacutee)

Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)

Bonnes pratiques

Stockage et sauvegarde seacutecuriseacutee

Organisation adeacutequate

Documentation adeacutequate

39Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

40Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

Stockage adapteacute

Usages deacutesireacutes partage des donneacutees avec

partenaires internes ou externes stockage

sauvegarde ou publication

Caracteacuteristiques des donneacutees donneacutees

publiquesconfidentiellessecregravetes Quel

dommage causerait leur perte ou leur diffusion

Capaciteacutes

Tarifs

41Mathieu Saby - avrilmai 2016

Stockage adapteacute

42Mathieu Saby - avrilmai 2016

Supports de stockage Risques Avantages

Reacuteseau seacutecuriseacute (universiteacute

laboratoire)

Pannes de serveur erreur

humaine

seacutecuriteacute sauvegarde

automatique

Disque dur dordinateur

personnel ou professionnel

Pannes vol erreur

humaine

Cloud commercial dont cloud

proposeacute par lrsquouniversiteacute

(OneDrive)

Vol de mot de passe

Disparition des socieacuteteacutes

Cadre juridique parfois

flou

partage faciliteacute

synchronisation

automatique avec PC

Supports externes (cleacute USB

disque externe CDROM

DVDROM)

Deacuteteacuterioration des

supports perte vol

Sauvegarde meacutethodique

Mecircme en cas de stockage adapteacute neacutecessiteacute de

sauvegardes reacuteguliegraveres et freacutequentes

Utile pour se proteacuteger de ses propres erreurs

Ideacutealement 2 sauvegardes sur supports

diffeacuterents dont une stockeacutee physiquement agrave

distance (ex cloud + disque externe)

43Mathieu Saby - avrilmai 2016

Protection

Mots de passe fiables Agrave ne jamais partager

Eacuteviter les ordinateurs inconnus

Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles

Le cloud

Les transferts par courriel

44Mathieu Saby - avrilmai 2016

Cryptage

Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)

Veracrypt (Mac et PC) CryptSync (PC)

Cloud chiffreacute Tresorit Securesafe Synchcom

Spideroak

Attention aux effets secondaires du cryptage (perte

deacutefinitive des fichiershellip)

45Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 35: Gérer et diffuser ses données: principes et bonnes pratiques

Produire des donneacutees

Ex de formats courants sans peacuterenniteacute garantie

35Mathieu Saby - avrilmai 2016

Fichiers proprieacutetaires SPSS

STATA SAS NVIVO Altasti etc

3 Stocker ses donneacutees en seacutecuriteacute

36Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

37Mathieu Saby - avrilmai 2016

Dapregraves vous quels risques pegravesent sur les

donneacutees pendant un projet

Des risques agrave eacutevaluer

38Mathieu Saby - avrilmai 2016

Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise

organisation erreur de manipulation)

Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)

Lecture impossible (obsolescence du format ou du mateacuteriel)

Compreacutehension impossible (mauvaise organisation perte du contexte

ou de la documentation associeacutee)

Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)

Bonnes pratiques

Stockage et sauvegarde seacutecuriseacutee

Organisation adeacutequate

Documentation adeacutequate

39Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

40Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

Stockage adapteacute

Usages deacutesireacutes partage des donneacutees avec

partenaires internes ou externes stockage

sauvegarde ou publication

Caracteacuteristiques des donneacutees donneacutees

publiquesconfidentiellessecregravetes Quel

dommage causerait leur perte ou leur diffusion

Capaciteacutes

Tarifs

41Mathieu Saby - avrilmai 2016

Stockage adapteacute

42Mathieu Saby - avrilmai 2016

Supports de stockage Risques Avantages

Reacuteseau seacutecuriseacute (universiteacute

laboratoire)

Pannes de serveur erreur

humaine

seacutecuriteacute sauvegarde

automatique

Disque dur dordinateur

personnel ou professionnel

Pannes vol erreur

humaine

Cloud commercial dont cloud

proposeacute par lrsquouniversiteacute

(OneDrive)

Vol de mot de passe

Disparition des socieacuteteacutes

Cadre juridique parfois

flou

partage faciliteacute

synchronisation

automatique avec PC

Supports externes (cleacute USB

disque externe CDROM

DVDROM)

Deacuteteacuterioration des

supports perte vol

Sauvegarde meacutethodique

Mecircme en cas de stockage adapteacute neacutecessiteacute de

sauvegardes reacuteguliegraveres et freacutequentes

Utile pour se proteacuteger de ses propres erreurs

Ideacutealement 2 sauvegardes sur supports

diffeacuterents dont une stockeacutee physiquement agrave

distance (ex cloud + disque externe)

43Mathieu Saby - avrilmai 2016

Protection

Mots de passe fiables Agrave ne jamais partager

Eacuteviter les ordinateurs inconnus

Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles

Le cloud

Les transferts par courriel

44Mathieu Saby - avrilmai 2016

Cryptage

Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)

Veracrypt (Mac et PC) CryptSync (PC)

Cloud chiffreacute Tresorit Securesafe Synchcom

Spideroak

Attention aux effets secondaires du cryptage (perte

deacutefinitive des fichiershellip)

45Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 36: Gérer et diffuser ses données: principes et bonnes pratiques

3 Stocker ses donneacutees en seacutecuriteacute

36Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

37Mathieu Saby - avrilmai 2016

Dapregraves vous quels risques pegravesent sur les

donneacutees pendant un projet

Des risques agrave eacutevaluer

38Mathieu Saby - avrilmai 2016

Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise

organisation erreur de manipulation)

Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)

Lecture impossible (obsolescence du format ou du mateacuteriel)

Compreacutehension impossible (mauvaise organisation perte du contexte

ou de la documentation associeacutee)

Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)

Bonnes pratiques

Stockage et sauvegarde seacutecuriseacutee

Organisation adeacutequate

Documentation adeacutequate

39Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

40Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

Stockage adapteacute

Usages deacutesireacutes partage des donneacutees avec

partenaires internes ou externes stockage

sauvegarde ou publication

Caracteacuteristiques des donneacutees donneacutees

publiquesconfidentiellessecregravetes Quel

dommage causerait leur perte ou leur diffusion

Capaciteacutes

Tarifs

41Mathieu Saby - avrilmai 2016

Stockage adapteacute

42Mathieu Saby - avrilmai 2016

Supports de stockage Risques Avantages

Reacuteseau seacutecuriseacute (universiteacute

laboratoire)

Pannes de serveur erreur

humaine

seacutecuriteacute sauvegarde

automatique

Disque dur dordinateur

personnel ou professionnel

Pannes vol erreur

humaine

Cloud commercial dont cloud

proposeacute par lrsquouniversiteacute

(OneDrive)

Vol de mot de passe

Disparition des socieacuteteacutes

Cadre juridique parfois

flou

partage faciliteacute

synchronisation

automatique avec PC

Supports externes (cleacute USB

disque externe CDROM

DVDROM)

Deacuteteacuterioration des

supports perte vol

Sauvegarde meacutethodique

Mecircme en cas de stockage adapteacute neacutecessiteacute de

sauvegardes reacuteguliegraveres et freacutequentes

Utile pour se proteacuteger de ses propres erreurs

Ideacutealement 2 sauvegardes sur supports

diffeacuterents dont une stockeacutee physiquement agrave

distance (ex cloud + disque externe)

43Mathieu Saby - avrilmai 2016

Protection

Mots de passe fiables Agrave ne jamais partager

Eacuteviter les ordinateurs inconnus

Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles

Le cloud

Les transferts par courriel

44Mathieu Saby - avrilmai 2016

Cryptage

Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)

Veracrypt (Mac et PC) CryptSync (PC)

Cloud chiffreacute Tresorit Securesafe Synchcom

Spideroak

Attention aux effets secondaires du cryptage (perte

deacutefinitive des fichiershellip)

45Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 37: Gérer et diffuser ses données: principes et bonnes pratiques

Des risques agrave eacutevaluer

37Mathieu Saby - avrilmai 2016

Dapregraves vous quels risques pegravesent sur les

donneacutees pendant un projet

Des risques agrave eacutevaluer

38Mathieu Saby - avrilmai 2016

Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise

organisation erreur de manipulation)

Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)

Lecture impossible (obsolescence du format ou du mateacuteriel)

Compreacutehension impossible (mauvaise organisation perte du contexte

ou de la documentation associeacutee)

Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)

Bonnes pratiques

Stockage et sauvegarde seacutecuriseacutee

Organisation adeacutequate

Documentation adeacutequate

39Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

40Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

Stockage adapteacute

Usages deacutesireacutes partage des donneacutees avec

partenaires internes ou externes stockage

sauvegarde ou publication

Caracteacuteristiques des donneacutees donneacutees

publiquesconfidentiellessecregravetes Quel

dommage causerait leur perte ou leur diffusion

Capaciteacutes

Tarifs

41Mathieu Saby - avrilmai 2016

Stockage adapteacute

42Mathieu Saby - avrilmai 2016

Supports de stockage Risques Avantages

Reacuteseau seacutecuriseacute (universiteacute

laboratoire)

Pannes de serveur erreur

humaine

seacutecuriteacute sauvegarde

automatique

Disque dur dordinateur

personnel ou professionnel

Pannes vol erreur

humaine

Cloud commercial dont cloud

proposeacute par lrsquouniversiteacute

(OneDrive)

Vol de mot de passe

Disparition des socieacuteteacutes

Cadre juridique parfois

flou

partage faciliteacute

synchronisation

automatique avec PC

Supports externes (cleacute USB

disque externe CDROM

DVDROM)

Deacuteteacuterioration des

supports perte vol

Sauvegarde meacutethodique

Mecircme en cas de stockage adapteacute neacutecessiteacute de

sauvegardes reacuteguliegraveres et freacutequentes

Utile pour se proteacuteger de ses propres erreurs

Ideacutealement 2 sauvegardes sur supports

diffeacuterents dont une stockeacutee physiquement agrave

distance (ex cloud + disque externe)

43Mathieu Saby - avrilmai 2016

Protection

Mots de passe fiables Agrave ne jamais partager

Eacuteviter les ordinateurs inconnus

Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles

Le cloud

Les transferts par courriel

44Mathieu Saby - avrilmai 2016

Cryptage

Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)

Veracrypt (Mac et PC) CryptSync (PC)

Cloud chiffreacute Tresorit Securesafe Synchcom

Spideroak

Attention aux effets secondaires du cryptage (perte

deacutefinitive des fichiershellip)

45Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 38: Gérer et diffuser ses données: principes et bonnes pratiques

Des risques agrave eacutevaluer

38Mathieu Saby - avrilmai 2016

Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise

organisation erreur de manipulation)

Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)

Lecture impossible (obsolescence du format ou du mateacuteriel)

Compreacutehension impossible (mauvaise organisation perte du contexte

ou de la documentation associeacutee)

Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)

Bonnes pratiques

Stockage et sauvegarde seacutecuriseacutee

Organisation adeacutequate

Documentation adeacutequate

39Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

40Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

Stockage adapteacute

Usages deacutesireacutes partage des donneacutees avec

partenaires internes ou externes stockage

sauvegarde ou publication

Caracteacuteristiques des donneacutees donneacutees

publiquesconfidentiellessecregravetes Quel

dommage causerait leur perte ou leur diffusion

Capaciteacutes

Tarifs

41Mathieu Saby - avrilmai 2016

Stockage adapteacute

42Mathieu Saby - avrilmai 2016

Supports de stockage Risques Avantages

Reacuteseau seacutecuriseacute (universiteacute

laboratoire)

Pannes de serveur erreur

humaine

seacutecuriteacute sauvegarde

automatique

Disque dur dordinateur

personnel ou professionnel

Pannes vol erreur

humaine

Cloud commercial dont cloud

proposeacute par lrsquouniversiteacute

(OneDrive)

Vol de mot de passe

Disparition des socieacuteteacutes

Cadre juridique parfois

flou

partage faciliteacute

synchronisation

automatique avec PC

Supports externes (cleacute USB

disque externe CDROM

DVDROM)

Deacuteteacuterioration des

supports perte vol

Sauvegarde meacutethodique

Mecircme en cas de stockage adapteacute neacutecessiteacute de

sauvegardes reacuteguliegraveres et freacutequentes

Utile pour se proteacuteger de ses propres erreurs

Ideacutealement 2 sauvegardes sur supports

diffeacuterents dont une stockeacutee physiquement agrave

distance (ex cloud + disque externe)

43Mathieu Saby - avrilmai 2016

Protection

Mots de passe fiables Agrave ne jamais partager

Eacuteviter les ordinateurs inconnus

Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles

Le cloud

Les transferts par courriel

44Mathieu Saby - avrilmai 2016

Cryptage

Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)

Veracrypt (Mac et PC) CryptSync (PC)

Cloud chiffreacute Tresorit Securesafe Synchcom

Spideroak

Attention aux effets secondaires du cryptage (perte

deacutefinitive des fichiershellip)

45Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 39: Gérer et diffuser ses données: principes et bonnes pratiques

Bonnes pratiques

Stockage et sauvegarde seacutecuriseacutee

Organisation adeacutequate

Documentation adeacutequate

39Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

40Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

Stockage adapteacute

Usages deacutesireacutes partage des donneacutees avec

partenaires internes ou externes stockage

sauvegarde ou publication

Caracteacuteristiques des donneacutees donneacutees

publiquesconfidentiellessecregravetes Quel

dommage causerait leur perte ou leur diffusion

Capaciteacutes

Tarifs

41Mathieu Saby - avrilmai 2016

Stockage adapteacute

42Mathieu Saby - avrilmai 2016

Supports de stockage Risques Avantages

Reacuteseau seacutecuriseacute (universiteacute

laboratoire)

Pannes de serveur erreur

humaine

seacutecuriteacute sauvegarde

automatique

Disque dur dordinateur

personnel ou professionnel

Pannes vol erreur

humaine

Cloud commercial dont cloud

proposeacute par lrsquouniversiteacute

(OneDrive)

Vol de mot de passe

Disparition des socieacuteteacutes

Cadre juridique parfois

flou

partage faciliteacute

synchronisation

automatique avec PC

Supports externes (cleacute USB

disque externe CDROM

DVDROM)

Deacuteteacuterioration des

supports perte vol

Sauvegarde meacutethodique

Mecircme en cas de stockage adapteacute neacutecessiteacute de

sauvegardes reacuteguliegraveres et freacutequentes

Utile pour se proteacuteger de ses propres erreurs

Ideacutealement 2 sauvegardes sur supports

diffeacuterents dont une stockeacutee physiquement agrave

distance (ex cloud + disque externe)

43Mathieu Saby - avrilmai 2016

Protection

Mots de passe fiables Agrave ne jamais partager

Eacuteviter les ordinateurs inconnus

Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles

Le cloud

Les transferts par courriel

44Mathieu Saby - avrilmai 2016

Cryptage

Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)

Veracrypt (Mac et PC) CryptSync (PC)

Cloud chiffreacute Tresorit Securesafe Synchcom

Spideroak

Attention aux effets secondaires du cryptage (perte

deacutefinitive des fichiershellip)

45Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 40: Gérer et diffuser ses données: principes et bonnes pratiques

Des risques agrave eacutevaluer

40Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

Stockage adapteacute

Usages deacutesireacutes partage des donneacutees avec

partenaires internes ou externes stockage

sauvegarde ou publication

Caracteacuteristiques des donneacutees donneacutees

publiquesconfidentiellessecregravetes Quel

dommage causerait leur perte ou leur diffusion

Capaciteacutes

Tarifs

41Mathieu Saby - avrilmai 2016

Stockage adapteacute

42Mathieu Saby - avrilmai 2016

Supports de stockage Risques Avantages

Reacuteseau seacutecuriseacute (universiteacute

laboratoire)

Pannes de serveur erreur

humaine

seacutecuriteacute sauvegarde

automatique

Disque dur dordinateur

personnel ou professionnel

Pannes vol erreur

humaine

Cloud commercial dont cloud

proposeacute par lrsquouniversiteacute

(OneDrive)

Vol de mot de passe

Disparition des socieacuteteacutes

Cadre juridique parfois

flou

partage faciliteacute

synchronisation

automatique avec PC

Supports externes (cleacute USB

disque externe CDROM

DVDROM)

Deacuteteacuterioration des

supports perte vol

Sauvegarde meacutethodique

Mecircme en cas de stockage adapteacute neacutecessiteacute de

sauvegardes reacuteguliegraveres et freacutequentes

Utile pour se proteacuteger de ses propres erreurs

Ideacutealement 2 sauvegardes sur supports

diffeacuterents dont une stockeacutee physiquement agrave

distance (ex cloud + disque externe)

43Mathieu Saby - avrilmai 2016

Protection

Mots de passe fiables Agrave ne jamais partager

Eacuteviter les ordinateurs inconnus

Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles

Le cloud

Les transferts par courriel

44Mathieu Saby - avrilmai 2016

Cryptage

Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)

Veracrypt (Mac et PC) CryptSync (PC)

Cloud chiffreacute Tresorit Securesafe Synchcom

Spideroak

Attention aux effets secondaires du cryptage (perte

deacutefinitive des fichiershellip)

45Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 41: Gérer et diffuser ses données: principes et bonnes pratiques

Stockage adapteacute

Usages deacutesireacutes partage des donneacutees avec

partenaires internes ou externes stockage

sauvegarde ou publication

Caracteacuteristiques des donneacutees donneacutees

publiquesconfidentiellessecregravetes Quel

dommage causerait leur perte ou leur diffusion

Capaciteacutes

Tarifs

41Mathieu Saby - avrilmai 2016

Stockage adapteacute

42Mathieu Saby - avrilmai 2016

Supports de stockage Risques Avantages

Reacuteseau seacutecuriseacute (universiteacute

laboratoire)

Pannes de serveur erreur

humaine

seacutecuriteacute sauvegarde

automatique

Disque dur dordinateur

personnel ou professionnel

Pannes vol erreur

humaine

Cloud commercial dont cloud

proposeacute par lrsquouniversiteacute

(OneDrive)

Vol de mot de passe

Disparition des socieacuteteacutes

Cadre juridique parfois

flou

partage faciliteacute

synchronisation

automatique avec PC

Supports externes (cleacute USB

disque externe CDROM

DVDROM)

Deacuteteacuterioration des

supports perte vol

Sauvegarde meacutethodique

Mecircme en cas de stockage adapteacute neacutecessiteacute de

sauvegardes reacuteguliegraveres et freacutequentes

Utile pour se proteacuteger de ses propres erreurs

Ideacutealement 2 sauvegardes sur supports

diffeacuterents dont une stockeacutee physiquement agrave

distance (ex cloud + disque externe)

43Mathieu Saby - avrilmai 2016

Protection

Mots de passe fiables Agrave ne jamais partager

Eacuteviter les ordinateurs inconnus

Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles

Le cloud

Les transferts par courriel

44Mathieu Saby - avrilmai 2016

Cryptage

Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)

Veracrypt (Mac et PC) CryptSync (PC)

Cloud chiffreacute Tresorit Securesafe Synchcom

Spideroak

Attention aux effets secondaires du cryptage (perte

deacutefinitive des fichiershellip)

45Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 42: Gérer et diffuser ses données: principes et bonnes pratiques

Stockage adapteacute

42Mathieu Saby - avrilmai 2016

Supports de stockage Risques Avantages

Reacuteseau seacutecuriseacute (universiteacute

laboratoire)

Pannes de serveur erreur

humaine

seacutecuriteacute sauvegarde

automatique

Disque dur dordinateur

personnel ou professionnel

Pannes vol erreur

humaine

Cloud commercial dont cloud

proposeacute par lrsquouniversiteacute

(OneDrive)

Vol de mot de passe

Disparition des socieacuteteacutes

Cadre juridique parfois

flou

partage faciliteacute

synchronisation

automatique avec PC

Supports externes (cleacute USB

disque externe CDROM

DVDROM)

Deacuteteacuterioration des

supports perte vol

Sauvegarde meacutethodique

Mecircme en cas de stockage adapteacute neacutecessiteacute de

sauvegardes reacuteguliegraveres et freacutequentes

Utile pour se proteacuteger de ses propres erreurs

Ideacutealement 2 sauvegardes sur supports

diffeacuterents dont une stockeacutee physiquement agrave

distance (ex cloud + disque externe)

43Mathieu Saby - avrilmai 2016

Protection

Mots de passe fiables Agrave ne jamais partager

Eacuteviter les ordinateurs inconnus

Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles

Le cloud

Les transferts par courriel

44Mathieu Saby - avrilmai 2016

Cryptage

Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)

Veracrypt (Mac et PC) CryptSync (PC)

Cloud chiffreacute Tresorit Securesafe Synchcom

Spideroak

Attention aux effets secondaires du cryptage (perte

deacutefinitive des fichiershellip)

45Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 43: Gérer et diffuser ses données: principes et bonnes pratiques

Sauvegarde meacutethodique

Mecircme en cas de stockage adapteacute neacutecessiteacute de

sauvegardes reacuteguliegraveres et freacutequentes

Utile pour se proteacuteger de ses propres erreurs

Ideacutealement 2 sauvegardes sur supports

diffeacuterents dont une stockeacutee physiquement agrave

distance (ex cloud + disque externe)

43Mathieu Saby - avrilmai 2016

Protection

Mots de passe fiables Agrave ne jamais partager

Eacuteviter les ordinateurs inconnus

Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles

Le cloud

Les transferts par courriel

44Mathieu Saby - avrilmai 2016

Cryptage

Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)

Veracrypt (Mac et PC) CryptSync (PC)

Cloud chiffreacute Tresorit Securesafe Synchcom

Spideroak

Attention aux effets secondaires du cryptage (perte

deacutefinitive des fichiershellip)

45Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 44: Gérer et diffuser ses données: principes et bonnes pratiques

Protection

Mots de passe fiables Agrave ne jamais partager

Eacuteviter les ordinateurs inconnus

Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles

Le cloud

Les transferts par courriel

44Mathieu Saby - avrilmai 2016

Cryptage

Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)

Veracrypt (Mac et PC) CryptSync (PC)

Cloud chiffreacute Tresorit Securesafe Synchcom

Spideroak

Attention aux effets secondaires du cryptage (perte

deacutefinitive des fichiershellip)

45Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 45: Gérer et diffuser ses données: principes et bonnes pratiques

Cryptage

Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)

Veracrypt (Mac et PC) CryptSync (PC)

Cloud chiffreacute Tresorit Securesafe Synchcom

Spideroak

Attention aux effets secondaires du cryptage (perte

deacutefinitive des fichiershellip)

45Mathieu Saby - avrilmai 2016

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 46: Gérer et diffuser ses données: principes et bonnes pratiques

Des risques agrave eacutevaluer

46Mathieu Saby - avrilmai 2016

Ougrave stockez-vous vos donneacutees Quels

avantages et inconveacutenients des diffeacuterentes

solutions

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 47: Gérer et diffuser ses données: principes et bonnes pratiques

4 Organiser ses donneacutees

47Mathieu Saby - avrilmai 2016

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 48: Gérer et diffuser ses données: principes et bonnes pratiques

Les principes

48Mathieu Saby - avrilmai 2016

Adopter des regravegles

Les expliciter

Les appliquer

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 49: Gérer et diffuser ses données: principes et bonnes pratiques

Organiser sa documentation

49Mathieu Saby - avrilmai 2016

Utiliser Zotero ou un autre un gestionnaire de

reacutefeacuterences pour sa bibliographie et ses sources

Ex httpwwwboiteaoutilsinfo201211gerer-la-

documentation-ii-une-approcha

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 50: Gérer et diffuser ses données: principes et bonnes pratiques

Organiser ses dossiers

50Mathieu Saby - avrilmai 2016

Organisation hieacuterarchique

Isoler et ne pas retoucher les donneacutees brutes

Pour faciliter

Lexploitation des informations

Les sauvegardes

Le partage

Larchivage apregraves le projet

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 51: Gérer et diffuser ses données: principes et bonnes pratiques

Organiser ses dossiers

51Mathieu Saby - avrilmai 2016

Projet01

Administratif

Planification

Subventions

Reunions

Budget

Rapports

Ethique_Droit

CNIL

Consentements

Methodes Etat_de_l_art Donnees

Enquetes Experiences

DonneesBrutes

Analyse

Resultats

Publications

Communications Articles

2015-Art01

2016-Art02

These

Ch1

Ch2

Exemple fictif

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 52: Gérer et diffuser ses données: principes et bonnes pratiques

Organiser ses dossiers

52Mathieu Saby - avrilmai 2016

Plusieurs options

Type de mateacuteriel (donneacutees publications

documents administratifs gestion de projethellip)

Activiteacute de recherche (eacutetat de lrsquoart enquecircte

questionnairehellip)

Diffeacuterents jeux de donneacutees

Eacutetapes de traitement des donneacutees

Eacutetape du projet

Chronologie

Geacuteographie

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 53: Gérer et diffuser ses données: principes et bonnes pratiques

Nommer et versionner ses fichiers

53Mathieu Saby - avrilmai 2016

Garantir la lecture sur diffeacuterentes machines

Noms relativement brefs

Pas de caractegraveres speacuteciaux ni accentueacutes

Pas drsquoespaces ni de ponctuation

Utiliser azA-Z0-9_-

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 54: Gérer et diffuser ses données: principes et bonnes pratiques

Nommer et versionner ses fichiers

54Mathieu Saby - avrilmai 2016

Noms uniques coheacuterents et informatifs

Exemple ensembles de fichiers fictifs

2012-03-07_SujetA_Audiomp3

2012-03-07_SujetA_Transcription-brutdocx

2012-03-07_SujetA_Transcription-reludocx

2012-03-07_SujetA_Transcription-anonymedocx

2012-04-22_SujetB_Audiomp3

2012-04-22_SujetB_Transcription-brutdocx

Grille-entretiendocx

Analyse_v01docx

Analyse_v02docx

Readmetxt

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 55: Gérer et diffuser ses données: principes et bonnes pratiques

Nommer et versionner ses fichiers

55Mathieu Saby - avrilmai 2016

Eleacutements de construction possibles

Sujet

Type de donneacutees (questionnaire testhellip)

Variable mesureacutee

Date etou heure

Numeacuterotation (saisir des 0 initiaux pour les tris)

Etat de traitement des donneacutees

Numeacutero ou nom drsquoinstrument

Versions (v012 v034hellip et laquo FINAL raquo pour le

document valideacute pour diffusion)

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 56: Gérer et diffuser ses données: principes et bonnes pratiques

Quelques outils pratiques

56Mathieu Saby - avrilmai 2016

Renommer en masse des fichiers Bulk Rename Utility

(Windows) Advanced Renamer (Windows) Automator (Mac)hellip

Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml

Comparer des fichiers WinMerge

Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 57: Gérer et diffuser ses données: principes et bonnes pratiques

Organiser les donneacutees au sein drsquoun fichier

57Mathieu Saby - avrilmai 2016

Quel sont les problegravemes dans ce fichier

Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-

data

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 58: Gérer et diffuser ses données: principes et bonnes pratiques

5 Documenter ses donneacutees

58Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 59: Gérer et diffuser ses données: principes et bonnes pratiques

Des questions agrave anticiper

59Mathieu Saby - avrilmai 2016

Objectif(s)

Utilisation pendant le projet

Reacuteutilisation et la reacuteplicabiliteacute

Diffusion et larchivage

Public(s) viseacute(s)

Chercheurs membres du projet

Chercheurs speacutecialistes

Autres chercheurs

Etudiants

Autre public

Ordinateur

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 60: Gérer et diffuser ses données: principes et bonnes pratiques

Diffeacuterents niveaux de documentation

60Mathieu Saby - avrilmai 2016

Garder une trace

De leur signification

De leur contexte de creacuteation

Des traitements et analyses effectueacutees

Quel niveau

Ensemble des donneacutees du projet

Chaque jeu de donneacutees

Variables dun jeu de donneacutees

Informations minimales ou explications

deacutetailleacutees

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 61: Gérer et diffuser ses données: principes et bonnes pratiques

Pratiques variables selon les disciplines

61Mathieu Saby - avrilmai 2016

Quel type de documentation serait neacutecessaire

pour reacuteutiliser vos donneacutees

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 62: Gérer et diffuser ses données: principes et bonnes pratiques

Pratiques variables selon les disciplines

62Mathieu Saby - avrilmai 2016

Documents geacuteneacuterauxProtocoles meacutethodes

Documents administratifs

Recueil des donneacutees

Carnets de laboratoire carnets de terrain

Consentement des participants

Questionnaire grille drsquoentretien

Traitement et analyse des donneacutees

Fichier readme

Instructions de codage des reacuteponses (codebook)

Dictionnaires de donneacutees

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 63: Gérer et diffuser ses données: principes et bonnes pratiques

Pratiques variables selon les disciplines

63Mathieu Saby - avrilmai 2016

Ex documents exigeacutes pour deacuteposer une

enquecircte qualitative en SHS dans BeQuali

httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 64: Gérer et diffuser ses données: principes et bonnes pratiques

Redocumenter les donneacutees a posteriori

64Mathieu Saby - avrilmai 2016

Parfois neacutecessaire pour faciliter leur

compreacutehension

Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par

BeQuali

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 65: Gérer et diffuser ses données: principes et bonnes pratiques

Une bonne pratique simple

65Mathieu Saby - avrilmai 2016

Fichier texte readmetxt Pour lensemble du projet

Pour chaque fichier ou ensemble de fichiers

Informations sur les regravegles de nommage et dorganisation

le contenu dun ensemble de fichiers

le contenu dun fichier (entecirctes des colonneshellip)

les logiciels ou codes informatiques neacutecessaires

pour les lire

preacutecautions agrave prendre pour la reacuteutilisation

la personne agrave contacter pour plus dinformations

Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell

Ex reacuteel httpszenodoorgrecord49583

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 66: Gérer et diffuser ses données: principes et bonnes pratiques

Preacuteparer la creacuteation de meacutetadonneacutees

66Mathieu Saby - avrilmai 2016

Meacutetadonneacutee information structureacutee et

lisible informatiquement portant sur une

ressource quelconque (numeacuterique ou

physique)

En geacuteneacuteral creacuteeacutees par des archivistes des

documentalistes ou des logiciels

Souvent agrave partir dinformations conserveacutees

sous forme moins structureacutee

Ex Guide du deacuteposant du reacuteseau Queacutetelet

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 67: Gérer et diffuser ses données: principes et bonnes pratiques

Preacuteparer la creacuteation de meacutetadonneacutees

67Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148

Date de publication

Numeacutero drsquoidentificationType de document

Mode drsquoaccegraves

Deacuteposant

Licence

Cateacutegories

Liens agrave des

publications

TitreAuteur

Meacutetadonneacutees sur chaque fichier

Nom date taille

Description

Pour les humainshellip

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 68: Gérer et diffuser ses données: principes et bonnes pratiques

Preacuteparer la creacuteation de meacutetadonneacutees

68Mathieu Saby - avrilmai 2016

httpszenodoorgrecord48148exportxd

Pour les machineshellip

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 69: Gérer et diffuser ses données: principes et bonnes pratiques

Preacuteparer la creacuteation de meacutetadonneacutees

69Mathieu Saby - avrilmai 2016

Un scheacutema de meacutetadonneacutees simple mais

tregraves utiliseacute Dublin Core (15 eacuteleacutements)

De nombreux scheacutemas speacutecialiseacutes parfois

utiliseacutes en compleacutement

Version enrichie du Dublin Core

Data Documentation Initiative (DDI) surtout en

sciences sociales

Propres agrave un type de document (images sons

videacuteos) une discipline etc

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 70: Gérer et diffuser ses données: principes et bonnes pratiques

6 Enjeux juridiques et eacutethiques

70Mathieu Saby - avrilmai 2016

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 71: Gérer et diffuser ses données: principes et bonnes pratiques

Le statut des donneacutees de la recherche

71Mathieu Saby - avrilmai 2016

Qui est proprieacutetaire des donneacutees

Peut-on les vendre controcircler leur utilisation

Peut-on reacuteutiliser les donneacutees produites par

dautres A quelles conditions

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 72: Gérer et diffuser ses données: principes et bonnes pratiques

Le statut des donneacutees de la recherche

72Mathieu Saby - avrilmai 2016

Analyse parfois deacutelicate Pas de regravegle juridique

unique applicable aux donneacutees en geacuteneacuteral

Ex que peut-on faire de ces donneacutees Quels

principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)

httpscriminocorpusorgfr (DROITS en pied de page)

httpdxdoiorg107910DVN28674 (onglet TERMS)

httpclapiish-lyoncnrsfr (Conditions dutilisation)

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 73: Gérer et diffuser ses données: principes et bonnes pratiques

Le statut des donneacutees de la recherche

73Mathieu Saby - avrilmai 2016

Questions agrave poser avant de reacuteutiliser traiter

creacuteer diffuser tout document donneacutee ou

information protection par la proprieacuteteacute intellectuelle

protection particuliegraveres pour certaines donneacutees

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 74: Gérer et diffuser ses données: principes et bonnes pratiques

Seacutecuriser les usages par une licence

En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement

complexes ou demandant une protection speacuteciale

Licence CC (Creative Commons) Outil pour choisir une licence CC

Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)

laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale

en absence de droit dauteur clair sur les donneacutees

Autres licences OBDL Licence Ouverte etc

Pour les logiciels GPLv3 MIT BSD CeCILL

74Mathieu Saby - avrilmai 2016

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 75: Gérer et diffuser ses données: principes et bonnes pratiques

Les principaux cas de figure (tregraves simplifieacute)

75Mathieu Saby - avrilmai 2016

Pas de protection par la

proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation libre

Protection par la proprieacuteteacute intellectuelle

Diffusion et reacuteutilisation limiteacutes (par deacutefaut)

Protection particuliegravere

notamment pour des

donneacutees concernant

Ideacutees faits donneacutees brutes sauf si

beacuteneacuteficient dune protection particuliegravere

Oeuvres entreacutees dans le domaine public

Informations publiques (issues de documents

produits ou reccedilus par ladministration) sauf

documents soumis agrave la PI ou informations

beacuteneacuteficiant dune protection particuliegravere

Oeuvres non entreacutees dans le

domaine public (textes images

sons videacuteos logiciels etc)

Bases de donneacutees (recueil

doeuvres de donneacutees ou dautres

eacuteleacutements indeacutependants disposeacutes de

maniegravere systeacutematique ou meacutethodique

et individuellement accessibles par

des moyens eacutelectroniques ou par tout

autre moyen)

droit sui generis des bases de

donneacutees

+

droit dauteur sur la base elle-mecircme

+

droit dauteur sur ses eacuteleacutements

La vie priveacutee de personnes

physiques

Le secret statistique

Les secrets commerciaux ou

industriels

Les inteacuterecircts de lEtat

Respecter

le droit moral pour les oeuvres entreacutees dans le

domaine public

leacutequivalent du droit moral pour les

informations publiques

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits

dauteurs et eacuteventuels droits

voisins

Autorisation requise (et

eacuteventuellement reacutemuneacuteration)

des deacutetenteurs des les droits dauteurs

et droits voisins sur les oeuvres

incluses de la base

des deacutetenteurs des droits dauteurs sur

la structure de la base

du producteur de la base (sil fait

jouer son droit) sauf pour une

extraction non substantielle

Proceacutedures speacutecifiques

Deacuteclaration agrave la CNIL ou au CIL

Demande dautorisation agrave la CNIL

Organismes speacutecifiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 76: Gérer et diffuser ses données: principes et bonnes pratiques

Les principaux cas de figure

76Mathieu Saby - avrilmai 2016

Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0006069414

Code des relations entre le public et ladministration (livre III)

httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00

0031366350

Loi 1978-17 Informatique et liberteacute

httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0

00000886460

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 77: Gérer et diffuser ses données: principes et bonnes pratiques

Le traitement des donneacutees personnelles

Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une

personne physique directement ou indirectement

Protection renforceacutee pour les donneacutees

sensibles ou agrave risque

Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation

modification utilisation communication

interconnexionhellip

Les traitements doivent ecirctre deacuteclareacutees agrave la

CNIL et doivent parfois ecirctre autoriseacutes

explicitement

77Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 78: Gérer et diffuser ses données: principes et bonnes pratiques

Le traitement des donneacutees personnelles

78Mathieu Saby - avrilmai 2016

Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime

Collecte loyale et licite

Donneacutees adeacutequates agrave la finaliteacute

Limiter la conservation des donneacutees

Seacutecuriser les donneacutees

Respecter les droits des personnes consentement

accegraves rectification opposition

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 79: Gérer et diffuser ses données: principes et bonnes pratiques

Le traitement des donneacutees personnelles

Conseil pratique pour limiter les formaliteacutes ne

pas recueillir plus de donneacutees personnelles qursquoil

nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non

acircge preacutecishellip

79Mathieu Saby - avrilmai 2016

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 80: Gérer et diffuser ses données: principes et bonnes pratiques

Le traitement des donneacutees personnelles

80Mathieu Saby - avrilmai 2016

Pour en savoir plus interlocuteur local et

intermeacutediaire entre le chercheur et la CNIL le

Correspondant Informatique et liberteacutes de

lrsquouniversiteacute

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 81: Gérer et diffuser ses données: principes et bonnes pratiques

Un droit en eacutevolution

81Mathieu Saby - avrilmai 2016

Principe reacutecent (2013) la recherche a pour

mission laquo Lorganisation de laccegraves libre aux

donneacutees scientifiques raquo (Code de la recherche article L112‐1)

Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des

dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de

financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit

speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur

leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre

laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la

recherche rendues publiques dans le cadre de sa publication

laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee

non eacutecrite raquo

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 82: Gérer et diffuser ses données: principes et bonnes pratiques

Un droit en eacutevolution

82Mathieu Saby - avrilmai 2016

Vers une autorisation de la fouille de texte et de

donneacutees (Text and data mining) Forte demande des chercheurs

Gouvernement opposeacute

Assembleacutee nationale favorable

Seacutenat favorable mais de maniegravere plus limiteacute

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 83: Gérer et diffuser ses données: principes et bonnes pratiques

Enjeux eacutethiques

83Mathieu Saby - avrilmai 2016

Quels risques la collecte le traitement etou

la diffusion des donneacutees font peser sur

les personnes

les entreprises

le patrimoine

lenvironnement

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 84: Gérer et diffuser ses données: principes et bonnes pratiques

Enjeux eacutethiques

84Mathieu Saby - avrilmai 2016

La diffusion des donneacutees nuit-elle aux

relations entre le chercheur et les participants

agrave ses recherches

La reacuteutilisation des donneacutees dun autre

chercheur est-elle un pillage ou un hommage

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 85: Gérer et diffuser ses données: principes et bonnes pratiques

Enjeux eacutethiques

85Mathieu Saby - avrilmai 2016

Certaines donneacutees ne seront jamais partageacutees

Mais des solutions existent pour contourner les

obstacles

recueil de consentements

suppression des informations sensibles

anonymisation

limitation du public

accegraves restreint voire environnement controcircleacute

licences restrictives

embargo

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 86: Gérer et diffuser ses données: principes et bonnes pratiques

7 Partager et diffuser ses donneacutees

86Mathieu Saby - avrilmai 2016

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 87: Gérer et diffuser ses données: principes et bonnes pratiques

Des questions agrave anticiper

Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires

87Mathieu Saby - avrilmai 2016

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 88: Gérer et diffuser ses données: principes et bonnes pratiques

Comment et ougrave diffuser ses donneacutees

88Mathieu Saby - avrilmai 2016

Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c

Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie

Site du projet Ex Navigocorpus

Entrepocirct de donneacutees (preacutefeacuterable)

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 89: Gérer et diffuser ses données: principes et bonnes pratiques

Les entrepocircts de donneacutees

Plus de 1500 sur le registre Re3data

Critegraveres de choix essentiels dun entrepocirct

Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )

Type et taille des fichiers accepteacutes

Nature des meacutetadonneacutees autoriseacutees

Possibiliteacute de versionner les fichiers

Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)

Possibiliteacute drsquoaccegraves restreint ou drsquoembargo

Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct

Certification

Prix

89Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 90: Gérer et diffuser ses données: principes et bonnes pratiques

Les entrepocircts de donneacutees

Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes

Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)

Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)

Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)

Zenodo (public lieacute au CERN)

90Mathieu Saby - avrilmai 2016

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 91: Gérer et diffuser ses données: principes et bonnes pratiques

Les entrepocircts de donneacutees exemple dutilisation

91Mathieu Saby - avrilmai 2016

Fichier son

httpshalarchives-ouvertesfrmedihal-01242449

Thegravese

Etude analyse et modeacutelisation physique de la

production de la parole avec applications aux

troubles lieacutes agrave une surditeacute profonde

httpstelarchives-ouvertesfrtel-01269639

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 92: Gérer et diffuser ses données: principes et bonnes pratiques

Les entrepocircts de donneacutees exemple dutilisation

92Mathieu Saby - avrilmai 2016

Fichier de donneacutees

httpszenodoorgrecord29239

Thegravese

Identification des indices acoustiques utiliseacutes

lors de la compreacutehension de la parole deacutegradeacutee

p 183-5

httpstelarchives-ouvertesfrtel-01266326

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 93: Gérer et diffuser ses données: principes et bonnes pratiques

Citer et ecirctre citer

93Mathieu Saby - avrilmai 2016

Bonnes pratiques Citer les donneacutees comme tout autre document (dans

le corps du texte et en note)

Citer eacutegalement les publications associeacutees aux donneacutees

Donner les informations neacutecessaires pour permettre la

citation de ses donneacutees

Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur

identifiant peacuterenne

Lrsquoattribution agrave leurs auteurs rarr nom des auteurs

Une lecture par des machines rarr identifiant peacuterenne

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 94: Gérer et diffuser ses données: principes et bonnes pratiques

Citer et ecirctre citer

94Mathieu Saby - avrilmai 2016

Reacuteflexion internationale en cours Consortium DataCite

Joint Declaration of Data Citation Principles

Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut

varier selon les exigences des revues et des disciplines

Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees

Version (facultatif) Type de ressource (facultatif)

Identifiant

Un outil utile pour formater les citations (de donneacutees et

de publications) httpcrossciteorgciteproc

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 95: Gérer et diffuser ses données: principes et bonnes pratiques

Deacutecrire ses donneacutees dans un data paper

95Mathieu Saby - avrilmai 2016

Pour faciliter leur reacuteutilisation

Publication dans une revue scientifique ordinaire

Ou dans un Data journal publiant des articles

scientifiques (revus par les pairs) deacutecrivant des

jeux de donneacutees geacuteneacuteraliste

Scientific Data

Research Ideas and Outcomes

displinaire Journal of open archeology data

Journal of Open Psychology Data

Journal of open humanities data

Research Data Journal for the Humanities and Social Sciences

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 96: Gérer et diffuser ses données: principes et bonnes pratiques

8 Stocker et archiver apregraves le projet

96Mathieu Saby - avrilmai 2016

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 97: Gérer et diffuser ses données: principes et bonnes pratiques

Une probleacutematique speacutecifique

Les entrepocircts de donneacutees ne reacutesolvent pas tous

les problegravemes

Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees

dans un entrepocirct de donneacutees

Sauf exception les entrepocircts de donneacutees ne

garantissent pas un archivage durable des donneacutees

On diffuse donc dans un entrepocirct une copie des

donneacutees en sauvegardant lrsquooriginal ailleurs

97Mathieu Saby - avrilmai 2016

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 98: Gérer et diffuser ses données: principes et bonnes pratiques

Des choix agrave faire

98Mathieu Saby - avrilmai 2016

Quelles donneacutees conserver

A minima les donneacutees sur lesquelles se fondent les

analyses preacutesenteacutees dans les publications ou la

thegravese

Eventuellement dautres donneacutees (non exploiteacutees

complegravetement dans les publications)

Dans quelle version (brutes traiteacutees

analyseacutees anonymiseacuteeshellip)

Dans quel format

Pour combien de temps

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 99: Gérer et diffuser ses données: principes et bonnes pratiques

Du stockage agrave lrsquoarchivage peacuterenne

Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme

Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)

Lisibiliteacute des fichiers garantie long terme Migrations de formats

Eacutemulations

Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte

99Mathieu Saby - avrilmai 2016

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 100: Gérer et diffuser ses données: principes et bonnes pratiques

Du stockage agrave lrsquoarchivage peacuterenne

Lrsquoarchivage peacuterenne Est assureacute par des professionnels

Peut ecirctre complexe et coucircteux agrave organiser

Ne concerne pas forceacutement toutes les donneacutees

Doit ecirctre anticipeacute

100Mathieu Saby - avrilmai 2016

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 101: Gérer et diffuser ses données: principes et bonnes pratiques

Deux outils drsquoHumanum Nakala et Nakalona

Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage

peacuterenne exposition de meacutetadonneacutees mais pas

drsquointerface)

Nakalona (Nakala+interface de consultation)

Exemple drsquoutilisation Les archives du Centre Franco-

Eacutegyptien drsquoEacutetude des Temples de Karnak

Beacuteneacuteficiaires projets importants en SHS (collaboratifs)

Pas pour les donneacutees drsquoune thegravese ordinaire

101Mathieu Saby - avrilmai 2016

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 102: Gérer et diffuser ses données: principes et bonnes pratiques

Lrsquoarchivage peacuterenne

Mission du CINES

Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL

Donneacutees de projets importants en SHS par

lrsquointermeacutediaire drsquoHumanum httpwwwhuma-

numfrservices-et-outilsarchiver

Donneacutees de grandes enquecirctes qualitatives BeQuali

httpbequalifr

102Mathieu Saby - avrilmai 2016

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 103: Gérer et diffuser ses données: principes et bonnes pratiques

Contacts sur la gestion des donneacutees

Formations URFIST de Nice

Conseils et accompagnement Bibliothegraveque

universitaire (donnees-scdunicefr)

Donneacutees personnelles Correspondant

informatique et liberteacute

103Mathieu Saby - avrilmai 2016

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg

Page 104: Gérer et diffuser ses données: principes et bonnes pratiques

Creacutedits

104Mathieu Saby - avrilmai 2016

Icocircnes par Freepik disponibles sur wwwflaticoncom

Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur

httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg