dh ehess : kinsources, généalogie et recherche collaborative
DESCRIPTION
Lors de la séance du 5 février 2014 du séminaire Digital Humanities, nous avons proposé une discussion sur la plateforme collaborative Kinsources, un outil de recherche en anthropologie qui permet de stocker, partager, analyser et comparer ses bases de données sur la parenté. Dans les slides la présentation par Pascal Cristofoli.TRANSCRIPT
Projet Kinsources Sources de la parenté
Création d’une plateforme ouverte de stockage et d’analyse de données de parenté
à
usage scientifique
Séminaire «Digital Humanities. Les transformations numériques du rapport aux savoirs»
Séance du 5 février 2014, EHESS, Paris
Olivier Kyburz
(LESC, Univ. Paris Ouest Nanterre), P. Cristofoli
(LaDéHiS–
CRH EHESS),
A. Garcia‐Fernandez (LAS, CNRS), C. Grange (CRM, Univ. Paris IV), K. Hamberger, (LAS, EHESS).
RÉSUME DE LA PROPOSITION DE PROJET
L’objectif
du
projet
est
la
mise
en
place
d’une
plateforme
ouverte
et
interactive
pour
le
partage
et
l’analyse
des
données
de
parenté
(généalogiques,
terminologiques
et
résidentielles)
utilisées
dans
la
recherche
scientifique,
notamment
en
anthropologie,
en
histoire et en démographie.
Associant les fonctionnalités d’une archive de sources avec celle d’une boîte à
outils mettant
à la
disposition
des
chercheurs
les
logiciels
les
plus
avancés
pour
leur
traitement,
cette
plateforme
s’inscrit
dans
une
perspective
de
recherche
qui
vise
à comprendre
l’interaction
entre généalogie, terminologie et espace dans l’émergence des structures de parenté.
Hébergée par le TGE Adonis, la plateforme garantira à la fois la sécurisation et le libre accès
à des
données
dont
le
caractère
scientifique
est
validé
par
la
communauté
des
chercheurs,
tout en permettant aux auteurs et aux développeurs de compléter leurs données et de faire
évoluer les services web intégrés.
Avec l’ambition de réunir, à moyen terme, une grande part des données de parenté
utilisées
dans
la
recherche
scientifique
internationale,
cette
plateforme
constituera
un
moyen
important
et
inédit
pour
fournir
aux
études
de
la
parenté
une
base
empirique
solide
et
un
instrumentaire analytique intégré.
Points abordés: 1. Le projet Kinsources
2. Le logiciel Puck 3. Archiver et publier des données scientifiques
4. Susciter l’adhésion: Une plateforme collaborative reposant sur les contributeurs
5. La plateforme Kinsources.net 6. Questions
Le projet Kinsources
ANR Corpus "Kinsources" ‐
Groupe Kintip: Traitement informatique de la parenté
Développement du logiciel d’analyse de la parenté
Puck
‐Center for Social Anthropology and Computing
(University of Kent), Michael D. Fischer
Première version du site d’archivage de corpus
1 : Laboratoire d’ethnologie et de sociologie comparative
(UMR 7186 CNRS‐Université
Paris Ouest Nanterre)
Olivier Kyburz
(coordinateur du projet)
2 : Laboratoire d’Anthropologie Sociale
(UMR 7130 EHESS‐CNRS‐Collège de France) , Klaus Hamberger, Anne
Garcia‐Fernandez (coordination développement informatique)
3 : Laboratoire de démographie et d’histoire sociale
(LaDéHiS
–
CRH UMR 8558 CNRS‐EHESS), Pascal Cristofoli
4 : Centre Roland Mousnier
(UMR 8596 Paris IV‐CNRS), Cyril Grange
Partenaires :
Puck Program for the use and computation of kinship
data
•
Hamberger
and Daillant
(2008), «
L’analyse de réseaux de parenté. Concepts et outils
», Annales de Démographie Historique
116, 13‐52
•
Hamberger, Houseman
et Grange (2009), « La parenté
radiographiée
: un nouveau logiciel pour le traitement et l’analyse des structures
matrimoniales
», L’Homme
191, 107‐137
•
Hamberger, Houseman
et White (2011), «
Kinship
Network Analysis
», In Carrington, Peter and J. Scott (dir.) The Sage Handbook
of Social Network
Analysis, London, Sage Publications, 533‐549
Manuel Puck 2.0 : http://www.kintip.net/component/docman/doc_download/75‐puck‐manual‐20
Individus
Familles
Modèle de relations:PARRAINS
Modèle de relations:TRANSACTIONS
16
Etudier les réseaux de parenté
avec Puck‐
Parcourir et explorer un corpus de parenté
‐
Analyser les tendances et les biais du corpus (diagnostic)
‐
Repérer des cycles et les compter (recensement matrimonial)
‐
Contextualiser
un réseau de parenté
‐
Simuler des réseaux de parenté
Etudier la population et ses relations
•
Se servir de la parenté
comme structure de fond.–
recenser les circuits observés quand la relation de clôture n’est plus
un mariage, mais un autre type de relation (ex: transaction)
–
recenser les circuits observés entre individus ayant des ancêtres partageant des caractéristiques communes (ex: même village)
Transaction
Même village
Mariage
Ancêtres
Passer des individus
aux groupes: les réseaux
d’alliance
Réseaux
généalogiques Réseaux
d’alliance
BouclesMariages
endogames
Circuits dyadiques
Renchainements
Archiver et publier des données scientifiques
Open sources
/ Open data•
Utilisation et création d’outils libres–
Sites et logiciels
•
Publication de «données ouvertes»–
Assurer leur pérennité
–
Protéger les «auteurs»
des corpus–
Enjeux du référencement des corpus
•
Démarche scientifique–
Fiabilité
des données
–
Exigences techniques–
Reproductibilité
des analyses
–
Vérification des résultats
Archiver des données scientifiques•
Des «
données numériques
»
≠
•
Des «
données de recherche
»(Anthropologie, Ethnologie, Histoire, Démographie)•
Des données généalogiques au sens large–
Généalogies (filiations et alliances)
–
Donnés associées:Données terminologiques et géographiesDonnées «
sociales
»
(liens et affiliations)
•
Types d’échantillonnages:–
Corpus généalogiques de «
communautés
»
–
Généalogies patrilinéaires–
Prosopographies
Fonction patrimoniale•
Mise à disposition de données–
Nombreux corpus réalisés avec de l’argent public
•
Nombreux corpus en perdition–
Départ de leurs auteurs, pas de conservation
–
Des outils, des formats, logiciels non pérennes –
Pas de problématique générale de sauvegarde des
données de la recherche.
•
Diffusion auprès de la communauté
scientifique–
Apparaitre comme une solution viable et simple de
pérennisation de corpus–
Devenir acteur identifié
par la communauté
pour la
diffusion des données de la recherche
Fonction scientifique•
Reproductibilité
des analyses
•
Approfondissement des analyses
•
Comparaison de corpus
•
Ouverture vers–
d’autres analyses
–
d’autres champs de recherche
–
d’autres problématiques et données (terminologies de parenté, données spatiales)
•
Point de départ pour des recherches
•
Interroger la parenté
à
partir d’autres données
•
Commutativité
des informations
Créer des dispositifs techniques au service de la publication
•
Un endroit pour sauvegarder des corpus–
Dispositif pérenne
–
Dispositif sécurisé–
Dispositif permettant un dépôt individuel
•
Un lieu pour publier des corpus–
Validation Collective
–
Une référence unique pour un corpus•
Un lieu pour comparer les corpus
•
Respect des règles de diffusions:–
Licences libres
–
Gestion de l’anonymat–
Barrières mobiles
« Publier » un corpus•
Idée que la publication de corpus scientifique est un
travail à part entière (souvent ingrat)–
Qualité
du corpus, métadonnées, etc.
–
On utilise le corpus, mais on ne fait pas l’effort supplémentaire permettant sa publication et la ré‐utilisation
par des tiers.•
Idée de donner à la publication de corpus le statut de
publication à part entière.–
Edition de source ou description d’enquête
–
Validation scientifique–
Garantir la cohérence « interne » du corpus
–
Identification du corpus et de ses « auteurs »–
Garantir une documentation minimum
–
Valorisation de la publication vis‐à‐vis des institutions–
Statut de «
publication électronique
»
d’un corpus?
Susciter l’adhésion: Une plateforme collaborative reposant sur les contributeurs
Stratégies pour augmenter les dépôts•
Incitation au dépôt individuel de corpus
•
Atteindre une masse critique par l’exemple–
Qualité
des corpus déjà
archivés
–
Célébrité
de certains corpus
–
Diversité
des corpus susceptibles d’être intégrés
–
Utilité
et apports des outils associés
•
Susciter de nouvelles contributions:–
Recensement des corpus pouvant être concernés
–
Corpus existants à sauvegarder (transformations de formats)
–
Initiatives de codages de corpus par le projet Kinsources•
Codage de corpus peut être long
•
Nécessités d’avoir une politique générale
Diffusion : effet Boule de Neige•
Rechercher des contributions et des contributeurs–
Atteindre une «masse critique»
de corpus (effet d’aubaine)
–
Bouche à
oreille–
Présences de corpus «éligibles»
dans l’entourage des
membres du projet–
Repérage des corpus existants
–
Priorité
aux corpus publiés ou déjà
saisis–
Actions de diffusion•
Appels dans des revues, sur listes de diffusion
•
Journées d’études, manifestations scientifique•
Sensibilisation des acteurs de la recherche: établissements, centres
de recherche, Enseignants/chercheurs, Étudiants–
Mise en place et entretien d’un réseau de contributeurs‐
utilisateurs•
Flux RSS, lettre d’information, et liste de diffusion
•
Référencement
« Stratégies de corpus » par Labos
•
Possibilité
technique de distinguer des «collections»
de corpus (cf. HAL) :
•
Notamment les collections des laboratoires partenaires•
Collections thématiques
•
Politique de corpus des laboratoires partenairesChaque laboratoire organise sa politique d’acquisition et de publication autour
d’un
ou
plusieurs
axes
(notamment
régionaux),
dans
le
but
d’optimiser l’effet de «masse critique»
pour attirer des communautés de chercheurs
–
Communautés juives en Europe moderne (CRM)–
Histoire moderne française, prosopographies (LaDeHiS)
–
Corpus démographiques (LaDeHiS/INED/CRM)–
Monde amérindien (LAS)
–
Sahel et Océan Indien (LESC)
Interroger la parenté…–
Données spatiales: géocodage/géoréférencement des données de parenté
–
Données terminologiques : manipulation et étude des terminologies de parenté.
–
Réseaux sociaux et des données relationnelles associées aux données de parenté
–
Question de la qualité
des généalogies qui sont souvent des outils de légitimation.
–
Etude des groupes sociaux (noblesses, bourgeoisie, etc.)
–
Prosopographies: Données de parenté
réunies à partir de l’observation d’un groupe social particulier,
croisement avec d’autres types de données (carrières professionnelles, résidentielles)
–
Données démographiques et sociales:Bases de données démographiques (démographie historique): actes d’état civil,
registres paroissiaux, et procédure de reconstitution des familles
–
Données économiques: Transmission de patrimoines, filiations d’offices, etc.
La plateforme Kinsources.net
La plateforme Kinsources: https://www.kinsources.net
‐Informations sur le projet:
[email protected]‐Suggestions et commentaires sur le site:
‐Version 1, 22 Novembre 2013‐Version 2, fin mars 2014
Développement: A. Garcia‐Fernandez (LAS),
C. Momon (Devinsy), A. Martial (design) et
collaboration avec Peter Withers pour
l’intégration du logiciel KinOath
Déposer un corpus sur la plateforme
You want to store or share your kinship data?As an open source repository hosted by a public platform, Kinsources offers
you:
Secure storage of your kinship dataFlexible sharing (you decide which contents will be accessible to whom)A permanent link that can serve as publication reference for
your dataset
Control and validation of your dataset by a scientific boardAutomatic statistical analysis of your datasetExportation of your dataset in multiple formats (Gedcom, Pajek, Puck, Excel…)
Le comité scientifique de la plateformeRôle: Composé
d’experts internationaux en anthropologie, histoire et réseaux sociaux, il a
pour fonction de valider la publication des corpus de données en vérifiant notamment si les
corpus soumis pour publication sont cohérents, s’ils satisfont aux critères de la recherche
scientifique (documentation suffisante) et s’ils respectent les lois en vigueur concernant la
vie privée.
Composition :
Vladimir Bategelj, University of LubljanaPascal Cristofoli, Ecole des Hautes Etudes en Sciences Sociales, ParisIsabelle Daillant, Centre National de Recherche Scientifique, ParisMichael Fischer, University of Kent at CanterburyCyril Grange, Centre National de Recherche Scientifique, ParisKlaus Hamberger, Ecole des Hautes Etudes en Sciences Sociales, ParisMichael Houseman, Ecole Pratique des Hautes Etudes, ParisOlivier Kyburz, University of Paris West –
Nanterre
Dwight Read, University of California at Los AngelesJames Rose, University of MelbourneMichael Schnegg, University of HamburgMarcio Ferreira da Silva, University of Sao PaoloDouglas R. White, University of California at Irvine
Développement: Société Devinsy
La programmation de la plateforme
(V1, novembre 2013):●
Développement:
‐
52 000 lignes de code Java, 279 classes Java
‐
5 800 lignes de code HTML, 101 fichiers HTML
‐
durée : 170 jours (en cours)●
Modules techniques :
gestion de comptes, suivi d'activité, webmaster, base de données…●
Modules de communications :
Gestion de contenu éditorial, forums, flux RSS…●
Modules métiers :
gestion de corpus : télé‐versement, exploration, recherchegestion de demandes de publication de corpus Kinsources.
Société
DEVINSY (créée en 2007):
Société
de service en informatique libre,
Recherche & développement : 50 %●
Écrire des logiciels libres
●
Utiliser des formats ouverts (OpenDocumentFormat...)●
Utiliser des outils libres (GNU/Linux, Eclipse, LibreOffice, Gimp…)
●
Choisir des licences libres (GNU Public License, CeCILL, Creative Commons…)
Fonctionnalités du site (1/3)•
Soumission de corpus par un utilisateur–
Téléverser un corpus au format gedcom, tip, pajek...
–
Le renseigner (auteur, description courte, licence...)–
Autoriser ou non sa mise en ligne
•
Procédure de validation des soumissions–
Automatique
: cohérence du corpus lors du dépôt
utilisation de fonctions pré‐existantes dans Puck–
Scientifique
: avis d’un comité
scientifique avant la
publication du corpus
•
Export des données–
Télécharger un ou plusieurs corpus (pour y travailler sur
sa propre machine)
Fonctionnalités du site (2/3)•
Gestion d'utilisateurs, de groupes d'utilisateurs et
de droits–
Droit de soumettre un corpus, de voir certains corpus...
mais pas d'autres, d'administrer le site...
•
Collection de corpus–
Regrouper des corpus (pour une étude particulière par
exemple)
•
Recherche multi‐critères–
Parmi les méta‐données des corpus
–
Parmi les données des corpus–
Recherche avancée utilisant des fonctions pré‐existantes
dans Puck et KinOath
Fonctionnalités du site (3/3)•
Navigation dans les corpus•
Selon différentes vues
•
Fil d'actualités–
Compatible avec les lecteurs de flux classiques
•
Aide utilisateur–
Pages d'aide textuelles et visuelles pour accompagner les
utilisateurs dans leurs soumissions, recherches...
•
Design et aspect général–
Un visuel simple, un site «
user‐friendly
»
•
Site multilingue
Contraintes techniques à intégrer•
Interopérabilité–
Du site avec les logiciels classiques en parenté
(Puck et
KinOath)–
Des méta‐données avec les formats de référence
•
Validité–
Selon les normes W3C
•
Sécurité•
Ouverture du code du site–
Sources libres (licence Cecill)
Déposer un corpus: Métadonnées et statistiquesMéta‐données des corpus:Name (nom du corpus) ; Author (for citation) ; Coder ; Contact ;
Description ; Short
description ; Atlas code ; Bibliography ; Citation (How to cite in publication) ; Collection note(circumstances, sources, etc.) ; Location (maximal precision) ; Country ; Region ; Continent ;
Ethnic or cultural group ; Geographic coordinate (Latitude/Longitude of centre) ; History
Conditions of use and license ; Other repositories ; Period (from/to) ; Period note ; Coverage:
; Radius from center (km) ; Reference
Statistiques des corpus (Count and percents):Individuals/Unions/Relations/Generations:
‐
Individuals
; Men ; Women ; Unknown ; Non single men ; Non single women ; Mean spouse
of men ; Mean spouse of women ; Co‐husband_relations ; Co‐wife_relations ; ‐
Unions ;
Marriages ; Marriages density ; Fertile marriages ; Parent child ties ; Filiation
density ; First cousin marriages ; Cross (first) cousin marriages ; Parallel (first) cousin
marriages ; Niece/Nephew marriages ; Levirate marriages ; Sororate marriages ; Double or
exchange marriages ; Double marriages ; Exchange marriages ; Mean children per fertile
couple ; ‐
Depth ;
Depth mean ; Agnatic fratry size mean ; Uterine fratry size mean ;
‐Components ;
Mean components share (agnatic) ; Mean components share (uterine) ; Max
components (agnatic) ; Max components (uterine)
Formats :
Formats :
Formats :
Formats :
Recherche ou naviguation dans les corpus
Quelques questions
•
Publication d’un corpus = publication ?
•
Questions des auteurs / codeurs / contributeurs
•
Question des droits
•
Partager «
ses
»
données ?
•
Différence dépôt / publication
•
Données scientifiques ?
•
Comment motiver les dépôts