25 ans - chu de rouen · 2020. 2. 7. · moteur de recherche sémantique 4 février 2020 romain...
TRANSCRIPT
Moteur de Recherche Sémantique
4 février 2020
Romain LELONG, PhD
Centre Hospitalier Universitaire de Rouen & LIMICS, INSERM U1142
25 ans
EDSaN : Entrepôt de Données de Santé Normand
ECMT
EDSaN
Annotateur sémantique Serveur
Terminologique/Ontologique
Apport sémantique
EDSaN : Entrepôt de Données de Santé Normand
ECMT
EDSaN
Annotateur sémantique Serveur
Terminologique/Ontologique
Apport sémantique
Moteur de recherche sémantique
Langage de requête spécifique
Interface utilisateur
Problématique : Des données cibles variées
Imagerie
Prescription
Urgence
Médicaments
Textes cliniques
PMSI
Biologie
Chimio
HEO
Pharma
UrQual
CDP CPage
Chimio
DxLab
RIS
PACS
…
Info Patient
Données issues de divers
spécialités médicales
Produites par des sous-systèmes
différents
Pour répondre à des besoins différents
Et donc, un modèle conceptuel de données « complexe »
Texte clinique
Patient
Diagnostic Sejour
Biologie
Concept
Acte
Unité médicale
CIM10
CCAM
14 282 055
16 975 490
121 129 957
10 422 444
8 931 601
Données complexes et
interconnectées
1 928 913
Données Volumineuse
Formats de donnée
différents
Un moteur de recherche muni d’un langage de requête logique
Texte clinique
Patient
Diagnostic Sejour
Biologie
Concept
Acte
Unité médicale
CIM10
CCAM
SEJOURS( PATIENTS(PATIENTS.SEXE="1") ET DIAGNOSTICS( T_DESC_ICD10_CATEGORY [EXPL="DOWN"] {IND_PMSI}(id=“ICD_CA_J45")) ET EDS_ANA[FILTERS="IND_EDS_ANA_EDS_TYPE_ANA#EDS_BIO_GAZSATU"](EDS_ANA.RES<=90))
Langage orienté entité
Permettant l’exploitation de
l’apport sémantique
Syntaxe définie, validée et
implémentée à l’aide d’une Grammaire
formelle
1ère étape : Définition des contraintes
2ème étape : Agrégation des contraintes en requête
3ème étape : Choix de l’entité de sortie
Etude : Objectif et Méthode
Méthode
36 critères d’inclusion 59 critères
d’exclusion
Evaluer la capacité du système à répondre à 95 critères issus de 5 études cliniques du CHU de Rouen.
Étude exploratoire : évaluer les « forces et faiblesses » du système.
Lelong Romain; Soualmia, Lina F; Grosjean, Julien; Taalba, Mehdi & Darmoni, SJ. Building a Semantic Health Data Warehouse in the Context of Clinical Trials: Development and Usability Study, JMIR Medical Informatics 2019 Dec 20;7(4):e13917. doi: 10.2196/13917.
Objectif
Etude : Méthodologie
Méthodologie
Observation empirique de trois propriétés :
Niveau de prise en charge du
critère
Les sources d’informations
ciblées
Les limitations observées
Données patients
Données PMSI
Données de séjours
Données biologique
Textes cliniques
Informations externes
Aucune
Données inconsistantes
Recherche imprécise
Limitation technique
Critère subjectif/générique
Communication
Total
Précis
Partiel
Imprécis
Inopérant
Non-Applicable (N/A)
Etude : Résultat (Niveau de prise en charge)
Etude : Résultat (Sources d’information utilisées)
Patient
PMSI
Séjours, Unités, …
Biologie
Textes cliniques
Info externes
Source taux pourcentage
Textes cliniques 37/95 38,95%
PMSI 36/95 37,89%
Info externes 26/95 27,36%
Biologie 14/95 14,73%
Séjours 8/95 8,42%
Patient 7/95 3,37%
Résultat : Mise en correspondance des trois propriétés
…
Perspectives : 2020 – 202n
Analyse de la PME Alicante :
Nécessité de deux serveurs puissants pour CHU Rouen : 120 K€ matériel
Si volonté d’être utilisé en CH :
Migration du paradigme « langage formel » vers une application « modulaire » (Labo, médicaments, PSMI, …) + intégration avec Doc’EDS
Moteur sémantique Module Sejour Module
Diag
Module Patient
Module Acte
Module CR
Migration
Conclusion
Adaptabilité aux cas d’usages : Langage de requête vs. formulaires « figés ».
Exhaustivité : Possibilité d’atteindre et de rechercher n’importe quelle élément d’information du modèle conceptuel de donné.
Globalement de bon temps de réponse.
Syntaxe complexe du Langage de requête (nécessité de connaître le model conceptuel de donnée pour formuler des requêtes)
Architecture matériel requise lourde (Serveur de 144 cœur + 1 To de RAM)
Les textes cliniques restent :
Une source d’information majeure;
Une limitation majeure en terme de recherche d’information.
Thèse d’informatique de l’Université Rouen Normandie, LITIS : Romain Lelong. Accès sémantique aux données massives et hétérogènes en santé. Juin, 2019
Merci pour votre attention
Des questions ?
25 ans