une base de données de mammographies

20
Une base de données de mammographies Omar Boussaïd Riadh Ben Messaoud Laboratoire ERIC – Université de Lyon 2 5, avenue Pierre Mendès–France 69676, Bron Cedex – France http://eric.univ-lyon2.fr

Upload: varian

Post on 25-Feb-2016

77 views

Category:

Documents


5 download

DESCRIPTION

Une base de données de mammographies. Omar Boussaïd Riadh Ben Messaoud. Laboratoire ERIC – Université de Lyon 2 5, avenue Pierre Mendès–France 69676, Bron Cedex – France http://eric.univ-lyon2.fr. Présentation. DDSM : Digital Database for Screening Mammography - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Une base de données de mammographies

Une base de données de mammographiesOmar Boussaïd Riadh Ben Messaoud

Laboratoire ERIC – Université de Lyon 25, avenue Pierre Mendès–France69676, Bron Cedex – Francehttp://eric.univ-lyon2.fr

Page 2: Une base de données de mammographies

Présentation DDSM : Digital Database for Screening

Mammography

Un projet supporté par «the Breast Cancer Research Program of the U.S. Army Medical Research and Materiel Command»

Partenaires : Massachusetts General Hospital University of South Florida Sandia National Laboratories Washington University School of Medicine Wake Forest University School of Medicine

Page 3: Une base de données de mammographies

Objectifs Mettre des données de mammographies à la

disposition de la communauté scientifique.

Contribuer au développement d’algorithmes d’aide à la décision et d’apprentissage dans le domaine médical.

diagnostique et détection automatique de cas cancéreux

La base est disponible à l’adresse :http://marathon.csee.usf.edu/Mammography/Database.html

Page 4: Une base de données de mammographies

Description La base contient 2 604 dossiers de patients.

Un dossier est composé de : 1 fichier .ics décrivant en format ASCII, les informations

générales d’un dossier de patient. 4 fichiers images .LJPEG (LOSSLESS JPEG) des radios

numérisées. Chaque radio présente une angle de vue du sein : Left_CC,

Left_MLO, Right_CC, Right_MLO (CC: Cranio-Caudal ; MLO: Medio-Latral Oblique).

Pour chaque radio présentant une ou des zones anormales, est associé un fichier .OVERLAY en format ASCII, décrivant une anomalie du sein.

1 fichier image .16_PGM regroupant les 4 radios et présentant un aperçu rapide pour la visualisation d’un dossier de patient.

Page 5: Une base de données de mammographies

Description Le fichier .ics (Exemple : B-3024-1.ics)

ics_version 1.0filename B-3024-1 DATE_OF_STUDY 2 7 1995PATIENT_AGE 42 FILM FILM_TYPE REGULAR DENSITY 4 DATE_DIGITIZED 7 22 1997 DIGITIZER LUMISYS SELECTED LEFT_CC LINES 4696 PIXELS_PER_LINE 3024 BITS_PER_PIXEL 12 RESOLUTION 50 NON-OVERLAY LEFT_MLO LINES 4688 PIXELS_PER_LINE 3048 BITS_PER_PIXEL 12 RESOLUTION 50 OVERLAY RIGHT_CC LINES 4624 PIXELS_PER_LINE 3056 BITS_PER_PIXEL 12 RESOLUTION 50 NON-OVERLAY RIGHT_MLO LINES 4664 PIXELS_PER_LINE 3120 BITS_PER_PIXEL 12 RESOLUTION 50 OVERLAY

Anomalie détectée dans la radio B_3024_1.RIGHT_MLO.LJPEG B_3024_1.RIGHT_MLO.OVERLAY

Page 6: Une base de données de mammographies

DescriptionLe fichier B_3024_1.RIGHT_MLO.LJPEG

Page 7: Une base de données de mammographies

DescriptionLe fichier B_3024_1.RIGHT_MLO.OVERLAY

Chain code value 0 1 2 3 4 5 6 7

X Coordinate 0 1 1 1 0 -1 -1 -1

Y coordinate -1 -1 0 1 1 1 0 -1

TOTAL_ABNORMALITIES 1ABNORMALITY 1 LESION_TYPE MASS SHAPE OVAL MARGINS ILL_DEFINEDASSESSMENT 4 SUBTLETY 3 PATHOLOGY MALIGNANTTOTAL_OUTLINES 1 BOUNDARY 1284 4076 0 0 0 0 0 0 0 0 . . . 6 6 6 6 0 0 #

X

Y77 00 11

66 XX 22

55 44 33

Page 8: Une base de données de mammographies

Description Les dossiers sont disponibles sur un compte FTP

Les dossiers de patients sont classés selon 4 volumes Normal Cancer Benign Benign without callback

Bilan quantitatif et volumétrie : 43 volumes 2 604 fichiers .ics 2 604 fichiers .16_PGM 10 416 fichiers images .LJPEG 4 636 fichiers .OVERLAY

Volume total des données : 230,9 Go 230,9 Go

Page 9: Une base de données de mammographies

Extraction des données Applicatif de mise à disposition des données

de la base DDSM

Récupération des données sous forme :

Structurée : Base relationnelle (MySql)Base relationnelle (MySql)Semi-structurée : Documents XMLDocuments XMLScript : SQLSQL

http://eric.univ-lyon2.fr/~gt-fdc/mammo/

Page 10: Une base de données de mammographies

Parseur PHP Entrées :

Volumes des dossiers à extraire Format des données de sortie (MySQL, XML, SQL)

Page 11: Une base de données de mammographies

Parseur PHP Étape 1 :

Connexion au compte FTP ftp://figment.csee.usf.edu/pub/DDSM/cases/

Ouverture des fichiers .ics et .OVERLAY dans les volumes sélectionnés

Page 12: Une base de données de mammographies

ics_version 1.0filename B-3024-1 DATE_OF_STUDY 2 7 1995PATIENT_AGE 42 FILM FILM_TYPE REGULAR DENSITY 4 DATE_DIGITIZED 7 22 1997 DIGITIZER LUMISYS SELECTED LEFT_CC LINES 4696 PIXELS_PER_LINE 3024 BITS_PER_PIXEL 12 RESOLUTION 50 NON-OVERLAY LEFT_MLO LINES 4688 PIXELS_PER_LINE 3048 BITS_PER_PIXEL 12 RESOLUTION 50 OVERLAY RIGHT_CC LINES 4624 PIXELS_PER_LINE 3056 BITS_PER_PIXEL 12 RESOLUTION 50 NON-OVERLAY RIGHT_MLO LINES 4664 PIXELS_PER_LINE 3120 BITS_PER_PIXEL 12 RESOLUTION 50 OVERLAY

Parseur PHP Étape 2 :

Lecture des fichier .ics et .OVERLAY Extraction des données selon des fonctions de

reconnaissance de caractères

Page 13: Une base de données de mammographies

Parseur PHP Étape 3 :

Écriture des données extraites dans le format de données sélectionné (MySQL, XML, SQL)

FTP

MySQL

XML

SQL

Parseur PHP

Page 14: Une base de données de mammographies

Structure de la base MySQL

•2604 enregistrements•490 Ko

•10416 enregistrements•1,67 Mo

•4636 enregistrements•972 Ko

•4647 enregistrements•14 Mo

Taille totale de la base : 17,2 Mo

Page 15: Une base de données de mammographies

Extraction des données

FTP

MySQL

XML

SQL

Parseur PHP

Page 16: Une base de données de mammographies

Structure du fichier XML<?xml version="1.0" encoding="ISO-8859-1" ?> <cases> <case> <case_id> 1 </case_id>   <case_type> benign </case_type>   <ics_version> 1.0 </ics_version>   <ics_file_name> A-1123-1.ics </ics_file_name> … <sequence> sequence </sequence> <left_cc> … </left_cc> <left_mlo>  … </left_mlo> <right_cc> … </right_cc> <right_mlo> …   </right_mlo> </case></cases>

Page 17: Une base de données de mammographies

Extraction des données

FTP

MySQL

XML

SQL

Parseur PHP

Page 18: Une base de données de mammographies

Structure du fichier SQL Création d’une table :

CREATE TABLE IF NOT EXISTS table_mammo ( case_id int(10) NOT NULL AUTO_INCREMENT, case_type varchar(25), ics_version char(3), ics_file_name varchar(50), . . . PRIMARY KEY (case_id));

Insertion des données dans la table :

INSERT INTO table_mammo VALUES ('', 'benign', '1.0', 'C-0029-1.ics', . . . );INSERT INTO table_mammo VALUES ('', 'benign', '1.0', 'C-0029-2.ics', . . . );

Page 19: Une base de données de mammographies

Conclusion DDSM : une base de données complexes

2 604 dossiers de patientsUn volume total de 230,9 Go

Applicatif de mise à disposition des données sur les mammographies :

Sélectionner les données à récupérer pour des analyses ciblées

Page 20: Une base de données de mammographies

Nouvelle adresse du site du GT FDC

http://eric.univ-lyon2.fr/~gt-fdc/