vers l'olap sémantique pour l'analyse en ligne des données … · 2014-10-04 · m4 m5...

47
Vers l'OLAP sémantique pour l'analyse en ligne des données complexes Sabine Loudcher Habilitation à Diriger des Recherches Laboratoire ERIC, IUT Lumière Université Lyon 2 29 juin 2011

Upload: others

Post on 14-Jul-2020

7 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

Vers l'OLAP sémantique pour l'analyse en

ligne des données complexes

Sabine Loudcher

Habilitation à Diriger des Recherches

Laboratoire ERIC, IUT Lumière

Université Lyon 2

29 juin 2011

Page 2: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

Parcours

Diplômes Carrière universitaire

• 1992 : DESS de Statistique et

Informatique Socio-Economiques,

Université Lyon 2

• 1994-1996 : Doctorant avec une bourse

de docteur-ingénieur du CNRS,

Université Lyon 1

• 1994 : DEA d’Ingénierie Informatique,

Université Lyon 1 – INSA

• 1996 : Doctorat d’Informatique,

Université Lyon 1, laboratoire MASS

(URA 934 CNRS - Lyon 1),

Pr D.A. ZIGHED (directeur de thèse)

• 1996-1998 : ATER, Université Lyon 3

• Depuis 1998 : Maître de Conférences à

l'Université Lyon 2 (IUT Lumière,

laboratoire ERIC)

Parcours Enseignement Responsabilités Recherche

Statistique Informatique

2

Page 3: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

Parcours

Enseignement

Responsabilités

Recherche

Parcours Enseignement Responsabilités Recherche3

Page 4: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

Parcours

Enseignement

Responsabilités

Recherche

4

Page 5: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

Enseignement

1998

2011

Vacataire,

doctorant,

Maître de

conférences

1992

1998doctorant,

ATER

Probabilités

Algorithmique et programmation

Bases de données et tableur

Analyse de données

Apprentissage automatique

800 heures

Statistique

Data Mining

Systèmes d'information décisionnels

Logiciels statistiques

Méthodologie de rédaction de mémoire

250 à 300 heures par an

DUT

Licence professionnelle

Master 1ère année

Master recherche et professionnel 2ème année

Multidimensional Data Analysis

Parcours Enseignement Responsabilités Recherche5

Page 6: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

Encadrement pédagogique

2011

Maître de

conférences

1992

1998

Encadrement d’étudiants en stage

en entrepriseEtudiants en alternance

Accompagnement en entreprise

Tuteur enseignant

Encadrement de projets pédagogiques

Parcours Enseignement Responsabilités Recherche6

Page 7: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

Parcours

Enseignement

Responsabilités

Recherche

7

Page 8: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

Implication universitaire

Responsabilités pédagogiques, administratives et institutionnelles

Chef du département STID

1998 2003 2011

Chargée de mission pour la direction de l’IUT

Commission de spécialistes, groupe d’experts, jurys d’IGE

Directeur adjoint du laboratoire ERIC

Parcours Enseignement Responsabilités Recherche8

Page 9: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

Chef du département STID (1998-2002)

• Définition des orientations stratégiques et pédagogiques du diplôme

• Mise en place d’une pédagogie de l’alternance efficace et adaptée

Création puis direction du département STID

Parcours Enseignement Responsabilités Recherche

• Relations avec les milieux professionnels et les partenaires institutionnels

• Réflexion sur les débouchés de la formation

• Première évaluation quadriennale

• Gestion financière et administrative du département

9

Page 10: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

Chargée de mission pour l’IUT (2003-2010)

• Responsable du projet «Observatoire Etudiants » – Mise en place du projet

– Conception en ligne de tableaux de bord sur le recrutement, la formation et le devenir des étudiants

– Encadrement de l’équipe de développement

• Pilotage des enquêtes sur l’insertion professionnelle des apprentis dans l’enseignement supérieur de la région Rhône-Alpes

Parcours Enseignement Responsabilités Recherche

• Pilotage des enquêtes sur l’insertion professionnelle des apprentis dans l’enseignement supérieur de la région Rhône-Alpes– Collaboration étroite avec le comité régional Forma-Sup de l’apprentissage et les

rectorats

– Expertise statistique

– Encadrement de l’équipe de développement

• Représentation de l’université Lyon 2 dans les instances régionales pilotant l’apprentissage dans l’enseignement supérieur– Conseil d’Administration du CFA Forma-Sup ARL

– Comité régional Forma-Sup

10

Page 11: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

Directeur adjoint du laboratoire (2003-)

• Depuis 2003, sous la direction de Nicolas Nicoloyannis puis de Djamel Zighed

• Gestion financière (élaboration et suivi du budget)

• Gestion des ressources humaines

• Communication (site Web, plaquettes, …)• Communication (site Web, plaquettes, …)

• Relations avec les services internes de l’université

• Fonctionnement administratif et quotidien du laboratoire

• Préparation des évaluations du laboratoire

• Préparation des décisions discutées en conseil de direction et votées en conseil de laboratoire

• Fonctions et missions accrues et renforcées depuis 2010

Parcours Enseignement Responsabilités Recherche11

Page 12: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

Parcours

Enseignement

Responsabilités

Recherche

12

Page 13: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

Thématique scientifique

• Informatique décisionnelle, entrepôts de données et analyse en ligne

– Collecter, organiser, stocker et analyser l’information

– Aider la prise de décision

• Avènement des données complexes

– Données multi-format, multi-structure, multi-source, multi-modal, multi-version, – Données multi-format, multi-structure, multi-source, multi-modal, multi-version,

riches en sémantique

• Remise en cause du processus d’entreposage et d’analyse

• Nouveaux problèmes de recherche : intégration, stockage, modélisation

et analyse des données complexes

Parcours Enseignement Responsabilités Recherche13

Page 14: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

Positionnement des travaux

Contexte

• OLAP et données complexes (DC)

• Pas d’outils automatiques

• Pas d’extraction de connaissances

Problèmes

• Vocation de l’analyse en ligne (OLAP)

– Analyse interactive et

multidimensionnelle des données de

l'entrepôt

– Agrégation des données pour résumer,

explorer, visualiser

– Représentation sous forme de cube et

manipulation avec des opérateurs

• Opérateurs OLAP inadaptés pour les DC

• Comment agréger les DC ?

• Comment visualiser les DC ?

• Comment prendre en compte la

sémantique contenue dans les DC ?

Parcours Enseignement Responsabilités Recherche14

Page 15: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

Problématique de recherche

Analyse en ligne des données complexes

Enrichir les Créer une analyse Prendre en compte la Enrichir les

possibilités de l’OLAP

- Explication

- Prédiction

Créer une analyse

adaptée aux DC

- Visualisation

- Régions intéressantes

Prendre en compte la

sémantique

- Agrégation sémantique

Parcours Enseignement Responsabilités Recherche15

Page 16: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

� Analyse explicative par recherche guidée

de règles d'association

� Analyse prédictive avec les arbres de

régression

Contributions

Originalité

• Combinaison de l’OLAP et de

la fouille de données

– Analyse plus intéressante

� Visualisation dans un cube de DC avec une

méthode factorielle

� Détection de régions intéressantes avec

une méthode factorielle

� Agrégation sémantique avec une méthode

de classification

16

– Question non triviale

• Combinaison de l’OLAP et de

la recherche d’information

Parcours Enseignement Responsabilités Recherche

Page 17: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

Contributions

Cinq nouvelles approches

OPReTOPReT

CoDaViC

AROX

ORCA

OpAC

Parcours Enseignement Responsabilités Recherche17

Page 18: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

Contribution

Analyse explicative par une recherche guidée de règles d'association

OPReT

Parcours Enseignement Responsabilités Recherche

OPReT

CoDaViC

AROX

ORCA

OpAC

18

Page 19: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

Analyse explicative par une recherche guidée

de règles d'association

Problème

CA (en euro) T1 T2 T3 T4

Imprimante 9400 10000 12600 10500

MP3 20500 13700 54400 21000

PC 13100 14600 15200 12300

CA Juin Juillet Août

(en euro) Jeunes 9300 24300 19100

MP3 Adultes 1200 600 1600

Pourquoi les ventes de lecteurs MP3 sont-elles

particulièrement élevées au 3ème trimestre ?

Parcours Enseignement Responsabilités Recherche

PC 13100 14600 15200 12300

PC portable 11400 12000 28000 10000

Agés 300

Les mois des mois de juillet, août et les jeunes consommateurs

sont associés aux ventes élevées de lecteurs MP3

• Pas d’outils OLAP automatiques pour expliquer les relations et les associations

• Besoin d’une nouvelle possibilité d’analyse : l’explication

• Comment expliquer automatiquement des phénomènes ? Comment

détecter des associations ?

19

Page 20: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

Analyse explicative par une recherche guidée

de règles d'association

Motivation

• Utiliser le principe des règles d’association

– Technique de fouille de données avec le même objectif

– Structure multidimensionnelle, un contexte favorable

• Contribution : AROX (Association Rules Operator for eXplication)• Contribution : AROX (Association Rules Operator for eXplication)

• Positionnement

– Travaux de (Kamber 1997), (Zhu 1998), (Imielinski 2002), (Tjioe et Taniar 2005)

– Fouille guidée par une méta-règle

– Règles inter-dimensionnelles

– Recherche des motifs fréquents et des règles dans la structure multidimensionnelle

– Modification de la définition du support et de la confiance pour l’adapter à l’OLAP

Parcours Enseignement Responsabilités Recherche20

Page 21: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

Analyse explicative par une recherche guidée

de règles d'association

Principe

• Support et confiance basés sur la mesure

Nb de 2009 2010 Définition classique : comptage des faits

3Pr2009: MPoduitAnnéeAmériqueContinentR =→=∧=

Parcours Enseignement Responsabilités Recherche

ventes Amérique Europe Amérique Europe

PC 1200 800 950 500

PC portable 2500 2400 2800 3010

MP3 11600 5900 11400 9100

Chiffre 2009 2010

d’affaires Amérique Europe Amérique Europe

PC 60000€ 33000€ 28000€ 10000€

PC portable 500000€ 560700€ 420000€ 544000€

MP3 116000€ 118000€ 57000€ 41000€

Nouvelle définition : avec la mesure

)2009,,(

)2009,3,()(

),,(

)2009,3,()(

AllAmériqueNB

MPAmériqueNBRConf

AllAllAllNB

MPAmériqueNBRSupp

=

=

)2009,,(

)2009,3,()(

),,(

)2009,3,()(

AllAmériqueSUM

MPAmériqueSUMRConf

AllAllAllSUM

MPAmériqueSUMRSupp

CA

CA

CA

CA

=

=

21

Page 22: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

Contribution

Analyse prédictive avec les arbres de régression

OPReT

Parcours Enseignement Responsabilités Recherche

OPReT

CoDaViC

AROX

ORCA

OpAC

22

Page 23: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

Analyse prédictive avec les arbres de

régression

Problème

• Besoin d’analyse de l’utilisateur : « qu’est ce qui

se passe si … ? »

• Comment, à partir des cellules pleines voisines,

M1 13 12,514,5

Magasins

• Comment, à partir des cellules pleines voisines,

donner une valeur à une cellule vide désignée

par l’utilisateur ?

• Pas d’opérateurs OLAP classiques, nouveau

besoin d’analyse en ligne : la prédiction

• Comment intégrer la prédiction dans l’OLAP ?

Parcours Enseignement Responsabilités Recherche

M2

M3

M4

M5

Télé

MP

3

PC

12,514 12

13,5

11,5

11,5

10,511

13

Années

Produits

?

23

Page 24: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

Analyse prédictive avec les arbres de

régression

Motivation

• Dans le cadre du What If Analysis (Golfarelli 2006)

• Couplage entre l'OLAP et la fouille de données pour prédire la mesure

• Positionnement• Positionnement

– Travaux de (Han et S. Cheng 1998), (Sarawagi 1998), (BC. Chen 2005, 2006), (Y. Chen et

J. Pei 2001, 2006), (Palpanas 2001, 2005)

– Prédire la valeur d'une mesure pour un nouveau fait et compléter le cube

– Placer l'utilisateur au centre ; donner des indicateurs de qualité

– Fournir un modèle utilisable dans l’OLAP, facilement interprétable, sans hypothèse

– Intégrer une démarche complète d’apprentissage supervisé

• Contribution : OPReT (Online Prediction by Regression Tree)

Parcours Enseignement Responsabilités Recherche24

Page 25: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

Analyse prédictive avec les arbres de

régression

Principe

1. Contexte d’analyse

Sous-cube de données

2. Modèle de prédiction

Construction

Validation

Taux d’erreur moyen

3. Interprétation du modèle

Règles de décision

Indicateurs (support, écart-type)

4. Prédiction OLAP

Choix des cellules

Valeurs prédites intégrées

Intégration visuelle

Principe

Parcours Enseignement Responsabilités Recherche

70% des faits pour l’apprentissage 30% pour le test

1

n

.

.

...

...

.

mq

Calcul des nouveaux agrégats lors d’un forage vers le haut

2010

2009

PC

Télé

MP

3

11,62

11,62

11,62 11,62

11,62 11,62

Taux d’erreur moyen

Réduction de l’erreur

Intégration visuelle

25

Avg : 12,4 Avg : 9,41

2009 2010

{Télé} {Télé}{MP3}, {PC}

Avg : 11,6 Avg : 14 Avg : 9,1 Avg : 11

{MP3}, {PC}

Avg : 10,9

R (X ���� Y; S; σ )

M1

M2

M3

M4

M5

Télé

MP

3

PC

12,5

13 12,5

14

14,5

12

13,5

11,5

11,5

10,511

13

?

?

?

M1

M2

M3

M4

M5

Télé

MP

3

PC

12,5

13 12,5

14

14,5

12

13,5

11,5

11,5

10,511

13

11,8

11,2

14,1

Page 26: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

Analyse en ligne des données complexes

• Avènement des données complexes

• Verrous scientifiques posés par les données complexes dans

l’analyse en ligne

– Visualiser l'information contenue dans les cubes de DC– Visualiser l'information contenue dans les cubes de DC

– Organiser les cubes de DC pour améliorer la visualisation et détecter des

régions intéressantes

– Agréger des données complexes

– Prendre en compte le contenu sémantique des données

• Exemple de l’analyse des publications scientifiques

– Publications = données complexes, entités sémantiques

– Publication = {auteurs, titre, document, date, support, …}

Parcours Enseignement Responsabilités Recherche26

Page 27: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

Analyse en ligne des données complexes

Modélisation multidimensionnelle des publications

Theme

Id_theme

#Id_metatheme

theme

Id_theme

#Id_metatheme

theme

Keyword

Id_word

#Id_theme

word

Id_word

#Id_theme

wordPublication

#Id_author

#Id_year

#Id_author

#Id_year

Status

Id_status

status

Id_status

status

Author

Id_author

#Id_status

name

picture

labo

Id_author

#Id_status

name

picture

labo

Metaheme

Id_metatheme

metatheme

Id_metatheme

metatheme

Parcours Enseignement Responsabilités Recherche

Scope

Id_scope

scope

Id_scope

scope

Type

Id_type

#Id_scope

type

Id_type

#Id_scope

type

#Id_type

#Id_word

#Id_support

#Id_doc

#Id_type

#Id_word

#Id_support

#Id_doc

labolabo

Year

Id_year

#Id_period

year

Id_year

#Id_period

year

Period

Id_period

period

start

end

Id_period

period

start

end

Id_support

pages

volume

number

edition

booktitle

Id_support

pages

volume

number

edition

booktitle

Support

Document

Id_doc

Title

Abstract

Body

Id_doc

Title

Abstract

Body

27

Page 28: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

Contribution

Visualisation et détection de régions intéressantes

OPReT

Parcours Enseignement Responsabilités Recherche

OPReT

CoDaViC

AROX

ORCA

OpAC

28

Page 29: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

Visualisation et régions intéressantes

Problèmes

• Pas d’outils de visualisation OLAP adaptés aux données complexes

– Les faits = des données comportant du texte, des images, …

– Pas toujours une mesure ou pas de mesure numérique

• Exploration OLAP manuelle et intuitive du cube• Exploration OLAP manuelle et intuitive du cube

– Navigation parfois longue et non triviale

– Eparsité des cubes de données complexes

– Modalités des dimensions ordonnées selon un ordre pré-établi

• Comment représenter l’information contenue dans un cube de DC ?

• Comment organiser le cube de DC pour détecter des régions

intéressantes ?

Parcours Enseignement Responsabilités Recherche29

Page 30: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

Détection de régions intéressantes

Problème

Auth1 Auth2 Auth3 Auth4 Auth5 Auth6 Auth7 Auth8 Auth9 Aut10Auth1 Auth3 Auth5 Auth7 Auth8 Auth4 Auth2 Aut10 Auth9 Auth6

S1

S2

S3

S4

S5

S6

S7

S8

S2

S6

S3

S1

S7

S5

S4

S8

Parcours Enseignement Responsabilités Recherche30

Page 31: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

Visualisation et régions intéressantes

Motivations

• Positionnement– Peu de travaux : (Ordonez 2009), (Aouiche & Lemire 2008), (Morin 2007), (Sureau

&Venturini 2009)

– Pas de réduction de l’éparsité, pas de compression

• Visualiser en ligne l’information contenue dans un cube

Parcours Enseignement Responsabilités Recherche

• Visualiser en ligne l’information contenue dans un cube– Visualisation adaptée aux DC, prise en compte du contenu sémantique

– Aucune hypothèse sur les données

• Guider l’utilisateur vers les régions intéressantes – Réorganiser intelligemment les dimensions et modalités du cube

– Détecter les faits intéressants ainsi que leurs liens

• Deux contributions– CoDaViC (Complex Data Visualization by Correspondences)

– ORCA (Operator for Reorganization by multiple Correspondence Analysis)

31

Page 32: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

Visualisation et régions intéressantes

Principe

• Deux méthodes factorielles– Analyse des correspondances (AFC)

– Analyse des correspondances multiples (ACM)

• Cube de données complexes• Cube de données complexes

– Au minimum dénombrement des faits

– Tableaux de contingence

• Une méthode factorielle pour

– Réduire l’espace de représentation

– Produire des axes factoriels (nouvelles dimensions)

– Créer un nouvel espace de représentation des faits

– Visualiser l’information dans le cube OLAP

– Mettre en évidence des points de vue intéressants pour l’analyse

Parcours Enseignement Responsabilités Recherche32

Page 33: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

Visualisation avec une méthode factorielle

Principe

1. Contexte d’analyse

Sous-cube de données

2. Tableau de contingence

Opérateurs OLAP

3. Analyse factorielle

Axes factoriels

Projection des faits

Interprétation des proximités

4. Visualisation

Synthèse graphique

Drill down possible

Parcours Enseignement Responsabilités Recherche

Interprétation des proximités

Mot clé1Mot clé1

Mot clé 2Mot clé 2

Mot clé 3Mot clé 3

Mot clé 4Mot clé 4

Au

teu

r 1

Au

teu

r 1

Au

teu

r 2

Au

teu

r 2

Au

teu

r 3

Au

teu

r 3

Au

teu

r 4

Au

teu

r 4

20072007

20092009

20082008

Mot clé 1Mot clé 1

Mot clé 2Mot clé 2

Mot clé 3Mot clé 3

Mot clé 4Mot clé 4

Au

teu

r 1

Au

teu

r 1

Au

teu

r 2

Au

teu

r 2

Au

teu

r 3

Au

teu

r 3

Au

teu

r 4

Au

teu

r 4

Auteur 5Auteur 5

Auteur 3Auteur 3

Auteur 1Auteur 1

Auteur 2Auteur 2

Auteur 4Auteur 4

Mot clé 1Mot clé 1

Mot clé 2Mot clé 2

Mot clé 4Mot clé 4

Mot clé 3Mot clé 3

33

Page 34: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

34

Page 35: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

Détection de régions intéressantes

Principe

Eparsité = 63%

HI(Cini) = 14%

Eparsité = 63%

HI(Carr) = 25%

Gain = 78%

Parcours Enseignement Responsabilités Recherche35

Page 36: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

Contribution

Agrégation sémantique par classification

OPReT

Parcours Enseignement Responsabilités Recherche

OPReT

CoDaViC

AROX

ORCA

OpAC

36

Page 37: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

Agrégation sémantique par classification

Problème

• Classiquement, hiérarchies de dimensions fixées par l’expert

• Pas d’agrégation sémantique

• Pas d’agrégation adaptée aux DC• Pas d’agrégation adaptée aux DC

Keyword 1Keyword 1

Keyword 2Keyword 2

Keyword 3Keyword 3

Keyword 4Keyword 4

Au

tho

r1

Au

tho

r1

Au

tho

r2

Au

tho

r2

Au

tho

r3

Au

tho

r3

Au

tho

r4

Au

tho

r4

20072007

20092009

20082008

Full

professor

Full

professor

Associate

professor

Associate

professor

Nombre de publications avec le mot-clé keyword 2Nombre de publications avec le mot-clé keyword 2

No

mb

re d

e p

ub

lica

tio

ns

en

20

08

No

mb

re d

e p

ub

lica

tio

ns

en

20

08

Author 5Author 5

Author 3Author 3

Author 1Author 1

Author 4Author 4

Author 2Author 2

Parcours Enseignement Responsabilités Recherche37

Page 38: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

Agrégation sémantique par classification

Motivation

• Agrégation sémantique

– Agrégation des faits selon leur proximité

– Exploitation des mesures pour l’agrégation

• Création d’une hiérarchie de dimension• Création d’une hiérarchie de dimension

• Classification Ascendante Hiérarchique (CAH)

– Hiérarchie de partitions = hiérarchie d’une dimension

– Opérations roll-up et drill-down possibles

– Stratégie ascendante vs descendante

• Contribution : OpAC (Operator for Aggregation by Clustering)

Parcours Enseignement Responsabilités Recherche38

Page 39: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

Agrégation sémantique par classification

Principe

1. Individus et variables de la classification

Choix des individus et des variables

Règles à respecter

2. Classification

Ascendante hiérarchique

3. Evaluation des agrégats

Choix de la partition

Critère de séparabilité

des classesdes classes

KW 1KW 1

KW 2KW 2

KW 3KW 3

KW 4KW 4

Au

tho

r1

Au

tho

r1

Au

tho

r2

Au

tho

r2

Au

tho

r3

Au

tho

r3

Au

tho

r4

Au

tho

r4

20072007

20092009

20082008

KW

1K

W 1

KW

2K

W 2

KW

3K

W 3

20

08

20

08

Author 1Author 1

Author 2Author 2

Author 3Author 3

Author 4Author 4Ind

ivid

us

de

la

CA

HIn

div

idu

s d

e l

a C

AH

Variables de la CAHVariables de la CAH

20

09

20

09

Parcours Enseignement Responsabilités Recherche39

Page 40: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

Expérimentation, implémentation

• Validation expérimentale

– Données classiques

– Données complexes (mammographies, publications)

• Plates-formes logicielles•

– MiningCubes : analyse en ligne des données complexes

– PUMA : application dédiée à l’analyse des publications

Parcours Enseignement Responsabilités Recherche40

Page 41: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

Conclusion scientifique

• Problématique de l’analyse en ligne des données complexes

• Cinq verrous scientifiques abordés

• Premiers résultats intéressants et encourageants• Premiers résultats intéressants et encourageants

• Démonstration de la pertinence et faisabilité de combiner l'OLAP à

d'autres techniques d’analyse

• Evolution significative de l’OLAP

– S’adapter aux données complexes

– Dépasser ses propres limites

Parcours Enseignement Responsabilités Recherche41

Page 42: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

Projet scientifique

• Défi scientifique : extraire et analyser (en ligne) la sémantique

• Vers une nouvelle génération d'analyse en ligne : OLAP sémantique

• Création d’un nouveau thème de recherche : problèmes théoriques, méthodologiques et technologiquesméthodologiques et technologiques

• Verrous scientifiques

– Couvrir toutes les caractéristiques des données complexes

– Modéliser toutes les formes de données complexes, leur sémantique et leurs liens

– Analyser en ligne les données complexes

– Intégrer les connaissances de l'utilisateur dans l'analyse

• Formaliser l’OLAP sémantique

Parcours Enseignement Responsabilités Recherche42

Page 43: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

Projet scientifique

• Projet interdisciplinaire entre les laboratoires ERIC et ICAR (Lyon 2-

ENS-CNRS)

– Interactions orales

– Identification automatique de phénomènes complexes (conflit, plainte,...)

– Base de données CLAPI : corpus oraux, transcriptions, documents XML

Entrepôt de corpus– Entrepôt de corpus

– Analyses appropriées

– Prise en compte de la sémantique contenue dans les corpus

Parcours Enseignement Responsabilités Recherche43

Page 44: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

Encadrement scientifique

• Co-encadrement de la thèse de Riadh BEN MESSAOUD, 2003 - 2006

• Participation à la thèse d’Abdellah SAIR, Ecole Nationale des Sciences

Appliquées, Agadir – Maroc, depuis septembre 2009

• Formation à la recherche

– DEA, Riadh BEN MESSAOUD, 2003

– Master recherche, Nourredine MOKTARI, 2005

– Master recherche, Michel El RAHI, 2006

– Master recherche, Slimane DJOUADI, 2006

– Master recherche, Anouck BODIN-NIEMCZUK, 2007

– Master recherche, Loic MABIT, 2009

– Master recherche et professionnel, Youcef MECHEHOUD, Moussa ZOUBIRI, Caroline

CHAILLET, 2010

Parcours Enseignement Responsabilités Recherche44

Page 45: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

Production scientifique

Ouvrage • International : 1

• Internationales : 6 dont DMBI , IJWET, Revues

Chapitres

Conférences

• Internationales : 6

• Nationales : 1

• Internationales : 14

• Francophones : 12

• Internationaux : 7

Parcours Enseignement Responsabilités Recherche45

dont DMBI , IJWET,

IJDWM, RTSI-ISI

dont CAISE, PKDD,

DB&IS, DOLAP, CIKM,

Inforsid, EGC

Page 46: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

Animation et expertise scientifique

• Comités éditoriaux ou de pilotage : EDA, IJBET, WMCD

• Comités de programme ou de lecture : JDS 2003, PKDD2004, ISWC'04, ASD06 à ASD10, EDA06 à EDA11, IIS 2008, RNTI, TSI, …

• Comités d'organisation : SFC 1997, PKDD 2000, JDS 2003, EDA 2005, • Comités d'organisation : SFC 1997, PKDD 2000, JDS 2003, EDA 2005, INFORSID 2013

• Expertise : dossiers de financement CIFRE-ANR

• Groupes de travail ou associations scientifiques : groupe de travail sur la Fouille de Données complexes , action Spécifique CNRS STIC GaFoDonnées : sous-groupe de travail GafOLAP), Société Française de Statistique (SFdS), Société Francophone de Classification (SFC)

Parcours Enseignement Responsabilités Recherche46

Page 47: Vers l'OLAP sémantique pour l'analyse en ligne des données … · 2014-10-04 · M4 M5 Tél é MP3 PC 14 1212,5 13,5 ... S1 S2 S3 S4 S5 S6 S7 S8 S2 S6 S3 S1 S7 S5 S4 S8 Parcours

Merci pour votre attention