analyse de données probabilistes: treillis de concepts et ......analyse de données probabilistes:...

51
Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ. Porto, Portugal avec Géraldine Polaillon - SUPELEC, France Francisco de A. T. de Carvalho, CIn - UFPE, Brésil

Upload: others

Post on 23-Jan-2021

8 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

Analyse de données probabilistes:Treillis de concepts et classification

Paula BritoFac. Economia / LIACC, Univ. Porto, Portugal

avec

Géraldine Polaillon - SUPELEC, France

Francisco de A. T. de Carvalho, CIn - UFPE, Brésil

Page 2: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

2

Plan

• Données Probabilistes - Variables Modales• Généralisation• Correspondances de Galois• Classification Hiérarchique / Pyramidale

� Mesures de Généralité• Applications• Conclusion • Perspectives

Page 3: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

3

Données Probabilistes

Y = “Type d’emploi”Y = {administration, enseignement, nettoyage }

a1 = [Y~{admin. (30 %), enseignement (70 %)}]a2 = [Y~{ admin. (60 %), ens. (20 %), nett.(20 %)}]

Exemple :

Distributions sur des variables discrètes

Page 4: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

4

Distribution de probabilités : données incertaines

Distribution de fréquences : données résultant d’une agrégation

Exemple : Dans une région, 50% des gens sont actifs, 20% sont étudiants, 10% sont à la retraite 20% sont dans une situation“autre”.

Exemple : Il fera “bon” avec probabilité 0.6, “mauvais” avec probabilité 0.4.

Statistiques officellesExpériences répétées

Page 5: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

5

1AnglaisMI4

1PortuguaisMI3

1FrançaisFI2

2PortuguaisFI1

nb. enfantsnationalitésexe

1(1/2), 2(1/2)Port(1/2), Fr (1/2)F

1 (1)Port(1/2), Ang (1/2)M

nb. enfantsnationalité

Page 6: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

6

GROUPE INSTRUCTION FOOTBALL

Étudiants Pr(0.08), Sec(0.88), Sup(0.03)

oui (0.51), non (0.49),s/rep (0.01)

Retraités Pr(0.92), Sec(0.05), Sup(0.03)

oui (0.12), non (0.88)

Employés Pr(0.59), Sec(0.39), Sup(0.02)

oui (0.22), non (0.78)

Petits Indépendants Pr(0.62), Sec(0.31), Sup(0.07)

oui (0.32), non (0.67), s/rep (0.01)

Femmes au Foyer Pr(0.93), Sec(0.07) oui (0.10), non (0.90)

Cadrres Moyens Pr(0.17), Sec(0.50), Sup(0.33)

oui (0.26), non (0.73), s/rep (0.01)

Ouvriers Industriels Pr(0.73), Sec(0.27), Sup(0.01)

oui (0.40), non (0.60)

Prof. Intellectuels et Scientifiques Sec(0.01), Sup(0.99) oui (0.22), non (0.78)

Autres Pr(0.72), Sec(0.229), Sup(0.07)

oui (0.19), non (0.80), s/rep (0.01)

Directeurs etProfes. Libéraux

Sec(0.02), Sup(0.98) oui (0.28), non (0.70), s/rep (0.02)

Entreprenneurs Pr(0.08), Sec(0.33), Sup(0.58)

oui (0.42), non (0.58)

Page 7: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

7

GROUPE INSTRUCTION FOOTBALL

Étudiants Pr, Sec, Sup oui , non , s/rep

Retraités Pr, Sec, Sup oui , non

Employés Pr, Sec, Sup oui , non

Petits Indépendants Pr, Sec, Sup oui , non , s/rep

Femmes au Foyer Pr, Sec oui , non

Cadrres Moyens Pr, Sec, Sup oui , non , s/rep

Ouvriers Industriels Pr, Sec, Sup oui , non

Prof. Intellectuels et Scientifiques Sec, Sup oui , non

Autres Pr, Sec, Sup oui , non , s/rep

Directeurs etProfes. Libéraux

Sec, Sup oui , non , s/rep

Entrepenneurs Pr, Sec, Sup oui , non

Page 8: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

8

GROUPE INSTRUCTION FOOTBALL

Étudiants Sec(0.88) oui (0.51)

Retraités Pr(0.92) non (0.88)

Employés Pr(0.59) non (0.78)

Petits Indépendants Pr(0.62) non (0.67)

Femmes au Foyer Pr(0.93) non (0.90)

Cadrres Moyens Sec(0.50) non (0.73)

Ouvriers Industriels Pr(0.73) non (0.60)

Prof. Intellectuels et Scientifiques Sup(0.99) non (0.78)

Autres Pr(0.72) non (0.80)

Directeurs etProfes. Libéraux

Sup(0.98) non (0.70)

Entreprenneurs Sup(0.58) non (0.58)

Page 9: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

9

Variables dont les valeurs sont des distributions :“Variables Modales” (Bock, Diday, 2000).

Une variable modale Y de domaine Ydéfinie sur un ensemble E ={ω1, ω2, …}est une variable multi-valuée qui, pour chaque ω de E indique

• un ensemble de modalités Y(ω)• pour chaque m ∈ Y(ω), une fréquence

f(m) ou probabilité p(m) ou un poids.

Quand une distribution empirique est donnée,la variable est appelée variable histogramme.

Page 10: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

10

Variable Modale : Définition formelle

Une variable modale Y sur un ensemble

E ={ω1, ω2,…}, de domaine Y = {m1, m2, …, mk}

est une application

Y : E →→→→ M(O)

de E dans la famille M(O) des distributions π sur

Y, avec valeurs Y(ω) = πω:

}{ ))(k(pkm,,))(1(p1mωπ ωω= K

Page 11: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

11

Evénement Modal

DÉFINITIONUn événement modal est une expression de la forme

e = [Y(ω) R {m1(p1), m2(p2), …, mk(pk)}]

où Y = {m1, m2, …, mk} est le domaine de Y, et p

lest la probabilité, fréquence ou poids de m

l.

Il n’est pas imposé que p1+ p2+…+ pk= 1.

R est une relation dans l’ensemble des distributions sur Y .

Page 12: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

12

Evénement Modal : Relations

On considère les relations suivantes:

ii) “≤” tel que [Y(ω) ≤ {m1(p1),…, mk(pk)}]

est vrai ssi

iii) “≥” tel que [Y(ω) ≥ {m1(p1),…, mk(pk)}]

est vrai ssi

i) “~” tel que [Y(ω) ~ {m1(p1),…, mk(pk)}]

est vrai ssi k,,1,p)(p Klll

==ω

k,,1,p)(p Klll

=≤ω

k,,1,p)(p Klll

=≥ω

Page 13: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

13

Objet Modal

Un objet modal est une conjonction d’événementsmodaux.

Chaque élément ω ∈ E est décrit par un objet modal probabiliste:

1)(jkp )(j1pavec

))}(jkp(jkm,)),(j1p(j1m{)(Y)(s

j

jj][ j

p

1j

=ω++ω

ωω∼ω∧=ω=

K

L

Page 14: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

14

Extension

][ )}jkp(jkm,),j1p(j1m{R)(Ysjj

jp

1jLω∧=

=

L’extension d’un objet modal

est l’ensemble

}p,,1j,)}jkp(jkm,),j1p(j1m{R)(Y

:E{)s(EExt

jjj KL =ω

∈ω=

Page 15: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

15

Relation d’Ordre

Ordre partiel sur S:

Si

alors s1 ≤ s2 ssi pl j ≤ q

l j , l =1,…,kj, j=1,..., p.

[ ])}q(m,),q(m{RYs jkjkj1j1j

p

1j2 jj

L∧=

=

Soit S l’ensemble de tous les objets modauxdéfinis sur les variables Y1, ... , Yp.

[ ])}p(m,),p(m{RYs jkjkj1j1j

p

1j1 jj

L∧=

=

Page 16: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

16

Généralisation

s est plus général que s’ si son extension contient l’extension de s’s’ est plus spécifique que s

Généraliser deux objets s et s’ : determiner s’’ tel que

s’’ est plus général que s et s’.

Ext (s ∪ s’) ⊇ Ext (s) et Ext (s ∪ s’) ⊇ Ext (s’)

Page 17: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

17

Généralisation : variables modales

Deux méthodes sont considérées :

Prendre pour chaque modalité le minimumde ses fréquences

Prendre pour chaque modalité le maximumde ses fréquences

Page 18: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

18

Genéralisation par le Maximum

[couleur ∼ ∼ ∼ ∼ { rouge (30 %), orange (70 %)}] ∪∪∪∪∪∪∪∪ [couleur ∼∼∼∼{ rouge (60 %), orange (20 %), jaune (20 %)}] =

[couleur ≤≤≤≤ { rouge (60 %), orange (70 %), jaune (20 %)}]

Exemple :

Extension : k} , 1,= , p )( p : E { …≤ω∈ω ll

principe “au plus”

= ] } )(pm , ,)(pm R [Y ] } )(pm , ,)(pm R [Y qkk

q11

1kk

111 …………{{{{∪∪∪∪∪∪∪∪…………{{{{ K

] } )(pm , ,)(pm R[Y kk11 …………{{{{

{{{{ }}}}qj

1jj p, , pMax p K====avec

{{{{ }}}}≤≤≤≤∈∈∈∈ ,~RSoit

Page 19: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

19

Genéralisation par le Minimum

[couleur ∼ ∼ ∼ ∼ { rouge (30 %), orange (70 %)}] ∪∪∪∪∪∪∪∪ [couleur ∼∼∼∼{ rouge (60 %), orange (20 %), jaune (20 %)}] =

[couleur ≥≥≥≥ { rouge (30 %), orange (20 %)}]

Exemple :

Extension : k} , 1,= , p )( p : E { …≥ω∈ω ll

principe “au moins”

= ] } )(pm , ,)(pm R [Y ] } )(pm , ,)(pm R [Y qkk

q11

1kk

111 …………{{{{∪∪∪∪∪∪∪∪…………{{{{ K

] } )(pm , ,)(pm R[Y kk11 …………{{{{

{{{{ }}}}qj

1jj p, , p Min p K====avec

{{{{ }}}}≥≥≥≥∈∈∈∈ ,~RSoit

Page 20: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

20

Correspondances de GaloisSoient (A, ≤≤≤≤1 ) e (B, ≤≤≤≤2 ) des ensembles ordonnés.Une correspondance de Galois est une paire (f,g)

f : A →→→→ B, g : B →→→→ A, telles que

f et g sont monotones décroissantes, h = f o g et h’ = g o f sont extensives.

Formellement :

x ≤1 x1 ⇒ f(x) ≥2 f(x1), ∀ x, x1 ∈ A

y ≤2 y1 ⇒ g(y) ≥1 g(y1) ,∀ y, y1 ∈ B

x ≤1 g (f (x) ) ∀ x ∈ A ∧ y ≤2 f (g(y) ) ∀ y ∈ B

h e h’ sont des opérateurs de fermeture, dénomés “fermetures de Galois”.

Page 21: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

21

Correspondances de Galois - 1THÉORÈME 1

Soientfu : S →→→→ P(E)

s →→→→ ExtE s = { ωωωω ∈∈∈∈ E : s(ωωωω) ≤≤≤≤ s }

gu : P(E) →→→→ S

{ ωωωω1, … , ωωωωm } →→→→

avec

][ )}t(m,),t(m{Ys jkjkj1j1j

p

1j jjL≤= ∧

=

p,1,j,k,1,m},1,i),(ωp{j jijMaxt LKlKl l ====

Page 22: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

22

Correspondances de Galois - 1

(fu,gu) forment une correspondance de Galois entre (P(E) , ⊆) et (S , ≥).

h = gu o fu : S → S

est anti-extensive, monotone et idempotente.

h’ = fu o gu : P(E) → P(E)

est un opérateur de fermeture,

i.e. est extensive, monotone et idempotente.

Page 23: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

23

Exemple

Soit A = {ω 1, ω 2}gu (A) =

fu (gu (A)) = {ω 1, ω 2}

Sexe Instruction

ω 1 Masc.(0.4), Fem.(0.6) Prim.(0.3), Sec.(0.4), Sup.(0.3)

ω 2 Masc.(0.1), Fem.(0.9) Prim.(0.1), Sec.(0.2), Sup.(0.7)

ω 3 Masc.(0.8), Fem.(0.2) Prim.(0.2), Sec.(0.3), Sup.(0.5)

ω 4 Masc.(0.5), Fem.(0.5) Prim.(0.3), Sec.(0.2), Sup.(0.5)

{ }[ ]

{ }[ ]Sup.(0.7)(0.4),Sec.,Prim.(0.3)nInstructio

.(0.9)Fem(0.4),Masc.Sexe

≤∧

∧≤

Page 24: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

24

Correspondances de Galois - 2THÉORÈME 2

Soientfi : S →→→→ P(E)

s →→→→ ExtE s = { ωωωω ∈∈∈∈ E : s(ωωωω) ≥≥≥≥ s }

gi : P(E) →→→→ S

{ ωωωω1, … , ωωωωm } →→→→

avec

≥∧=

=

}{ )t(m,),t(mYs jkjkj1j1jp

1j jjL

p,1,j,k,1,m},1,i),(ωp{j jijMint LKlKl l ====

Page 25: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

25

Correspondances de Galois - 2

( fi , gi) forment une correspondance de Galois entre (P(E) , ⊆ ) et (S, ≤).

h = gi o fi : S → S

sont des opérateurs de fermeture,

i.e. sont extensives, monotones et idempotentes.

eth’ = fi o gi : P(E) → P(E)

Page 26: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

26

Exemple

Soit B = {ω 2, ω 3}.

gi (B) =

fi (gi (B)) = {ω 2, ω 3, ω 4}

Sexe Instruction

ω 1 Masc.(0.4), Fem.(0.6) Prim.(0.3), Sec.(0.4), Sup.(0.3)

ω 2 Masc.(0.1), Fem.(0.9) Prim.(0.1), Sec.(0.2), Sup.(0.7)

ω 3 Masc.(0.8), Fem.(0.2) Prim.(0.2), Sec.(0.3), Sup.(0.5)

ω 4 Masc.(0.5), Fem.(0.5) Prim.(0.3), Sec.(0.2), Sup.(0.5)

{ }[ ]

{ }[ ]Sup.(0.5)(0.2),Sec.,Prim.(0.1)nInstructio

.(0.2)Fem(0.1),Masc.Sexe

≥∧

∧≥

Page 27: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

27

Objet complet, Concept

DÉFINITION

Un objet modal s est complet si h(s) = s.

i. e. intention ( extension (s)) = s

DÉFINITION

Un concept est une paire (A , s), où A ⊆ E, s ∈ S, s est complet et A = f(s).

(ensemble, description)

Page 28: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

28

THÉORÈME 3

Soit (fu,gu) la correspondance de Galois du théorème 1.

Si et

on définit

s1 ∪ s2 =

avec

et s1 ∩ s2 =avec

= ∧=

)r(m,),r(m~Ys jkjkj1j1jp

1j1

jjL

= ∧=

)q(m,),q(m~Ys jkjkj1j1jp

1j2

jjL

≤∧=

)t(m,),t(mY jkjkj1j1jp

1j jjL

≤∧=

)z(m,),z(mY jkjkj1j1jp

1j jjL

p 1,...,j ,k,1, },q ,{rMax t jjjj =…== llll

p 1,...,j ,k,1, },q ,{rMin z jjjj =…== llll

Page 29: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

29

L’ensemble des concepts, ordonnés par

(A1 , s1) ≤ (A2 , s2) ⇔ A1 ⊆ A2

est un treillis, avec :

inf ( ( A1, s1 ), ( A2 , s2 ) ) = ( A1 ∩∩∩∩ A2 , (gu o fu) ( s1 ∩∩∩∩ s2 ))

sup (( A1, s1 ), ( A2 , s2 ) ) = ( (fu o gu) (A1 ∪∪∪∪ A2) , s1 ∪∪∪∪ s2 )

Ce treillis est appellé “treillis de l’union”.

Page 30: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

30

THÉORÈME 4

Soit (fi,gi) la correspondance de Galois du théorème 2.

Si et

on définit

avec

etavec

= ∧=

)r(m,),r(m~Ys jkjkj1j1jp

1j1

jjL

= ∧=

)q(m,),q(m~Ys jkjkj1j1jp

1j2

jjL

p 1,...,j ,k,1, },q ,{rMin t jjjj =…== llll

p 1,...,j ,k,1, },q ,{rMax z jjjj =…== llll

≥∧=∪

=

)t(m,),t(mYss jkjkj1j1jp

1j21

jjL

≥∧=∩

=

)z(m,),z(mYss jkjkj1j1jp

1j21

jjL

Page 31: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

31

L’ensemble des concepts, ordonnés par

(A1 , s1) ≤ (A2 , s2) ⇔ A1 ⊆ A2

est un treillis, avec :

inf ( ( A1, s1 ), ( A2 , s2 ) ) = ( A1 ∩∩∩∩ A2 , (gi o fi) ( s1∩∩∩∩ s2 ))

sup (( A1, s1 ), ( A2 , s2 ) ) = ( (fi o gi) (A1 ∪∪∪∪ A2) , s1 ∪∪∪∪ s2 )

Ce treillis est appellé “treillis de l’intersection”.

Page 32: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

32

Enquête CultureTreillis de l’intersection

Page 33: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

33

Exemple de concept

c22 = ( {cadres moyens, autres, entreprenneurs,}, s22)

avec

s22 = [Instruction ≥ {sec. (0.22), sup. (0.07)}] ^[Football ≥ {non (0.58), oui (0.19)}]

Enquête Culture

Treillis de l’intersection

Page 34: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

34

Classification

Objectif :

Classification ascendante

– hiérarchique, pyramidale –

telle que chaque classe formée soit un concept du

treillis.

Détermine un sous-ensemble du treillis.

Page 35: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

35

Algorithme

• p1, ... ,pr sont agrégeables (selon la structure choisie)

• p = p1 ∪∪∪∪ ... ∪∪∪∪ pr

• s généralise s1 , ... , sr

• s complet

• ExtE s = p

Partant des concepts associés aux singletons

( {ωωωωi} , ai ), i=1,...,nÀ chaque étape, et jusqu’à la formation de (E, sE),former un concept (p , s) agrégeant (p1 , s1), ... , (pr , sr):

Soient E = {ωωωω1 , ... , ωωωωn} l’ensemble à classifierai = s(ωωωωi), i=1,...,n

Page 36: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

36

Algorithme

Non - unicité Þ critère numérique

Former d’abord les classes associés auxobjets moins généraux –Concepts “plus bas” dans le treillis

Mesure compatible avec la généralisation.

Degré de géneralité

Page 37: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

37

Mesures de Généralité - 1

∏∏∏∏====∑∑∑∑∏∏∏∏================

p

1jj1

k

1j

p

1j j1 )e(Gp

k1

)s(Gj

l

l

coefficient d’affinité (Matusita, 1951) entre

(p1j,…,pkj) et la distribution uniforme (1/kj, …, 1/kj)

a) Si - Généralisation par le Maximum{{{{ }}}}≤≤≤≤∈∈∈∈ ,~R

∑∑∑∑====

====j

j

k

jj11

pk1

)(eGl

l est le

Page 38: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

38

Mesures de Généralité - 1

On considère un objet d’autant plus général que les distributions associéessont proches de la distribution uniforme.

Si

G1(ej) est maximal (=1) quand

pllllj = 1/kj, llll =1,…kj , i=1,…k : distrib. uniforme

G1(ej) est minimal quand la distribution est

dégénérée.

1pp jk1j j====++++++++K

Page 39: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

39

Mesures de Généralité - 2

∏∏∏∏====∑∑∑∑ −−−−∏∏∏∏−−−−

================

p

1jj2

k

1j

p

1j jj2 )e(G)p1(

)1k(k1

)s(Gj

l

l

Si , G2(ej) est maximal (=1)quand p

llllj = 1/kj, llll =1,…kj : distrib. Uniforme.

Minimal quand la distribution est dégénérée.

b) Si - Généralisation par le Minimum{{{{ }}}}≥≥≥≥∈∈∈∈ ,~R

1pp jk1j j====++++++++K

Page 40: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

40

Mesures de Généralité

G1 et G2 sont compatibles avec la généralisation :

Dans chaque cas ,

)}2s(G),1s(G{Max)2s1s(G ≥≥≥≥∪∪∪∪

Page 41: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

41

Algorithme

• p1, ... ,pr sont agrégeables (selon la structure choisie)

• p = p1 ∪∪∪∪ ... ∪∪∪∪ pr

• s = s1 ∪∪∪∪ ... ∪∪∪∪ sr (Max ou Min)

• s complet

• ExtE s = p

• G (s) Min

Partant des concepts associés aux singletons

({ ωωωωi} , ai ), i = 1,…,n

À chaque étape, et jusqu’à la formation de (E, sE), formerun concept (p , s) agrégeant (p1 , s1), ... , (pr , sr) tels que :

Page 42: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

42

ExempleTinnitus Maux de tête Pression

Nom Fréq. Rare Fréq. Rare Haute Normale Basse

Ann 0.8 0.2 0.9 0.1 0.8 0.2 0.0

Bob 1.0 0.0 0.0 1.0 0.6 0.4 0.0

Chris 1.0 0.0 0.1 0.9 0.9 0.1 0.0

Doug 0.3 0.7 0.7 0.3 0.0 0.6 0.4

Eve 0.6 0.4 0.7 0.3 0.0 0.8 0.2

(Herrmann, Hölldobler, Strohmaier (1996))

Page 43: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

43

Treillis de l’union

Page 44: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

44

Comparaison(Herrmann, Hölldobler, Strohmaier (1996))

c : {{Ann, Bob, Chris}{Tinnitus (Fréq.), Pression (Haute),αααα=0.85, σσσσ=0.11}

Du treillis de l’intersection:

a7 i = [Tinnitus ≥≥≥≥ {Fréq. ((((0.8), Rare((((0.0)}] ^[Pression ≥≥≥≥ {Haute ((((0.6), Normale (0.1), Basse ((((0.0)}]

Ext (a7 i) = {Ann, Bob, Chris}

Du treillis de l’union :

a7u = [Tinnitus ≤≤≤≤ {Fréq. ((((1.0), Rare ((((0.2)}] ^ [Pression ≤≤≤≤ {Haute ((((0.9), Normale (0.4), Basse ((((0.0)}]

Ext (a7 u) = {Ann, Bob, Chris}

Page 45: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

45

HiérarchieGénéralisation par le Maximum

Page 46: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

46

PyramideGénéralisation par le Maximum

Page 47: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

47

Exemple - comparaison

Comme prévu, la hiérarchie est contenue dans la pyramide, qui est elle-même une partie du treillis.

Le nombre de concepts formés a été réduit de 31, dans le treillis, à 15 dans la pyramide etseulement 9 dans la hiérarchie.

Page 48: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

48

Exemple - comparaison

L'ordre induit par par pyramide,

Bob-Chris-Anne-Eve-Doug

semble traduire une importance décroissante du symptome Tinnitus - fréquent.

La pyramide permet la formation de concepts qui ne sont pas présents dans la hiérarchie.

Par exemple le concept ((Anne, Eve), s3) avec

s3 = [Tinnitus ≤≤≤≤ {Fréq. ((((0.8), Rare ((((0.4)}] ∧∧∧∧[Maux de Tête ≤≤≤≤ {Fréq. ((((0.9), Rare (0.3)} ∧∧∧∧[Pression ≤≤≤≤ {Haute ((((0.8), Normale (0.8), Basse ((((0.2)}]

Page 49: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

49

Conclusion

� Résultats permettant de construire deux treillis de Galois sur des données modales.

� Permet d'organiser les données modales directement, sans besoin d’une transformation préalable.

� L'application pratique reste limitée par la tailledes treillis obtenus:

� le nombre de concepts tend à augmenterexponentiellement avec le nombre d'individus et de variables.

Page 50: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

50

Conclusion�Alternative : limiter le nombre de concepts formés,en imposant un modèle de classification plus simple.

� Méthode de classification est proposée, modèles hiérarchique ou pyramidale.

�Construit une hiérarchie ou une pyramide : chaque classe est un concept du treillis correspondant

�Permet d'ordonner les concepts par le degré degénéralité de leurs intentions

� mesuré par l'affinité des distributions associées avec la distribution uniforme.

Page 51: Analyse de données probabilistes: Treillis de concepts et ......Analyse de données probabilistes: Treillis de concepts et classification Paula Brito Fac. Economia / LIACC, Univ

51

Perspectives

� Variables modales ordinales

� utiliser la fonction de répartition ?

(Diday, Emilion, 2004)

� Autres mesures de généralité ?

� Comparaison des classification directes avec

les classifications extraites du treillis

(Polaillon 2000).

� Critères de simplification du treillis.