Transcript
Page 1: Olfamining: caractériserisation des qualités d'odeurs

OlfaMiningCOMMENT CARACTERISER L’IDENTITE D’UNE ODEUR ?

Moustafa Bensafi1, Guillaume Bosc2, Fabien De Marchi2, Mehdi Kaytoue2,Roland Kotto Kombi2, Marc Plantevit2

1Centre de Recherche en Neurosciences de Lyon, France 2 Universite de Lyon, LIRIS CNRS, France

Motivations

L’Olfaction : un processus complexe . . .

Capacite a percevoir des odeurs.

Existence de liens entre les proprietesphysicochimiques et les qualites olfactives desmolecules [1,2]. Q

ual

ités

Olf

acti

ves

Propriétés physicochimiques

. . . dont la comprehension a des enjeux en

Recherche fondamentale en neurosciences.Industrie (agroalimentaire, parfumerie, . . .).Sante (anosmie, . . .).

Comment caracteriser et decrire le lien existant entre les proprietes physicochimiques d’une molecule et ses qualites olfactives ?

Materiel et Methodes

Qualité olfactives - fruité - citronné - boisé - ... - vanillé

Propriétés physico-chimiques - Poids moléculaire - Volume - Nombre d'atomes C, ...

Substances odorantes

-A138Amolécules-A4885Apropriétés-A146Aqualités

Dravnieks-A263Amolécules-A4885Apropriétés-A30Aqualités

Boelens-A1689Amolécules-A1704Apropriétés-A74Aqualités

Arctender

Fouille de redescriptions (redescription mining [3])

Principe Chercher des descriptions ou requetes dans cha-cune des vues (proprietes et qualites) qui couvrent presque lesmemes substances odorantes.

Support (qL)

requête qL poids>5 ET NbAtC >

2 OU NbAtH < 3

Support (qR)

requête qRboisé OU citronné

Redescription (qL, qR): deux requetes definies sur deslangages a expressivite variee (∨ , ∧, ¬, ...)Precision : coefficient de Jaccard a maximiser

J (qL, qR) =|Support(qL) ∩ Support(qR)||Support(qL) ∪ Support(qR)|

Test statistique : avec pL =|supp(qL)||O| et pR =

|supp(qR)||O|

pval(qL, qR) =

|O|∑k=|supp(qL)∩supp(qR)|

(|O|k

)(pLpR)

k(1− pLpR)|O|−k

Algorithme : approche heuristique (beam-search)

Decouverte de sous-groupes (Subgroup discovery [4])

Principe Trouver et decrire des sous-groupes de moleculesodorantes statistiquement caracteristiques d’une (ou plusieurs)qualite(s) d’odeur.

...

Atlas

Support (sd)

Sous-groupe sdpoids>5 ET NbAtC > 2 ET NbAtH < 3

Sous-groupe : decrit par une conjonction de pairesattribut-valeur, supportee par un ensemble de moleculesDESCRIPTION-PHYSICO-CHIMIQUE −→ QUALITE D’ODEUR

Precision : quantifie la divergence entre la distribution desvaleurs de la projection du sous-groupe et du jeu entier surl’espace de modeles (divergence de Kullback-Leibler)Algorithme : approche heuristique (beam-search) due a lataille exponentielle de l’espace de recherche (comme pour lafouille de redescriptions)

Resultats

r1 = (VANILLE, [19.403 ≤ MV ≤ 19.5106] OU [1.267 ≤ VE2 X ≤ 1.292] ET [11.574 ≤ MP

≤ 14.625] ET [1.511 ≤ IC3 ≤ 3.461] OU [ 3.342 ≤ VR3 X ≤ 3.342] ET [10.0 ≤D/DTR11] ET [2.949 ≤ SPPOSLOG H2 ≤ 4.385])

Support : 18, Similarite : 0.7.

0.1

1

10

100

1000

10000

0.01 0.05 0.1 0.2 0.3 0.4 0.5 0

20

40

60

80

100

120Tps d'exécution (échelle log. (sec)) Nb Redescriptions

Jaccard %

Run Time

0

0.2

0.4

0.6

0.8

1

1 10 100 1000

Précision

|Support| (échelle log)

95% DES MOLECULES SATISFAISANT LA CONDITION SE07 > 5.86500 ET SV > 6.84200 ETXLOGP < 1.90000 ET X0SOL < 2.29750 ET VE1 L < 1.35400 ET VE2 X < 1.33100 ETIC3 < 3.78100 ET SV99 < 0.32250 SONT ASSOCIEES A LA VANILLE

Support : 20.

5000

10000

15000

20000

25000

30000

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35

Temps d'exécution (sec)

Support relatif

0 20 40 60 80

100 120 140 160 180

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35

Qualité moyenne

Support relatif

Conclusion & Perspectives

Prise en compte des representations 2D et 3D des molecules.Reduction des temps de calculs pour des langages expressifs (heuristiques, parallelisation, . . .).

[1] K. Kaeppler and F. Mueller. Odor classification: a review of factors in influencing perception-based odor arrangements. Chemical senses, 38(3):189-209, 2013.[2] C. Sezille and M. Bensafi. De la molecule au percept. Biofutur, (346):24-26, 2013.[3] E. Galbrun, P. Miettinen: From black and white to full color: extending redescription mining outside the Boolean world. Statistical Analysis and Data Mining 5(4): 284-303 (2012).[4] P. K. Novak, N. Lavrac, G. I. Webb: Supervised Descriptive Rule Discovery: A Unifying Survey of Contrast Set, Emerging Pattern and Subgroup Mining. Journal of Machine Learning Research 10: 377-403 (2009)

TRAVAIL REALISE DANS LE CADRE DU PROJET TRANSVERSE LIRIS OLFAMINING ET DU PROJET DEFISENS MI CNRS.

Top Related