olfamining: caractériserisation des qualités d'odeurs

1
OlfaMining C OMMENT CARACT ´ ERISER L IDENTIT ´ ED UNE ODEUR ? Moustafa Bensafi 1 , Guillaume Bosc 2 , Fabien De Marchi 2 , Mehdi Kaytoue 2 , Roland Kotto Kombi 2 , Marc Plantevit 2 1 Centre de Recherche en Neurosciences de Lyon, France 2 Universit ´ e de Lyon, LIRIS CNRS, France Motivations L’Olfaction : un processus complexe ... Capacit ´ e` a percevoir des odeurs. Existence de liens entre les propri ´ et´ es physicochimiques et les qualit´ es olfactives des mol ´ ecules [1,2]. Qualités Olfactives Propriétés physicochimiques ... dont la compr ´ ehension a des enjeux en Recherche fondamentale en neurosciences. Industrie (agroalimentaire, parfumerie, ...). Sant ´ e (anosmie, ...). Comment caract ´ eriser et ecrire le lien existant entre les propri ´ et´ es physicochimiques d’une mol ´ ecule et ses qualit ´ es olfactives ? Mat ´ eriel et M ´ ethodes Qualité olfactives - fruité - citronné - boisé - ... - vanillé Propriétés physico-chimiques - Poids moléculaire - Volume - Nombre d'atomes C, ... Substances odorantes - 138 molécules - 4885 propriétés - 146 qualités Dravnieks - 263 molécules - 4885 propriétés - 30 qualités Boelens - 1689 molécules - 1704 propriétés - 74 qualités Arctender Fouille de redescriptions (redescription mining [3]) Principe Chercher des descriptions ou requ ˆ etes dans cha- cune des vues (propri ´ et´ es et qualit ´ es) qui couvrent presque les emes substances odorantes. Support (qL) requête qL poids>5 ET NbAtC > 2 OU NbAtH < 3 Support (qR) requête qR boisé OU citronné Redescription (q L , q R ): deux requˆ etes d ´ efinies sur des langages ` a expressivit ´ e vari´ ee (, , ¬, ...) Pr´ ecision : coefficient de Jaccard ` a maximiser J (q L , q R )= |Support (q L ) Support (q R )| |Support (q L ) Support (q R )| Test statistique : avec p L = |supp(q L )| |O| et p R = |supp(q R )| |O| pval(q L , q R )= |O| X k=|supp(q L )supp(q R )| |O| k (p L p R ) k (1 - p L p R ) |O|-k Algorithme : approche heuristique (beam-search) ecouverte de sous-groupes (Subgroup discovery [4]) Principe Trouver et d´ ecrire des sous-groupes de mol ´ ecules odorantes statistiquement caract ´ eristiques d’une (ou plusieurs) qualit ´ e(s) d’odeur. ... Atlas Support (sd) Sous-groupe sd poids>5 ET NbAtC > 2 ET NbAtH < 3 Sous-groupe : ecrit par une conjonction de paires attribut-valeur, support´ ee par un ensemble de mol´ ecules D ESCRIPTION - PHYSICO - CHIMIQUE -→ Q UALIT ´ ED ODEUR Pr´ ecision : quantifie la divergence entre la distribution des valeurs de la projection du sous-groupe et du jeu entier sur l’espace de mod ` eles (divergence de Kullback-Leibler) Algorithme : approche heuristique (beam-search) due ` a la taille exponentielle de l’espace de recherche (comme pour la fouille de redescriptions) esultats r 1 =( VANILLE , [19.403 M V 19.5106] OU [1.267 VE2 X 1.292] ET [11.574 M P 14.625] ET [1.511 IC3 3.461] OU [ 3.342 VR3 X 3.342] ET [10.0 D/D TR 11] ET [2.949 S P P OS L OG H2 4.385]) Support : 18, Similarit´ e : 0.7. 0.1 1 10 100 1000 10000 0.01 0.05 0.1 0.2 0.3 0.4 0.5 0 20 40 60 80 100 120 Tps d'exécution (échelle log. (sec)) Nb Redescriptions Jaccard % Run Time 0 0.2 0.4 0.6 0.8 1 1 10 100 1000 Précision |Support| (échelle log) 95% DES MOL ´ ECULES SATISFAISANT LA CONDITION S E 07 > 5.86500 ET S V > 6.84200 ET XL OG P < 1.90000 ET X0 SOL < 2.29750 ET VE1 L < 1.35400 ET VE2 X < 1.33100 ET IC3 < 3.78100 ET S V 99 < 0.32250 SONT ASSOCI ´ EES ` A LA VANILLE Support : 20. 5000 10000 15000 20000 25000 30000 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 Temps d'exécution (sec) Support relatif 0 20 40 60 80 100 120 140 160 180 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 Qualité moyenne Support relatif Conclusion & Perspectives Prise en compte des repr´ esentations 2D et 3D des mol ´ ecules. eduction des temps de calculs pour des langages expressifs (heuristiques, parall´ elisation, ...). [1] K. Kaeppler and F. Mueller. Odor classification: a review of factors in influencing perception-based odor arrangements. Chemical senses, 38(3):189-209, 2013. [2] C. Sezille and M. Bensafi. De la mol´ ecule au percept. Biofutur, (346):24-26, 2013. [3] E. Galbrun, P. Miettinen: From black and white to full color: extending redescription mining outside the Boolean world. Statistical Analysis and Data Mining 5(4): 284-303 (2012). [4] P. K. Novak, N. Lavrac, G. I. Webb: Supervised Descriptive Rule Discovery: A Unifying Survey of Contrast Set, Emerging Pattern and Subgroup Mining. Journal of Machine Learning Research 10: 377-403 (2009) T RAVAIL R ´ EALIS ´ E DANS LE CADRE DU PROJET TRANSVERSE LIRIS O LFA M INING ET DU PROJET DEFISENS MI CNRS.

Upload: insa-de-lyon

Post on 29-Nov-2014

75 views

Category:

Science


2 download

DESCRIPTION

Centre de Recherche en Neurosciences de Lyon, France Université de Lyon, LIRIS CNRS, INSA de Lyon, France

TRANSCRIPT

Page 1: Olfamining: caractériserisation des qualités d'odeurs

OlfaMiningCOMMENT CARACTERISER L’IDENTITE D’UNE ODEUR ?

Moustafa Bensafi1, Guillaume Bosc2, Fabien De Marchi2, Mehdi Kaytoue2,Roland Kotto Kombi2, Marc Plantevit2

1Centre de Recherche en Neurosciences de Lyon, France 2 Universite de Lyon, LIRIS CNRS, France

Motivations

L’Olfaction : un processus complexe . . .

Capacite a percevoir des odeurs.

Existence de liens entre les proprietesphysicochimiques et les qualites olfactives desmolecules [1,2]. Q

ual

ités

Olf

acti

ves

Propriétés physicochimiques

. . . dont la comprehension a des enjeux en

Recherche fondamentale en neurosciences.Industrie (agroalimentaire, parfumerie, . . .).Sante (anosmie, . . .).

Comment caracteriser et decrire le lien existant entre les proprietes physicochimiques d’une molecule et ses qualites olfactives ?

Materiel et Methodes

Qualité olfactives - fruité - citronné - boisé - ... - vanillé

Propriétés physico-chimiques - Poids moléculaire - Volume - Nombre d'atomes C, ...

Substances odorantes

-A138Amolécules-A4885Apropriétés-A146Aqualités

Dravnieks-A263Amolécules-A4885Apropriétés-A30Aqualités

Boelens-A1689Amolécules-A1704Apropriétés-A74Aqualités

Arctender

Fouille de redescriptions (redescription mining [3])

Principe Chercher des descriptions ou requetes dans cha-cune des vues (proprietes et qualites) qui couvrent presque lesmemes substances odorantes.

Support (qL)

requête qL poids>5 ET NbAtC >

2 OU NbAtH < 3

Support (qR)

requête qRboisé OU citronné

Redescription (qL, qR): deux requetes definies sur deslangages a expressivite variee (∨ , ∧, ¬, ...)Precision : coefficient de Jaccard a maximiser

J (qL, qR) =|Support(qL) ∩ Support(qR)||Support(qL) ∪ Support(qR)|

Test statistique : avec pL =|supp(qL)||O| et pR =

|supp(qR)||O|

pval(qL, qR) =

|O|∑k=|supp(qL)∩supp(qR)|

(|O|k

)(pLpR)

k(1− pLpR)|O|−k

Algorithme : approche heuristique (beam-search)

Decouverte de sous-groupes (Subgroup discovery [4])

Principe Trouver et decrire des sous-groupes de moleculesodorantes statistiquement caracteristiques d’une (ou plusieurs)qualite(s) d’odeur.

...

Atlas

Support (sd)

Sous-groupe sdpoids>5 ET NbAtC > 2 ET NbAtH < 3

Sous-groupe : decrit par une conjonction de pairesattribut-valeur, supportee par un ensemble de moleculesDESCRIPTION-PHYSICO-CHIMIQUE −→ QUALITE D’ODEUR

Precision : quantifie la divergence entre la distribution desvaleurs de la projection du sous-groupe et du jeu entier surl’espace de modeles (divergence de Kullback-Leibler)Algorithme : approche heuristique (beam-search) due a lataille exponentielle de l’espace de recherche (comme pour lafouille de redescriptions)

Resultats

r1 = (VANILLE, [19.403 ≤ MV ≤ 19.5106] OU [1.267 ≤ VE2 X ≤ 1.292] ET [11.574 ≤ MP

≤ 14.625] ET [1.511 ≤ IC3 ≤ 3.461] OU [ 3.342 ≤ VR3 X ≤ 3.342] ET [10.0 ≤D/DTR11] ET [2.949 ≤ SPPOSLOG H2 ≤ 4.385])

Support : 18, Similarite : 0.7.

0.1

1

10

100

1000

10000

0.01 0.05 0.1 0.2 0.3 0.4 0.5 0

20

40

60

80

100

120Tps d'exécution (échelle log. (sec)) Nb Redescriptions

Jaccard %

Run Time

0

0.2

0.4

0.6

0.8

1

1 10 100 1000

Précision

|Support| (échelle log)

95% DES MOLECULES SATISFAISANT LA CONDITION SE07 > 5.86500 ET SV > 6.84200 ETXLOGP < 1.90000 ET X0SOL < 2.29750 ET VE1 L < 1.35400 ET VE2 X < 1.33100 ETIC3 < 3.78100 ET SV99 < 0.32250 SONT ASSOCIEES A LA VANILLE

Support : 20.

5000

10000

15000

20000

25000

30000

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35

Temps d'exécution (sec)

Support relatif

0 20 40 60 80

100 120 140 160 180

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35

Qualité moyenne

Support relatif

Conclusion & Perspectives

Prise en compte des representations 2D et 3D des molecules.Reduction des temps de calculs pour des langages expressifs (heuristiques, parallelisation, . . .).

[1] K. Kaeppler and F. Mueller. Odor classification: a review of factors in influencing perception-based odor arrangements. Chemical senses, 38(3):189-209, 2013.[2] C. Sezille and M. Bensafi. De la molecule au percept. Biofutur, (346):24-26, 2013.[3] E. Galbrun, P. Miettinen: From black and white to full color: extending redescription mining outside the Boolean world. Statistical Analysis and Data Mining 5(4): 284-303 (2012).[4] P. K. Novak, N. Lavrac, G. I. Webb: Supervised Descriptive Rule Discovery: A Unifying Survey of Contrast Set, Emerging Pattern and Subgroup Mining. Journal of Machine Learning Research 10: 377-403 (2009)

TRAVAIL REALISE DANS LE CADRE DU PROJET TRANSVERSE LIRIS OLFAMINING ET DU PROJET DEFISENS MI CNRS.