![Page 1: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/1.jpg)
Règles d’associationArticle 1: Mining Frequent Patterns without candidat
generation
Article 2: Bitmap Based Algorithms For MiningAssociation
Présenté par Bilel IDIRI
1
![Page 2: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/2.jpg)
INTRODUCTION (1)C’est quoi une règle d’association ?
La recherche d’association vise à construire un modèle basé sur des règles conditionnelles « si Conditions alors Résultats » [21]
« Trouver une relation entre des sous ensembles de données »
Exemple (magasin):Mettre en évidence les produits achetés ensemble Transcrire la connaissance sous forme de règle d’association
Si antécédent Alors conséquent 2
![Page 3: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/3.jpg)
Processus d’extraction des règles d’associations :
Recherche des itemsets fréquents (sup > supmin)Support: un indicateur de fiabilité de la règle
Produire des règles à partir des itemsets fréquentsConfiance: un indicateur de précision de la règle
INTRODUCTION (2)
3
Règle « Bonne » = règle avec un bon support et une bonne confiance
![Page 4: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/4.jpg)
INTRODUCTION (2)
4
Processus d’extraction des règles d’associations :
Recherche des itemsets fréquents (sup > supmin)Support: un indicateur de fiabilité de la règle
Produire des règles à partir des itemsets fréquentsConfiance: un indicateur de précision de la règle
4
Plusieurs méthodes d’extraction ont été proposées (Apriori, TreeProjection)
mais la plus part ne sont pas optimales
![Page 5: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/5.jpg)
GÉNÉRATION DES ITEMSETS
5
Item CountBread 4Coke 2Milk 4Beer 3Diaper 4Eggs 1
Itemset Count{Bread,Milk} 3{Bread,Beer} 2{Bread,Diaper} 3{Milk,Beer} 2{Milk,Diaper} 3{Beer,Diaper} 3
I te m s e t C o u n t {B re a d ,M ilk ,D ia p e r} 3
Items (1-itemsets)
Triplets (3-itemsets)
Minimum Support = 3
Pairs (2-itemsets)
INTRODUCTION (3)TID Items
1 Bread, Milk
2 Bread, Diaper, Beer, Eggs
3 Milk, Diaper, Beer, Coke 4 Bread, Milk, Diaper, Beer
5 Bread, Milk, Diaper, Coke
Base de données
![Page 6: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/6.jpg)
Etant donné L l’ensemble des itemsetfréquent, il faut trouver tous les ensemble fnon vide tel que f ⊂ L et f → L – f satisfit laconfiance minimum.
si {A,B,C,D} est l’ensemble des itemsets fréquent, les règles générer peuvent être:
ABC →D, ABD →C, ACD →B, BCD →A, A →BCD, B →ACD, C →ABD, D →ABCAB →CD, AC → BD, AD → BC, BC →AD, BD →AC, CD →AB,
6
GÉNÉRATION DES RÈGLESINTRODUCTION (3)
![Page 7: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/7.jpg)
PLAN1
IntroductionProblématique ContributionContexte Résultats Références
7
![Page 8: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/8.jpg)
Article 1:Mining Frequent Patterns without candidat generation(Jiawei Han, Jian Pei, and Yiwen Yin, 2000)
8
![Page 9: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/9.jpg)
Source International Conference on Management of Data Actes de la conférence internationale ACM SIGMOD 2000 (Volume 29 , Issue 2 June 2000 ) sur la gestion des donnéesDallas, Texas, United States Pages: 1 - 12Année de publication: 2000Cité 411 fois
AuteursJiawei Han Professor, Univ. of Illinois at Urbana-Champaign USA,
Email: [email protected] Pei Ph.D School of Computing Science, Simon Fraser University
Canada, Email [email protected] Yin School of Computing Science, Simon Fraser University
Canada,
9
![Page 10: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/10.jpg)
INTRODUCTION
La méthode FP-Tree couvre tout le processusd’extraction des règles d’association enproposant d’autres structures de stockage etde nouvelles méthodes de génération desrègles d’association.
10
![Page 11: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/11.jpg)
PROBLÉMATIQUE
Méthodes d’extraction de règles d’associationApriori (Agrawal, 93)TreeProjection (Ramesh C. Agarwal, Charu C. Aggarwaland V. V. V. Prasad, 1999)
coûteuses en temps et en espace.
AprioriBottleneck dans la génération des candidats dans Apriori-LikeNon scalable (pas de passage à l’échelle) Scaner la BD (n+1) fois, ou n est la taille du plus long Itemsets fréquent.Heuristique coûteuse quand l’ensemble des fréquents est prolifirique
TreeProjectionAlgorithme peu performant lui aussi 11
![Page 12: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/12.jpg)
CONTRIBUTIONS (1)Contexte
Utilisé pour les objets peu/très fréquentsNon supervisé pas de données d’apprentissage
ContributionsProposition d’une structure efficace d’accès au données fréquentes FP-Tree
Eviter de scanner la base plusieurs fois (parcourir la BD 2 fois)Les nœuds ayant plus de chance d’être partagés sont mis en premier
Utilisation du FP-tree pour l’accélération de la génération des règles d’associationScalabilité de l’approche proposéeLa taille des données générées est inferieure à la taille de la BD originale Transformer le pb de recherche des intemset en recherche de concaténation. 12
![Page 13: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/13.jpg)
13
• Politique: Deviser pour conquérir • Construire une structure FP-tree• Exploitation récursive du FP-tree• Pour chaque item fréquent
– Construire les chemins préfixes dans le FP-tree– Fusionner les préfixes identiques et conserver les
sous-chemins de support >= minsup– Générer les ensembles fréquents par combinaison
des nœuds des chemins fréquents• Utiliser Apriori heuristic pour réduire le nombre de
candidats
CONTRIBUTION (2)DÉMARCHE
![Page 14: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/14.jpg)
14
TID Items1 {A,B}2 {B,C,D}3 {A,C,D,E}4 {A,D,E}5 {A,B,C}6 {A,B,C,D}7 {B,C}8 {A,B,C}9 {A,B,D}10 {B,C,E}
Transaction Database Header table
B 8A 7C 7D 5E 3
1ère passe: determiner la table Header
CONTRIBUTION (3)CONSTRUCTION DE FP-TREE
![Page 15: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/15.jpg)
TID Items1 {A,B}2 {B,C,D}3 {A,C,D,E}4 {A,D,E}5 {A,B,C}6 {A,B,C,D}7 {B,C}8 {A,B,C}9 {A,B,D}10 {B,C,E}
BD des transactions
Header tableB:1
A:1
null
B 8A 7C 7D 5E 3
A 1
C
D
E
B A C D
15
CONTRIBUTION (4)CONSTRUCTION DE FP-TREE
2ème passe: Construction de FP-Tree
Conditional pattern base
![Page 16: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/16.jpg)
A 1
C 1
D 1 1
E
B A C D
B:2
A:1
null
C:1
D:1
16
TID Items1 {A,B}2 {B,C,D}3 {A,C,D,E}4 {A,D,E}5 {A,B,C}6 {A,B,C,D}7 {B,C}8 {A,B,C}9 {A,B,D}10 {B,C,E}
BD des transactions
Header table
B 8A 7C 7D 5E 3
CONTRIBUTION (5)CONSTRUCTION DE FP-TREE
![Page 17: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/17.jpg)
A 1
C 1 1
D 1 1 2
E 1 1 1
B A C D
B:2
A:1 C:1
D:1
null
A:1
C:1
D:1
E:1
17
TID Items1 {A,B}2 {B,C,D}3 {A,C,D,E}4 {A,D,E}5 {A,B,C}6 {A,B,C,D}7 {B,C}8 {A,B,C}9 {A,B,D}10 {B,C,E}
BD des transactions
Header table
B 8A 7C 7D 5E 3
CONTRIBUTION (6)CONSTRUCTION DE FP-TREE
![Page 18: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/18.jpg)
A 1
C 1 1
D 1 2 2
E 2 1 2
B A C D
B:2
A:1 C:1
D:1
null
A:2
C:1
D:1
E:1
D:1
E:1
18
TID Items1 {A,B}2 {B,C,D}3 {A,C,D,E}4 {A,D,E}5 {A,B,C}6 {A,B,C,D}7 {B,C}8 {A,B,C}9 {A,B,D}10 {B,C,E}
BD des transactions
Header table
B 8A 7C 7D 5E 3
CONTRIBUTION (7)CONSTRUCTION DE FP-TREE
![Page 19: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/19.jpg)
A 2
C 2 2
D 1 2 2
E 2 1 2
B A C D
B:3
A:2 C:1
D:1
null
A:2
C:1
D:1
E:1
D:1
E:1C:1
19
TID Items1 {A,B}2 {B,C,D}3 {A,C,D,E}4 {A,D,E}5 {A,B,C}6 {A,B,C,D}7 {B,C}8 {A,B,C}9 {A,B,D}10 {B,C,E}
BD des transactions
Header table
B 8A 7C 7D 5E 3
CONTRIBUTION (8)CONSTRUCTION DE FP-TREE
![Page 20: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/20.jpg)
A 3
C 3 3
D 2 3 3
E 2 1 2
B A C D
B:4
A:3 C:1
D:1
null
A:2
C:1
D:1
E:1
D:1
E:1C:2
D:1
20
TID Items1 {A,B}2 {B,C,D}3 {A,C,D,E}4 {A,D,E}5 {A,B,C}6 {A,B,C,D}7 {B,C}8 {A,B,C}9 {A,B,D}10 {B,C,E}
BD des transactions
Header table
B 8A 7C 7D 5E 3
CONTRIBUTION (9)CONSTRUCTION DE FP-TREE
![Page 21: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/21.jpg)
A 3
C 4 3
D 2 3 3
E 2 1 2
B A C D
B:5
A:3 C:2
D:1
null
A:2
C:1
D:1
E:1
D:1
E:1C:2
D:1
21
TID Items1 {A,B}2 {B,C,D}3 {A,C,D,E}4 {A,D,E}5 {A,B,C}6 {A,B,C,D}7 {B,C}8 {A,B,C}9 {A,B,D}10 {B,C,E}
BD des transactions
Header table
B 8A 7C 7D 5E 3
CONTRIBUTION (10)CONSTRUCTION DE FP-TREE
![Page 22: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/22.jpg)
A 4
C 5 4
D 2 3 3
E 2 1 2
B A C D
B:6
A:4 C:2
D:1
null
A:2
C:1
D:1
E:1
D:1
E:1C:3
D:1
22
TID Items1 {A,B}2 {B,C,D}3 {A,C,D,E}4 {A,D,E}5 {A,B,C}6 {A,B,C,D}7 {B,C}8 {A,B,C}9 {A,B,D}10 {B,C,E}
BD des transactions
Header table
B 8A 7C 7D 5E 3
CONTRIBUTION (11)CONSTRUCTION DE FP-TREE
![Page 23: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/23.jpg)
A 5
C 5 4
D 3 4 3
E 2 1 2
B A C D
B:7
A:5 C:2
D:1
null
A:2
C:1
D:1
E:1
D:1
E:1C:3
D:1
D:1
23
TID Items1 {A,B}2 {B,C,D}3 {A,C,D,E}4 {A,D,E}5 {A,B,C}6 {A,B,C,D}7 {B,C}8 {A,B,C}9 {A,B,D}10 {B,C,E}
BD des transactions
CONTRIBUTION (12)CONSTRUCTION DE FP-TREE
![Page 24: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/24.jpg)
A 5
C 6 4
D 3 4 3
E 1 2 2 2
B A C D
B:8
A:5 C:3
D:1
null
A:2
C:1
D:1
E:1
D:1
E:1C:3
D:1
D:1 E:1
24
TID Items1 {A,B}2 {B,C,D}3 {A,C,D,E}4 {A,D,E}5 {A,B,C}6 {A,B,C,D}7 {B,C}8 {A,B,C}9 {A,B,D}10 {B,C,E}
BD des transactions
CONTRIBUTION (13)CONSTRUCTION DE FP-TREE
![Page 25: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/25.jpg)
25
B:8
A:5
null
C:3
D:1
A:2
C:1
D:1
E:1
D:1
E:1C:3
D:1
D:1 E:1
Des chaines de pointeurs pour chaque élément de « Header Table» sont crées pour permettre un accès plus rapide.
Header table
B 8A 7C 7D 5E 3
CONTRIBUTION (14)CONSTRUCTION DE FP-TREE
![Page 26: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/26.jpg)
26
Suffix E(New) Header table
B:8
C:3
null
A:2
C:1
D:1
E:1
D:1
E:1E:1
A 5
C 6 4
D 3 4 3
E 1 2 2 2
B A C D
C
D
A C
A 2C 2D 2
CONTRIBUTION (15)CONSTRUCTION DE FP-GROWTH
![Page 27: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/27.jpg)
null
FP-Tree conditionnelle B:8
C:3
null
A:2
C:1
D:1
E:1
D:1
E:1E:1
27
Suffix E (insérer BCE)
CONTRIBUTION (16)CONSTRUCTION DE FP-GROWTH
(New) Header table
C
D
A C
A 2C 2D 2
C:1
![Page 28: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/28.jpg)
A:1
C:1
D:1
C 1
D 1 1
A C
28
C:1
null
FP-Tree conditionnelle B:8
C:3
null
A:2
C:1
D:1
E:1
D:1
E:1E:1
28
Suffix E (insérer ACDE)
CONTRIBUTION (17)CONSTRUCTION DE FP-GROWTH
(New) Header table
A 2C 2D 2
![Page 29: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/29.jpg)
D:1
C 1
D 2 1
A C
29
A:2
C:1
D:1 29
C:1
null
FP-Tree conditionnelle B:8
C:3
null
A:2
C:1
D:1
E:1
D:1
E:1E:1
29
Suffix E (insérer ADE)
CONTRIBUTION (18)CONSTRUCTION DE FP-GROWTH
(New) Header table
A 2C 2D 2
![Page 30: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/30.jpg)
3030
ORGANIGRAMME DE FP-GROWTHCONTRIBUTION (18)
30
![Page 31: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/31.jpg)
31
D1: T25.I10D10K (taille moy trans:25, taille max itemsets:10, Nb transaction: 10K)D2: T25.I20D100K (taille moy trans:25, taille max itemsets:20, Nb transaction: 100K)
RÉSULTATS (1)FP-GROWTH VS. APRIORI
![Page 32: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/32.jpg)
32
RÉSULTATS (2)SCALABILITÉ PAR RAPPORT AU SUPPORT
![Page 33: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/33.jpg)
33
SCALABILITÉ EN NOMBRE DE TRANSACTIONSRÉSULTATS (3)
![Page 34: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/34.jpg)
RÉSULTATS (4)FP-GROWTH VS. TREEPROJECTION
34
TreeProjection (Agrawal 2000) est une méthode de d’extraction efficace, limitant le comptage de support, et offrant un arbre lexicographique qui facilite la gestion et le comptage des candidats
![Page 35: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/35.jpg)
DISCUSSION (1)
Le FP-tree peut ne pas tenir en mémoire si il est volumineux
Sauvegarder le FP-Tree sur disque et l’indexer
La définition du bon support
Mises à jour incrémentale de l’FP-Tree
Ne traitent pas des problèmes liés à la qualité de données (valeurs aberrantes, manquante et nulle)
35
![Page 36: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/36.jpg)
DISCUSSION (2)Problème liée aux mesures Support et Fréquence (mesures non suffisantes) :
Le support est symétrique : A ⇒ B ou B ⇒ A ?Whisky ⇒ Viande a une confiance élevée
confiance(X ⇒ Y) = P(Y/X) = P(XY)/P(X). ignore P(Y) élevée si P(X) est faible et P(Y) fort
Fp-growth est inclus à DBMiner fait ses preuves sur un environnement réel
36
![Page 37: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/37.jpg)
RÉFÉRENCES1. R. Agarwal, C. Aggarwal, and V. V. V. Prasad. Depth-first generation of large itemsets for association rules. IBM
Tech. Report RC21538, July 1999.
2. Ramesh C. Agarwal , Charu C. Aggarwal , V. V. V. Prasad, A tree projection algorithm for generation of frequentitem sets, Journal of Parallel and Distributed Computing, v.61 n.3, p.350-371, March 1, 2001 [doi>10.1006/jpdc.2000.1693], Cité 65 fois.
3. Rakesh Agrawal , Ramakrishnan Srikant, Fast Algorithms for Mining Association Rules in Large Databases, Proceedings of the 20th International Conference on Very Large Data Bases, p.487-499, September 12-15, 1994, Cité 1278 fois.
4. Rakesh Agrawal , Ramakrishnan Srikant, Mining Sequential Patterns, Proceedings of the EleventhInternational Conference on Data Engineering, p.3-14, March 06-10, 1995, Cité 483 fois
5. Roberto J. Bayardo, Jr., Efficiently mining long patterns from databases, Proceedings of the 1998 ACM SIGMOD international conference on Management of data, p.85-93, June 01-04, 1998, Seattle, Washington, United States, Cité 198 fois
6 . Sergey Brin , Rajeev Motwani , Craig Silverstein, Beyond market baskets: generalizing association rules to correlations, Proceedings of the 1997 ACM SIGMOD international conference on Management of data, p.265-276, May 11-15, 1997, Tucson, Arizona, United States, Cité 162 fois.7 . Guozhu Dong , Jinyan Li, Efficient mining of emerging patterns: discovering trends and differences, Proceedings of the fifth ACM SIGKDD international conference on Knowledge discovery and data mining, p.43-52, August 15-18, 1999, San Diego, California, United States, Cité 92 fois.
37
![Page 38: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/38.jpg)
8. G. Grahne, L. Lakshmanan, and X. Wang. Efficient mining of constrained correlated sets. In ICDE'00.
9. Efficient Mining of Partial Periodic Patterns in Time Series Database, Proceedings of the 15th International Conference on Data Engineering, p.106, March 23-26, 1999 , Cité 83 fois.
10. J. Han, J. Pei, and Y. Yin. Mining partial periodicity using frequent pattern trees. In GS Tech, Rep, 99-10, Simon Fraser University, July 1999.
11. M. Kamber, J. Han, and J. Y. Chiang. Metaruleguided mining of multi-dimensional association rules using data cubes. In KDD'97, pp. 207-210.
12 . Mika Klemettinen , Heikki Mannila , Pirjo Ronkainen , Hannu Toivonen , A. Inkeri Verkamo, Finding interestingrules from large sets of discovered association rules, Proceedings of the third international conference on Information and knowledge management, p.401-407, November 29-December 02, 1994, Gaithersburg, Maryland, United States, Cité 138.
13. Brian Lent , Arun N. Swami , Jennifer Widom, Clustering Association Rules, Proceedings of the ThirteenthInternational Conference on Data Engineering, p.220-231, April 07-11, 1997, Cité 65 fois.
14. Heikki Mannila , Hannu Toivonen , A. Inkeri Verkamo, Discovery of Frequent Episodes in Event Sequences, Data Mining and Knowledge Discovery, v.1 n.3, p.259-289, 1997, Cité 161 fois.
15. Raymond T. Ng , Laks V. S. Lakshmanan , Jiawei Han , Alex Pang, Exploratory mining and pruning optimizationsof constrained associations rules, Proceedings of the 1998 ACM SIGMOD international conference on Management of data, p.13-24, June 01-04, 1998, Seattle, Washington, United States , cité 145 fois.
16. Jong Soo Park , Ming-Syan Chen , Philip S. Yu, An effective hash-based algorithm for mining association rules, Proceedings of the 1995 ACM SIGMOD international conference on Management of data, p.175-186, May 22-25, 1995, San Jose, California, United States, Cité 214 fois.
38
![Page 39: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/39.jpg)
17. Sunita Sarawagi , Shiby Thomas , Rakesh Agrawal, Integrating association rule mining withrelational database systems: alternatives and implications, Proceedings of the 1998 ACM SIGMOD international conference on Management of data, p.343-354, June 01-04, 1998, Seattle, Washington, United States, cité 69 fois.
18. Ashoka Savasere , Edward Omiecinski , Shamkant B. Navathe, An Efficient Algorithm for Mining Association Rules in Large Databases, Proceedings of the 21th International Conferenceon Very Large Data Bases, p.432-444, September 11-15, 1995, Cité 227.
19. Craig Silverstein , Sergey Brin , Rajeev Motwani , Jeffrey D. Ullman, Scalable Techniques for Mining Causal Structures, Proceedings of the 24rd International Conference on Very Large Data Bases, p.594-605, August 24-27, 1998 , cité 40 fois.
20. R. Srikant, Q. Vu, and R. Agrawal. Mining association rules with item constraints. In KDD'97, pp. 67-73.
21. René Lefébure et Gilles Venturi, Le Data Mining Edition Eyrolles 1998
39
![Page 40: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/40.jpg)
Article 2:Bitmap Based Algorithms For Mining Association (George GARDARIN, Philippe PUCHERAL, Fei WU)
40
![Page 41: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/41.jpg)
PLAN2
IntroductionProblématique ContributionRésultats Références
41
![Page 42: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/42.jpg)
INTRODUCTION
Plutôt que d’avoir une liste de valeurs, un bitmap permet de les représenter par des bits (1: valeur présente, 0: sinon).
42
DÉFINITION DE BITMAP
Ménagère Produits Prix
1 {P1, P3, P5} 1202 {P2, P3} 703 {P4} 1504 {P2, P5} 1105 {P3,P4,P6} 220
P1 P2 P3 P4 P5 P61 0 1 0 1 00 1 1 0 0 00 0 0 1 0 00 1 0 0 1 00 0 1 1 0 1
![Page 43: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/43.jpg)
PROBLÉMATIQUE
43
Optimisation des règles d’associations
beaucoup de techniques ont été proposés pour réduire le nombre de passes et augmenter leurs efficacité [AS 94, SON95]
MaisFastidieux travail de comptage du support
Peu de travaux s’intéressent à l’évaluation du comptage (coût du support)
![Page 44: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/44.jpg)
CONTRIBUTION (1)Les auteurs (George Gardarin et Philippe Pucheral)
de l’article ont proposés deux algorithmes pour optimiser le comptage:
• N-BM Naïve Bitmap• H-BM Hirarchical Bitmap
44
![Page 45: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/45.jpg)
CONTRIBUTION (1)
45
* Liste 3 5 7 12 35 42
Bitmap niveau 1 (TIDs)
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 150 0 1 0 1 0 1 0 0 0 0 1 0 0 0 0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 150 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 150 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0
1
0
1
Bitmap niveau 2* Bitmap
Groupe 0
Groupe 1
Groupe 2
![Page 46: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/46.jpg)
46
CONTRIBUTION (2)N-BM
Structure de données
procedure count_support(itemset1,itemset2){(1) new_itemset.max_group=min(itemset1.max_group, itemset2.max_group) ;(2) for (i = 0 ; i < new_itemset.max_group ; i++) do {(3) new_itemset.tidbit[i] = itemset1.tidbit[i] & itemset2.tidbit[i] ;(4) new_itemset.support += nbbit[new_itemset.tidbit[i]] ;(5) }}
Algorithme
![Page 47: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/47.jpg)
Repose sur le N-BM avec une organisation HiérarchiquePropose un schéma de compression Evite les accès inutiles
47
CONTRIBUTION (3) H-BM
![Page 48: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/48.jpg)
CONTRIBUTION (4) H-BM
procedure count_support(itemset1, itemset2) do { for (i := 0 ; i < WORD_NUM ; i++) do {new_itemset.2-BM[i] = itemset1.2-BM[i] & itemset2.2-BM[i] ;}for (i := 0 ; i < BYTE_NUM ; i++) do{ posi = -1;b = new_itemset.2-BM[i];for (; b != 0 ; b >>= 1) do { // shift a bit to the right until b=0posi++;
if (b & 1) do { // if the first bit is 1bm= itemset1.1-BM[posi+i*8] & itemset2.1-BM[posi+i*8]; new_itemset.support+=nbbit[bm] ;} } }}
48
Algorithme
![Page 49: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/49.jpg)
LA PARALLÉLISATIONS
1-BM et 2-BM sont de taille fixes facilement partitionableH-BM est rapide et ne consomme pas beaucoup de mémoire
Deux phases de H-BM peuvent être parallélisé :
1. La construction du bitmap2. Calcule du support
49
![Page 50: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/50.jpg)
RÉSULTATS ET ÉVALUATION (1)
50
Coût de List
![Page 51: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/51.jpg)
RÉSULTATS ET ÉVALUATION (2)
51
Coût de List
![Page 52: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/52.jpg)
52
Cor: Corrélation entre l’item A et B Freq: nombre de fréquence 1-itemsetsSup: support minimum
Temps d’exécution Consommation mémoire
0,0
0,5
1,0
1,5
2,0
2,5
H-B
M/L
ist
Cor
Sa=Sb=2%
Sa=Sb=0,75%
Sa=Sb=0,25%
Sa=2% Sb=0,25%
0
0,2
0,4
0,6
0,8
1
1,2
1,4
H-BM
/Lis
tSup
Freq=50
Freq=100
Freq=500
RÉSULTATS ET ÉVALUATION (3)
![Page 53: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/53.jpg)
RÉFÉRENCES
[AIS93]Rakesh Agrawal, Tomasz Imielinski, Arun N. Swami. Mining Association Rules betweenSets of Items in Large Databases. In Proceedings of the 1993 ACM SIGMOD InternationalConference on Management of Data, Washington, D.C., 1993 , pp. 207-216.[AS94]R. Agrawal, R. Srikant. Fast Algorithms for Mining Association Rules in Large Databases.InProceedings of the 20th International Conference on Very Large Data Bases, Santiago deChile, Chile, 1994, pp. 487-499.[AS96]R. Agrawal and J. C. Shafer. Parallel Mining of Association Rules, Design, Implementation and Experience. IBM Research Report 1996. 53
![Page 54: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/54.jpg)
RÉFÉRENCES[BMS97] Sergey Brin, Rajeev Motwani, Craig Silverstein. Beyond MarketBaskets : GeneralizingAssociation Rules to Correlations. In Proceedings ACM SIGMOD International Conferenceon Management of Data, Tucson, Arizona, USA, 1997, pp. 265-276.[BMU+97] Sergey Brin, Rajeev Motwani, Jeffrey D. Ullman, Shalom Tsur. Dynamic Itemset Countingand Implication Rules for Market Basket Data. In Proceedings ACM SIGMODInternational Conference on Management of Data, Tucson, Arizona, USA, 1997, pp. 255-264.[CHN+96] D. W. Cheung, J. Han, V. Ng, A. Fu and Y. Fu. A Fast DistributedAlgorithm for MiningAssociation Rules. Int’l Conf. on Parallel and Distributed Information Systems (PDIS),Miami Beach, Florida, USA, 1996.[HF95] Jianwei Han, Yongjian Fu. Discovery of Multiple-level Association Rules from LargeDatabases. In Proceedings of the 21st International Conference on Very Large Data Bases,Zurich, Swizerland, 1995, pp. 420-431.
54
![Page 55: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/55.jpg)
RÉFÉRENCES[MPC96]R. Meo, G. Psalia, S. Ceri. A New SQL-like Operator for Mining Association Rules. InProceedings of 22th International Conference on Very Large Data Bases, Mumbai(Bombay), India, 1996, pp. 122-133.[PCY95]Jong Soo Park, Ming-Syan Chen, Philip S. Yu. An Effective Hash Based Algorithm forMining Association Rules. In Proceedings ACM SIGMOD International Conference on Management of Data, San Jose, California, 1995, pp. 175-186.[PCY95+]Jong Soo Park, Ming-Syan Chen, Philip S. Yu. Efficient Parallel and Data Mining forAssociation Rules. International Conference on Information and Knowledge Management (CIKM), Baltimore, Maryland, 1995.[SA95]R. Srikant, R. Agrawal. Mining Generalized Association Rules. In Proceedings of the 21st International Conference on Very Large Data Bases, Zurich, Swizerland, 1995, pp. 407-419.
55
![Page 56: Extraction des règles d'association FP-Growth](https://reader034.vdocuments.net/reader034/viewer/2022042714/553e3b934a7959222a8b48a2/html5/thumbnails/56.jpg)
Questions?
56