master thesis 2010 - pattern discovery algorithms for classification

63
面面面面面 面面面面面面 面面 面面面 面面面面面面面

Upload: chuancong-gao

Post on 13-Apr-2017

50 views

Category:

Software


6 download

TRANSCRIPT

Page 1: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

面向分类的模式发现算法高传聪导师:王建勇软件所数据库组

Page 2: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

数据挖掘的主要任务 关联模式挖掘 分类 聚类 异常检测 …

关联分类

Page 3: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

我们的主要目的 针对不同类型的复杂数据(项集数据、序列数据、流数据、非确定性数据)进行关联分类

针对不同类型的复杂数据设计高效的分类规则 / 特征挖掘算法 使用挖掘的分类规则 / 特征对复杂数据进行分类

Page 4: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

关联模式挖掘—频繁模式挖掘 频繁模式挖掘

频繁项集挖掘(如,购物车中的商品种类) 频繁序列挖掘(如,基因序列、文本序列、网页点击流) 频繁子图挖掘(如,蛋白质结构、股票数据)

Page 5: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

等价类 等价类:被同一组事务所包含的模式的集合

一个数据库中有至少一个等价类 等价类中的包含关系构成一个偏序关系 等价类中的每个模式:数据分布相同 支持度相同 区分度相同

Page 6: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

闭合模式与生成器模式 生成器模式:等价类中“最小”的模式

每一个等价类中有至少一个 符合最小描述长度( MDL )原则

闭合模式:等价类中“最大”的模式 项集数据库:每一个等价类中有唯一一个 序列数据库:每一个等价类中有至少一个

一个模式可以既是生成器模式也是闭合模式

Page 7: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

例—序列数据库与等价类C A A B CA B C BC A B CA B B C A

Page 8: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

例—项集数据库与等价类A B CA DA B C DA B D

Page 9: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

关联分类—概念 采用关联模式作为分类的规则(用于基于规则的分类器的规则)或者特征(用于支持向量机( SVM )

/ 朴素贝叶斯( Naïve Bayes )的特征) 主要步骤:

挖掘关联模式 特征选择(根据数据覆盖策略选择高区分度模式) 将模式转变为分类的规则或特征 训练分类器(只针对支持向量机和朴素贝叶斯) 分类

Page 10: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

关联分类—概念 优点:

准确率高 易于理解

缺点: 速度慢

主要时间: 挖掘中输出大量低区分度模式 特征选择中过滤大量低区分度模式 模式转变为规则或特征的时间 训练( SVM )

Page 11: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

关联分类—直接挖掘 直接挖掘用于关联分类的高区分度模式

主要时间: 挖掘中输出大量低区分度模式 特征选择中过滤大量低区分度模式 模式转变为规则或特征的时间 训练( SVM )

优点: 大量减少挖掘时间 无需特征选择

Page 12: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

关联分类—基于生成器模式 优点:

挖掘的速度更快 生成器模式的数目远远小于完整模式的数目

模型更为精简 符合最小描述长度原则 生成器模式的平均大小(包含的项目的数目)趋向于小于完整模式和闭合模式

Page 13: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

我们的工作

Page 14: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

高效的生成器序列挖掘及其在分类上的应用WWW’08 Poster, etc.

关键字:序列、生成器、特征选择、直接挖掘

Page 15: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

贡献 高效的挖掘算法:包括两个新的搜索空间剪枝策略或一个新的生成器检查方法 基于生成器序列的分类框架:包括数据预处理、特征选择、和分类模型构建 面向实例的分类规则挖掘算法,用于直接挖掘基于生成器序列的分类规则 分别从完整序列模式、闭合序列模式、和生成器序列模式构建的分类模型的全面的比较

Page 16: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

算法—序列枚举框架 与 PrefixSpan (频繁序列挖掘算法)和 BIDE (频繁闭合序列挖掘算法)相同的模式增长枚举框架

分而治之 深度优先

挖掘顺序:A:4 , AA:2 , AB:4 , ABB:2 , ABC:4 , AC:4 ,B:4 , BB:2 , BC:4 , C:4 , CA:3 , CAB:2 , CABC:2 , CAC:2 , CB:3 , CBC:2 , CC:2

Page 17: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

算法—剪枝策略与生成器检查策略 前向剪枝:检查新的模式的每一个增长的投影数据库是否与模式的每一个增长的投影数据库相同 后向剪枝:检查新的模式的投影数据库是否与去除一个事件后的模式的投影数据库相同 生成器检查:检查新的模式的支持度是否与去除一个事件后的模式的支持度相同

可以在后向剪枝时完成

Page 18: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

基于生成器序列的分类—特征选择 基于置信度:选择所有的置信度大于等于给定的阈值的模式

缺点:很难设置一个合适的阈值没有考虑数据的覆盖情况

面向实例:每一个训练实例的有着最高的置信度的 个覆盖模式的集合

Page 19: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

基于生成器序列的分类—直接挖掘 基于原有算法采用直接挖掘的策略 新的剪枝策略:给定一个模式 和它的增长 ,。

Page 20: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

实验结果—数据集数据集 序列数目 项目数目 平均长度 最大长度Gazelle 29369 1423 3 651

ProgramTrace 10 105 488 989

TCAS 1578 287 61 97

数据集 序列数目 正例数目 负例数目 平均长度ESL-C 5765 2879 2886 18.4

ESL-J 31369 15800 15569 13.1

Office07Review 320 240 80 94

VistaReview 597 254 343 234

Page 21: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

实验结果—效率比较

Gazelle TCAS

Page 22: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

实验结果—剪枝策略(前向 / 后向)

Gazelle TCAS

Page 23: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

实验结果—剪枝策略(直接挖掘分类规则)

Vista

Page 24: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

实验结果—可伸缩性

Gazelle

Page 25: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

实验结果—特征选择方法的比较

Vista ,基于生成器序列

特征选择方法 支持向量机 朴素贝叶斯基于置信度 65.5% 45.77%

面向实例( k=1 ) 72.73% 66.66%

面向实例( k=2 ) 72.22% 62.42%

面向实例( k=3 ) 72.38% 62.25%

特征选择方法 支持向量机 朴素贝叶斯基于置信度 65.5% 45.77%

面向实例( k=1 ) 72.56% 65.98%

面向实例( k=2 ) 72.21% 62.08%

面向实例( k=3 ) 72.57% 60.24%

Vista ,基于闭合序列

Page 26: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

实验结果—基于不同种类序列的模型的比较

支持向量机 朴素贝叶斯

数据集 最小支持度

生成器序列 闭合序列 完整序列

ESL-C 2.50% 80.05% 80.02% 79.93%

ESL-C 1% 81.04% 81.02% 80.79%

ESL-J 2.50% 80.66% 80.66% 80.68%

ESL-J 1% 81.03% 81.07% 81.01%

数据集 最小支持度

生成器序列 闭合序列 完整序列

ESL-C 2.50% 72.91% 72.89% 73.89%

ESL-C 1.00% 77.69% 77.57% 77.86%

ESL-J 3% 52.56% 52.55% 52.61%

ESL-J 1.00% 53.76% 53.82% 53.85%

Page 27: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

流滑动窗口上高效的生成器项集的发现CIKM’09

关键字:项集、生成器、特征选择、滑动窗口

Page 28: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

贡献第一个在流数据滑动窗口上挖掘频繁生成器项集的算法 新颖的枚举树结构与有效的优化技术扩展算法使其在滑动窗口上直接挖掘分类规则 全面的性能研究显示了算法的效率优于其它算法,并在类别型数据的分类上有很高的准确率

Page 29: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

例—流数据

Page 30: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

基本定理 一个频繁项集 是一个生成器当且仅当不存在一个 的大小为 的子集与 的支持度相同

用于检查一个项集是否是生成器 一个生成器项集的子集都是生成器 一个无用项集(频繁非生成器项集)的超集都是无用的或非频繁的

定义生成器与非生成器之间的边界 枚举树的基础

Page 31: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

FP-Tree 使用 FP-Tree 的一个变种来存储每一个滑动窗口中的事务

Page 32: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

例—第一个滑动窗口的 FP-Tree1 A B C2 A D3 A B C D4 A B D

Page 33: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

枚举树 使用枚举树来保存挖掘的生成器的信息和生成器与非生成器之间的边界三种节点:

非频繁 无用 生成器

枚举树的每一层有一个散列表加速生成器检查操作

Page 34: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

例—第一个滑动窗口的枚举树1 A B C2 A D3 A B C D4 A B D

最小支持度为 2

Page 35: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

添加和删除操作核心部分:枚举树节点状态转移矩阵

添加 删除类型G G G G G G/U I/GU U G/U U U U I/UI I I I/G/U I I I

G :生成器, U :无用, I :非频繁:当前正在添加 /删除的事务

Page 36: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

实验结果—数据集数据集 项目数 事务数 正例数 负例数 平均长度

mushroom 116 8124 4208 3916 21.695

horse 89 368 232 136 16.769

adult 128 48842 11687 37155 13.868

breast 45 699 458 241 8.977

hepatitus 55 155 32 123 17.923

pima 40 768 500 268 8

chess 75 3196 - - 37

connect 129 67557 - - 43

pumsb 2113 49046 - - 74

Page 37: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

实验结果—与 Moment 的比较

Mushroom ,窗口大小: 4k Mushroom ,窗口大小: 2k

Moment 是一个用于在滑动窗口上挖掘频繁闭合项集模式的算法

Page 38: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

实验结果—与 DPM 的比较

Mushroom ,窗口大小: 4k Connect ,窗口大小: 67k

DPM 是一个用于在静态数据上挖掘频繁生成器项集模式的算法

Page 39: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

实验结果—与 DDPMine 的比较

Mushroom ,窗口大小: 8k Horse ,窗口大小: 600

DDPMine 是一个用于在静态数据上直接挖掘分类规则的算法

Page 40: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

实验结果—分类准确率StreamGen DDPMine

数据集 准确率 最大长度 平均长度 平均数目 准确率 最大长度 平均长度 平均数目breast 96.708 3 1.551 23.6 95.28 9 2.448 11.6

adult 82.146 3 1.831 13 81.292 14 4.583 7.2

mushroom 98.918 3 1.958 9.6 97.184 22 15.592 16.2

hepatitus 82.006 4 2.387 15 76.986 8 4.8 5

horse 81.512 2 1.389 3.6 81.246 20 4.88 10

pima 74.87 4 1.663 18.4 75.124 7 2.435 12.6

Page 41: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

例—选择的分类规则StreamGen DDPMine

38 17 39

12 25 5 7 8 11 13 15 16 17 18 19 20 26

13 25 8 17 18

7 67 5 7 9 13 14 15 16 17 18 19 20 40 41 46 53 54

66 2 7 9 11 13 14 15 16 17 18 19 20 21 38 40 44 53 54 76

7 68 2 7 9 11 13 14 15 16 17 18 19 20 28 38 40 44 53 54 76

11 18 2 7 9 11 13 14 15 16 17 18 19 20 32 38 40 53 54 65 76

6 18 37 2 7 9 11 13 14 15 16 17 18 19 20 22 32 38 40 53 54 76

4 53 2 7 9 11 13 14 15 16 17 18 19 20 28 32 38 40 46 53 54 76

2 7 9 11 13 14 15 16 17 18 19 20 21 32 38 40 45 46 53 54 76

2 7 9 11 13 14 15 16 17 18 19 20 21 32 34 38 40 46 48 53 54 76

Page 42: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

用于非确定性数据分类的区分性模式的直接挖掘SIGKDD’10

关键字:事务型数据、非确定性、直接挖掘、期望置信度

Page 43: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

贡献第一个用于非确定性数据分类的关联分类算法 采用了期望置信度作为区分度的度量,并提出一个基于上界的方法来加速期望置信度的计算 一个新的实例覆盖策略来保证每一个训练实例被被至少一个模式覆盖的概率高于用户所指定的阈值 使用 30 个公开数据集在不同的非确定性参数下进行了全面的实验,有着平均 4% 到 10% 的准确率的提高

Page 44: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

例—非确定性事务型数据集评价 价格 外观 技术规格 质量

不可接受 + - / {-:0.8,/:0.1,+:0.1}

可接受 / - / {-:0.1,/:0.8,+:0.1}

好 - + / {-:0.1,/:0.8,+:0.1}

非常好 / + + {-:0.1,/:0.1,+:0.8}

+ :好, / :一般, - :差

Page 45: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

已有的模式的区分度度量 确定性数据

置信度 熵 信息增益 信息增益比率 基尼系数 …

非确定数据 概率熵 概率信息增益 没有合理的统计意义和理论解释

Page 46: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

期望置信度 优点:

在理论上被保证是有统计意义的 提供了相对精确的区分性的度量 在确定性数据上,置信度被证实为良好的区分度的度量

缺点: 在非确定数据上计算复杂度高

Page 47: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

期望置信度—定义给定事务的集合 和相对于 的可能世界的集合 ,项集 在类 上的期望置信度被定义为 。很大 复杂度很高

Page 48: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

期望置信度—高效计算 分而治之的计算方法

计算在 中当支持度为 1 时的期望置信度 计算在 的前 1 个事务中当支持度为 1 时的期望置信度 计算在 的前 2 个事务中当支持度为 1 时的期望置信度 … 计算在 的前 个事务中当支持度为 1 时的期望置信度

计算在 中当支持度为 2 时的期望置信度 …

… 计算在 中当支持度为 时的期望置信度

… 求和得到最终结果

Page 49: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

期望置信度—高效计算

Page 50: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

期望置信度—高效计算(改进) 分而治之的计算方法

计算在 中当支持度为 1 时的期望置信度 检查当前步骤的上界是否小于需要覆盖的值,是则停止

计算在 中当支持度为 2 时的期望置信度 检查…

… 计算在 中当支持度为 时的期望置信度

检查… 求和得到最终结果

Page 51: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

期望置信度—高效计算(改进)

Page 52: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

例—期望置信度的上界的计算

Page 53: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

期望置信度—高效计算 复杂度:

时间复杂度: 空间复杂度:

Page 54: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

算法细节 挖掘算法:与 HARMONY 相同的深度优先的模式增长框架 实例覆盖策略

HARMONY :为每一个实例寻找一个有着最高置信度的覆盖模式 uHARMONY :试图保证每个实例不被任何一个模式所覆盖的概率小于 1 减去指定的阈值

分类算法 基于规则:与 HARMONY 相似

对每一个测试实例将每一个模式在每一个类上的置信度与实例包含模式的概率的乘积相加,有着最大值的类就是所预测的类 支持向量机

每一个模式都是权重为每一个实例包含项集的概率的特征

Page 55: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

实验结果—数据集数据集 实例数 属性数 类别数 领域

australian 690 14 2 Financial

balance 635 4 3 Social

bands 539 38 2 Physical

breast 699 9 2 Life

bridges-v1 106 11 6 N/A

bridges-v2 106 10 6 N/A

car 1728 6 4 N/A

contraceptive 1473 9 3 Life

credit 690 15 2 Financial

echocardiogram 131 12 2 Life

数据集 实例数 属性数 类别数 领域flag 194 28 8 N/A

german 1000 19 2 Financial

heart 920 13 5 Life

hepatitis 155 19 2 Life

horse 368 27 2 Life

monks-1 556 6 2 N/A

monks-2 601 6 2 N/A

monks-3 554 6 2 N/A

mushroom 8124 22 2 Life

pima 768 8 2 Life

Page 56: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

实验结果—数据集数据集 实例数 属性数 类别数 领域

postoperative 90 8 3 Life

promoters 106 57 2 Life

spect 267 22 2 Life

survival 306 3 2 Life

ta_eval 151 5 3 N/A

tic-tac-toe 958 9 2 Game

vehicle 846 18 4 N/A

voting 435 16 2 Social

wine 178 13 3 Physical

zoo 101 16 7 Life

Page 57: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

实验结果—分类准确率(平均)

+ :好, / :一般, - :差

非确定性 uHarmony DTU uRuleU10@1 79.0138 74.8738 75.2111U10@2 78.6970 73.1629 73.4107U10@4 77.9657 72.2670 69.4649U20@1 78.9537 74.6577 74.6287U20@2 78.6073 72.5642 72.5460U20@4 77.8352 69.9157 68.2066

Page 58: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

实验结果—分类准确率(平均)非确定性

uHarmony( Rule-based) DTU uRule

U20@4 73.2517 72.2670 69.4649

Page 59: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

实验结果—敏感性测试

U10@1 ,最小支持度 U10@1 ,最小覆盖概率

Page 60: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

实验结果—运行时间

U10@4 , Car U10@4 , Heart

Page 61: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

实验结果—运行时间

U10 , Car ,最小支持度: 0.01 U10 , Heart ,最小支持度: 0.01

Page 62: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

实验结果—可伸缩性(运行时间)

U10@1 , Car ,最小支持度: 0.01U10@1 , Heart ,最小支持度: 0.01

Page 63: Master Thesis 2010 - Pattern Discovery Algorithms for Classification

发表的论文 [1] Chuancong Gao, Jianyong Wang, Yukai

He, Lizhu Zhou. Efficient mining of frequent sequence generators. WWW’2008 Poster. Best Poster Award.

[2] Chuancong Gao, Jianyong Wang. Efficient itemset generator discovery over a stream sliding window. CIKM’2009.

[3] Chuancong Gao, Jianyong Wang. Direct Mining of Discriminative Patterns for Classifying Uncertain Data. SIGKDD’2010.