master thesis 2010 - pattern discovery algorithms for classification

面向分类的模式发现算法高传聪导师：王建勇软件所数据库组

数据挖掘的主要任务关联模式挖掘分类聚类异常检测 …

关联分类

我们的主要目的针对不同类型的复杂数据（项集数据、序列数据、流数据、非确定性数据）进行关联分类

针对不同类型的复杂数据设计高效的分类规则 / 特征挖掘算法使用挖掘的分类规则 / 特征对复杂数据进行分类

关联模式挖掘—频繁模式挖掘频繁模式挖掘

频繁项集挖掘（如，购物车中的商品种类）频繁序列挖掘（如，基因序列、文本序列、网页点击流）频繁子图挖掘（如，蛋白质结构、股票数据）

等价类等价类：被同一组事务所包含的模式的集合

一个数据库中有至少一个等价类等价类中的包含关系构成一个偏序关系等价类中的每个模式：数据分布相同支持度相同区分度相同

闭合模式与生成器模式生成器模式：等价类中“最小”的模式

每一个等价类中有至少一个符合最小描述长度（ MDL ）原则

闭合模式：等价类中“最大”的模式项集数据库：每一个等价类中有唯一一个序列数据库：每一个等价类中有至少一个

一个模式可以既是生成器模式也是闭合模式

例—序列数据库与等价类C A A B CA B C BC A B CA B B C A

例—项集数据库与等价类A B CA DA B C DA B D

关联分类—概念采用关联模式作为分类的规则（用于基于规则的分类器的规则）或者特征（用于支持向量机（ SVM ）

/ 朴素贝叶斯（ Naïve Bayes ）的特征）主要步骤：

挖掘关联模式特征选择（根据数据覆盖策略选择高区分度模式）将模式转变为分类的规则或特征训练分类器（只针对支持向量机和朴素贝叶斯）分类

关联分类—概念优点：

准确率高易于理解

缺点：速度慢

主要时间：挖掘中输出大量低区分度模式特征选择中过滤大量低区分度模式模式转变为规则或特征的时间训练（ SVM ）

关联分类—直接挖掘直接挖掘用于关联分类的高区分度模式

主要时间：挖掘中输出大量低区分度模式特征选择中过滤大量低区分度模式模式转变为规则或特征的时间训练（ SVM ）

优点：大量减少挖掘时间无需特征选择

关联分类—基于生成器模式优点：

挖掘的速度更快生成器模式的数目远远小于完整模式的数目

模型更为精简符合最小描述长度原则生成器模式的平均大小（包含的项目的数目）趋向于小于完整模式和闭合模式

我们的工作

高效的生成器序列挖掘及其在分类上的应用WWW’08 Poster, etc.

关键字：序列、生成器、特征选择、直接挖掘

贡献高效的挖掘算法：包括两个新的搜索空间剪枝策略或一个新的生成器检查方法基于生成器序列的分类框架：包括数据预处理、特征选择、和分类模型构建面向实例的分类规则挖掘算法，用于直接挖掘基于生成器序列的分类规则分别从完整序列模式、闭合序列模式、和生成器序列模式构建的分类模型的全面的比较

算法—序列枚举框架与 PrefixSpan （频繁序列挖掘算法）和 BIDE （频繁闭合序列挖掘算法）相同的模式增长枚举框架

分而治之深度优先

挖掘顺序：A:4 ， AA:2 ， AB:4 ， ABB:2 ， ABC:4 ， AC:4 ，B:4 ， BB:2 ， BC:4 ， C:4 ， CA:3 ， CAB:2 ， CABC:2 ， CAC:2 ， CB:3 ， CBC:2 ， CC:2

算法—剪枝策略与生成器检查策略前向剪枝：检查新的模式的每一个增长的投影数据库是否与模式的每一个增长的投影数据库相同后向剪枝：检查新的模式的投影数据库是否与去除一个事件后的模式的投影数据库相同生成器检查：检查新的模式的支持度是否与去除一个事件后的模式的支持度相同

可以在后向剪枝时完成

基于生成器序列的分类—特征选择基于置信度：选择所有的置信度大于等于给定的阈值的模式

缺点：很难设置一个合适的阈值没有考虑数据的覆盖情况

面向实例：每一个训练实例的有着最高的置信度的个覆盖模式的集合

基于生成器序列的分类—直接挖掘基于原有算法采用直接挖掘的策略新的剪枝策略：给定一个模式和它的增长，。

实验结果—数据集数据集序列数目项目数目平均长度最大长度Gazelle 29369 1423 3 651

ProgramTrace 10 105 488 989

TCAS 1578 287 61 97

数据集序列数目正例数目负例数目平均长度ESL-C 5765 2879 2886 18.4

ESL-J 31369 15800 15569 13.1

Office07Review 320 240 80 94

VistaReview 597 254 343 234

实验结果—效率比较

Gazelle TCAS

实验结果—剪枝策略（前向 / 后向）

Gazelle TCAS

实验结果—剪枝策略（直接挖掘分类规则）

Vista

实验结果—可伸缩性

Gazelle

实验结果—特征选择方法的比较

Vista ，基于生成器序列

特征选择方法支持向量机朴素贝叶斯基于置信度 65.5% 45.77%

面向实例（ k=1 ） 72.73% 66.66%

面向实例（ k=2 ） 72.22% 62.42%

面向实例（ k=3 ） 72.38% 62.25%

特征选择方法支持向量机朴素贝叶斯基于置信度 65.5% 45.77%

面向实例（ k=1 ） 72.56% 65.98%

面向实例（ k=2 ） 72.21% 62.08%

面向实例（ k=3 ） 72.57% 60.24%

Vista ，基于闭合序列

实验结果—基于不同种类序列的模型的比较

支持向量机朴素贝叶斯

数据集最小支持度

生成器序列闭合序列完整序列

ESL-C 2.50% 80.05% 80.02% 79.93%

ESL-C 1% 81.04% 81.02% 80.79%

ESL-J 2.50% 80.66% 80.66% 80.68%

ESL-J 1% 81.03% 81.07% 81.01%

数据集最小支持度

生成器序列闭合序列完整序列

ESL-C 2.50% 72.91% 72.89% 73.89%

ESL-C 1.00% 77.69% 77.57% 77.86%

ESL-J 3% 52.56% 52.55% 52.61%

ESL-J 1.00% 53.76% 53.82% 53.85%

流滑动窗口上高效的生成器项集的发现CIKM’09

关键字：项集、生成器、特征选择、滑动窗口

贡献第一个在流数据滑动窗口上挖掘频繁生成器项集的算法新颖的枚举树结构与有效的优化技术扩展算法使其在滑动窗口上直接挖掘分类规则全面的性能研究显示了算法的效率优于其它算法，并在类别型数据的分类上有很高的准确率

例—流数据

基本定理一个频繁项集是一个生成器当且仅当不存在一个的大小为的子集与的支持度相同

用于检查一个项集是否是生成器一个生成器项集的子集都是生成器一个无用项集（频繁非生成器项集）的超集都是无用的或非频繁的

定义生成器与非生成器之间的边界枚举树的基础

FP-Tree 使用 FP-Tree 的一个变种来存储每一个滑动窗口中的事务

例—第一个滑动窗口的 FP-Tree1 A B C2 A D3 A B C D4 A B D

枚举树使用枚举树来保存挖掘的生成器的信息和生成器与非生成器之间的边界三种节点：

非频繁无用生成器

枚举树的每一层有一个散列表加速生成器检查操作

例—第一个滑动窗口的枚举树1 A B C2 A D3 A B C D4 A B D

最小支持度为 2

添加和删除操作核心部分：枚举树节点状态转移矩阵

添加删除类型G G G G G G/U I/GU U G/U U U U I/UI I I I/G/U I I I

G ：生成器， U ：无用， I ：非频繁：当前正在添加 /删除的事务

实验结果—数据集数据集项目数事务数正例数负例数平均长度

mushroom 116 8124 4208 3916 21.695

horse 89 368 232 136 16.769

adult 128 48842 11687 37155 13.868

breast 45 699 458 241 8.977

hepatitus 55 155 32 123 17.923

pima 40 768 500 268 8

chess 75 3196 - - 37

connect 129 67557 - - 43

pumsb 2113 49046 - - 74

实验结果—与 Moment 的比较

Mushroom ，窗口大小： 4k Mushroom ，窗口大小： 2k

Moment 是一个用于在滑动窗口上挖掘频繁闭合项集模式的算法

实验结果—与 DPM 的比较

Mushroom ，窗口大小： 4k Connect ，窗口大小： 67k

DPM 是一个用于在静态数据上挖掘频繁生成器项集模式的算法

实验结果—与 DDPMine 的比较

Mushroom ，窗口大小： 8k Horse ，窗口大小： 600

DDPMine 是一个用于在静态数据上直接挖掘分类规则的算法

实验结果—分类准确率StreamGen DDPMine

数据集准确率最大长度平均长度平均数目准确率最大长度平均长度平均数目breast 96.708 3 1.551 23.6 95.28 9 2.448 11.6

adult 82.146 3 1.831 13 81.292 14 4.583 7.2

mushroom 98.918 3 1.958 9.6 97.184 22 15.592 16.2

hepatitus 82.006 4 2.387 15 76.986 8 4.8 5

horse 81.512 2 1.389 3.6 81.246 20 4.88 10

pima 74.87 4 1.663 18.4 75.124 7 2.435 12.6

例—选择的分类规则StreamGen DDPMine

38 17 39

12 25 5 7 8 11 13 15 16 17 18 19 20 26

13 25 8 17 18

7 67 5 7 9 13 14 15 16 17 18 19 20 40 41 46 53 54

66 2 7 9 11 13 14 15 16 17 18 19 20 21 38 40 44 53 54 76

7 68 2 7 9 11 13 14 15 16 17 18 19 20 28 38 40 44 53 54 76

11 18 2 7 9 11 13 14 15 16 17 18 19 20 32 38 40 53 54 65 76

6 18 37 2 7 9 11 13 14 15 16 17 18 19 20 22 32 38 40 53 54 76

4 53 2 7 9 11 13 14 15 16 17 18 19 20 28 32 38 40 46 53 54 76

2 7 9 11 13 14 15 16 17 18 19 20 21 32 38 40 45 46 53 54 76

2 7 9 11 13 14 15 16 17 18 19 20 21 32 34 38 40 46 48 53 54 76

用于非确定性数据分类的区分性模式的直接挖掘SIGKDD’10

关键字：事务型数据、非确定性、直接挖掘、期望置信度

贡献第一个用于非确定性数据分类的关联分类算法采用了期望置信度作为区分度的度量，并提出一个基于上界的方法来加速期望置信度的计算一个新的实例覆盖策略来保证每一个训练实例被被至少一个模式覆盖的概率高于用户所指定的阈值使用 30 个公开数据集在不同的非确定性参数下进行了全面的实验，有着平均 4% 到 10% 的准确率的提高

例—非确定性事务型数据集评价价格外观技术规格质量

不可接受 + - / {-:0.8,/:0.1,+:0.1}

可接受 / - / {-:0.1,/:0.8,+:0.1}

好 - + / {-:0.1,/:0.8,+:0.1}

非常好 / + + {-:0.1,/:0.1,+:0.8}

+ ：好， / ：一般， - ：差

已有的模式的区分度度量确定性数据

置信度熵信息增益信息增益比率基尼系数 …

非确定数据概率熵概率信息增益没有合理的统计意义和理论解释

期望置信度优点：

在理论上被保证是有统计意义的提供了相对精确的区分性的度量在确定性数据上，置信度被证实为良好的区分度的度量

缺点：在非确定数据上计算复杂度高

期望置信度—定义给定事务的集合和相对于的可能世界的集合，项集在类上的期望置信度被定义为。很大复杂度很高

期望置信度—高效计算分而治之的计算方法

计算在中当支持度为 1 时的期望置信度计算在的前 1 个事务中当支持度为 1 时的期望置信度计算在的前 2 个事务中当支持度为 1 时的期望置信度 … 计算在的前个事务中当支持度为 1 时的期望置信度

计算在中当支持度为 2 时的期望置信度 …

… 计算在中当支持度为时的期望置信度

… 求和得到最终结果

期望置信度—高效计算

期望置信度—高效计算（改进）分而治之的计算方法

计算在中当支持度为 1 时的期望置信度检查当前步骤的上界是否小于需要覆盖的值，是则停止

计算在中当支持度为 2 时的期望置信度检查…

… 计算在中当支持度为时的期望置信度

检查… 求和得到最终结果

期望置信度—高效计算（改进）

例—期望置信度的上界的计算

期望置信度—高效计算复杂度：

时间复杂度：空间复杂度：

算法细节挖掘算法：与 HARMONY 相同的深度优先的模式增长框架实例覆盖策略

HARMONY ：为每一个实例寻找一个有着最高置信度的覆盖模式 uHARMONY ：试图保证每个实例不被任何一个模式所覆盖的概率小于 1 减去指定的阈值

分类算法基于规则：与 HARMONY 相似

对每一个测试实例将每一个模式在每一个类上的置信度与实例包含模式的概率的乘积相加，有着最大值的类就是所预测的类支持向量机

每一个模式都是权重为每一个实例包含项集的概率的特征

实验结果—数据集数据集实例数属性数类别数领域

australian 690 14 2 Financial

balance 635 4 3 Social

bands 539 38 2 Physical

breast 699 9 2 Life

bridges-v1 106 11 6 N/A

bridges-v2 106 10 6 N/A

car 1728 6 4 N/A

contraceptive 1473 9 3 Life

credit 690 15 2 Financial

echocardiogram 131 12 2 Life

数据集实例数属性数类别数领域flag 194 28 8 N/A

german 1000 19 2 Financial

heart 920 13 5 Life

hepatitis 155 19 2 Life

horse 368 27 2 Life

monks-1 556 6 2 N/A

monks-2 601 6 2 N/A

monks-3 554 6 2 N/A

mushroom 8124 22 2 Life

pima 768 8 2 Life

实验结果—数据集数据集实例数属性数类别数领域

postoperative 90 8 3 Life

promoters 106 57 2 Life

spect 267 22 2 Life

survival 306 3 2 Life

ta_eval 151 5 3 N/A

tic-tac-toe 958 9 2 Game

vehicle 846 18 4 N/A

voting 435 16 2 Social

wine 178 13 3 Physical

zoo 101 16 7 Life

实验结果—分类准确率（平均）

+ ：好， / ：一般， - ：差

非确定性 uHarmony DTU uRuleU10@1 79.0138 74.8738 75.2111U10@2 78.6970 73.1629 73.4107U10@4 77.9657 72.2670 69.4649U20@1 78.9537 74.6577 74.6287U20@2 78.6073 72.5642 72.5460U20@4 77.8352 69.9157 68.2066

实验结果—分类准确率（平均）非确定性

uHarmony（ Rule-based） DTU uRule

U20@4 73.2517 72.2670 69.4649

实验结果—敏感性测试

U10@1 ，最小支持度 U10@1 ，最小覆盖概率

实验结果—运行时间

U10@4 ， Car U10@4 ， Heart

实验结果—运行时间

U10 ， Car ，最小支持度： 0.01 U10 ， Heart ，最小支持度： 0.01

实验结果—可伸缩性（运行时间）

U10@1 ， Car ，最小支持度： 0.01U10@1 ， Heart ，最小支持度： 0.01

发表的论文 [1] Chuancong Gao, Jianyong Wang, Yukai

He, Lizhu Zhou. Efficient mining of frequent sequence generators. WWW’2008 Poster. Best Poster Award.

[2] Chuancong Gao, Jianyong Wang. Efficient itemset generator discovery over a stream sliding window. CIKM’2009.

[3] Chuancong Gao, Jianyong Wang. Direct Mining of Discriminative Patterns for Classifying Uncertain Data. SIGKDD’2010.

master thesis 2010 - pattern discovery algorithms for classification

Software