关系数据中函数依赖检测方法 - wowbigdata.com.cn ·...

书书书

第４０卷　第１期

２０１７年１月计　　算　　机　　学　　报

ＣＨＩＮＥＳＥ　ＪＯＵＲＮＡＬ　ＯＦ　ＣＯＭＰＵＴＥＲＳＶｏｌ．４０Ｎｏ．１

Ｊａｎ．２０１７　

收稿日期：２０１５－１１－２０；在线出版日期：２０１６－０４－１０．本课题得到国家“九七三”重点基础研究发展规划项目基金（２０１２ＣＢ３１６２０３）、国家自

然科学基金（６１３３２００６，６１４７２３２１）、西北工业大学基础研究基金（３１０２０１４ＪＳＪ００１３，３１０２０１４ＪＳＪ０００５）资助．钟　评，男，１９８５年生，博士研

究生，中国计算机学会（ＣＣＦ）会员，主要研究方向为数据管理．Ｅ－ｍａｉｌ：ａａｓｓａａ２００３＠１６３．ｃｏｍ．李战怀，男，１９６１年生，博士，教授，主要研

究领域为数据库理论与技术．陈　群，男，１９７６年生，博士，教授，主要研究领域为云计算，图数据管理．

关系数据中函数依赖检测方法

钟评　李战怀　陈群（西北工业大学计算机学院　西安　７１０１２９）

摘　要　在数据质量研究中函数依赖被广泛用于关系数据不一致性的修复．然而，不一致修复问题面临的一个主

要挑战是如何从包含有错误的关系数据中自动发现有效的函数依赖（Ｆｕｎｃｔｉｏｎａｌ　Ｄｅｐｅｎｄｅｎｃｅ，ＦＤ）．目前基于统计

度量置信度的ＦＤ自动发现方法经常找出大量近似成立但无效的ＦＤ．如果直接利用这些ＦＤ修复数据，会产生更

多错误．针对该问题，文中提出了一种基于数据语义分析的函数依赖检测方法．该方法通过条件概率来分析属性值

和元组的数据置信度，进而计算函数依赖成立的置信度．文中同时提出了利用关系数据构建马尔科夫毯贝叶斯网

络用以计算数据置信度的方法．最后文中通过实验在模拟数据和真实数据上验证了基于数据语义的置信度计算方

法在自动检测中的精确度优于基于统计的计算方法，并且在交互式检测应用场景中数据语义的置信度所需用户工

作量少于基于统计的方法．

关键词　数据质量；函数依赖；数据置信度；条件概率

中图法分类号ＴＰ３１１　　　ＤＯＩ号１０．１１８９７／ＳＰ．Ｊ．１０１６．２０１７．００２０７

Ａ　Ｆｕｎｃｔｉｏｎａｌ　Ｄｅｐｅｎｄｅｎｃｉｅｓ　Ｃｈｅｃｋｉｎｇ　Ｍｅｔｈｏｄ　ｉｎ　Ｒｅｌａｔｉｏｎａｌ　Ｄａｔａ

ＺＨＯＮＧ　Ｐｉｎｇ　ＬＩ　Ｚｈａｎ－Ｈｕａｉ　ＣＨＥＮ　Ｑｕｎ（Ｄｅｐａｒｔｍｅｎｔ　ｏｆ　Ｃｏｍｐｕｔｅｒ　Ｓｃｉｅｎｃｅ，Ｎｏｒｔｈｗｅｓｔｅｒｎ　Ｐｏｌｙｔｅｃｈｎｉｃａｌ　Ｕｎｉｖｅｒｓｉｔｙ，Ｘｉ’ａｎ　７１０１２９）

Ａｂｓｔｒａｃｔ　Ｉｎ　ｄａｔａ　ｑｕａｌｉｔｙ　ｒｅｓｅａｒｃｈ，Ｆｕｎｃｔｉｏｎａｌ　Ｄｅｐｅｎｄｅｎｃｉｅｓ（ＦＤｓ）ｈａｖｅ　ｂｅｅｎ　ｗｉｄｅｌｙ　ｕｓｅｄ　ｔｏｒｅｐａｉｒ　ｉｎｃｏｎｓｉｓｔｅｎｔ　ｒｅｌａｔｉｏｎａｌ　ｄａｔａ．Ｈｏｗｅｖｅｒ，ｔｈｅ　ｍａｉｎ　ｃｈａｌｌｅｎｇｅ　ｏｆ　ｒｅｐａｉｒｉｎｇ　ｉｎｃｏｎｓｉｓｔｅｎｔ　ｄａｔａ　ｉｓｈｏｗ　ｔｏ　ｄｉｓｃｏｖｅｒ　ｖａｌｉｄ　ｆｕｎｃｔｉｏｎａｌ　ｄｅｐｅｎｄｅｎｃｉｅｓ　ｆｒｏｍ　ｅｒｒｏｒｏｕｓ　ｒｅｌａｔｉｏｎａｌ　ｄａｔａ．Ｔｈｅ　ｅｘｉｓｔｉｎｇ　ＦＤｄｉｓｃｏｖｅｒｙ　ｍｅｔｈｏｄｓ，ｗｈｉｃｈ　ａｒｅ　ｂａｓｅｄ　ｏｎ　ｓｔａｔｉｓｔｉｃａｌ　ｃｏｎｆｉｄｅｎｃｅ　ｍｅａｓｕｒｅｍｅｎｔ，ｕｓｕａｌｌｙ　ｆｉｎｄ　ｍａｎｙａｐｐｒｏｘｉｍａｔｅｌｙ　ｃｏｒｒｅｃｔ　ｂｕｔ　ａｃｔｕａｌｌｙ　ｉｎｖａｌｉｄ　ＦＤｓ．Ｄｉｒｅｃｔｌｙ　ａｐｐｌｙｉｎｇ　ｔｈｅｓｅ　ｄｉｓｃｏｖｅｒｅｄ　ＦＤｓ　ｔｏ　ｒｅｐａｉｒｉｎｃｏｎｓｉｓｔｅｎｔ　ｒｅｌａｔｉｏｎａｌ　ｄａｔａ　ｍａｙ　ｉｎｔｒｏｄｕｃｅ　ｍｏｒｅ　ｄａｔａ　ｅｒｒｏｒｓ．Ｔｏ　ａｄｄｒｅｓｓ　ｔｈｉｓ　ｉｓｓｕｅ，ｗｅ　ｐｒｏｐｏｓｅ　ａｎｏｖｅｌ　ａｐｐｒｏａｃｈ　ｆｏｒ　ＦＤ　ｃｏｎｆｉｄｅｎｃｅ　ｍｅａｓｕｒｅｍｅｎｔ　ｂａｓｅｄ　ｏｎ　ｄａｔａ　ｓｅｍａｎｔｉｃｓ　ａｎａｌｙｓｉｓ．Ｉｔ　ｆｉｒｓｔ　ｕｓｅｓｃｏｎｄｉｔｉｏｎａｌ　ｐｒｏｂａｂｉｌｉｔｉｅｓ　ｔｏ　ｍｅａｓｕｒｅ　ｃｏｎｆｉｄｅｎｃｅ　ｏｆ　ａｎ　ａｔｔｒｉｂｕｔｅ　ｖａｌｕｅ，ａｎｄ　ｔｈｅｎ　ａｇｇｒｅｇａｔｅ　ｔｈｅｍ　ｆｏｒｅｓｔｉｍａｔｉｎｇ　ｔｈｅ　ｃｏｎｆｉｄｅｎｃｅ　ｌｅｖｅｌ　ｏｆ　ａ　ｇｉｖｅｎ　ＦＤ．Ｗｅ　ａｌｓｏ　ｐｒｏｖｉｄｅ　ａｎ　ｅｆｆｉｃｉｅｎｔ　ｍｅｔｈｏｄ　ｔｏ　ｃｏｎｓｔｒｕｃｔＭａｒｋｏｖ　ｂｌａｎｋｅｔ　Ｂａｙｅｓｉａｎ　ｎｅｔｗｏｒｋｓ　ｆｏｒ　ｅｖｅｒｙ　ｒｅｌａｔｉｏｎａｌ　ｄａｔａ　ａｔｔｒｉｂｕｔｅ，ａｎｄ　ｔｈｅｎ　ｕｓｅ　Ｍａｒｋｏｖ　ｂｌａｎｋｅｔＢａｙｅｓｉａｎ　ｎｅｔｗｏｒｋｓ　ｔｏ　ｃｏｍｐｕｔｅ　ｃｏｎｄｉｔｉｏｎａｌ　ｐｒｏｂａｂｉｌｉｔｉｅｓ．Ｏｕｒ　ｅｘｐｅｒｉｍｅｎｔａｌ　ｓｔｕｄｙ　ｏｎ　ｂｏｔｈ　ｓｙｎｔｈｅｔｉｃａｎｄ　ｒｅａｌ－ｗｏｒｌｄ　ｄａｔａ　ｓｈｏｗｓ　ｔｈａｔ　ｔｈｅ　ｐｒｏｐｏｓｅｄ　ａｐｐｒｏａｃｈ　ａｃｈｉｅｖｅｓ　ｃｏｎｓｉｄｅｒａｂｌｙ　ｈｉｇｈｅｒ　ａｃｃｕｒａｃｙ　ｔｈａｎｔｈｅ　ｓｔａｔｉｓｔｉｃｓ－ｂａｓｅｄ　ａｐｐｒｏａｃｈ．Ｆｕｒｔｈｅｒｍｏｒｅ，ｗｅ　ｄｅｓｉｇｎｅｄ　ａｎ　ｉｎｔｅｒａｃｔｉｖｅ　ａｐｐｌｉｃａｔｉｏｎ　ｓｃｅｎａｒｉｏ　ｔｈａｔｅａｃｈ　ｉｔｅｒａｔｉｏｎ　ｃｏｎｓｕｌｔｓ　ｕｓｅｒ　ｏｎ　ｖｅｒｉｆｙｉｎｇ　ｔｈｅ　ＦＤｓ　ｗｉｔｈ　ｈｉｇｈｅｓｔ　ｃｏｎｆｉｄｅｎｃｅ．Ｏｕｒ　ｅｘｐｅｒｉｍｅｎｔ　ｒｅｓｕｌｔｓａｌｓｏ　ｓｈｏｗ　ｏｕｒ　ａｐｐｒｏａｃｈ　ｒｅｑｕｉｒｅｓ　ｆｅｗｅｒ　ｍａｎｕａｌ　ｗｏｒｋｓ　ｔｈａｎ　ｓｔａｔｉｓｔｉｃｓ－ｂａｓｅｄ　ａｐｐｒｏａｃｈ　ｉｎ　ｉｎｔｅｒａｃｔｉｖｅａｐｐｌｉｃａｔｉｏｎ　ｓｃｅｎａｒｉｏ．

Ｋｅｙｗｏｒｄｓ　ｄａｔａ　ｑｕａｌｉｔｙ；ｆｕｎｃｔｉｏｎａｌ　ｄｅｐｅｎｄｅｎｃｙ；ｄａｔａ　ｃｏｎｆｉｄｅｎｃｅ；ｃｏｎｄｉｔｉｏｎａｌ　ｐｒｏｂａｂｉｌｉｔｙ

１　引　言

当前数据不一致是关系数据中普遍存在的

问题［１］．从关系数据中发现函数依赖（ＦｕｎｃｔｉｏｎａｌＤｅｐｅｎｄｅｎｃｅ，ＦＤ），再通过删除或修改不一致数据使

其满足给定函数依赖，是当前不一致性修复的常用

方法．然而，在当前不一致性修复中，ＦＤ自动发现算

法得到的近似成立ＦＤ不一定是真实成立的．在给

定数据和ＦＤ集都含有错误的情况下，如果数据违

反了ＦＤ，则有两种可能原因：（１）ＦＤ成立，数据违

反函数依赖需要修复；（２）ＦＤ本身不成立，数据不

需要修复．本文主要研究在数据含有错误的情况下

ＦＤ的检测问题．以表１为例，假设表１中存在两个近似成立ＦＤ，

记为φ１与φ２，分别有

φ１：Ｃｉｔｙ，ＣｏｕｎｔｙＳｔａｔｅ，

φ２：Ｚｉｐ　ＣｏｄｅＣｏｕｎｔｙ，其中数据元组ｔ１不满足函数依赖φ１，但是通过实际

验证可以发现，ｔ１虽然Ｃｉｔｙ（城市名），Ｃｏｕｎｔｙ（郡名）属性与ｔ３，ｔ４，ｔ５，ｔ６取值相同，但是实际中却是同名

的不同城市，因此该ＦＤ在实际语义中不成立．与φ１相比，对违反φ２的元组ｔ９验证可知，ｔ９中Ｃｏｕｎｔｙ属

性值现实中确实是错误应当修改，φ２成立．由此可

见，ＦＤ检测通常需要涉及到关系数据在现实世界

中的语义．虽然现实世界中的语义信息无法完全和

精确获取，但本文通过在给定的关系数据中寻找能

够反映现实世界语义的信息，即数据语义作为解决

当前问题依据．目前，仅有部分不一致性修复研究考虑了ＦＤ

不成立的情况［２－４］，针对关系数据的ＦＤ自动挖掘仍

主要采用基于统计的置信度［５］计算方法．该方法假

定数据中错误仅占很小一部分，因此ＦＤ中不一致

数据越少，其成立的可能性越大．然而，由于该方法

没有考虑数据语义，除包含真实成立的ＦＤ以外，检

测结果通常也会包含很多无效的ＦＤ，因此总体的检

测精确度仍有可能很低．如第６节图４（ｅ）～（ｈ）实验

所示，在真实数据ｈｏｓｐｉｔａｌ的精确度实验中置信度

前２０％的近似ＦＤ中真实成立的ＦＤ不到３０％．本文贡献如下：（１）针对关系数据提出了一种

基于数据语义分析的ＦＤ检测方法．该方法通过条

件概率定义属性值和元组的数据置信度，提出相应

的ＦＤ置信度计算方法；（２）提出了构建并使用马

尔科夫毯贝叶斯网络来计算数据置信度的方法；

（３）通过在模拟数据和真实数据集上的实验，验证

了基于数据语义的置信度计算方法在自动检测中精

确度高于统计置信度方法，并且在交互式检测应用

场景中数据语义的置信度所需用户工作量少于基于

统计的方法．本文第２节为相关工作；第３节概述ＦＤ概念

以及ＦＤ检测问题；第４节介绍数据置信度和ＦＤ数

据语义分析置信度的定义；第５节介绍使用数据构

建马尔科夫毯贝叶斯网络用以计算数据置信度的方

法；第６节通过实验验证该方法对函数依赖的检测

效果；第７节为结论．

２　相关工作

目前，关系数据中不一致性的修复主要通过函

数依赖实现．文献［１，６］对不一致性修复进行了综述

性介绍．文献［７］首先提出了直接修复数据值的代价修

复模型．该模型通过寻找一个满足给定ＦＤ集并且

修复代价最小的修复方案来修复数据．文献［８］对

ＦＤ在语义上扩展提出了条件函数依赖（ＣｏｎｄｉｔｉｏｎａｌＦｕｎｃｔｉｏｎａｌ　Ｄｅｐｅｎｄｅｎｃｅ，ＣＦＤ），ＣＦＤ可以看做是一

种局部的ＦＤ，文献［９］提出了基于代价修复模型使

用ＦＤ和ＣＦＤ共同修复数据的方法．文献［１０］对代

价模型修复算法进行优化，提出了近似最优修复的

方法．文献［１１－１２］提出使用采样的方法对海量数据

进行修复．此外，文献［１３－１５］分别提出了不同于

ＦＤ和ＣＦＤ的其他数据修复方法．关系数据不一致性修复首先需要自动发现数据

中的ＦＤ．文献［１６］介绍了ＦＤ自动发现研究现状，文献［１７－１８］等分别提出了从数据中发现最小ＦＤ集的算法．文献［１７］提出的ＴＡＮＥ算法使用分层

搜索策略，将ＦＤ搜索空间按照ＦＤ中属性数分层

并逐层搜索，同时在搜索过程中对搜索空间剪枝．并证明该方法对数据量有良好扩展性．文献［１８］提

出算法ＦａｓｔＦＤｓ通过计算各数据元组的不一致集

来发现ＦＤ集，该方法对数据中属性数量有良好扩

展，但复杂度是数据量的平方．文献［１９］将ＦＤ自动

发现算法扩展到ＣＦＤ，提出了分别基于ＴＡＮＥ算

法和ＦａｓｔＦＤｓ算法的ＣＦＤ发现算法ＣＴＡＮＥ和

ＣＦＤＭｉｎｅｒ．文献［２０］提出一种深度优先的发现算

法，该方法能够用于数据量较大条件下的发现．文

献［２１］实验评估了当前多种发现算法的效率．当前数据修复流程主要是首先通过上述文献

［１７－１９］中函数依赖发现算法发现数据中成立或近

８０２计　　算　　机　　学　　报２０１７年

似成立的ＦＤ或ＣＦＤ等规则．再使用文献［７－１５］方

法对不满足规则的数据进行修复．但这样的方法面

临一个问题是ＦＤ或ＣＦＤ发现方法得到的规则不

是语义上成立的，无法直接应用于数据修复．当前衡

量规则是否成立主要采用文献［５］基于统计的置信

度的方法，置信度是近似函数依赖［１５］（ＡｐｐｒｏｘｉｍａｔｅＦｕｎｃｔｉｏｎａｌ　Ｄｅｐｅｎｄｅｎｃｅ，ＡＦＤ）中使用的概念．该方

法假定数据中错误仅占很小一部分，则ＦＤ中不一

致数据越少，其成立的可能性越大．该方法发现的近

似成立ＦＤ中通常含有大量无效的ＦＤ，需要进一步

的人工判定．文献［２２］分析了ＦＤ，ＣＦＤ与关联规则

（Ａｓｓｏｃｉａｔｉｏｎ　Ｒａｌｅ，ＡＲ）之间的层级关系，并指出

ＡＲ发现算法可适用于所有依赖发现问题．由于近似成立的ＦＤ不一定在语义上真实成

立，直接应用其对数据修复会引入更多错误．文献

［２－３］研究了给定ＦＤ集不完全成立条件下的修复

方法，同时考虑ＦＤ和数据的修复代价，但研究局限

于修复代价的优化问题上．文献［４］提出的增量式修

复方法通过人为定义ＦＤ的统计特征作为分类特

征，通过人工标注的函数依赖作为训练集进行增量

式的有监督学习和修复，再检测其他ＦＤ是否成立

并进行数据修复．该方法特征选取有主观性，忽略了

不同ＦＤ可能包含的不同语义．而且，该方式是有监

督学习方法，需要人工进行样本标注．本文针对上述检测ＦＤ是否成立的问题进行了

研究，提出了一种自动检测ＦＤ方法，实验结果显示

本文方法得到的ＦＤ集拥有较高的精确度．

３　函数依赖概念与检测问题

３．１　函数依赖概念与定义

设数据库关系模式Ｒ由ｍ个属性组成，记为

（Ａ１，Ａ２，…，Ａｍ）．Ｄｏｍ（Ａ）记为属性Ａ的域，Ｉ表示

数据库中由｜Ｉ｜个元组组成的实例．则每一个元组

都属于空间Ｄｏｍ（Ａ１）×…×Ｄｏｍ（Ａｍ）．对于元组

ｔ∈Ｉ，记为ｔ［Ａ］，表示元组ｔ在Ａ属性的取值．Ｒ上的一个ＦＤ表示为Ｘ→Ｙ，其中Ｘ，ＹＲ．

其中Ｘ称作ＦＤ的左部（Ｌｅｆｔ－Ｈａｎｄ－Ｓｉｄｅ，ＬＨＳ），Ｙ称作ＦＤ的右部（Ｒｉｇｈｔ－Ｈａｎｄ－Ｓｉｄｅ，ＲＨＳ）．一个ＦＤ在数据库实例Ｉ上成立（记为ＩＸ→Ｙ），当且仅当

ｔ，ｔ′∈ｒ，ｔ［Ｘ］＝ｔ′［Ｘ］ｔ［Ｙ］＝ｔ′［Ｙ］．在Ｒ上ＦＤ集合Σ如果是一个最小覆盖（ｍｉｎｉｍａｌ　ｃｏｖｅｒ），则满

足Σ中每个ＦＤ都是简化的形式Ｘ→Ａ（即ＦＤ右部

仅有一个属性），并且任意φ∈Σ不会被Σ－φ蕴涵．

以表１为例，表１为美国医院数据中的部分信

息，主要包含医院所在地、邮编和联系方式等．假设

有ＦＤ：Ｚｉｐ　Ｃｏｄｅ→Ｓｔａｔｅｓ．表示数据集中所有ＺｉｐＣｏｄｅ（邮编）取值相同的元组，其对应属性Ｓｔａｔｅｓ（所

在州）的取值必须相同．如果不相等，则该数据是违

反函数依赖的不一致数据．

表１　美国医院地址信息

Ｃｉｔｙ　Ｃｏｕｎｔｙ　Ｓｔａｔｅ　Ｚｉｐ　Ｃｏｄｅ　Ｐｈｏｎｅｔ１ＬＯＵＩＳＶＩＬＬＥ　ＪＥＦＦＥＲＳＯＮ　ＧＡ　３０４３４　４７８６２５７０００ｔ２ＭＩＬＬＥＮ　ＪＥＮＫＩＮＳ　ＧＡ　３０４４２　４７８４７８４２２１ｔ３ＬＯＵＩＳＶＩＬＬＥ　ＪＥＦＦＥＲＳＯＮ　ＫＹ　４０２０２　５０２５８７４０１１ｔ４ＬＯＵＩＳＶＩＬＬＥ　ＪＥＦＦＥＲＳＯＮ　ＫＹ　４０２０２　５０２６２９６５６０ｔ５ＬＯＵＩＳＶＩＬＬＥ　ＪＥＦＦＥＲＳＯＮ　ＫＹ　４０２０２　５０２５６２３０００ｔ６ＬＯＵＩＳＶＩＬＬＥ　ＪＥＦＦＥＲＳＯＮ　ＫＹ　４０２０７　５０２８９７８１００ｔ７Ｂａｌｔｉｍｏｒｅ　ＢａｌｔｉｍｏｒｅＣｉｔｙ　ＭＤ　２１２０１　４１０３２８８６６７ｔ８Ｂａｌｔｉｍｏｒｅ　ＢａｌｔｉｍｏｒｅＣｉｔｙ　ＭＤ　２１２０１　４１０２２５８９９６ｔ９Ｂａｌｔｉｍｏｒｅ　Ｋｅｔｃｈｉｋａｎ　Ｇａｔｅｗａｙ　ＭＤ　２１２０１　４１０６０５７０１６

３．２　函数依赖检测问题

ＦＤ的检测问题可以形式化描述为：给定ＦＤ候选集Σ 以及数据库实例Ｉ，对每一个函数依赖

φ∈Σ，置信函数ｆ：ｆ（φ，Ｉ）将Σ中每个ＦＤ和Ｉ作为

输入，映射得到一个实数ｄ（φ）∈［０，１］，作为函数依

赖成立的度量．当前数据修复领域通常使用ＡＦＤ中的置信度

概念来度量ＦＤ成立的可能性．在数据库设计中，当

允许一个ＦＤ含有部分不一致数据时，则该函数依

赖是一个ＡＦＤ．置信度用来衡量一个ＡＦＤ与对应

ＦＤ在数据上的近似程度，当前主流方法是统计一

个ＡＦＤ同对应ＦＤ元组上的相似比例，一个函数依

赖φ：Ｘ→Ｙ的置信度ｃｏｎ（φ）标准形式为

　ｃｏｎ（φ）＝

∑ｘ∈∏

Ｘ（Ｉ）ｍａｘ　ｃＸＹ（ｘ，ｙ）：ｙ∈∏

Ｙ

（Ｉ（））

｜Ｉ｜（１）

式（１）中∏Ｘ

（Ｉ）表示属性Ｘ在数据库实例Ｉ上的投

影，ｃＸ（ｘ）表示属性Ｘ的取值ｘ在Ｉ上的元组数．以

表１中φ２：Ｚｉｐ　Ｃｏｄｅ→Ｃｏｕｎｔｙ为例，可以计算出置

信度ｃｏｎ（φ２）＝１＋１＋３＋１＋２

９＝８９．

与基于统计的置信度计算方法不同，本文提出

通过分析Ｉ中违反待检测ＦＤ的数据项是否需要修

复来计算ＦＤ成立的置信度．为区别起见，本文将基

于数据语义分析置信度（Ｄａｔａ　Ｓｅｍａｎｔｉｃ　Ｃｏｎｆｉｄｅｎｃｅ，

ＤＳＣ）简称ＤＳＣ置信度，传统基于统计的置信度称

为ＳＣ置信度（Ｓｔａｔｉｓｔｉｃａｌ　Ｃｏｎｆｉｄｅｎｃｅ，ＳＣ）．

９０２１期钟评等：关系数据中函数依赖检测方法

４　基于数据语义分析的ＦＤ检测方法

本文目标是通过从给定数据中寻找数据所包含

的语义信息来解决检测问题．贝叶斯网络作为一种

描述数据因果关系的模型，其网络结构蕴含了数据

的因果关系．基于贝叶斯网的数据语义信息本文提

出判断不一致数据是否需要修改的方法———数据置

信度．本文依据第３节中检测问题定义，使用违反

ＦＤ元组的数据置信度来定义ＦＤ成立的可能性，即

ＦＤ的ＤＳＣ置信度．本章介绍数据置信度和ＤＳＣ置

信度的定义．第５节介绍使用马尔科夫毯贝叶斯网

络计算数据置信度的方法．４．１　数据置信度

以表１中为例，元组ｔ１属性Ｃｉｔｙ，Ｃｏｕｎｔｙ取值

虽然与ｔ３～ｔ６相同，但是Ｚｉｐ　ｃｏｄｅ与Ｐｈｏｎｅ取值有

很大差异，可以作为支持ｔ１是同名的不同城市的证

据．本文通过为该属性构建贝叶斯网络，并利用网

络中相关属性Ｅ的值ｔ［Ｅ］＝ｅ计算元组ｔ当前值

ｔ［Ａ］＝ａ的条件概率ｐ（ａ｜ｅ）来推测ｔ［Ａ］是否需要

修改．其中证据属性Ｅ通过贝叶斯网络构建获得．具体方法在第５节介绍．

本节首先定义元组单个属性的数据值置信度，对于元组ｔ，其属性Ａ∈Ｕ取值ｔ［Ａ］＝ａ的数据值

置信度定义如下．定义１．　数据元组ｔ∈Ｉ，Ｉ中所有属性记为

Ｕ，属性Ａ的取值ａ＝ｔ［Ａ］，证据ｅ＝ｔ［Ｅ］，其中ＥＵ／Ａ，则元组ｔ中属性Ａ的数据值置信度定义为

ｒ（ｔ，Ａ）＝ｐ（ａ｜ｅ）－ｐ（ａ）ｍａｘ（ｐ（ａ｜ｅ），ｐ（ａ））

（２）

式（２）中ｐ（ａ｜ｅ）－ｐ（ａ）代表的意义可以用分类

的观点解释：将Ａ的取值范围ａ∈Ｄｏｍ（Ａ）中每一

个值看作一个类标签，ｐ（ａ）代表没有任何额外信息

时，元组ｔ分到类ａ的概率．Ｐ（ａ｜ｅ）为当知道作为证

据的属性Ｅ取值信息时分类为ａ的概率．当已知该

元组证据属性Ｅ取值ｅ时，ｅ使得该元组分类为

ｔ［Ａ］＝ａ的概率发生了变化．ｐ（ａ｜ｅ）－ｐ（ａ）越大，说明证据属性取值在概率上越支持当前值，则ａ＝ｔ［Ａ］置信度越大．反之如果Ｐ（ａ｜ｅ）－ｐ（ａ）越小，则

认为当前值更应当修改．式（２）中ｒ（ｔ，Ａ）取值范围

为－１＜ｒ（ｔ，Ａ）＜１，为了方便后续计算和排序，因此

将ｒ（ｔ，Ａ）进行归一化，得到归一化后的数据值置

信度：

ｒ′（ｔ，Ａ）＝ｒ（ｔ，Ａ）＋１

２（３）

式（２）定义单个属性ｔ［Ａ］的数据值置信度后，需要定义元组ｔ的数据置信度．对于一个违反ＦＤ：

Ｘ→Ｙ的元组ｔ，集合Ｘ∪Ｙ中属性都可能发生错

误，ｔ的数据置信度应当由所有可能发生错误的属

性定义．元组中一个属性值有错时，整个元组被看作

是不一致数据．因此一个元组ｔ的数据置信度定义

为所有可能错误属性的数据值置信度最小值：

ｒ（ｔ，Ｉ，φ）＝ｍｉｎ（ｒ′（ｔ，Ａ），Ａ∈Ｘ∪Ｙ）（４）以表１中元组和φ２：Ｚｉｐ　Ｃｏｄｅ→Ｃｏｕｎｔｙ为例，

要计算违反φ２元组ｔ９的数据置信度，则需要计算ｔ９中所有φ２相关属性的属性值置信度并取最小值．即

ｒ（ｔ９，Ｉ，φ２）＝ｍｉｎ（ｒ′（ｔ９，Ｚｉｐ　Ｃｏｄｅ），ｒ′（ｔ９，Ｃｏｕｎｔｙ））．假设Ｚｉｐ　Ｃｏｄｅ的证据属性为Ｓｔａｔｅ，则

ｒ（ｔ９，Ｚｉｐ　Ｃｏｄｅ）＝ｐ（２１２０１｜ＭＤ）－ｐ（２１２０１）ｍａｘ（ｐ（２１２０１｜ＭＤ），ｐ（２１２０１））

．

该条件概率的计算方法将在第５节介绍．４．２　数据语义的ＦＤ置信度计算

当给定数据置信度之后，可以进一步定义ＦＤ的数据语义置信度（Ｄａｔａ　Ｓｅｍａｎｔｉｃ　Ｃ，ＤＳＣ），任意

函数依赖φ的ＤＳＣ置信度ｄ为

ｄ（φ）＝ｆ′（ｒ（ｔ１，Ｉ，φ）…ｒ（ｔｎ，Ｉ，φ））（５）其中ｔｉ∈Ｉ为不满足φ的数据元组．ｒ（ｔｉ，Ｉ，φ）为元组

的数据置信度，可简写为ｒｉ．置信函数ｆ′（ｒ１，…，ｒｎ）利用不一致元组的数据置信度，计算φ成立置信度．

式（５）定义一个ＦＤ的ＤＳＣ置信度需要通过所

有不一致数据的数据置信度来计算．在数据修复应

用中，若给定一个ＦＤ成立，所有违反该ＦＤ的不一

致数据将被修复．因此本文根据以下原则定义ＦＤ的数据语义分析置信度：一个ＦＤ成立的ＤＳＣ置信

度越高，则违反该ＦＤ的不一致数据中被修复部分

平均数据置信度越低，因为当ＦＤ没有错误的时候，数据必然发生了错误．因此计算ＤＳＣ置信度需要首

先使用式（３）和（４）对函数依赖的不一致部分计算数

据置信度，再通过各违反元组的置信度利用式（５）计算ＦＤ的ＤＳＣ置信度．

假设元组集ＶＩ为使用ＦＤ修复数据后会

发生改变的元组集合．对于ＦＤ：Ｘ→Ｙ，将Ｉ中所有

元组按照属性Ｘ的取值ｘｉ∈Ｘ划分成等价类．明

显的，数据中与ＦＤ一致部分不属于集合Ｖ．对于不

一致部分，本文假设不一致数据所在的等价类中支

持度低的部分需要修复，如图１（ａ）中可认为ｔ＝｛ＪＥＦＦＥＲＳＯＮ，ＫＹ｝元组支持度最大没有错误，称

为主模式（ｍａｊｏｒ　ｐａｔｔｅｒｎ），记为ｍａｊｏｒ（ｘｉ），主模式

中元组ｔ∈ｍａｊｏｒ（ｘｉ）不需修复．而｛ＪＥＦＦＥＲＳＯＮ，

０１２计　　算　　机　　学　　报２０１７年

ＧＡ｝需要修复，这种情况下仅需要计算主模式外的

其他元组的数据置信度．但是如图１（ｂ）和（ｃ）所示，即支持度最高的模式不存在或不唯一．在这种情况

下需要对所有不一致数据元组进行检测．并计算每

个模式（即函数依赖属性的不同取值）的数据置信度

之和．并从中找出支持度最大且数据置信度最大的

模式作为主模式．因主模式不需修复，则不包含于集

合Ｖ中．最终，单个函数依赖成立的数据置信度

ｄ（φ）可以定义如下．

图１　函数依赖不一致数据

定义２．　对于函数依赖φ，以及发生改变的元

组集Ｖ，函数依赖成立的ＤＳＣ置信度为

ｄ（φ）＝１－∑ｔ∈Ｖｒ（ｔ，Ｉ，φ）

｜Ｖ｜（６）

其中｜Ｖ｜表示Ｖ中元组数．

５　数据置信度计算方法

为计算数据置信度，需要计算式（２）中条件概率

ｐ（ａ｜ｅ）与先验概率ｐ（ａ）．其中ｐ（ａ）可以通过数据

直接统计得到．对于ｐ（ａ｜ｅ）的计算，由于数据各属

性之间的互相影响会降低判断的准确性，本文采用

概率图模型方法由数据集Ｉ为每个属性构建马尔科

夫毯贝叶斯网络［２３］用以计算每个元组取值的条件

概率．５．１　贝叶斯网络及其推理

贝叶斯网络［２４］是一种表示随机变量集联合分

布的概率图模型方法．一个贝叶斯网络由网络结构

ＢＳ以及条件概率表（Ｃｏｎｄｉｔｉｏｎａｌ　Ｐｒｏｂａｂｉｌｉｔｙ　Ｔａｂｌｅ，

ＣＰＴ）组成．网络结构ＢＳ是一个如图２所示有向无

环图，图中每个顶点对应随机变量中的一个变量．两个节点间的有向边表示对应变量之间的直接依赖关

系．图中点Ａ与点Ｄ之间没有边相连，则表示当已

知Ｄ在ＢＳ中的双亲Ｃ取值时，Ｄ取值概率与Ａ、Ｂ独立，ｐ（Ｄ｜ＣＡＢ）＝ｐ（Ｄ｜Ｃ）．

在当前应用中，关系数据中的每个属性被看作

贝叶斯网络中的一个节点．对于每个变量节点Ｘ都

图２　贝叶斯网络结构

有一个对应的ＣＰＴ，ＣＰＴ表项记录该节点的双亲节

点ｐａｒｅｎｔ（Ｘ）相对于Ｘ的条件概率．假设图２中

ＡＢＣＤ四个节点都代表一个２值变量，其取值为

｛ａｂｓｅｎｃｅ，ｐｒｅｓｅｎｔ｝．则其条件概率表如表２所示．

表２　条件概率表

（ａ）节点Ｃ的条件概率表

Ａ　ｐｒｅｓｅｎｔ　ｐｒｅｓｅｎｔ　ａｂｓｅｎｔ　ａｂｓｅｎｔＢ　ｐｒｅｓｅｎｔ　ａｂｓｅｎｔ　ｐｒｅｓｅｎｔ　ａｂｓｅｎｔ

ｐｒｅｓｅｎｔ　０．６　０．１５　０．３７５　０．７５ａｂｓｅｎｔ　０．４　０．８５　０．６２５　０．２５

（ｂ）节点Ｄ的条件概率表

Ｃ　ｐｒｅｓｅｎｔ　ａｂｓｅｎｔｐｒｅｓｅｎｔ　０．７　０．９ａｂｓｅｎｔ　０．３　０．１

贝叶斯网络的优点在于其简化了计算条件概率

所涉及到的属性，假设贝叶斯网中ｎ个节点集合为

（Ｘ１，Ｘ２，…，Ｘｎ），且Ｘｉ的双亲节点序号小于ｉ．其一

个实例（Ｘ１＝ｘ１，…，Ｘｎ＝ｘｎ）根据链式规则，联合概

率表示为

Ｐ（ｘ１，ｘ２，…，ｘｎ）＝ｐ（ｘ１）×ｐ（ｘ２｜ｘ１）×…×ｐ（ｘｎ｜ｘ１，…，ｘｎ－１）

＝∏ｉＰ（ｘｉ｜ｘ１，…，ｘｎ）（７）

　　由贝叶斯网络的条件独立假设，节点的条件概

率只与其双亲节点相关，则联合概率可以简化为

Ｐ（ｘ１，ｘ２，…，ｘｎ）＝∏ｉＰ（ｘｉ｜ｐａｒｅｎｔ（ｘｉ））（８）

式（８）简化了计算过程，同时贝叶斯网络降低了属

性之间互相关联带来的影响．例如图２中各节点

ＡＢＣＤ的联合概率

ｐ（ＡＢＣＤ）＝Ｐ（Ａ）Ｐ（Ｂ）Ｐ（Ｃ｜ＡＢ）Ｐ（Ｄ｜Ｃ）．不同于传统的贝叶斯网络推理，本文应用场景

中计算条件概率ｐ（ａ｜ｅ）在通常情况下元组ｔ中各

属性不包含空值，条件概率可以通过式（８）中概率

Ｐ（ｘ１，ｘ２，…，ｘｎ，ａ）边缘化得到

Ｐ（ａ｜ｘ１，ｘ２，…，ｘｎ）＝Ｐ（ｘ１，ｘ２，…，ｘｎ，ａ）

∑ａｉ∈ＡＰ（ｘ１，ｘ２，…，ｘｎ，ａｉ）

（９）

以图２和表２为例，假设已知图中节点Ａ＝ｐｒｅｓｅｎｔ，Ｂ＝ｐｒｅｓｅｎｔ，Ｄ＝ａｂｓｅｎｔ时计算节点Ｃ的概

１１２１期钟评等：关系数据中函数依赖检测方法

率分布．为简便将ａｂｓｅｎｔ记为ａ，ｐｒｅｓｅｎｔ记为ｐ．首

先通过表２的条件概率求的Ｃ各个取值的联合概

率分布：

ｐ（Ａ＝ｐ，Ｂ＝ｐ，Ｃ＝ａ，Ｄ＝ａ）＝０．４×０．１＝０．０４，

ｐ（Ａ＝ｐ，Ｂ＝ｐ，Ｃ＝ｐ，Ｄ＝ａ）＝０．６×０．３＝０．１８．对这两个联合按照式（９）进行概率归一化后求得当

前条件Ｃ的条件概率分布为

ｐ（Ｃ＝ａ｜Ａ＝ｐ，Ｂ＝ｐ，Ｃ＝ａ）＝０．０４／（０．０４＋０．１８）

≈０．１８２，

ｐ（Ｃ＝ａ｜Ａ＝ｐ，Ｂ＝ｐ，Ｃ＝ａ）＝０．１８／（０．０４＋０．１８）

≈０．８１８．由于当前应用中绝大多数属性没有属性值缺

失，同时本文在构建网络时按照下文５．２节方法限

制节点的最大邻居数ｍａｘＳｉｚｅ，因此式（９）可以快速

计算出条件概率，无需其他推理算法．ｍａｘＳｉｚｅ可以

通过经验选取，本文实验中使用ｍａｘＳｉｚｅ＝４．对于

所推理元组ｔ的条件属性含有空值时，只需将该属

性对应的节点从网络中去除，条件概率仍可通过

式（９）快速计算．引理１．　在数据值没有缺失并且限制网络最

大邻居数时计算条件概率Ｐ（ａ｜ｘ１，ｘ２，…，ｘｎ）的时

间复杂度为Ο（ｒ），其中ｒ＝ｍａｘ（｜Ｄｏｍ（Ａ）｜，Ａ∈Ｕ），即数据中所有属性取值数量的最大值．

证明．　计算式（８）中联合概率Ｐ（ｘ１，ｘ２，…，

ｘｎ，ａ）的时间复杂度由公式为Ο（ｐ＋ｃ），ｐ和ｃ分别

代表Ａ属性在网络中ｐａｒｅｎｔ集合与ｃｈｉｌｄｒｅｎ集合

大小．由于ｐ＋ｃ＜ｍａｘＳｉｚｅ．则式（８）计算复杂度为

常量．计算式（９）条件概率的复杂度为Ο（（ｐ＋ｃ）×ｒ），则Ｐ（ａ｜ｘ１，ｘ２，…，ｘｎ）时间复杂度为Ο（ｒ）．证毕．

定理１．　使用式（５）计算ＤＳＣ置信度的时间

复杂度为Ο（Ｔ×ｍ×ｒ）．证明．　根据式（６），设数据中违反ＦＤ：Ｘ→Ｙ

的元组数为Ｔ＝｜Ｖ｜，ＦＤ中属性个数为｜ＸＹ｜，由于

｜ＸＹ｜＜ｍ，则计算一个ＦＤ的ＤＳＣ置信度复杂度为

Ο（Ｔ×ｍ×ｒ）．证毕．５．２　贝叶斯网络的建立

贝叶斯网络可以通过学习当前数据集得到网络

结构ＢＳ和条件概率表ＣＰＴ．在结构学习方面，由于

当前应用需要计算任意一个属性值ｔ［Ａ］的数据置

信度，统一的网络结构使得一些局部属性相邻节点

过少，影响推理准确性．针对该问题本文采用为每个

属性建立一个马尔科夫毯贝叶斯网络（ＭＢＢＮ）来推

理条件概率．马尔科夫毯是指在贝叶斯网络中，由于条件独

立假设任何一个节点Ｘｉ的概率仅受其双亲节点、孩

子节点和孩子节点的双亲这３类节点影响，称为Ｘｉ的马尔科夫毯．因此当推理任意一个节点Ｘｉ的条件

概率时，仅需要计算对应的马尔科夫毯作为网络结

构．图２中Ｃ节点的马尔科夫毯为｛Ａ，Ｂ，Ｄ｝，Ａ节

点为｛Ｂ，Ｃ｝，Ｄ节点为｛Ｃ｝．本文对文献［２４］中ＭＢＢＮ的３步构建算法进

行修改，使其更符合当前应用要求．修改后的算法依

然使用３步构建，但基于效率考虑做出如下修改：（１）使用信息增益度量属性间相关性；（２）没有使用

计算复杂的贝叶斯概率函数确定加入节点是双亲还

是孩子，而是通过属性在数据中取不同值的数量作

为判断依据预先给定顺序．给定顺序依据主要是

ｐａｒｅｎｔ的属性取值不应过多，如果ｐａｒｅｎｔ中属性过

多会导致所生成条件概率表中条件过多而每个条件

下对应的不同概率过少，不利于条件概率的判断；（３）由于节点过多会导致计算过于复杂，因此人为

限制网络中每个节点最大相邻节点数ｍａｘＳｉｚｅ．最

大邻居节点主要通过经验设定，本文中设为４，原因

在于大于４时大多数节点会出现双亲节点取值过

多，造成与上述（２）中相同的ＣＰＴ条件过多的情况．两个属性Ｘ与Ｙ的信息增益ＩＧ（Ｘ，Ｙ）可以通过

计算：

ＩＧ（Ｘ，Ｙ）＝Ｈ（Ｘ）－Ｈ（Ｘ｜Ｙ）＝Ｈ（Ｙ）－Ｈ（Ｙ｜Ｘ）（１０）

Ｈ（Ｘ），Ｈ（Ｘ｜Ｙ）分别代表随机变量的熵与条件熵．为了推理任意属性Ｘ∈Ｕ的数据置信度，需要对属

性Ｘ构建ＭＢＢＮ．算法１描述了为Ｘ建立ＭＢＢＮ的过程．

算法１．　Ｃｒｅａｔｅ＿ＭＢＢＮ＿ｆｏｒ＿Ｘ．输入：属性Ｘ，数据集Ｉ，最大邻居数ｍａｘＳｉｚｅ输出：网络结构ｍｂｂｎ

１．ｍｂｂｎ，ｐａｒｅｎｔ（Ｘ），ｃｈｉｌｄｒｅｎ（Ｘ），ｎｏｎｅ←

２．计算每个ＩＧ（Ｙ，Ｚ），Ｙ，Ｚ∈Ｕ且Ｙ≠Ｚ

３．ＩＧＬＩＳＴ（Ｘ）←对Ｘ′∈Ｕ／Ｘ按照ＩＧ（Ｘ，Ｘ′）排序

４．ＦＯＲ　ＥＡＣＨＸ′∈ＩＧＬＩＳＴ（Ｘ）

５．ＩＦ（｜ｐａｒｅｎｔ（Ｘ）｜＋｜ｃｈｉｌｄｒｅｎ（Ｘ）｜＜ｍａｘＳｉｚｅ）

６．　　ＴＨＥＮ　ＩＦ（｜Ｄｏｍ（Ｘ）｜＞｜Ｄｏｍ（Ｘ′）｜）

７．　　　　ＴＨＥＮｐａｒｅｎｔ（Ｘ）＝ｐａｒｅｎｔ（Ｘ）∪Ｘ′

８．　　　　ＥＬＳＥｃｈｉｌｄｒｅｎ（Ｘ）＝ｃｈｉｌｄｒｅｎ（Ｘ）∪Ｘ′

９．　　　　ＥＮＤ　ＩＦ

１０．　　ＥＬＳＥ　ｎｏｎｅ＝ｎｏｎｅ∪Ｘ′

１１．　ＥＮＤ　ＩＦ

１２．ＥＮＤ　ＦＯＲ

１３．ｍｂｂｎ＝ｍｂｂｎ∪ｐａｒｅｎｔ（Ｘ）

２１２计　　算　　机　　学　　报２０１７年

１４．ＦＯＲ　ＥＡＣＨＣ∈ｃｈｉｌｄｒｅｎ（Ｘ）

１５．ｐａｒｅｎｔ（Ｃ），ｃｈｉｌｄｒｅｎ（Ｃ）←１６．ＩＧＬＩＳＴ（Ｃ）←对Ｃ′∈ｐａｒｅｎｔ（Ｘ）∪ｎｏｎ按照

ＩＧ（Ｃ，Ｃ′）排序

１７．ＦＯＲ　ＥＡＣＨＣ′∈ＩＧＬＩＳＴ（Ｃ）

１８．ＩＦ（｜ｐａｒｅｎｔ（Ｃ）｜＋｜ｃｈｉｌｄｒｅｎ（Ｃ）｜＜ｍａｘＳｉｚｅ）

１９．ＴＨＥＮ　ＩＦ（｜Ｄｏｍ（Ｃ）｜＞｜Ｄｏｍ（Ｃ′）｜）

２０．ＴＨＥＮｐａｒｅｎｔ（Ｃ）＝ｐａｒｅｎｔ（Ｃ）∪Ｃ′

２１．ＥＬＳＥｃｈｉｌｄｒｅｎ（Ｃ）＝ｃｈｉｌｄｒｅｎ（Ｃ）∪Ｃ′

２２．ＥＮＤ　ＩＦ

２３．ＥＮＤ　ＩＦ

２４．ＥＮＤ　ＦＯＲ

２５．ＥＮＤ　ＦＯＲ

２６．ＦＯＲ　ＥＡＣＨＣ∈ｃｈｉｌｄｒｅｎ（Ｘ）

２７．ＩＧＬＩＳＴ（Ｃ）←对Ｃ′∈ｃｈｉｌｄｒｅｎ（Ｘ）／

Ｃ按照ＩＧ（Ｃ，Ｃ′）排序

２８．ＦＯＲ　ＥＡＣＨＣ′∈ＩＧＬＩＳＴ（Ｃ）

２９．ＩＦ（｜ｐａｒｅｎｔ（Ｃ）｜＋｜ｃｈｉｌｄｒｅｎ（Ｃ）｜＜ｍａｘＳｉｚｅ）

３０．ＴＨＥＮ　ＩＦ（｜Ｄｏｍ（Ｃ）｜＞｜Ｄｏｍ（Ｃ′）｜）

３１．ＴＨＥＮｐａｒｅｎｔ（Ｃ）＝ｐａｒｅｎｔ（Ｃ）∪Ｃ′

３２．ＥＬＳＥｃｈｉｌｄｒｅｎ（Ｃ）＝ｃｈｉｌｄｒｅｎ（Ｃ）∪Ｃ′

３３．ＥＮＤ　ＩＦ

３４．ＥＮＤ　ＩＦ

３５．ＥＮＤ　ＦＯＲ

３６．ｍｂｂｎ＝ｍｂｂｎ∪ｐａｒｅｎｔ（Ｃ）

３７．ＥＮＤ　ＦＯＲ

３８．ＲＥＴＵＲＮ　ｍｂｂｎ

算法中｜Ｄｏｍ（Ｘ）｜表示属性Ｘ在数据集中不

同值的数量．算法分为３个步骤：（１）算法第４到１２行，计算属性Ｘ与其余属性的联系并排序，依次将

最相关的属性加入Ｘ节点的双亲或孩子集，记为

ｐａｒｅｎｔｓ集合和ｃｈｉｌｄｒｅｎ集合；（２）算法第１４至２５行使用第（１）步相同方法对ｃｈｉｌｄｒｅｎ每个节点在

ｃｈｉｌｄｒｅｎ集合外的双亲；（３）算法第２６至３７行．步

骤１方法确定ｃｈｉｌｄｒｅｎ节点在ｃｈｉｌｄｒｅｎ集合外的

双亲．完成网络结构的构建后，需要使用数据计算

该结构下的条件概率表ＣＰＴ，当前应用中构建

ＣＰＴ面临两个问题：（１）组合爆炸问题．在没有简

化的情况下，ＭＢＢＮ中任意节点ＣＰＴ的大小是

∏Ｙ∈ｐａｒｅｎｔ（Ｘ）

｜ｄｏｍ（Ｙ）｜·｜ｄｏｍ（Ｘ）｜．例如表２中二值属

性节点Ｃ的ＣＰＴ大小为２３＝８，如果节点属性值数

量为１００，则ＣＰＴ大小为１００３．ＦＤ检测应用中使用

数据的属性值数量通常较大，会导致ＣＰＴ过大降低

存储和计算效率；（２）过拟合问题．由于使用同一数

据建立的ＣＰＴ再对数据自身元组数据置信度进行

推测，推测结果必定会出现过拟合．因此计算元组ｔ数据置信度时需要将元组自身的影响从对应ＣＰＴ中去除，如表１中计算ｔ１的条件概率，其使用的ＣＰＴ仅由ｔ２～ｔ９统计得到．组合爆炸问题的解决方法是

使用简化的ＣＰＴ，即ＣＰＴ仅记录数据中出现的数

据值组合．由于简化没有改变条件概率的分布情况，因此不会对算法的检测结果产生影响．为解决过拟

合，本文在实现ＭＢＢＮ时并没有直接生成每个节点

的条件概率，而是统计各属性值出现的频率ｆ，通过

ｐ（ａ｜ｐａｒｅｎｔ（ａ））＝ｆ（ａ，ｐａｒｅｎｔ（ａ））ｆ（ｐａｒｅｎｔ（ａ））

（１１）

计算条件概率．在计算元组ｔ的条件概率时，通过减

去其出现的频率对ＣＰＴ修正去除ｔ本身的影响．算

法２描述了通过网络结构计算ＣＰＴ的过程．算法对

每个数据元组ｔ∈Ｉ，在对应的ＭＢＢＮ网络结构中记

录其式（１１）中频率ｆ（ａ，ｐａｒｅｎｔ（ａ）），ｆ（ｐａｒｅｎｔ（ａ））．其中ａ∈Ｄｏｍ（Ａ），为元组ｔ中Ａ属性的取值．

算法２．Ｃｏｍｐｕｔｅ＿ＣＰＴ．输入：数据实例Ｉ，ｍｂｂｎ输出：ｃｐｔ

１．ｃｐｔ←２．ＦＯＲ　ＥＡＣＨｔ∈Ｉ

３．ＦＯＲ　ＥＡＣＨ　Ｘ∈Ｕ

４．ＦＯＲ　ＥＡＣＨ　Ａ，ｐａｒｅｎｔ（Ａ）∈ＭＢＢＮ（Ｘ）

５．ｃｐｔ记录ｆ（ａ，ｐａｒｅｎｔ（ａ）），ｆ（ｐａｒｅｎｔ（ａ））频率

６．ＥＮＤ　ＦＯＲ

７．ＥＮＤ　ＦＯＲ

８．ＥＮＤ　ＦＯＲ

９．ＲＥＴＵＲＮｃｐｔ

定理２．　给定网络结构与数据Ｉ，计算ＣＰＴ的

时间复杂度为Ｏ（ｎｍ２）．其中ｎ为数据元组数，ｍ为

数据Ｉ中不同属性数．证明．　计算ＣＰＴ实质为统计网络中所有节点

出现的频率ｆ（ａ，ｐａｒｅｎｔ（ａ））．对单一数据元组，统

计该频率需要对每一个属性Ａ∈Ｕ对应的ＭＢＢＮ中每个节点进行一次操作，计算量为Ο（ｍｓ），其中ｓ为ＭＢＢＮ节点数．又因为ｓ＜ｍ，则单一元组复杂度

为Ο（ｍ２）．对数据Ｉ，计算ＣＰＴ复杂度为Ο（ｎｍ２）．证毕．

６　实验及分析

本节通过实验对比评估使用数据语义分析置信

度的方法（Ｄａｔａ　Ｓｅｍａｎｔｉｃ　Ｃｏｎｆｉｄｅｎｃｅ，ＤＳＣ）和统计置

信度的方法（Ｓｔａｔｉｓｔｉｃａｌ　Ｃｏｎｆｉｄｅｎｃｅ，ＳＣ）．实验算法使

３１２１期钟评等：关系数据中函数依赖检测方法

用Ｊａｖａ编写，运行在使用Ｉｎｔｅｌ酷睿ｉ３－３．３ＧＨｚ的

ＣＰＵ，４ＧＢ内存的Ｗｉｎｄｏｗｓ计算机上．实验使用两

个数据集，分别是模拟数据ＴＰＣ－Ｈ① 和真实数据

Ｈｏｓｐｉｔａｌ② 数据．６．１节中分别提出了自动和交互式

的两种应用场景，实验分别比较了ＤＳＣ和ＳＣ方法

对相同ＦＤ待检测集使用ｔｏｐ－Ｋ排序进行自动检

测，以及交互式检测两种应用场景下检测的结果．此外本文同时对ＣＦＤ集合进行检测，检测结果表明本

文提出的ＤＳＣ方法同时适用于ＣＦＤ检测．实验分别使用两个数据集：（１）模拟数据集

ＴＰＣ－Ｈ：本实验选取ＴＰＣ－Ｈ参数Ｓｃａｌｅ　Ｆａｃｔｏｒ为

０．００２时自动生成交易记录．为了增加表中的函数

依赖，实验选取生成数据中Ｏｒｄｅｒ和Ｌｉｎｅｉｔｅｍ两表

进行ｊｏｉｎ操作，并从选取１６个属性构成关于订单和

项目的数据表ＬｉｎｅｉｔｅｍＯｒｄｅｒ，表中包含的元组大小

为１１　９５７；（２）Ｈｏｓｐｉｔａｌ为美国医院数据，实验选择

了其中Ｏｕｔｐａｔｉｅｎｔ＿Ｉｍａｇｉｎｇ＿Ｅｆｆｉｃｉｅｎｃｙ表项，从该

表中选取１１个属性，共包含２９　６６８条记录．实验假

定两个数据集没有错误，实验中根据错误率ｅ人为

引入噪声数据．具体方法为：数据集中元组数记为

ｎ，生成噪声方法为元组ｔ中任意一个属性值ｔ［ａ］，更改为ｔ［ａ′］，其中ａ，ａ′∈Ａ且ａ≠ａ′．生成噪声的

数量为ｅ×ｎ．实验结果中ＤＳＣ表示数据语义分析置

信度，ＳＣ表示统计置信度方法．６．１　自动检测与交互式检测应用

６．１．１　自动检测

在自动检测的应用中，通常应用场景为：给定一

个待检测集，自动发现方法从待检测集中找出判定

为成立的ＦＤ集合．考虑ＦＤ应用于数据修复时，一

个ＦＤ：Ａ→Ｂ，往往比ＦＤ集合｛ＡＣ→Ｂ，ＡＤ→Ｂ，

ＡＣＤ→Ｂ，…｝更有效．因此为了避免发现重复的冗

余ＦＤ，本文限定待检测ＦＤ集Σ为最小（Ｍｉｎｉｍａｌ）集合．

本文算法通过式（６）方法计算ＦＤ的置信度并

排序．算法没有给出直接检测结果，通过人工设定一

个ｔｏｐ－Ｋ值，对返回的前ｔｏｐ－Ｋ（实验中按照百分

比计算）个ＦＤ检测为成立．６．２节中实验比较了不

同数据集合和不同错误率情况下检测精确度．６．１．２　交互式检测

当需要精确发现错误数据中ＦＤ时，无法仅靠

自动检测完成．因此本文提出通过ＤＳＣ方法对候选

集进行排序通过ｔｏｐ－Ｋ形式返回给用户并由用户

交互最终发现所有成立的ＦＤ集，并通过６．３节实

验结果证明使用ＤＳＣ方法在交互式系统中可以有

效降低用户工作量．本文提出了图３中所示的交互

式检测流程．在该流程中，通过从待检测集Σ中计

算置信度并排序，返回给用户ｔｏｐ－Ｋ个最小覆盖

ＦＤ集，记为Ｓ．在用户对ＦＤ进行确认后，得到用户

检测为成立的ＦＤ集Ｆ′并加入结果集Ｆ．通过Ｆ′对

待检测ＦＤ集Σ 进行剪枝．即对于任意函数依赖

φｉ∈Σ，如果φｉ∈Ｆ′＋，则φｉ应当从待检测集Σ 中删

除．其中Ｆ′＋为集合Ｆ′的闭包．随后通过待检测集

再次计算ｔｏｐ－Ｋ排序返回给用户交互，直到待检测

集为空时结束．对于待检测集Σ，每次交互都保证

将至少ｋ个（全部不成立时）ＦＤ从Σ中删除，Σ内

待检测ＦＤ数量不会增加，因此该流程最终必然会

终止．

图３　函数依赖检测流程

交互式检测方法中，核心部分在于用户确认后

使用检测成立的ＦＤ集对原有待检测集Σ进行剪

枝．剪枝按照Ａｒｍｓｔｒｏｎｇ规则（Ａｒｍｓｔｒｏｎｇ　ｒｕｌｅｓ），使用类似于ＦＤ发现算法中的剪枝方法．主要针对

两种情况剪枝：（１）对于函数依赖Ｘ→Ａ成立，则所

有ＸＺ→Ａ应当从待检测集中删除；（２）若Ｘ→Ａ成

立，则检测ＸＡＹ→Ｂ，只用检测ＸＹ→Ｂ是否成立．其中Ｘ∩Ｙ≠，Ａ，ＢＸ，Ａ，ＢＹ且Ａ≠Ｂ．６．２　ｔｏｐ－Ｋ自动检测精确度评估

为了评估算法对同一待检测数据集检测的精确

性．精确度定义为排序前ｔｏｐ－Ｋ个候选中真实成立

ＦＤ所占比例．实验通过以下方法生成待检测集：（１）对带噪声的数据集，使用函数依赖挖掘算法

４１２计　　算　　机　　学　　报２０１７年

①②ＴＰＣ－Ｈ．ｈｔｔｐ：／／ｗｗｗ．ｔｐｃ．ｏｒｇ／ｔｐｃｈｈｏｓｐｉｔａｌ　ｃｏｍｐａｒｅ．ｈｔｔｐ：／／ｄａｔａ．ｍｅｄｉｃａｒｅ．ｇｏｖ／ｄａｔａ／ｈｏｓｐｉ－ｔａｌ－ｃｏｍｐａｒｅ

ＴＡＮＥ，挖掘所有置信度大于θ的函数依赖，实验中

θ＝０．９５；（２）对挖掘结果计算最小函数依赖集，得

到待检测集．实验计算置信度并排序，将前ｔｏｐ－Ｋ个ＦＤ判定为成立．算法同时比较了ＤＳＣ和ＳＣ两

种置信度在对ＣＦＤ的精确度．ＣＦＤ检测精确度实

验通过使用文献［２５］中方法ＦＡＣＤ作为挖掘算法．待检测集的生成同ＦＤ待检测集生成方法相同．使

用ＦＡＣＤ作为挖掘算法的原因在于其挖掘到的

ＣＦＤ都是常量ＣＦＤ，即ＣＦＤ中各属性取值固定．这样做的原因在于含有变量的ＣＦＤ可以被看作多个

常量ＣＦＤ的集合，不便于统计结果．因此待检测集

合中ＣＦＤ统一为常量ＣＦＤ．ＦＤ实验结果如图４所示，图中ｘ轴表示ｔｏｐ－Ｋ

的百分比大小，ｙ轴表示返回ｔｏｐ－Ｋ的精确度．图中

可以看到，ＤＳＣ置信度排序方法在不同错误率下返

回效果均优于置信度方法（ＳＣ）排序．其中最显著的

是在ｈｏｓｐｉｔａｌ数据中，ＤＳＣ置信度返回前２０％内的

ＦＤ完全准确．对于图中ＳＣ置信度曲线和置信度曲

线随着ｔｏｐ－Ｋ数量增大而逐渐趋近，是因为成立的

ＦＤ已经基本发现完毕，在余下部分中没有成立的

ＦＤ，因而两者准确率会趋于一致．图４（ｅ）、（ｆ）中，ＳＣ曲线在前１０％的候选中精确度较高，但是直到４０％候选的排序中，都没有包含真实成立的ＦＤ，因此

精确度下降．最后由于随着候选比例增大所有真实

成立的ＦＤ最终都会被发现，因此在ｔｏｐ－Ｋ为６０％时精确度增加．图４（ｄ）在ｅ＝０．０８时，ＤＳＣ曲线走

向与前３个的不同是由于实验将使用ＦＤ发现算法

从数据中发现的近似ＦＤ中ｃｏｎｆｉｄｅｎｃｅ＞０．９５的候

选ＦＤ作为候选集，在ｅ＝０．２～０．６中前１０％判断

错误的ＦＤ在错误率增大后其ｃｏｎｆｉｄｅｎｃｅ小于了

０．９５而没有成为候选集，因此ｅ＝０．０８时曲线在前

１０％上升．ＣＦＤ实验结果如图５所示．ＤＳＣ方法在各种条

件下均优于ＳＣ方法．图５（ａ）、（ｅ）中图形与相同数

据集下的其他结果相差较大，这主要是因为错误率

较小时，生成的待检测ＣＦＤ集与其他错误率时待检

测集差异较大．同时可以发现统计置信度方法在错

误率小时ＣＦＤ检测精确度较高，而ＤＳＣ方法受错

误率影响较小．ＤＳＣ随着ｔｏｐ－Ｋ增大曲线下降的原

因与ＦＤ中相同．图５（ｈ）中两条曲线趋于相同，主要

是由于错误率增大后其候选集也同时增大，但是成

立的ＣＦＤ数没有改变，因此ｔｏｐ－Ｋ同比例下的绝对

数量增大，导致所有成立的ＦＤ在ｔｏｐ－Ｋ＝４０％时已

经全部发现，因此两条曲线趋于相同．

６．３　交互式检测

为评估交互式方法对人工工作量的节省程度，实验数据集通过对带噪声的数据集，使用函数依赖

挖掘算法ＴＡＮＥ，挖掘所有置信度大于θ的函数依

赖作为待检测集，实验中θ＝０．９５．交互过程按照

６．１．２节中描述过程进行．其中人工工作量定义为

人工确认ＦＤ是否成立的次数．即实验中每返回一

次ｔｏｐ－Ｋ集合，用户的人工工作量增加ｋ．与６．２节自动检测方法不同，在交互过程中

ｔｏｐ－Ｋ选取可能对实验结果产生影响．其原因在于

当ｔｏｐ－Ｋ取值太大时，返回给用户的ＦＤ最小覆盖

集合Ｓ中可能存在φｉ，φｊ∈Ｓ，使得φｊ被φｉ和已成立

的结果集Ｆ所共同包含，这样φｉ被用户判定为成立

时φｊ仍需要用户确认造成重复的工作．由此可知，因此ｔｏｐ－Ｋ不能太大．可以看到，如果每次仅返回

一个数据，即ｔｏｐ－Ｋ＝１重复判断次数最少．但由于

算法模拟的是一个返回给用户的过程，每次仅返回

１个ＦＤ可能造成用户交互次数太多，因此实验中

经验选取ｔｏｐ－Ｋ＝５作为返回．在交互式的应用场景中实验对用户确认进行模

拟，并比较用户工作量（ｕｓｅｒ　ｅｆｆｏｒｔｓ）和发现的ＦＤ比率（即召回率ｒｅｃａｌｌ）之间的关系．实验结果如

图６、图７所示，图６中ｘ轴表示发现成立ＦＤ比例，

ｙ轴代表发现这些ＦＤ所需要的用户工作量．实验

结果证明交互式应用中ＤＳＣ方法在不同数据集

合以及错误率的情况下用户工作量均少于置信度排

序．图中可以看到，除了（ａ）、（ｂ）两图中用户工作量

达到５０％以外，其余用户工作量都在２０％～４０％之间，说明ＤＳＣ方法的交互式检测方法可以有效降

低人的工作量．同时从图中可以看到，ＳＣ方法往往

在刚开始时效果较好，但是随着ｒｅｃａｌｌ增加，其需

要的用户工作量大幅增加．这是因为置信度隐含的

假设是待检测ＦＤ中不一致数据越少，其真实成立

可能越大．因此当ＦＤ待检测集中少部分满足该假

设的ＦＤ被发现后，置信度的检测效果变差．相比之

下使用ＤＳＣ方法的检测并没有受到太大影响，在

ｈｏｓｐｉｔａｌ数据更是保持在线性增长．在ｈｏｓｐｉｔａｌ数据

中，ＤＳＣ曲线开始时有一小段效果差于置信度排序，这是由于ＦＤ之间互相影响使得有一些ＦＤ虽然不成

立，但是其不一致部分数据可能被包含在另外一个真

实成立ＦＤ中，因此计算ＤＳＣ排序靠前所致．ＣＦＤ的检测同样使用ＦＡＣＤ方法挖掘候选集，

使用相同方法进行检测．在图７的ＣＦＤ检测中可以

发现，ＤＳＣ曲线在各图中趋势较为一致．而ＳＣ曲线

５１２１期钟评等：关系数据中函数依赖检测方法

图４　ＦＤ检测精确度

６１２计　　算　　机　　学　　报２０１７年

图５　ＣＦＤ检测精确度

７１２１期钟评等：关系数据中函数依赖检测方法

图６　用户工作量与ＦＤ发现

８１２计　　算　　机　　学　　报２０１７年

图７　用户工作量与ＣＦＤ发现

９１２１期钟评等：关系数据中函数依赖检测方法

则显得不稳定，如图７（ｅ）表现较好与ＤＳＣ曲线相

似，但是ＤＳＣ在大多数情况下优于ＳＣ方法，其原因

与图５（ｅ）相似，都是因为错误率较少时ＣＦＤ所产

生的候选集与其他错误率下产生候选集差异较大．另外ＣＦＤ检测曲线中尾部效果变差的原因主要在

于ＣＦＤ实验所使用的待检测集中真实成立的ＣＦＤ所占比例较小，仅占全部成立ＣＦＤ的２０％左右．因

此部分ＣＦＤ排序靠后所致．６．３　性能分析

本节对ＭＢＢＮ快速构建算法以及检测算法进

行性能评估，结果如图８所示．ＭＢＢＮ构建算法主

要比较了简化算法和原算法的时间效率扩展性．检

测算法给出了时间效率的扩展性以及ＣＰＴ是否简

化时内存占用情况的实验结果，并讨论了检测算法

在大数据场景中的应用方法．图８（ａ）、（ｂ）为ＭＢＢＮ快速构建算法和原算法

时间效率比较结果．图中ＦＣ－ＭＢＢＮ表示ＭＢＢＮ快

速构建算法（Ｆａｓｔ　Ｃｏｎｓｔｒｕｃｔｉｎｇ　ＭＢＢＮ），ｂａｓｅ－ＭＢＢＮ表示原算法．实验结果表明快速构建算法在时间比

原算法有数量级上的改善．在时间对比中，快速算法

基本上在数百毫秒至数秒内可以完成网络的构建，具有良好的扩展性．

　　图８（ｃ）为检测算法ＣＰＴ内存占用比较实验，图中ＣＰＴ－Ｓ（ＣＰＴ－Ｓｉｍｐｌｉｆｉｅｄ）为本文所使用的简化

ＣＰＴ方法，ＣＰＴ－Ｏ（ＣＰＴ　Ｏｒｉｇｉｎａｌ）为没有简化ＣＰＴ的方法．图中结果显示简化后ＣＰＴ长度在不同数量

数据下均比原来的ＣＰＴ长度减少数个数量级．这是

因为简化方法避免了组合爆炸问题，使得大量在数

据中未曾出现的取值组合不需要被ＣＰＴ记录．图８（ｄ）为整个检测过程的扩展性实验，结果显

示算法在扩展性上并非完全的线性扩展，其主要原

因在于检测算法运行时间主要的数据违反ＦＤ部分

的大小所决定，而非受数据元组数的直接影响．虽然

对于大数据应用而言直接计算ＦＤ的ＤＳＣ置信度

耗时较大，但是由于ＤＳＣ表示的是所有违反ＦＤ数

据需要修复的概率均值，因此对于大数据可以通过

对违反ＦＤ的数据元组进行抽样，通过将式（６）中

Ｖ更换为Ｖ的样本Ｖ′计算近似值．在大数据检测

中，检测过程由于并非线性扩展，可能导致计算过

程耗时较长．由于ＤＳＣ置信度代表所有违反ＦＤ的数据需要修复的概率平均值，大数据条件下检

测算法可以通过对违反ＦＤ部分数据进行抽样，根

据样本计算公式（６）置信度的近似值，降低运行

时间．

图８　算法性能分析结果

０２２计　　算　　机　　学　　报２０１７年

７　结　论

针对数据修复中在函数依赖和数据都含有错误

的情况下，本文提出了一种基于数据语义分析的函

数依赖置信度计算方法，该方法使用条件概率定义

的数据语义分析置信度作为数据是否含有错误的依

据，同时可应用于自动检测和交互式检测两种场景

使得检测问题可以有效解决．

参考文献

［１］Ｌｉ　Ｊｉａｎ－Ｚｈｏｎｇ，Ｌｉｕ　Ｘｉａｎ－Ｍｉｎ．Ａｎ　ｉｍｐｏｒｔａｎｔ　ａｓｐｅｃｔ　ｏｆ　ｂｉｇｄａｔａ：Ｄａｔａ　ｕｓａｂｉｌｉｔｙ．Ｊｏｕｒｎａｌ　ｏｆ　Ｃｏｍｐｕｔｅｒ　Ｒｅｓｅａｒｃｈ　ａｎｄ

Ｄｅｖｅｌｏｐｍｅｎｔ，２０１３，５０（６）：１１４７－１１６２（ｉｎ　Ｃｈｉｎｅｓｅ）（李建中，刘显敏．大数据的一个重要方面：数据可用性．计

算机研究与发展，２０１３，５０（６）：１１４７－１１６２）［２］Ｃｈｉａｎｇ　Ｆ，Ｍｉｌｌｅｒ　Ｒ　Ｊ．Ａ　ｕｎｉｆｉｅｄ　ｍｏｄｅｌ　ｆｏｒ　ｄａｔａ　ａｎｄ　ｃｏｎｓｔｒａｉｎｔ

ｒｅｐａｉｒ／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　２０１１ＩＥＥＥ　２７ｔｈ　Ｉｎｔｅｒｎａｔｉｏｎａｌ

Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｄａｔａ　Ｅｎｇｉｎｅｅｒｉｎｇ（ＩＣＤＥ）．Ｈａｎｎｏｖｅｒ，Ｇｅｒｍａｎｙ，

２０１１：４４６－４５７［３］Ｇｏｌａｂ　Ｌ，Ｉｌｙａｓ　Ｉ　Ｆ，Ｂｅｓｋａｌｅｓ　Ｇ，Ｇａｌｉｕｌｌｉｎ　Ａ．Ｏｎ　ｔｈｅ　ｒｅｌａｔｉｖｅ

ｔｒｕｓｔ　ｂｅｔｗｅｅｎ　ｉｎｃｏｎｓｉｓｔｅｎｔ　ｄａｔａ　ａｎｄ　ｉｎａｃｃｕｒａｔｅ　ｃｏｎｓｔｒａｉｎｔｓ／／

Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　２０１３ＩＥＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ

Ｄａｔａ　Ｅｎｇｉｎｅｅｒｉｎｇ（ＩＣＤＥ）．Ｂｒｉｓｂａｎｅ，Ａｕｓｔｒａｌｉａ，２０１３：

５４１－５５２［４］Ｖｏｌｋｏｖｓ　Ｍ，Ｃｈｉａｎｇ　Ｆ，Ｓｚｌｉｃｈｔ　Ｊ，Ｍｉｌｌｅｒ　Ｒ　Ｊ．Ｃｏｎｔｉｎｕｏｕｓ

ｄａｔａ　ｃｌｅａｎｉｎｇ／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　２０１４ＩＥＥＥ　３０ｔｈ　Ｉｎｔｅｒｎａ－

ｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｄａｔａ　Ｅｎｇｉｎｅｅｒｉｎｇ（ＩＣＤＥ）．Ｃｈｉｃａｇｏ，

ＵＳＡ，２０１４：２４４－２５５［５］Ｇｉａｎｎｅｌｌａ　Ｃ，Ｒｏｂｅｒｔｓｏｎ　Ｅ．Ｏｎ　ａｐｐｒｏｘｉｍａｔｉｏｎ　ｍｅａｓｕｒｅｓ　ｆｏｒ

ｆｕｎｃｔｉｏｎａｌ　ｄｅｐｅｎｄｅｎｃｉｅｓ．Ｉｎｆｏｒｍａｔｉｏｎ　Ｓｙｓｔｅｍｓ，２００４，２９（６）：

４８３－５０７［６］Ｈｕ　Ｙａｎ－Ｌｉ，Ｚｈａｎｇ　Ｗｅｉ－Ｍｉｎｇ，Ｌｕｏ　Ｘｕ－Ｈｕｉ，ｅｔ　ａｌ．Ｄｅｐｅｎｄ－

ｅｎｃｉｅｓ　ｔｈｅｏｒｙ　ａｎｄ　ｉｔｓ　ａｐｐｌｉｃａｔｉｏｎ　ｆｏｒ　ｒｅｐａｉｒｉｎｇ　ｉｎｃｏｎｓｉｓｔｅｎｔ

ｄａｔａ．Ｃｏｍｐｕｔｅｒ　Ｓｃｉｅｎｃｅ，２００９，３６（１０）：１１－１５（ｉｎ　Ｃｈｉｎｅｓｅ）（胡艳丽，张维明，罗旭辉等．基于数据依赖的数据修复研究

进展．计算机科学，２００９，３６（１０）：１１－１５）［７］Ｂｏｈａｎｎｏｎ　Ｐ，Ｆａｎ　Ｗｅｎｆｅｉ，Ｆｌａｓｔｅｒ　Ｍ，Ｒａｓｔｏｇｉ　Ｒ．Ａ　ｃｏｓｔ－

ｂａｓｅｄ　ｍｏｄｅｌ　ａｎｄ　ｅｆｆｅｃｔｉｖｅ　ｈｅｕｒｉｓｔｉｃ　ｆｏｒ　ｒｅｐａｉｒｉｎｇ　ｃｏｎｓｔｒａｉｎｔｓ

ｂｙ　ｖａｌｕｅ　ｍｏｄｉｆｉｃａｔｉｏｎ／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　２００５ＡＣＭ　ＳＩＧＭＯＤ

Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｍａｎａｇｅｍｅｎｔ　ｏｆ　Ｄａｔａ（ＳＩＧＭＯＤ’０５）．

Ｃｈｉｃａｇｏ，ＵＳＡ，２００５：１４３－１５４［８］Ｆａｎ　Ｗｅｎｆｅｉ，Ｇｅｅｒｔｓ　Ｆ，Ｊｉａ　Ｘｉｂｅｉ，Ｋｅｍｅｎｔｓｉｅｔｓｉｄｉｓ　Ａ．Ｃｏｎｄｉ－

ｔｉｏｎａｌ　ｆｕｎｃｔｉｏｎａｌ　ｄｅｐｅｎｄｅｎｃｉｅｓ　ｆｏｒ　ｃａｐｔｕｒｉｎｇ　ｄａｔａ　ｉｎｃｏｎｓｉｓｔｅｎｃｉｅｓ．

ＡＣＭ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　Ｄａｔａｂａｓｅ　Ｓｙｓｔｅｍｓ，２００８，３３（２）：

Ａｒｔｉｃｌｅ　６［９］Ｃｏｎｇ　Ｇ，Ｆａｎ　Ｗｅｎｆｅｉ，Ｇｅｅｒｔｓ　Ｆ，ｅｔ　ａｌ．Ｉｍｐｒｏｖｉｎｇ　ｄａｔａ　ｑｕａｌｉｔｙ：

Ｃｏｎｓｉｓｔｅｎｃｙ　ａｎｄ　ａｃｃｕｒａｃｙ／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　３３ｒｄ　Ｉｎｔｅｒｎａ－

ｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｖｅｒｙ　Ｌａｒｇｅ　Ｄａｔａ　Ｂａｓｅｓ（ＶＬＤＢ）．Ｖｉｅｎｎａ，

Ａｕｓｔｒｉａ，２００７：３１５－３２６

［１０］Ｋｏｌａｈｉ　Ｓ，Ｌａｋｓｈｍａｎａｎ　Ｌ　Ｖ　Ｓ．Ｏｎ　ａｐｐｒｏｘｉｍａｔｉｎｇ　ｏｐｔｉｍｕｍ

ｒｅｐａｉｒｓ　ｆｏｒ　ｆｕｎｃｔｉｏｎａｌ　ｄｅｐｅｎｄｅｎｃｙ　ｖｉｏｌａｔｉｏｎｓ／／Ｐｒｏｃｅｅｄｉｎｇｓ

ｏｆ　ｔｈｅ　１２ｔｈ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｄａｔａｂａｓｅ　Ｔｈｅｏｒｙ（ＩＣＤＴ’０９）．Ｎｅｗ　Ｙｏｒｋ，ＵＳＡ，２００９：５３－６２

［１１］Ｂｅｓｋａｌｅｓ　Ｇ，Ｉｌｙａｓ　Ｉ　Ｆ，Ｇｏｌａｂ　Ｌ．Ｓａｍｐｌｉｎｇ　ｔｈｅ　ｒｅｐａｉｒｓ　ｏｆ

ｆｕｎｃｔｉｏｎａｌ　ｄｅｐｅｎｄｅｎｃｙ　ｖｉｏｌａｔｉｏｎｓ　ｕｎｄｅｒ　ｈａｒｄ　ｃｏｎｓｔｒａｉｎｔｓ／／

Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　３６ｔｈ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｖｅｒｙ

Ｌａｒｇｅ　Ｄａｔａ　Ｂａｓｅｓ（ＶＬＤＢ）．Ｓｉｎｇａｐｏｒｅ，２０１０：１９７－２０７

［１２］Ｗａｎｇ　Ｊ，Ｋｒｉｓｈｎａｎ　Ｓ，Ｆｒａｎｋｌｉｎ　Ｍ　Ｊ，ｅｔ　ａｌ．Ａ　ｓａｍｐｌｅ－ａｎｄ－ｃｌｅａｎ

ｆｒａｍｅｗｏｒｋ　ｆｏｒ　ｆａｓｔ　ａｎｄ　ａｃｃｕｒａｔｅ　ｑｕｅｒｙ　ｐｒｏｃｅｓｓｉｎｇ　ｏｎ　ｄｉｒｔｙ

ｄａｔａ／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　２０１４ＡＣＭ　ＳＩＧＭＯＤ　Ｉｎｔｅｒｎａｔｉｏｎａｌ

Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｍａｎａｇｅｍｅｎｔ　ｏｆ　Ｄａｔａ（ＳＩＧＭＯＤ）．Ｎｅｗ　Ｙｏｒｋ，

ＵＳＡ，２０１４：４６９－４８０

［１３］Ｃｈｕ　Ｘ，Ｉｌｙａｓ　Ｉ　Ｆ，Ｐａｐｏｔｔｉ　Ｐ．Ｄｉｓｃｏｖｅｒｉｎｇ　ｄｅｎｉａｌ　ｃｏｎｓｔｒａｉｎｔｓ／／

Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　３６ｔｈ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｖｅｒｙ

Ｌａｒｇｅ　Ｄａｔａ　Ｂａｓｅｓ（ＶＬＤＢ）．Ｒｉｖａ　ｄｅｌ　Ｇａｒｄａ，Ｉｔａｌｙ，２０１３：

１４９８－１５０９

［１４］Ｃｈｕ　Ｘ，Ｉｌｙａｓ　Ｉ　Ｆ，Ｐａｐｏｔｔｉ　Ｐ．Ｈｏｌｉｓｔｉｃ　ｄａｔａ　ｃｌｅａｎｉｎｇ：Ｐｕｔｔｉｎｇ

ｖｉｏｌａｔｉｏｎｓ　ｉｎｔｏ　ｃｏｎｔｅｘｔ／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　ＩＥＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａｌ

Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｄａｔａ　Ｅｎｇｉｎｅｅｒｉｎｇ（ＩＣＤＥ）．Ｂｒｉｓｂａｎｅ，Ａｕｓｔｒａｌｉａ，

２０１３：４５８－４６９

［１５］Ｆａｎ　Ｗ，Ｌｉ　Ｊ，Ｍａ　Ｓ，ｅｔ　ａｌ．Ｔｏｗａｒｄｓ　ｃｅｒｔａｉｎ　ｆｉｘｅｓ　ｗｉｔｈ　ｅｄｉｔｉｎｇ

ｒｕｌｅｓ　ａｎｄ　ｍａｓｔｅｒ　ｄａｔａ．Ｔｈｅ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｊｏｕｒｎａｌ　ｏｎ　Ｖｅｒｙ

Ｌａｒｇｅ　Ｄａｔａ　Ｂａｓｅｓ，２０１２，２１（２）：２１３－２３８

［１６］Ｌｉｕ　Ｊ，Ｌｉ　Ｊ，Ｌｉｕ　Ｃ，Ｃｈｅｎ　Ｙ．Ｄｉｓｃｏｖｅｒ　ｄｅｐｅｎｄｅｎｃｉｅｓ　ｆｒｏｍ

ｄａｔａ—Ａ　ｒｅｖｉｅｗ．ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　Ｋｎｏｗｌｅｄｇｅ　ａｎｄ　Ｄａｔａ

Ｅｎｇｉｎｅｅｒｉｎｇ，２０１２，２４（２）：２５１－２６４

［１７］Ｈｕｈｔａｌａ　Ｙ，Ｋｒｋｋｉｎｅｎ　Ｊ，Ｐｏｒｋｋａ　Ｐ，Ｔｏｉｖｏｎｅｎ　Ｈ．ＴＡＮＥ：

Ａｎ　ｅｆｆｉｃｉｅｎｔ　ａｌｇｏｒｉｔｈｍ　ｆｏｒ　ｄｉｓｃｏｖｅｒｉｎｇ　ｆｕｎｃｔｉｏｎａｌ　ａｎｄ　ａｐｐｒｏｘｉ－

ｍａｔｅ　ｄｅｐｅｎｄｅｎｃｉｅｓ．Ｔｈｅ　Ｃｏｍｐｕｔｅｒ　Ｊｏｕｒｎａｌ，１９９９，４２（２）：

１００－１１１

［１８］Ｗｙｓｓ　Ｃ，Ｇｉａｎｎｅｌｌａ　Ｃ，Ｒｏｂｅｒｔｓｏｎ　Ｅ　Ｌ．ＦａｓｔＦＤｓ：Ａ　ｈｅｕｒｉｓｔｉｃ－

ｄｒｉｖｅｎ，ｄｅｐｔｈ－ｆｉｒｓｔ　ａｌｇｏｒｉｔｈｍ　ｆｏｒ　ｍｉｎｉｎｇ　ｆｕｎｃｔｉｏｎａｌ　ｄｅｐｅｎｄｅｎｃｉｅｓ

ｆｒｏｍ　ｒｅｌａｔｉｏｎ　ｉｎｓｔａｎｃｅｓ－ｅｘｔｅｎｄｅｄ　ａｂｓｔｒａｃｔ／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ

３ｒｄ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｄａｔａ　Ｗａｒｅｈｏｕｓｉｎｇ　ａｎｄ

Ｋｎｏｗｌｅｄｇｅ　Ｄｉｓｃｏｖｅｒｙ（ＤａＷａＫ）．Ｌｏｎｄｏｎ，ＵＫ，２００１：１０１－

１１０

［１９］Ｆａｎ　Ｗｅｎｆｅｉ，Ｇｅｅｒｔｓ　Ｆ，Ｌｉ　Ｊｉａｎｚｈｏｎｇ，Ｘｉｏｎｇ　Ｍｉｎｇ．Ｄｉｓｃｏｖｅｒｉｎｇ

ｃｏｎｄｉｔｉｏｎａｌ　ｆｕｎｃｔｉｏｎａｌ　ｄｅｐｅｎｄｅｎｃｉｅｓ．ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ

Ｋｎｏｗｌｅｄｇｅ　ａｎｄ　Ｄａｔａ　Ｅｎｇｉｎｅｅｒｉｎｇ，２０１１，２３（５）：６８３－６９８

［２０］Ａｂｅｄｊａｎ　Ｚ，Ｓｃｈｕｌｚｅ　Ｐ，Ｎａｕｍａｎｎ　Ｆ．ＤＦＤ：Ｅｆｆｉｃｉｅｎｔ　ｆｕｎｃ－

ｔｉｏｎａｌ　ｄｅｐｅｎｄｅｎｃｙ　ｄｉｓｃｏｖｅｒｙ／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　Ｉｎｔｅｒｎａｔｉｏｎ－

ａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｉｎｆｏｒｍａｔｉｏｎ　ａｎｄ　Ｋｎｏｗｌｅｄｇｅ　Ｍａｎａｇｅｍｅｎｔ

（ＣＩＫＭ）．Ｓｈａｎｇｈａｉ，Ｃｈｉｎａ，２０１４：９４９－９５８

［２１］Ｐａｐｅｎｂｒｏｃｋ　Ｔ，ｅｔ　ａｌ．Ｆｕｎｃｔｉｏｎａｌ　ｄｅｐｅｎｄｅｎｃｙ　ｄｉｓｃｏｖｅｒｙ：Ａｎ

ｅｘｐｅｒｉｍｅｎｔａｌ　ｅｖａｌｕａｔｉｏｎ　ｏｆ　ｓｅｖｅｎ　ａｌｇｏｒｉｔｈｍｓ／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ

ｔｈｅ　４１ｓｔ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｖｅｒｙ　Ｌａｒｇｅ　Ｄａｔａ　Ｂａｓｅｓ

（ＶＬＤＢ）．Ｈａｗａｉｉ，ＵＳＡ，２０１５：１０８２－１０９３

［２２］ＦｅｒｒéＳ，Ｒｕｄｏｌｐｈ　Ｓ．Ａ　ｕｎｉｆｉｅｄ　ｈｉｅｒａｒｃｈｙ　ｆｏｒ　ｆｕｎｃｔｉｏｎａｌ

ｄｅｐｅｎｄｅｎｃｉｅｓ，Ｃｏｎｄｉｔｉｏｎａｌ　ｆｕｎｃｔｉｏｎａｌ　ｄｅｐｅｎｄｅｎｃｉｅｓ　ａｎｄ

ａｓｓｏｃｉａｔｉｏｎ　ｒｕｌｅｓ．Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　７ｔｈ　Ｉｎｔｅｒｎａｔｉｏｎａｌ

１２２１期钟评等：关系数据中函数依赖检测方法

Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｆｏｒｍａｌ　Ｃｏｎｃｅｐｔ　Ａｎａｌｙｓｉｓ（ＩＣＦＣＡ）．Ｄａｒｍｓｔａｄｔ，

Ｇｅｒｍａｎｙ，２００９：９８－１１３

［２３］Ｍａｄｄｅｎ　Ｍ　Ｇ．Ｅｖａｌｕａｔｉｏｎ　ｏｆ　ｔｈｅ　ｐｅｒｆｏｒｍａｎｃｅ　ｏｆ　ｔｈｅ　Ｍａｒｋｏｖ

ｂｌａｎｋｅｔ　Ｂａｙｅｓｉａｎ　ｃｌａｓｓｉｆｉｅｒ　ａｌｇｏｒｉｔｈｍ．Ｇａｌｗａｙ：Ｎａｔｉｏｎａｌ

Ｕｎｉｖｅｒｓｉｔｙ　ｏｆ　Ｉｒｅｌａｎｄ，Ｔｅｃｈｎｉｃａｌ　Ｒｅｐｏｒｔ：Ｎｏ．ＮＵＩＧ－ＩＴ－０１１００２，

２００２

［２４］Ｈｅｃｋｅｒｍａｎ　Ｄ．Ｌｅａｒｎｉｎｇ　ｉｎ　Ｇｒａｐｈｉｃａｌ　Ｍｏｄｅｌｓ．Ｎｅｔｈｅｒｌａｎｄｓ：

Ｓｐｒｉｎｇｅｒ，１９９８

［２５］Ｌｉ　Ｊ，Ｌｉｕ　Ｊ，Ｔｏｉｖｏｎｅｎ　Ｈ，ｅｔ　ａｌ．Ｅｆｆｅｃｔｉｖｅ　ｐｒｕｎｉｎｇ　ｆｏｒ　ｔｈｅ

ｄｉｓｃｏｖｅｒｙ　ｏｆ　ｃｏｎｄｉｔｉｏｎａｌ　ｆｕｎｃｔｉｏｎａｌ　ｄｅｐｅｎｄｅｎｃｉｅｓ．Ｃｏｍｐｕｔｅｒ

Ｊｏｕｒｎａｌ，２０１３，５６（３）：３７８－３９２

ＺＨＯＮＧ　Ｐｉｎｇ，ｂｏｒｎ　ｉｎ　１９８５，Ｐｈ．Ｄ．

ｃａｎｄｉｄａｔｅ．Ｈｉｓ　ｒｅｓｅａｒｃｈ　ｉｎｔｅｒｅｓｔｓ　ｆｏｃｕｓ

ｏｎ　ｄａｔａ　ｍａｎａｇｅｍｅｎｔ．

ＬＩ　Ｚｈａｎ－Ｈｕａｉ，ｂｏｒｎ　ｉｎ　１９６１，Ｐｈ．Ｄ．，ｐｒｏｆｅｓｓｏｒ．Ｈｉｓ

ｒｅｓｅａｒｃｈ　ｉｎｔｅｒｅｓｔｓ　ｉｎｃｌｕｄｅ　ｄａｔａｂａｓｅ　ｔｈｅｏｒｙ　ａｎｄ　ｔｅｃｈｎｏｌｏｇｙ．

ＣＨＥＮ　Ｑｕｎ，ｂｏｒｎ　ｉｎ　１９７６，Ｐｈ．Ｄ．，ｐｒｏｆｅｓｓｏｒ．Ｈｉｓ

ｒｅｓｅａｒｃｈ　ｉｎｔｅｒｅｓｔｓ　ｉｎｃｌｕｄｅ　ｃｌｏｕｄ　ｃｏｍｐｕｔｉｎｇ　ａｎｄ　ｇｒａｐｈ　ｄａｔａ

ｍａｎａｇｅｍｅｎｔ．

Ｂａｃｋｇｒｏｕｎｄ

Ｄａｔａ　ｉｎｃｏｎｓｉｓｔｅｎｃｙ　ｈａｓ　ｂｅｅｎ　ａ　ｓｅｒｉｏｕｓ　ｄａｔａ　ｑｕａｌｉｔｙ

ｐｒｏｂｌｅｍ　ｉｎ　ｒｅｌａｔｉｏｎａｌ　ｄａｔａ．Ｔｈｅ　ｍａｊｏｒ　ｍｅｔｈｏｄ　ｔｏ　ｒｅｐａｉｒ　ｔｈｅ

ｉｎｃｏｎｓｉｓｔｅｎｔ　ｄａｔａ　ｉｓ　ｕｓｉｎｇ　ｆｕｎｃｔｉｏｎａｌ　ｄｅｐｅｎｄｅｎｃｉｅｓ　ｔｏ　ｍｏｄｉｆｙ

ｄａｔａ　ｖａｌｕｅ．

Ｉｎ　ｄａｔａ　ｒｅｐａｉｒｉｎｇ　ｒｅｓｅａｒｃｈｅｒｓ　ｈａｖｅ　ａ　ｃｈａｌｌｅｎｇｅ　ｏｆ　ｒｅｐａｉｒｉｎｇ

ｉｎｃｏｎｓｉｓｔｅｎｔ　ｄａｔａ　ｉｓ　ｈｏｗ　ｔｏ　ｄｉｓｃｏｖｅｒ　ｖａｌｉｄ　ｆｕｎｃｔｉｏｎａｌ

ｄｅｐｅｎｄｅｎｃｉｅｓ　ｆｒｏｍ　ｅｒｒｏｒｏｕｓ　ｒｅｌａｔｉｏｎａｌ　ｄａｔａ．Ｔｈｅ　ｅｘｉｓｔｉｎｇ　ＦＤ

ｄｉｓｃｏｖｅｒｙ　ｍｅｔｈｏｄｓ，ｗｈｉｃｈ　ａｒｅ　ｂａｓｅｄ　ｏｎ　ｓｔａｔｉｓｔｉｃａｌ　ｃｏｎｆｉｄｅｎｃｅ

ｍｅａｓｕｒｅｍｅｎｔ，ｕｓｕａｌｌｙ　ｆｉｎｄ　ｍａｎｙ　ａｐｐｒｏｘｉｍａｔｅｌｙ　ｃｏｒｒｅｃｔ　ｂｕｔ

ａｃｔｕａｌｌｙ　ｉｎｖａｌｉｄ　ＦＤｓ．Ｄｉｒｅｃｔｌｙ　ａｐｐｌｙｉｎｇ　ｔｈｅｓｅ　ｄｉｓｃｏｖｅｒｅｄ　ＦＤｓ

ｔｏ　ｒｅｐａｉｒ　ｉｎｃｏｎｓｉｓｔｅｎｔ　ｒｅｌａｔｉｏｎａｌ　ｄａｔａ　ｍａｙ　ｉｎｔｒｏｄｕｃｅ　ｍｏｒｅ　ｄａｔａ

ｅｒｒｏｒｓ．

Ｉｎ　ｒｅｃｅｎｔ　ｙｅａｒｓ，Ｉｎｃｏｎｓｉｓｔｅｎｔ　ｄａｔａ　ｒｅｐａｉｒｉｎｇ　ｆｏｃｕｓ　ｏｎ

ｒｅｐａｉｒ　ｍｏｄｅｌ　ａｎｄ　ｃｏｎｓｔｒａｉｎｔ　ｄｉｓｃｏｖｅｒｉｎｇ　ａｌｇｏｒｉｔｈｍ．Ｏｎｌｙ　ａ

ｆｅｗ　ｒｅｓｅａｒｃｈｅｓ　ａｒｅ　ｒｅｌａｔｅｄ　ｔｏ　ｔｈｉｓ　ｉｓｓｕｅ．Ｆｅｉ　Ｃｈｉａｎｇ　ａｎｄ

Ｌｕｋａｓｚ　Ｇｏｌａｂ　ｒｅｆｅｒｒｅｄ　ｔｈｉｓ　ｐｒｏｂｌｅｍ　ｉｎ　ｔｈｅｉｒ　ｒｅｐａｉｒ　ｍｏｄｅｌ．

Ｔｈｅｙ　ｂｏｔｈ　ｓｔｕｄｙ　ｃｏｓｔ－ｍｏｄｅｌ　ｒｅｐａｉｒ　ｏｎ　ｔｈｅ　ａｓｓｕｍｐｔｉｏｎ　ｔｈａｔ　ｔｈｅ

ｇｉｖｅｎ　ＦＤ　ｍａｙ　ｈａｖｅ　ｅｒｒｏｒｓ．Ｔｈｅｉｒ　ｍｅｔｈｏｄｓ　ｅｘｔｅｎｄｅｄ　ｃｏｓｔ－

ｒｅｐａｉｒ　ｍｏｄｅｌ　ｂｕｔ　ｄｉｄ　ｎｏｔ　ｃｏｎｓｉｄｅｒ　ｗｈｅｔｈｅｒ　ｔｈｅ　ｄａｔａ　ｉｓ　ｗｒｏｎｇ．

Ｖｏｌｋｏｖｓ　Ｍ．ｐｒｏｐｏｓｅｄ　ａ　ｓｕｐｅｒｖｉｓｅｄ　ｍｅｔｈｏｄ　ｔｏ　ｒｅｐａｉｒ　ｂｏｔｈ

ｄａｔａ　ａｎｄ　ＦＤ．Ｈｉｓ　ｓｔｕｄｙ　ｕｓｅ　ｓｔａｔｉｓｔｉｃａｌ　ｆｅａｔｕｒｅｓ　ｏｆ　ＦＤ　ａｓ

ｆｅａｔｕｒｅｓ　ｆｏｒ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ．Ｔｈｉｓ　ｍｅｔｈｏｄ　ｈａｖｅ　ａ　ｆｌａｗ　ｔｈａｔ　ｔｈｅ

ｆｅａｔｕｒｅｓ　ｓｅｌｅｃｔｅｄ　ｍａｎｕａｌｌｙ　ａｒｅ　ｓｕｂｊｅｃｔｉｖｅ　ｓｅｌｅｃｔｅｄ　ａｎｄ　ｔｈｅ

ｓｕｐｅｒｖｉｓｅｄ　ｍｅｔｈｏｄｓ　ｎｅｅｄ　ｈｕｍａｎ　ｅｆｆｏｒｔｓ　ｔｏ　ｌａｂｅｌ　ｔｈｅ　ｔｒａｉｎｉｎｇ

ＦＤ．Ｏｎ　ｔｈｅ　ｏｔｈｅｒ　ｈａｎｄ，ｃｕｒｒｅｎｔ　ｍｅｔｈｏｄｓ　ｏｎ　ｄｉｓｃｏｖｅｒｉｎｇ　ＦＤｓ

ｆｒｏｍ　ａ　ｄａｔａ　ｗｈｉｃｈ　ｃｏｎｔａｉｎｓ　ｅｒｒｏｒｓ　ｕｓｅ　ｃｏｎｆｉｄｅｎｃｅ　ｍｅａｓｕｒｅ

ｂａｓｅｄ　ｏｎ　ｓｔａｔｉｓｔｉｃａｌ　ｔｏ　ｆｉｎｄ　ａｐｐｒｏｘｉｍａｔｅ　ＦＤ．Ｈｏｗｅｖｅｒ，ｔｈｉｓ

ｃｏｎｆｉｄｅｎｃｅ　ｍｅａｓｕｒｅ　ｄｉｄ　ｎｏｔ　ｃｏｎｓｉｄｅｒ　ｄａｔａ　ｓｅｍａｎｔｉｃｓ；ｔｈｅ

ｄｉｓｃｏｖｅｒｉｎｇ　ｒｅｓｕｌｔ　ｃｏｎｔａｉｎｓ　ｐｌｅｎｔｙ　ｏｆ　ｉｎｖａｌｉｄ　ＦＤ．Ｄｉｒｅｃｔｌｙ

ａｐｐｌｙｉｎｇ　ｔｈｅｓｅ　ｄｉｓｃｏｖｅｒｅｄ　ＦＤｓ　ｔｏ　ｒｅｐａｉｒ　ｉｎｃｏｎｓｉｓｔｅｎｔ　ｒｅｌａｔｉｏｎａｌ

ｄａｔａ　ｍａｙ　ｉｎｔｒｏｄｕｃｅ　ｍｏｒｅ　ｄａｔａ　ｅｒｒｏｒｓ．

Ｔｏ　ａｄｄｒｅｓｓ　ｔｈｉｓ　ｉｓｓｕｅ，ｗｅ　ｐｒｏｐｏｓｅ　ａ　ｎｏｖｅｌ　ａｐｐｒｏａｃｈ　ｆｏｒ

ＦＤ　ｃｏｎｆｉｄｅｎｃｅ　ｍｅａｓｕｒｅｍｅｎｔ　ｂａｓｅｄ　ｏｎ　ｄａｔａ　ｓｅｍａｎｔｉｃｓ　ａｎａｌｙｓｉｓ．

Ｉｔ　ｆｉｒｓｔ　ｕｓｅｓ　ｃｏｎｄｉｔｉｏｎａｌ　ｐｒｏｂａｂｉｌｉｔｉｅｓ　ｔｏ　ｍｅａｓｕｒｅ　ｒｅａｓｏｎａｂｌｅｎｅｓｓ

ｏｆ　ａｎ　ａｔｔｒｉｂｕｔｅ　ｖａｌｕｅ，ａｎｄ　ｔｈｅｎ　ａｇｇｒｅｇａｔｅ　ｔｈｅｍ　ｆｏｒ　ｅｓｔｉｍａｔｉｎｇ

ｔｈｅ　ｃｏｎｆｉｄｅｎｃｅ　ｌｅｖｅｌ　ｏｆ　ａ　ｇｉｖｅｎ　ＦＤ．

Ｏｕｒ　ｒｅｓｅａｒｃｈ　ｇｒｏｕｐ　ｈａｓ　ｂｅｅｎ　ｗｏｒｋｉｎｇ　ｏｎ　ｄａｔａｂａｓｅ

ｒｅｓｅａｒｃｈ　ｆｏｒ　ｍａｎｙ　ｙｅａｒｓ　ａｎｄ　ｈａｓ　ｃｏｏｐｅｒａｔｉｏｎ　ｗｉｔｈ　ａ　ｎｕｍｂｅｒ　ｏｆ

ｐｒｅｓｔｉｇｉｏｕｓ　ｕｎｉｖｅｒｓｉｔｉｅｓ　ｓｕｃｈ　ａｓ　Ｎｏｒｔｈｅａｓｔｅｒｎ　Ｕｎｉｖｅｒｓｉｔｙ　ａｎｄ

Ｅａｓｔ　Ｃｈｉｎａ　Ｎｏｒｍａｌ　Ｕｎｉｖｅｒｓｉｔｙ．

Ｔｈｉｓ　ｒｅｓｅａｒｃｈ　ｗａｓ　ｓｕｐｐｏｒｔｅｄ　ｂｙ　ｔｈｅ　Ｎａｔｉｏｎａｌ　Ｂａｓｉｃ　Ｒｅｓｅａｒｃｈ

Ｐｒｏｇｒａｍ（９７３Ｐｒｏｇｒａｍ）ｏｆ　Ｃｈｉｎａ（Ｎｏ．２０１２ＣＢ３１６２０３），ｔｈｅ

Ｎａｔｉｏｎａｌ　Ｎａｔｕｒａｌ　Ｓｃｉｅｎｃｅ　Ｆｏｕｎｄａｔｉｏｎ　ｏｆ　Ｃｈｉｎａ（Ｎｏｓ．６１０３３００７，

６１３３２００６，６１４７２３２１），ｔｈｅ　Ｎｏｒｔｈｗｅｓｔｅｒｎ　Ｐｏｌｙｔｅｃｈｎｉｃａｌ　Ｕｎｉｖｅｒｓｉｔｙ

Ｆｏｕｎｄａｔｉｏｎ　ｆｏｒ　Ｆｕｎｄａｍｅｎｔａｌ　Ｒｅｓｅａｒｃｈ（Ｎｏｓ．３１０２０１４ＪＳＪ００１３，

３１０２０１４ＪＳＪ０００５）．

关系数据中函数依赖检测方法 - wowbigdata.com.cn ·...

Documents