统计学习理论和 svm( 支持向量机 )

21
计计计计计计 SVM( 计计计计计 )

Upload: vashon

Post on 21-Jan-2016

230 views

Category:

Documents


0 download

DESCRIPTION

统计学习理论和 SVM( 支持向量机 ). 主要内容. 统计学习理论的核心内容 支持向量机 ( 1 )标准的最优分类面 ( 2 )广义最优分类面 ( 3 )变换到高维空间的支持向量机 感受. 统计学习理论的核心内容. 统计学习理论是小样本统计估计和预测学习的最佳理论。 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 统计学习理论和 SVM( 支持向量机 )

统计学习理论和 SVM( 支持向量机 )

统计学习理论和 SVM( 支持向量机 )

Page 2: 统计学习理论和 SVM( 支持向量机 )

主要内容• 统计学习理论的核心内容 • 支持向量机 • ( 1 )标准的最优分类面 • ( 2 )广义最优分类面• ( 3 )变换到高维空间的支持向量机 • 感受

Page 3: 统计学习理论和 SVM( 支持向量机 )

统计学习理论的核心内容

Page 4: 统计学习理论和 SVM( 支持向量机 )

• 统计学习理论是小样本统计估计和预测学习的最佳理论。

• 假设输出变量 Y 与输入变量 X 之间存在某种对应的依赖关系 , 即一未知概率分布P(X,Y) , P(X,Y) 反映了某种知识。学习问题可以概括为 : 根据 l 个独立同分布( independently drawn and identically distributed ) 的观测样本train set ,

Page 5: 统计学习理论和 SVM( 支持向量机 )

学习到一个假设 H=f(x, w) 作为预测函数 , 其中 w 是广义参数 . 它对 P(X,Y) 的期望风险 R(w) 是 ( 即统计学习的实际风险 ) :

n

iii yYXPwxfywxfyiE

1

),()],([(),((

),(),(2

1)( YXdPwxfywR

Page 6: 统计学习理论和 SVM( 支持向量机 )

而对 train set上产生的风险 Remp(w)

被称为经验风险 (学习的训练误差 ):

l

iiiemp wxfy

lwR

1

),(2

1)(

首先 Remp(w) 和 R(w)都是 w的函数,传统概率论中的定理只说明了 (在一定条件下 )当样本趋于无穷多时 Remp(w)将在概率意义上趋近于 R(w),却没有保证使Remp(w)最小的点也能够使 R(w) 最小 (同步最小 )。

Page 7: 统计学习理论和 SVM( 支持向量机 )

根据统计学习理论中关于函数集的推广性的界的结论,对于两类分类问题中的指示函数集 f(x, w)的所有函数 (当然也包括使经验风险员小的函数 ),经验风险 Remp(w)和实际风险 R(w)之间至少以不下于 1-η(0≤η≤1)的概率存在这样的关系 :

)/()()( lhwRwR emp

Page 8: 统计学习理论和 SVM( 支持向量机 )

l

hlhlh

)4/ln()1/2(ln()/(

h是函数 H=f(x, w) 的 VC 维 , l是样本数 .

Page 9: 统计学习理论和 SVM( 支持向量机 )

一般的学习方法 ( 如神经网络 ) 是基于 Remp(w) 最小 , 满足对已有训练数据的最佳拟和 , 在理论上可以通过增加算法(如神经网络)的规模使得Remp(w) 不断降低以至为 0 。 但是 , 这样使得算法(神经网络)的复杂度增加 , VC 维 h 增加 , 从而φ(h/l) 增大 , 导致实际风险 R(w) 增加 ,这就是学习算法的过度拟和(Overfitting).

Page 10: 统计学习理论和 SVM( 支持向量机 )

支持向量机Support Vector

Machines

Page 11: 统计学习理论和 SVM( 支持向量机 )

支持向量机比较好地实现了有序风险最小化思想 (SRM)

H1

X1

H2

X2

Optimal

Hyperplane

W· X+b=0

Separate

Hyperplane

Margin

=2/||W||

Page 12: 统计学习理论和 SVM( 支持向量机 )

如上图的训练样本 ,在线性可分的情况下 ,存在多个超平面 (Hyperplane) ( 如 : H1,H2….)使得这两类被无误差的完全分开。这个超平面被定义为:

其中W.X 是内积( dot product ), b是标量。。

0 bXW

Page 13: 统计学习理论和 SVM( 支持向量机 )

Optimal Hyperplane (最优超平面)是指两类的分类空隙最大,即每类距离超平面最近的样本到超平面的距离之和最大。距离这个最优超平面最近的样本被称为支持向量( Support Vector )。

Page 14: 统计学习理论和 SVM( 支持向量机 )

W2

Margin =

1 b1XWH1 平面:

H2 平面: 1 b2XW

01])[( by ii XW …..(2)

…..(1)

Page 15: 统计学习理论和 SVM( 支持向量机 )

求解最优超平面就相当于,在 (2)的约束条件下 , 求 (1) 的最大值

Minimum: WWWW 2

1

2

1)(

2

01])[( by ii XWSubject to:

Page 16: 统计学习理论和 SVM( 支持向量机 )

广义最优分类面 • 在线性不可分的情况下,就是某些训练

样本不能满足式 (2) 的条件,因此可以在条件中增加一个松弛项 ζ ,约束条件变成 :

01])[( iii bXWy

Page 17: 统计学习理论和 SVM( 支持向量机 )

此时的目标函数是求下式的最小值 :

n

iii CWWW

12

1),(

这个二次优化,同样可以应用Lagrange 方法求解

Page 18: 统计学习理论和 SVM( 支持向量机 )

变换到高维空间的支持向量机

• 采用如下的内积函数:q

ii XXXXK ]1)[(),(

2

2

exp),(

XiXXiXK

))(tanh(),( cXXXXK ii

Page 19: 统计学习理论和 SVM( 支持向量机 )

判别函数成为:

*

1

* ),(sgn)( bXXKyXf ii

n

ii

Page 20: 统计学习理论和 SVM( 支持向量机 )

感受• 理论基础扎实• 应用领域很广• 地名识别• 鲁棒性强• …………

Page 21: 统计学习理论和 SVM( 支持向量机 )

Thank!Thank!

2003-4-18