03. linear regression
TRANSCRIPT
Jeonghun Yoon
ģ§ė ģź°.....Naive Bayes Classifier
argmaxš¦š š„1, ā¦ , š„š š¦ š(š¦) = argmax
š¦ š š„š š¦ š(š¦)
š
š=1
class š¦ ģ ė°ģ ķė„ ź³¼ test setģģ class š¦ģ labelģ ź°ģ§ ė°ģ“ķ°ģ ķ¹ģ± ė²”ķ°ģ
ģģ š„š (ė¬øģģ ģģģė ėØģ“) ź° ėģ¬ ķė„ ģ ź³±
ex) (I, love, you)ź° spamģøģ§ ģėģ§ ģźø° ģķ“ģė,
test setģģ spamģ“ ģ°Øģ§ķė ė¹ģØź³¼
spamģ¼ė” labeling ė ė¬øģģģ Iģ loveģ youź° ė°ģķė ķė„ ģ ėŖØė ź³±ķ ź²ź³¼,
test setģģ hamģ“ ģ°Øģ§ķė ė¹ģØź³¼
hamģ¼ė” labeling ė ė¬øģģģ Iģ loveģ youź° ė°ģķė ķė„ ģ ėŖØė ź³±ķ ź²ģ,
ė¹źµķė¤.
ģ§ė ģź° ėÆøė¹ķė ģ ė¤... 1. Laplacian Smoothing (appendix ģ°øź³ )
2. MLE / MAP
1
Bayesā Rule
š š š© =š š© š š(š)
š š© š š(š)
posteriori (ģ¬ķ ķė„ )
likelihood (ģ°ė ź°)
prior (ģ¬ģ ķė„ )
ģ¬ķ ķė„ : ź“ģ°° ź°ė¤ģ“ ź“ģ°° ė ķģ ėŖØģ(parameter)ģ ė°ģ ķė„ ģ źµ¬ķė¤.
ģ¬ģ ķė„ : ź“ģ°° ź°ė¤ģ“ ź“ģ°° ėźø° ģ ģ ėŖØģģ ė°ģ ķė„ ģ źµ¬ķė¤.
ģ°ė ź° : ėŖØģģ ź°ģ“ ģ£¼ģ“ģ”ģ ė ź“ģ°° ź°ė¤ģ“ ė°ģķ ķė„
Maximum Likelihood Estimate
š© = (š„1, ā¦ , š„š)
š š½ = š š© š½
ģ°ė(likelihood)ė ė¤ģź³¼ ź°ģ“ ģ ģ ėė¤.
ė³ģ(parameter) šź° ģ£¼ģ“ģ”ģ ė, data set š© = (š„1, ā¦ , š„š) (ź“ģ°° ė, observed) ė„¼ ģ»ģ ģ ģė(obtaining) ķė„
š(š©|š)
š
šģ ķØģ. šģ pdfė ģė.
š© = (š„1, ā¦ , š„š)
Maximum Likelihood Estimateė ė¤ģź³¼ ź°ģ“ ģ ģ ėė¤.
ź“ģ°° ė data set š© = š„1, ā¦ , š„š ģ ģ»ģ ģ ģė ķė„ ģ“ ź°ģ„ ķ° šź° MLEģ“ė¤.
š(š©|š1)
š š© = (š„1, ā¦ , š„š)
š½ = šš«š š¦šš±š½š š½ = šš«š š¦šš±
š½š(š©|š½) Ģ
š(š©|š2) š(š©|š3)
š(š©|š) š = š2 Ģ
ģ°ė¦¬ź° likelihood function š(š©|š)ģ prior š(š)ė„¼ ģ ė, Bayes ruleģ ģķģ¬ posteriori functionģ ź°ģ źµ¬ķ ģ ģė¤.
š š½ š© ā š š© š½ š(š½)
Maximum A Posteriori Estimate
š š š© =š š© š š(š)
š š© š š(š)
posteriori (ģ¬ķ ķė„ )
likelihood (ģ°ė ź°)
prior (ģ¬ģ ķė„ )
Likelihood š(š©|š)
Prior š(š)
Posterior š š š© ā š š© š š(š)
Likelihood š(š©|š)
Prior š(š)
Posterior š š š© ā š š© š š(š)
š½ = šš«š š¦šš±š½š(š½|š©)
Likelihood š(š©|š)
Prior š(š)
Posterior š š š© ā š š© š š(š)
Regression
ėė ķ° ģ ė°ķģ¬ģ CEOģ“ė¤. ė§ģ ģ§ģ ė¤ģ ź°ģ§ź³ ģė¤.
ź·øė¦¬ź³ ģ“ė²ģ ģė”ģ“ ģ§ģ ģ ė“ź³ ģ¶ė¤. ģ“ė ģ§ģģ ė“ģ¼ ė ź¹?
ė“ź° ģė”ģ“ ģ§ģ ģ ė“ź³ ģ¶ģ“ķė ģ§ģė¤ģ ģģ ģģµė§ ķģ ķ ģ ģģ¼ė©“
ķ° ėģģ“ ė ź²ģøė°!
ė“ź° ź°ģ§ź³ ģė ģė£(data)ė ź° ģ§ģ ģ ģģµ(profits)ź³¼ ź° ģ§ģ ģ“ ģė ģ§ģģ
ģøźµ¬ģ(populations)ģ“ė¤.
ķ“ź²°ģ± ! Linear Regression!
ģ“ź²ģ ķµķģ¬, ģė”ģ“ ģ§ģģ ģøźµ¬ģė„¼ ģź² ė ź²½ģ°, ź·ø ģ§ģģ ģģ ģģµģ źµ¬
ķ ģ ģė¤.
Example 1)
Example 2)
ėė ģ§źø Pittsburghė” ģ“ģ¬ė„¼ ģė¤ ėė ź°ģ„ ķ©ė¦¬ģ ģø ź°ź²©ģ ģķķøė„¼ ģ»źø° ģķė¤. ź·øė¦¬ź³ ė¤ģģ ģ”°ź±“ė¤ģ ė“ź° ģ§ģ ģ¬źø° ģķ“ ź³ ė ¤ķė ź²ė¤ģ“ė¤. square-ft(ķė°©ėÆøķ°), ģ¹Øģ¤ģ ģ, ķźµ ź¹ģ§ģ ź±°ė¦¬... ė“ź° ģķė ķ¬źø°ģ ģ¹Øģ¤ģ ģė„¼ ź°ģ§ź³ ģė ģ§ģ ź°ź²©ģ ź³¼ģ° ģ¼ė§ģ¼ź¹?
ā Given an input š„ we would like to compute an output š¦. (ė“ź° ģķė ģ§ģ ķ¬źø°ģ, ė°©ģ ź°ģė„¼ ģ ė „ķģ ė, ģ§ ź°ź²©ģ ģģø” ź°ģ ź³ģ°)
ā” For example 1) Predict height from age (height = š¦, age = š„) 2) Predict Google`s price from Yahoo`s price (Google's price = š¦, Yahoo's price = š„)
š¦ = š0 + š1š„
ģ¦, źø°ģ”“ģ dataė¤ģģ
ģ§ģ (š¦ = š0 + š1š„)ģ ģ°¾ģė“ė©“,
ģė”ģ“ ź° š„ššš¤ź° ģ£¼ģ“ģ”ģ ė,
ķ“ė¹ķė š¦ģ ź°ģ ģģø”ķ ģ
ģź² źµ¬ė!
learning, training
prediction
Input : ģ§ģ ķ¬źø°(š„1), ė°©ģ ź°ģ(š„2), ķźµź¹ģ§ģ ź±°ė¦¬(š„3),.....
(š„1, š„2, ā¦ , š„š) : ķ¹ģ± ė²”ķ° feature vector
Output : ģ§ ź°(š¦)
š = š½š + š½ššš + š½ššš +āÆ+ š½ššš
training setģ ķµķģ¬ ķģµ(learning)
Simple Linear Regression
š¦š = š0 + š1š„š + šš
šė²ģ§ø ź“ģ°°ģ š¦š , š„š ź° ģ£¼ģ“ģ”ģ ė ėØģ ķź· ėŖØķģ ė¤ģź³¼ ź°ė¤.
š3
šš : šė²ģ§ø ź“ģ°°ģ ģģ ģ°ė¦¬ź° źµ¬ķź³ ģ ķė ķź·ģ§ģ ź³¼ ģ¤ģ ź“ģ°°ė š¦šģ ģ°Øģ“ (error)
ģ°ė¦¬ė ģ¤ė„ģ ķ©ģ ź°ģ„ ģź² ė§ėė ģ§ģ ģ ģ°¾ź³ ģ¶ė¤. ģ¦ ź·øė ź² ė§ėė š½šģ š½šģ ģ¶ģ ķź³ ģ¶ė¤ ! How!! ģµģ ģ ź³± ė²! (Least Squares Method)
min š¦š ā š0 + š1š„š2
š
= ššš šš2
š
š¦ = š0 + š1š„
ģ¤ģ ź“ģø” ź° ķź· ģ§ģ ģ ź°(ģ“ģģ ģø ź°)
ģ¢ ģ ė³ģ ģ¤ėŖ ė³ģ, ė ė¦½ ė³ģ
min š¦š ā š0 + š1š„š2
š
= min šš2
š
ģ¤ģ ź“ģø” ź° ķź· ģ§ģ ģ ź°(ģ“ģģ ģø ź°)
ģģ ģģ ģµėķ ė§ģ”± ģķ¤ė š0, š1ģ ģ¶ģ ķė ė°©ė²ģ ė¬“ģģ¼ź¹?
(ģ“ė¬ķ š1, š2ė„¼ š1, š2 ė¼ź³ ķģ.)
- Normal Equation
- Steepest Gradient Descent
Ė Ė
What is normal equation?
ź·¹ė ź°, ź·¹ģ ź°ģ źµ¬ķ ė, ģ£¼ģ“ģ§ ģģ ėÆøė¶ķ ķģ, ėÆøė¶ķ ģģ 0ģ¼ė” ė§ėė ź°ģ ģ°¾ėė¤.
min š¦š ā š0 + š1š„š2
š
ėؼģ , š0ģ ėķģ¬ ėÆøė¶ķģ. ā š¦š ā š0 + š1š„š = 0
š
š
šš0 š¦š ā š0 + š1š„š
2
š
=
ė¤ģģ¼ė”, š1ģ ėķģ¬ ėÆøė¶ķģ. ā š¦š ā š0 + š1š„š š„š = 0
š
š
šš1 š¦š ā š0 + š1š„š
2
š
=
ģ ģ ė ģģ 0ģ¼ė” ė§ģ”±ģķ¤ė š0, š1ė„¼ ģ°¾ģ¼ė©“ ėė¤. ģ“ģ²ė¼ 2ź°ģ ėÆøģ§ģģ ėķģ¬,
2ź°ģ ė°©ģ ģ(system)ģ“ ģģ ė, ģ°ė¦¬ė ģ“ systemģ normal equation(ģ ź·ė°©ģ ģ)ģ“ė¼ ė¶ė„øė¤.
The normal equation form
š©š = 1, š„šš, Ī = š0, š1
š, šŖ = š¦1, š¦2, ā¦ , š¦šš , š =
11ā¦
š„1š„2ā¦
1 š„š
, š = (š1, ā¦ , šš) ė¼ź³ ķģ.
šŖ = šĪ + š
š¦1 = š0 + š1š„1 + š1
š¦2 = š0 + š1š„2 + š2
.......
š¦šā1 = š0 + š1š„šā1 + ššā1
š¦š = š0 + š1š„š + šš
šź°ģ ź“ģø” ź° (š„š , š¦š)ģ ģėģ ź°ģ ķź· ėŖØķģ ź°ģ§ė¤ź³ ź°ģ ķģ.
š¦1š¦2š¦3ā¦š¦š
=
111ā¦
š„1š„2š„3ā¦
1 š„š
š0š1
+
š1š2š3ā¦šš
šš2
š
š=1
= ššš = šŖ ā šĪ š(šŖ ā šĪ)
= šŖššŖ ā ĪššššŖ ā šŖššĪ + ĪššššĪ = šŖššŖ ā 2ĪššššŖ + ĪššššĪ
1 by 1 ķė ¬ģ“ėÆė” ģ ģ¹ķė ¬ģ ź°ģ“ ź°ė¤!
š(ššš)
šĪ= š
š(ššš)
šĪ= ā2šššŖ + 2šššĪ = š
ššššÆ = šššŖ šÆ = ššš ā1šššŖ Ė
ģ ź·ė°©ģ ģ
šŖ = šĪ + š š = šŖ ā šĪ
Minimize šš2
š
š=1
What is Gradient Descent?
machine learningģģė ė§¤ź° ė³ģ(parameter, ģ ķķź·ģģė š0, š1)ź° ģģ~
ģė°± ģ°Øģģ ė²”ķ°ģø ź²½ģ°ź° ėė¶ė¶ģ“ė¤. ėķ ėŖ©ģ ķØģ(ģ ķķź·ģģė Ī£šš2)ź°
ėŖØė źµ¬ź°ģģ ėÆøė¶ ź°ė„ķė¤ė ė³“ģ„ģ“ ķģ ģė ź²ė ģėė¤.
ė°ė¼ģ ķ ė²ģ ģģ ģ ź°ė” ķ“ė„¼ źµ¬ķ ģ ģė ģķ©ģ“ ģ ģ§ ģź² ģė¤.
ģ“ė° ź²½ģ°ģė ģ“źø° ķ“ģģ ģģķģ¬ ķ“ė„¼ ė°ė³µģ ģ¼ė” ź°ģ ķ“ ėź°ė ģģ¹ģ
ė°©ė²ģ ģ¬ģ©ķė¤. (ėÆøė¶ģ“ ģ¬ģ© ėØ)
What is Gradient Descent?
ģ“źø°ķ“ š¼0 ģ¤ģ š” = 0
š¼š”ź° ė§ģ”±ģ¤ė½ė?
š¼š”+1 = š š¼š” š” = š” + 1
š¼ = š¼š” Ė No
Yes
What is Gradient Descent?
Gradient Descent
ķģ¬ ģģ¹ģģ ź²½ģ¬ź° ź°ģ„ źøķź² ķź°ķė ė°©ķ„ģ ģ°¾ź³ ,
ź·ø ė°©ķ„ģ¼ė” ģ½ź° ģ“ėķģ¬ ģė”ģ“ ģģ¹ė„¼ ģ”ėė¤.
ģ“ė¬ķ ź³¼ģ ģ ė°ė³µķØģ¼ė”ģØ ź°ģ„ ė®ģ ģ§ģ (ģ¦ ģµģ ģ )ģ ģ°¾ģ ź°ė¤.
Gradient Ascent
ķģ¬ ģģ¹ģģ ź²½ģ¬ź° ź°ģ„ źøķź² ģģ¹ķė ė°©ķ„ģ ģ°¾ź³ ,
ź·ø ė°©ķ„ģ¼ė” ģ½ź° ģ“ėķģ¬ ģė”ģ“ ģģ¹ė„¼ ģ”ėė¤.
ģ“ė¬ķ ź³¼ģ ģ ė°ė³µķØģ¼ė”ģØ ź°ģ„ ėģ ģ§ģ (ģ¦ ģµė ģ )ģ ģ°¾ģ ź°ė¤.
What is Gradient Descent?
Gradient Descent
š¼š”+1 = š¼š” ā ššš½
šš¼ š¼š”
š½ =ėŖ©ģ ķØģ
šš½
šš¼ š¼š”: š¼š”ģģģ ėķØģ
šš½
šš¼ģ ź°
š¼š” š¼š”+1
āšš±
šš¶ š¶š
šš±
šš¶ š¶š
š¼š”ģģģ ėÆøė¶ź°ģ ģģģ“ė¤.
ź·øėģ šJ
šĪ± Ī±t ė„¼ ėķź² ėė©“
ģ¼ģŖ½ģ¼ė” ģ“ėķź² ėė¤.
ź·øė¬ė©“ ėŖ©ģ ķØģģ ź°ģ“ ģ¦ź°ķė
ė°©ķ„ģ¼ė” ģ“ėķź² ėė¤.
ė°ė¼ģ šJ
šĪ± Ī±tė„¼ ė¹¼ģ¤ė¤.
ź·øė¦¬ź³ ģ ė¹ķ šė„¼ ź³±ķ“ģ£¼ģ“ģ ģ”°źøė§
ģ“ėķź² ķė¤.
āššš±
šš¶ š¶š
What is Gradient Descent?
Gradient Descent
š¼š”+1 = š¼š” ā ššš½
šš¼ š¼š”
Gradient Ascent
š¼š”+1 = š¼š” + ššš½
šš¼ š¼š”
š½ =ėŖ©ģ ķØģ
šš½
šš¼ š¼š”: š¼š”ģģģ ėķØģ
šš½
šš¼ģ ź°
Gradient Descent, Gradient Ascentė ģ ķģ ģø Greedy algorithmģ“ė¤.
ź³¼ź±° ėė ėÆøėė„¼ ź³ ė ¤ķģ§ ģź³ ķģ¬ ģķ©ģģ ź°ģ„ ģ ė¦¬ķ ė¤ģ ģģ¹ė„¼ ģ°¾ģ
Local optimal pointė” ėė ź°ė„ģ±ģ ź°ģ§ ģź³ ė¦¬ģ¦ģ“ė¤.
š½ Ī = 1
2 š0 + š1š„š ā š¦š
2
š
š=1
= 1
2 Īšš©š ā š¦š
2
š
š=1
š©š = 1, š„šš, Ī = š0, š1
š, šŖ = š¦1, š¦2, ā¦ , š¦šš , š =
11ā¦
š„1š„2ā¦
1 š„š
, š = (š1, ā¦ , šš) ė¼ź³ ķģ.
š0š”+1 = š0
š” ā š¼š
šš0š½(Ī)š”
š1š”+1 = š1
š” ā š¼š
šš1š½(Ī)š”
š0ģ š”ė²ģ§ø ź°ģ,
š½(Ī)ė„¼ š0ģ¼ė” ėÆøė¶ķ ģģė¤ź° ėģ .
ź·ø ķģ, ģ“ ź°ģ š0ģģ ė¹¼ ģ¤.
ėÆøė¶ķ ė ģ“ģ©.
Gradient descentė„¼ ģ¤ģ§ķė
źø°ģ¤ģ“ ėė ķØģ
š½ Ī = 1
2 š0 + š1š„š ā š¦š
2
š
š=1
= 1
2 Īšš©š ā š¦š
2
š
š=1
š©š = 1, š„šš, Ī = š0, š1
š, šŖ = š¦1, š¦2, ā¦ , š¦šš , š =
11ā¦
š„1š„2ā¦
1 š„š
, š = (š1, ā¦ , šš) ė¼ź³ ķģ.
Gradient of š½(Ī)
š
šš0š½ š = (Īšš©š ā š¦š)
š
š=1
1 š
šš1š½ š = (Īšš©š ā š¦š)
š
š=1
š„š
š»š½ Ī =š
šš0š½ Ī ,š
šš1š½ Ī
š
= Īšš©š ā š¦š š©š
š
š=1
š©š = 1, š„šš, Ī = š0, š1
š, šŖ = š¦1, š¦2, ā¦ , š¦šš , š =
11ā¦
š„1š„2ā¦
1 š„š
, š = (š1, ā¦ , šš) ė¼ź³ ķģ.
š0š”+1 = š0
š” ā š¼ (Īšš©š ā š¦š)
š
š=1
1 ėØ, ģ“ ėģ Īģė¦¬ģė
š”ė²ģ§øģ ģ»ģ“ģ§ Īź°ģ ėģ ķ“ģ¼ ķė¤.
š1š”+1 = š1
š” ā š¼ Īšš©š ā š¦š š„š
š
š=1
Steepest Descent
Steepest Descent
ģ„ģ : easy to implement, conceptually clean, guaranteed convergence
ėØģ : often slow converging
Īš”+1 = Īš” ā š¼ {(Īš”)šš©š ā š¦š}š©š
š
š=1
Normal Equations
ģ„ģ : a single-shot algorithm! Easiest to implement.
ėØģ : need to compute pseudo-inverse ššš ā1, expensive, numerical issues
(e.g., matrix is singular..), although there are ways to get around this ...
š = ššš ā1šššŖ Ė
Multivariate Linear Regression
š = š½š + š½ššš + š½ššš +āÆ+ š½ššš
ėØģ ģ ķ ķź· ė¶ģģ, input ė³ģź° 1. ė¤ģ¤ ģ ķ ķź· ė¶ģģ, input ė³ģź° 2ź° ģ“ģ.
Googleģ ģ£¼ģ ź°ź²©
Yahooģ ģ£¼ģ ź°ź²©
Microsoftģ ģ£¼ģ ź°ź²©
š = š½š + š½šššš + š½ššš
š + š
ģė„¼ ė¤ģ“, ģėģ ź°ģ ģģ ģ ķģ¼ė” ģź°ķģ¬ ķ ģ ģėź°?
ė¬¼ė” , input ė³ģź° polynomial(ė¤ķģ)ģ ķķģ“ģ§ė§, coefficients ššź° ģ ķ(linear)ģ“ėÆė” ģ ķ ķź· ė¶ģģ ķ“ė²ģ¼ė” ķ ģ ģė¤.
šÆ = ššš ā1šššŖ Ė
š0, š1, ā¦ , ššš
General Linear Regression
š = š½š + š½ššš + š½ššš +āÆ+ š½ššš ģ¤ ķź· ė¶ģ
ģ¼ė° ķź· ė¶ģ š = š½š + š½ššš(šš) + š½ššš(šš) + āÆ+ š½ššš(šš)
ššė š„š ėė
(š„āšš)
2šš ėė
1
1+exp(āš šš„)ė±ģ ķØģź° ė ģ ģė¤.
ģ“ź²ė ė§ģ°¬ź°ģ§ė” ģ ķ ķź· ķģ“ ė°©ė²ģ¼ė” ė¬øģ ė„¼ ķ ģ ģė¤.
š¤š = (š¤0, š¤1, ā¦ , š¤š)
š š„šš= š0 š„
š , š1 š„š , ā¦ , šš š„
š
š¤š = (š¤0, š¤1, ā¦ , š¤š)
š š„šš= š0 š„
š , š1 š„š , ā¦ , šš š„
š
normal equation
[ ģė£ģ ė¶ģ ]
ā ėŖ©ģ : ģ§ģ ķźø° ģķØ. ģė§ģ ź°ź²©ģ ģ°¾źø° ģķØ.
ā” ź³ ė ¤ķ ė³ģ(feature) : ģ§ģ ķ¬źø°(in square feet), ģ¹Øģ¤ģ ź°ģ, ģ§ ź°ź²©
(ģ¶ģ² : http://aimotion.blogspot.kr/2011/10/machine-learning-with-python-linear.html)
ā¢ ģ£¼ģģ¬ķ : ģ§ģ ķ¬źø°ģ ģ¹Øģ¤ģ ź°ģģ ģ°Øģ“ź° ķ¬ė¤. ģė„¼ ė¤ģ“, ģ§ģ ķ¬źø°ź° 4000 square feetģøė°,
ģ¹Øģ¤ģ ź°ģė 3ź°ģ“ė¤. ģ¦, ė°ģ“ķ° ģ featureė¤ ź° ź·ėŖØģ ģ°Øģ“ź° ķ¬ė¤. ģ“ė“ ź²½ģ°,
featureģ ź°ģ ģ ź·ķ(normalizing)ė„¼ ķ“ģ¤ė¤. ź·øėģ¼, Gradient Descentė„¼ ģķķ ė,
ź²°ź³¼ź°ģ¼ė” ė¹ ė„“ź² ģė “ķė¤.
ā£ ģ ź·ķģ ė°©ė²
- featureģ mean(ķź· )ģ źµ¬ķ ķ, featureė“ģ ėŖØė dataģ ź°ģģ meanģ ė¹¼ģ¤ė¤.
- dataģģ meanģ ė¹¼ ģ¤ ź°ģ, ź·ø dataź° ģķė standard deviation(ķģ¤ ķøģ°Ø)ė” ėėģ“ ģ¤ė¤. (scaling)
ģ“ķ“ź° ģ ėė©“, ģ°ė¦¬ź° ź³ ė±ķźµ ė ė°°ģ ė ģ ź·ė¶ķ¬ė„¼ ķģ¤ģ ź·ė¶ķ¬ė” ė°ź¾øģ“ģ£¼ė ź²ģ ė ģ¬ė ¤ė³“ģ.
ķģ¤ģ ź·ė¶ķ¬ė„¼ ģ¬ģ©ķė ģ“ģ ģ¤ ķėė, ģė” ė¤ė„ø ė ė¶ķ¬, ģ¦ ė¹źµź° ė¶ź°ė„ķź±°ė ģ“ė ¤ģ“ ė ė¶ķ¬ė„¼ ģ½ź²
ė¹źµķ ģ ģź² ķ“ģ£¼ė ź²ģ“ģė¤.
š = š ā š
š If š~(š, š) then š~š(1,0)
1. http://www.cs.cmu.edu/~epxing/Class/10701/Lecture/lecture5-LiR.pdf
2. http://www.cs.cmu.edu/~10701/lecture/RegNew.pdf
3. ķź·ė¶ģ ģ 3ķ (ė°ģ±ķ ģ )
4. ķØķ“ģøģ (ģ¤ģ¼ģ ģ§ģ)
5. ģė¦¬ķµź³ķ ģ 3ķ (ģ ėŖ ģ ģ§ģ)
Laplacian Smoothing
multinomial random variable š§ : š§ė 1ė¶ķ° šź¹ģ§ģ ź°ģ ź°ģ§ ģ ģė¤.
ģ°ė¦¬ė test setģ¼ė” šź°ģ ė ė¦½ģø ź“ģ°° ź° š§ 1 , ā¦ , š§ š ģ ź°ģ§ź³ ģė¤.
ģ°ė¦¬ė ź“ģ°° ź°ģ ķµķ“, š(š = š) ė„¼ ģ¶ģ ķź³ ģ¶ė¤. (š = 1, ā¦ , š)
ģ¶ģ ź°(MLE)ģ,
š š§ = š = š¼{š§ š = š}šš=1
š
ģ“ė¤. ģ¬źø°ģ š¼ . ė ģ§ģ ķØģ ģ“ė¤. ź“ģ°° ź° ė“ģģģ ė¹ėģė„¼ ģ¬ģ©ķģ¬ ģ¶ģ ķė¤.
ķ ź°ģ§ ģ£¼ģ ķ ź²ģ, ģ°ė¦¬ź° ģ¶ģ ķė ¤ė ź°ģ ėŖØģ§ėØ(population)ģģģ ėŖØģ
š(š§ = š)ė¼ė ź²ģ“ė¤. ģ¶ģ ķźø° ģķģ¬ test set(or ķė³ø ģ§ėØ)ģ ģ¬ģ©ķė ź² ėæģ“ė¤.
ģė„¼ ė¤ģ“, š§(š) ā 3 for all š = 1, ā¦ ,š ģ“ė¼ė©“, š š§ = 3 = 0 ģ“ ėė ź²ģ“ė¤.
ģ“ź²ģ, ķµź³ģ ģ¼ė” ė³¼ ė, ģ¢ģ§ ģģ ģź°ģ“ė¤. ėØģ§, ķė³ø ģ§ėØģģ ė³“ģ“ģ§
ģė ė¤ė ģ“ģ ė” ģ°ė¦¬ź° ģ¶ģ ķź³ ģ ķė ėŖØģ§ėØģ ėŖØģ ź°ģ 0ģ¼ė” ķė¤ė ź²ģ
ķµź³ģ ģ¼ė” ģ¢ģ§ ģģ ģź°(bad idea)ģ“ė¤. (MLEģ ģ½ģ )
ģ“ź²ģ ź·¹ė³µķźø° ģķ“ģė,
ā ė¶ģź° 0ģ“ ėģ“ģė ģ ėė¤.
ā” ģ¶ģ ź°ģ ķ©ģ“ 1ģ“ ėģ“ģ¼ ķė¤. š š§ = šš§ =1 (āµ ķė„ ģ ķ©ģ 1ģ“ ėģ“ģ¼ ķØ)
ė°ė¼ģ,
š š = š = š° š š = š + ššš=š
š+ š
ģ“ė¼ź³ ķģ.
ā ģ ģ±ė¦½ : test set ė“ģ šģ ź°ģ“ ģģ“ė, ķ“ė¹ ģ¶ģ ź°ģ 0ģ“ ėģ§ ģėė¤.
ā”ģ ģ±ė¦½ : š§(š) = šģø dataģ ģė„¼ ššė¼ź³ ķģ. š š§ = 1 = š1+1
š+š, ā¦ , š š§ = š =
šš+1
š+š
ģ“ė¤. ź° ģ¶ģ ź°ģ ė¤ ėķź² ėė©“ 1ģ“ ėģØė¤.
ģ“ź²ģ“ ė°ė” Laplacian smoothingģ“ė¤.
š§ź° ė ģ ģė ź°ģ“ 1ė¶ķ° šź¹ģ§ ź· ė±ķź² ėģ¬ ģ ģė¤ė ź°ģ ģ“ ģ¶ź°ėģė¤ź³
ģ§ź“ģ ģ¼ė” ģ ģ ģė¤. 1