כריית מידע – רגרסיה regression
DESCRIPTION
כריית מידע – רגרסיה Regression. ד"ר אבי רוזנפלד. שימושי רגרסיה. ניבוי יש אוסף של נתונים ואנחנו רוצים להבין מה יהיה בעתיד דוגמא: רגרסיה לינארית (עשייתם כבר) סיווג יש אוסף של נתונים ואנחנו רוצים לקטלג אותם גם אפשר רגרסיה לינארית SVM ( Support Vector Machine ) Logistic Regression - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: כריית מידע – רגרסיה Regression](https://reader035.vdocuments.net/reader035/viewer/2022081503/56813a68550346895da26050/html5/thumbnails/1.jpg)
רגרסיה – מידע כרייתRegression
רוזנפלד" אבי ר ד
![Page 2: כריית מידע – רגרסיה Regression](https://reader035.vdocuments.net/reader035/viewer/2022081503/56813a68550346895da26050/html5/thumbnails/2.jpg)
רגרסיה שימושי
ניבוי 1..A יהיה מה להבין רוצים ואנחנו נתונים של אוסף יש
בעתיד.B:דוגמא) כבר ) עשייתם לינארית רגרסיה
סיווג2.אותם 1. לקטלג רוצים ואנחנו נתונים של אוסף יש
לינארית 1. רגרסיה אפשר גם
.2SVM (Support Vector Machine)
.3Logistic Regression
היום 2. ההרצאה של נושא
![Page 3: כריית מידע – רגרסיה Regression](https://reader035.vdocuments.net/reader035/viewer/2022081503/56813a68550346895da26050/html5/thumbnails/3.jpg)
Regression
נתונים 1. של אוסף לך יש
טעות 2. של מדד איזשהו מצמצם שהוא קו מכניסים
.3 , לניבוי טוב כלי זה הצלחנו אם
Independent variable (x)
Dep
ende
nt v
aria
ble
ניבוי למען לינארית רגרסיה
![Page 4: כריית מידע – רגרסיה Regression](https://reader035.vdocuments.net/reader035/viewer/2022081503/56813a68550346895da26050/html5/thumbnails/4.jpg)
דוגמא
![Page 5: כריית מידע – רגרסיה Regression](https://reader035.vdocuments.net/reader035/viewer/2022081503/56813a68550346895da26050/html5/thumbnails/5.jpg)
לצמצם מנסים ?מהWhich Objective Function?
מוחלט )• ( Least Absolute Errorטעות
בריבוע )• (Least Square Errorטעות
![Page 6: כריית מידע – רגרסיה Regression](https://reader035.vdocuments.net/reader035/viewer/2022081503/56813a68550346895da26050/html5/thumbnails/6.jpg)
Nonlinear Regression
Nonlinear functions can also be fit as regressions. Common choices
include Power, Logarithmic, Exponential, and Logistic, but any continuous function can be used.
לינארית לא רגרסיה
![Page 7: כריית מידע – רגרסיה Regression](https://reader035.vdocuments.net/reader035/viewer/2022081503/56813a68550346895da26050/html5/thumbnails/7.jpg)
החלטות – עץ סיווג למען רגרסיה
![Page 8: כריית מידע – רגרסיה Regression](https://reader035.vdocuments.net/reader035/viewer/2022081503/56813a68550346895da26050/html5/thumbnails/8.jpg)
רגרסיה -- יותר פשוט מודל
![Page 9: כריית מידע – רגרסיה Regression](https://reader035.vdocuments.net/reader035/viewer/2022081503/56813a68550346895da26050/html5/thumbnails/9.jpg)
איפה– ברור תמיד לא הבעיהלחתוך
![Page 10: כריית מידע – רגרסיה Regression](https://reader035.vdocuments.net/reader035/viewer/2022081503/56813a68550346895da26050/html5/thumbnails/10.jpg)
SVM – הקטגוריות בין רווח למקסם הכללי הרעיון
![Page 11: כריית מידע – רגרסיה Regression](https://reader035.vdocuments.net/reader035/viewer/2022081503/56813a68550346895da26050/html5/thumbnails/11.jpg)
הפתרון הגדרת
נתונים: • של אוסף קייםו Xש מאפיינים של הוקטור הקטגוריות Yהוא הם
: רוצים אנחנו אידיאלי במצב
![Page 12: כריית מידע – רגרסיה Regression](https://reader035.vdocuments.net/reader035/viewer/2022081503/56813a68550346895da26050/html5/thumbnails/12.jpg)
ההגדות ...לפי
![Page 13: כריית מידע – רגרסיה Regression](https://reader035.vdocuments.net/reader035/viewer/2022081503/56813a68550346895da26050/html5/thumbnails/13.jpg)
נותן תמיד לא המציאות ...אבל
ה • את להקטין צורך או, HINGE LOSSיש" " נכון לא ה בצד שהם המופעים
•HINGE LOSS של אחת פונקציה רק LOSSהוא
![Page 14: כריית מידע – רגרסיה Regression](https://reader035.vdocuments.net/reader035/viewer/2022081503/56813a68550346895da26050/html5/thumbnails/14.jpg)
Linear SVM Mathematically Goal: 1) Correctly classify all training data
if yi = +1
if yi = -1
for all i 2) Maximize the Margin same as minimize
We can formulate a Quadratic Optimization Problem and solve for w and b
Minimize subject to
wM
2
www t
2
1)(
1bwxi1bwxi
1)( bwxy ii
1)( bwxy ii
i
wwt2
1
![Page 15: כריית מידע – רגרסיה Regression](https://reader035.vdocuments.net/reader035/viewer/2022081503/56813a68550346895da26050/html5/thumbnails/15.jpg)
Solving the Optimization Problem
Need to optimize a quadratic function subject to linear constraints. Quadratic optimization problems are a well-known class of
mathematical programming problems, and many (rather intricate) algorithms exist for solving them.
The solution involves constructing a dual problem where a Lagrange multiplier αi is associated with every constraint in the primary problem:
Find w and b such thatΦ(w) =½ wTw is minimized;
and for all {(xi ,yi)}: yi (wTxi + b) ≥ 1
Find α1…αN such that
Q(α) =Σαi - ½ΣΣαiαjyiyjxiTxj is maximized and
(1) Σαiyi = 0(2) αi ≥ 0 for all αi
![Page 16: כריית מידע – רגרסיה Regression](https://reader035.vdocuments.net/reader035/viewer/2022081503/56813a68550346895da26050/html5/thumbnails/16.jpg)
נוספים שיפורים
לינארית )• לא בפונקציה (Kernel Trickשימושפולינומים––GAUSIAN ועוד...–
![Page 17: כריית מידע – רגרסיה Regression](https://reader035.vdocuments.net/reader035/viewer/2022081503/56813a68550346895da26050/html5/thumbnails/17.jpg)
הסתברותית רגרסיהבפונקציה LOGITנתחיל
הקטגוריה • בתוך קיים שמופע מההסברות בנוישלו • המאיינים כל בהינתןהפונקציה • את למקסם הצורך את שוב יש•Log Likelihood (Log Odds)•! איטי מאוד נגדל
![Page 18: כריית מידע – רגרסיה Regression](https://reader035.vdocuments.net/reader035/viewer/2022081503/56813a68550346895da26050/html5/thumbnails/18.jpg)
לקטגוריות הסתברויות הופכים איך
ש • לב בתור LOGISTIC REGRESSIONשימו מוציא) מספרים ) ולא קטגוריות פלט
•LOGIT- ( בין מספר פלט בתוך (7ל 7מוציאל: • המספרים את לתרגם דרך log-oddsפתרון
הפוכה = Logistic Functionפונקציה
![Page 19: כריית מידע – רגרסיה Regression](https://reader035.vdocuments.net/reader035/viewer/2022081503/56813a68550346895da26050/html5/thumbnails/19.jpg)
הסתברותית רגרסיהLogistic Regression
ב • הסתברותי OBJECTIVE FUNCTIONשימוש(logistic)
ל • קרוב גבוה- 1ו 1מקטלג הסתברות אומר
is the intercept where f(x)=0
controls the graph shape
![Page 20: כריית מידע – רגרסיה Regression](https://reader035.vdocuments.net/reader035/viewer/2022081503/56813a68550346895da26050/html5/thumbnails/20.jpg)
: ה למקסם הרגרסיה TRAINING DATAמטרת
יש • בתוך mאם רכיבים הרבה יש מאפייניםהפונקציה:
ש•של • המשקולות את לקבוע צורך יש שוב
ה ) השונים (βמהאפיינים
![Page 21: כריית מידע – רגרסיה Regression](https://reader035.vdocuments.net/reader035/viewer/2022081503/56813a68550346895da26050/html5/thumbnails/21.jpg)
מודלים בין בדיוק הבדלים
![Page 22: כריית מידע – רגרסיה Regression](https://reader035.vdocuments.net/reader035/viewer/2022081503/56813a68550346895da26050/html5/thumbnails/22.jpg)
המודלים בין עקרוניים הבדלים
• – שלב שלב אינקרמנטליים בנויים עציםזמנית • בו פרמטר לכל משקל בונה רגרסיההפונקציה • צורת לפי רק מחלקת רגרסיה
, .LOGISTICלינארית) .)' גמישים, יותר עצים וכוהרופאים ) • העץ של לפלט משמעות יותר יש
) אותם מעדיפים לקוחות ורובלרגרסיה • טוב יותר דיוק שיש להיות יכול
![Page 23: כריית מידע – רגרסיה Regression](https://reader035.vdocuments.net/reader035/viewer/2022081503/56813a68550346895da26050/html5/thumbnails/23.jpg)
רגרסיה של הפלט
![Page 24: כריית מידע – רגרסיה Regression](https://reader035.vdocuments.net/reader035/viewer/2022081503/56813a68550346895da26050/html5/thumbnails/24.jpg)
עצים של הפלט
![Page 25: כריית מידע – רגרסיה Regression](https://reader035.vdocuments.net/reader035/viewer/2022081503/56813a68550346895da26050/html5/thumbnails/25.jpg)
ברגרסיה – המודלים בין שינוייםלינארית חלוקה תמיד לא