רשתות בייסיאניות אופטימליות

27
תתתתת תתתתתתתתתת תתתתתתתתתת תתתתת תתתתתת תתתתתתת תתתתת תתתתת תתתת: ת"ת תתתת תתת תתתת: תתתתתת תתתתתת1

Upload: andrew-kreimer

Post on 24-Jul-2015

97 views

Category:

Data & Analytics


2 download

TRANSCRIPT

Page 1: רשתות בייסיאניות אופטימליות

1

בייסיאניות רשתותאופטימליות

המחשב במדעי מתקדמים נושאים סמינר " מיה: הרמן ר ד מנחה

אנדריי: קריימר מגיש

Page 2: רשתות בייסיאניות אופטימליות

2

מידע כריית

› : נתונים של עצומה Petabyte, Terabyteכמות

נתונים ‹ עם בהתנהלות אבולוציה

דיסציפלינרי ‹ מולטי תחום

נתונים – ‹ Data Warehouseמחסני

›OLAP & OLTP

מקדים ‹ עיבוד

› , ידע KDD – Knowledge Discovery in Databasesגילוי

› , היער את רואים לא עצים מרב אחת אמת

Page 3: רשתות בייסיאניות אופטימליות

3

מידע לכריית גישות

אשכול ‹ או קיבוץבבנק – עסקי או פרטי לקוח

אסוציאטיביים ‹ חוקים או הקשר חוקי– , באמזון נוספות לרכישות המלצות ביוטיוב לסרטונים הצעות

וחיזוי ‹ סיווג–" , ח מט בצמד מגמה סיווג כספאם מייל סיווגאשראי – מתן בעת לקוח של החזר כושר חיזוי

אינטגרציה‹– " מתאים מסווג מודל פ ע אשראי מקבל מאושכל לקוח

Page 4: רשתות בייסיאניות אופטימליות

4

הבייסיאנית הגישה

גישות – ‹ שתי והסתברות סטטיסטיקהתצפיות – – הקלאסית הגישה– , אפוסטריורי - ידע אפריורי ידע הבייסיאנית הגישה

בייס ‹ משפט–P(A|B) = P(B|A)P(A)/P(B)

›MAPאפוסטריורי – מקסימום

Page 5: רשתות בייסיאניות אופטימליות

5

בייסיאני מסווג

› " והכנסה גיל י ע מאופיין לקוח

›P(X) – בן לקוח שקיים 5000והכנסתו 25ההסתברות›P(H) – גיטרה יקנה שלקוח ההסתברות

›P(X|H) – לקוח שקיים גיטרה Xההסתברות שנרכשה ידוע אם

›P(H|X) – שלקוח הגיטרה Xההסתברות את יקנה

›P(H|X) = P(X|H)P(H)/P(X)

הנאיבית ‹ הגישהתלויים – בלתי המשתנים

Page 6: רשתות בייסיאניות אופטימליות

6

הנאיבי בייס מסווג

אופטימלי ‹ מסווג לממש ניתן לא

תלויים ‹ בלתי המשתנים

אפס ‹ הסתברות–- ל – אחת רשומה הוספת לפלס והוספת Nתיקון למספר Nקטגוריות

הכולל הרשומות–m-estimate – בגודל וירטואלי מדגם mקיים

Page 7: רשתות בייסיאניות אופטימליות

7

נאיבי בייס מסווג באמצעות לסיווג דוגמה

News in EU News in US EU GDP US GDP EURUSD

bad bad Up Down Up

bad good Down Down Up

good bad Up Up Down

good good Up Up Up

bad bad Down Up Down

good bad Down Up Down

bad good Up Down Up

bad bad Up Down Down

good good Up Up Up

Bad good Down down Up

NewsEu, NewsUs ϵ {bad, good}

EuGDP, UsGDP, EURUSD (Class) ϵ {up, down}

נראה כיצד מסווגים מגמה בשוק מטבע החוץ על ידי מספר מאפיינים: חדשות באיחוד האירופי, חדשות בארה"ב, תמ"ג באיחוד האירופי ותמ"ג בארה"ב. כל תצפית היא נתוני חודש. המאפיין חדשות מתאר את ההרגשה הכללית בשוק – טוב או רע. מאפייני תמ"ג מתארים עליה או ירידה בתמ"ג יחסית

לחודש הקודם. להלן קבוצת האימון.

Page 8: רשתות בייסיאניות אופטימליות

8

נאיבי בייס מסווג באמצעות לסיווג דוגמה›: חדשה רשומה לסווג ברצוננו

– X=(NewsEU = good, NewsUS = bad, EuGDP = up, UsGDP = up)

עבור ‹ ההסתברות את למקסם עלינו אחת, i=1,2כאמור כל עבור ההסתברויות בחישוב נתחיל ולכןמהמחלקות:

– P(EURUSD = Up) = 6/10 = 0.6– P(EURUSD = Down) = 4/10 = 0.4

›: המאפיינים וערכי מחלקות של הצירופים חישוב עם נמשיך

– P(NewsEu = good | EURUSD = Up) = 2/6 = 0.33– P(NewsUs = bad | EURUSD = Up) = 1/6 = 0.16– etc.

Page 9: רשתות בייסיאניות אופטימליות

9

נאיבי בייס מסווג באמצעות לסיווג דוגמה›: , לסיווג ניגש בידינו המידע כשכל

› P(X|EURUSD = up) = P(NewsEu = good | EURUSD = up) * P(NewsUs = bad | EURUSD = up) * P(EuGDP = up | EURUSD = up) * P(UsGDP = up | EURUSD = up) = 0.33 * 0.16 * 0.66 * 0.33 = 0.01149984

› P(X|EURUSD = down) = P(NewsEu = good | EURUSD = down) * P(NewsUs = bad | EURUSD = down) * P(EuGDP = up | EURUSD = down) * P(UsGDP = up | EURUSD = down) = 0.5 * 1 * 0.5 * 0.75 = 0.1875

›: אפוסטריורי מקסימום בשיטת שימוש

› = max{P(X|EURUSD=up)P(EURUSD=up), P(X|EURUSD=down)P(EURUSD=down)} = max{0.01149984, 0.1875} = 0.1875

›. , נמכור: לכן ירד הצמד המסקנה

Page 10: רשתות בייסיאניות אופטימליות

10

בייסיאנית רשת

הסתברותי ‹ גרפי מודל

מעגלים ‹ ללא מכוון גרף

משתנה ‹ כל עבור מותנית הסתברות טבלאות

מותנית ‹ תלות אי

›d-separated, d-connected

›A -> D, D -> A

מותנית ‹ תלות אי–P(C|A,B,D,E) = P(C|A,B,D)–C- ב מותנה תלוי Eלא

Page 11: רשתות בייסיאניות אופטימליות

11

ברשת הסתברויות שיערוך›: הסתברות חישוב

ערכי , ‹ בהינתן ההסתברות את לחשב ונרצה -A,B,C,Dבמידה :Eו

משתנה ‹ של ערכו את להסיק ונרצה ערכי Cבמידה -A,B,Dבהינתן ניעזר. Eו : אפוסטריורי במקסימום

ברשת ‹ שקופות לא הסתברויות לחשב נוכל בייס משפט את נשלב אםשל. ערכו את לחשב ונרצה במידה למשל ערכי Bהבייסיאנית -A,C,Dבהינתן Eו

- Bכאשר ב מותנה תלוי -D,Cבלתי :Eו – P(A|B) = P(B|A) * P(A)/P(B) //Bayes Theorem– P(B) = P(B|A) + P(B|^A) = P(B|A) * P(A) + P(B|^A) * P(^A) = …

Page 12: רשתות בייסיאניות אופטימליות

12

דינאמית בייסיאנית רשת

בייסיאנית ‹ לרשת הרחבה

שונים ‹ זמן בפרקי משתנים בין גומלין יחסי

זמן ‹ ופרקי משתנים של מטריצה

עיתיות ‹ סדרות

›) בייסיאנית ) לרשת בניגוד מעגלים ייתכנו

X1

X2

X3

X4

Attribute

p

… Attribute 2 Attribute 1  

… Time 1

… Time 2

… … … … …

… Time n

Page 13: רשתות בייסיאניות אופטימליות

13

בייסיאנית לרשת דוגמה

› . - מאפיינים מספר פי על דולר יורו בצמד תנודות לסווג נרצה

› : הזמן בטווח המחיר של ירידה או עליה בינארי המחלקה משתנההנוכחי.

פתיחה ‹ מחיר הם סגירה(, )Open)המאפיינים (, Closeמחירגבוה ) נמוך(, )Highמחיר עבור(, Lowמחיר נע 100ממוצע

האחרונות ) עבור(, MA100השעות נע השעות 200ממוצעהתנודה( MA200האחרונות ) כיוון הוא מחלקה ומשתנה

(ClassTrend.)

Page 14: רשתות בייסיאניות אופטימליות

14

בייסיאנית לרשת דוגמה

עבור המותנות ההסתברויות טבלת: המחלקה משתנה : שהתקבלה הבייסיאנית הרשת

Page 15: רשתות בייסיאניות אופטימליות

15

בייסיאנית רשת של בנייה

› " מומחה י ע נתון הרשת מבנה

חישובית – ‹ מבחינה קשה בעיה הרשת מבנה למידתלמבנים – אפשרויותהיוריסטיקות–– - , , : מותנית תלות אי גלובלי מקומי מבנים להערכת מטריקות

המותנית ‹ ההסתברות טבלאות חישוב

Page 16: רשתות בייסיאניות אופטימליות

16

בייסיאנית רשת של בנייה

המשתנים ‹ סדר– : הצורה מן סדרההמשתנה , . – של הורה להיות יכול לא אזי לפני מופיע אם–. בסדר הקודמים המשתנים ורק אך הם האפשריים ההורים עבור

מבנה‹מעגלים – ללא מכוון גרף

X1 X3 X2

X1

X3

X2

סדר משתנים נתון (מימין) ומבנה אפשרי בהתאם (משמאל)

Page 17: רשתות בייסיאניות אופטימליות

17

הרשת ניקוד

›) , ( " גלובלי מקומי מטריקות פ ע מבנים בוחנים

›Bayesian Dirichlet – BD

›BDeu (equivalent uniform Bayesian Dirichlet).קבוצת f(N)ענישה - ‹ לגודל בהתאם הענישה פונקציית היא

האימון.

›MDL – מודל אימון Mנתונים Dוקבוצת– : התיאור עלות–)- ( , ב מתחילים המקסימום את או המינימום את מחפשים

Page 18: רשתות בייסיאניות אופטימליות

18

בייסיאנית רשת של לבנייה אלגוריתמים›Gradient Descent

– , המותנות ההסתברויות את לחשב יש ידוע המבנהחסרות – האפריוריות מההסתברויות חלקהמותנית – ההסתברות בטבלת הסתברויות לחישוב אינפיניטסימלי קירוב

›K2מפורסם – אלגוריתםחמדנית – בחירהההורים – מספר על חסם קיים צומת לכלבהדרגה – ומוסיפים הורים ללא מצומת מתחיליםנתון – הסדרניקוד – מבחינת המקסימלי המבנה אחר חיפושיותר – טוב מבנה אין כאשר עוצרים

Page 19: רשתות בייסיאניות אופטימליות

19

בייסיאנית רשת של לבנייה אלגוריתמים

›Hill-Climbing Search– : וגלובלי מקומי קלאסיות חיפוש גישות שתי– : הדרגתי פתרון בונים הגלובלית הגישה– : המטרה לכיוון ומספרים שרירותי בפתרון מתחילים המקומית הגישה

              1                

                               

        4                      

8 .. .. ..         8 7 6 5        

                        4      

          3               3    

                            2  

            2                 1

הגישה הגלובלית: הצבות הדרגתיות (מימין), הגישה המקומית: מתחילים בפתרון אקראי (משמאל)

Page 20: רשתות בייסיאניות אופטימליות

20

בייסיאנית רשת של לבנייה אלגוריתמים

›Taboo Searchאסורים – פתרונות רשימתהחיפוש – מרחב את לקדם בכדי טובים פחות פתרונות מאפשרים– / מקומי מינימום ממקסימום להימנע ניסיוןיעיל – זיכרון וניהול מתוחכמים נתונים מבניממדים – ארבעה על מתבססות ההחלטות

קודמות ‹ התרחשויותתדירויות‹איכות‹השפעה‹

אפשריים פתרונות

הפתרונות בחינת

המיטבי הפתרון ניתן איתור האם?לעצור

וכללי טאבו רשימת עדכוןויתור

פתרון ראשוני

פתרון אופטימלי

מבנה סכמתי של חיפוש טאבו

Page 21: רשתות בייסיאניות אופטימליות

21

בייסיאנית רשת של לבנייה אלגוריתמים

›TAN – Tree Augmented Naïve Bayesעץ – מבוסס–Conditional Mutual Information המחלקה משתנה עלמהמשתנים – אחד לכל המחלקה ממשתנה קשתות מוסיפיםChow-Liu (1968)אלגוריתם –

גנטי )‹ (GAאלגוריתםאבולוציה–זיווג, – מוטציה– : שורד החזק שונים מדורות פתרונות של בחינה

עצירה?

בחירה

פתרונות

פתרונות יצירהחדשים

חילוף

אוכלוסיית

פתרונות

.P. Larranaga et alתרשים זרימה של אלגוריתם אבולוציוני, מקור:

פתרון מיטבי

אתחול

 

Page 22: רשתות בייסיאניות אופטימליות

22

בייסיאנית רשת של לבנייה אלגוריתמים

›Simulated Annealingתרמודינמיקה – של עקרונות– : לסירוגין וקירור חימום מתכות חישול– / מקומי מינימום למקסימום נפילה

›Ordering-Based Searchנתון – המשתנים סדרהצאצאים – למספר חסם קיים צומת לכלהמבנים – מעוצמת קטנה הסדרים עוצמת– , סדר מתאים מבנה לכל מבנה מתאים סדר לכל

Page 23: רשתות בייסיאניות אופטימליות

23

מסווגים מודלים בין השוואה

›WEKA 3.6, votes.arff – 17 , , 435מאפיינים 10רשומות folds.FN TN FP TP שגוי נכון הבנייה זמן מסווג

14 154 29 238 9.89% 90.11% 0.01sec Naïve Bayes

8 160 8 259 3.68% 96.32% 0sec J48

10 158 23 244 7.59% 92.41% 0sec IB1

10 158 13 254 5.29% 94.71% 1.75sec MLP

14 154 29 238 9.89% 90.11% 0.04sec BN, K2, Local

14 154 29 238 9.89% 90.11% 0.01sec BN, K2, Global

14 154 28 239 9.66% 90.34% 0.02sec BN, Hill Climber, Local

12 156 12 255 5.52% 94.48% 2.87sec BN, Hill Climber, Global

10 158 12 255 5.06% 94.94% 1.34sec BN, Simulated Annealing, Local

13 155 13 254 5.98% 94.02% 52.04sec BN, Simulated Annealing, Global

14 154 28 239 9.66% 90.34% 0.02sec BN, Taboo Search, Local

15 153 12 255 6.21% 93.79% 1.92sec BN, Taboo Search, Global

9 159 13 254 5.06% 94.94% 0.04sec BN, TAN, Local

6 162 15 252 4.83% 95.17% 3.24sec BN, TAN, Global

Page 24: רשתות בייסיאניות אופטימליות

24

מסווגים מודלים בין השוואה›WEKA 3.7, GBPAUD.arff – 37 , , 10,000מאפיינים .33%-66%רשומות

שגוי נכון הבנייה זמן מסווג

36.62% 63.38% 0.03sec Naïve Bayes

1.23% 98.77% 0.48sec J48

31.21% 68.79% 0.01sec IB1

? ? >5min MLP

35.73% 64.27% 0.11sec BN, K2, Local

35.73% 64.27% 3.62sec BN, K2, Global

37.2647% 62.7353% 143.19sec BN, Hill Climber, Local

? ? >5min BN, Simulated Annealing, Local

35.5294% 64.4706% 144.19min BN, Taboo Search, Local

? ? >5min BN, TAN, Local

Page 25: רשתות בייסיאניות אופטימליות

25

אופטימלית בייסיאנית רשת

וקומבינטוריקה ‹ אופטימיזציה בעיית

המבנה ‹ כל על לעבור יש אם קשה ברשת הסקה

חסומים – ‹ האימון קבוצת וגודל המאפיינים כמות

קריטי – ‹ שלב מאפיינים בחירת

עצמה – ‹ בפני בעיה המשתנים סדר חישוב

› , היוריסטיקות החיפוש מרחב גיזום

› , הבעיה בתחום מומחים אפריורי ידע

Page 26: רשתות בייסיאניות אופטימליות

26

סיכום

גרפי ‹ מסווג מודל–Judea Pearl (1988)–Chow-Liu (1968)

לבעיה ‹ התאמה קלות

אינטרפרטציה ‹ קלות

›)! תמיד ) כמו חישובית מגבלה

›? פולינומיאלי אלגוריתםזמן–זיכרון–

Page 27: רשתות בייסיאניות אופטימליות

27

רבה !תודהקריימר אנדריי

Algonell.com – Data Mining in [email protected]