wstep do sieci neuronowych, wyklad 13-14, walidacja...

GeneralizacjaWalidacja jakości uczenia

Błędy klasyfikacjiPrzypadek ciągły

Wstęp do sieci neuronowych, wykład 13-14,Walidacja jakości uczenia. Metody statystyczne.

M. Czoków, J. Piersa

Faculty of Mathematics and Computer Science,

Nicolaus Copernicus University, Toruń, Poland

2011.01.11

M. Czoków, J. Piersa WSN 2010/2011 Wykład 13-14



1 GeneralizacjaPrzykładGeneralizacjaPrzeuczenie sieci

2 Walidacja jakości uczeniaProblemWalidacja prostaWalidacja krzyżowaLeave One Out

3 Błędy klasyfikacjiEksperyment myślowyBłędy pierwszego i drugiego rodzaju

4 Przypadek ciągłyPrzypadek ciągłyRegresja liniowa — prostaRegresja liniowa — wielomian stopnia d




PrzykładGeneralizacjaPrzeuczenie sieci









Przykład

Rozważmy problem XOR;-1-0.500.511.52 -1 -0.5 0 0.5 1 1.5 2 (Poprawnie) nauczona siećdaje poprawną odpowiedź nawszystkich 4 przykładach,

Tablica haszująca da ten samefekt bez zaawansowanejteorii i przy porównywalnym(albo i mniejszym) koszciepamięciowym,

Ale co się stanie gdyzapytamy się o klasyfikacjępunktu (1.3,−0.5)?





Przykład

Co się stanie gdy zapytamy się o klasyfikację punktu (1.3,−0.5)?

Tablica haszująca: (zależnie od wybranego języka)ArrayIndexOutOfBoundsException ,

Sieć neuronowa zwróci (jakąś) odpowiedź dla każdego zpunktów na płaszczyźnie, np +1

Od czego zależy odpowiedź?





Wnioski

ucząc sieć neuronową nie chcemy w zbiorze treningowym każdejmożliwej wartości jaka może paść,

chcemy „reprezentatywną próbkę” przestrzeni o jaką sieć będziepytana podczas normalnego działania,





Co to jest „reprezentatywna próbka”?

Co autor może mieć na myśli:-1-0.500.511.52 -1 -0.5 0 0.5 1 1.5 2M. Czoków, J. Piersa WSN 2010/2011 Wykład 13-14




Co to jest „reprezentatywna próbka”?

Co sieć może z tego zrozumieć:-1-0.500.511.52 -1 -0.5 0 0.5 1 1.5 2M. Czoków, J. Piersa WSN 2010/2011 Wykład 13-14




Generalizacja

Generalizacja jest zdolnością sieci do porawnej klasyfikacjidanych, na których sieć nie była uczona.





Generalizacja

Dane uczące: -1-0.500.511.52 -1 -0.5 0 0.5 1 1.5 2M. Czoków, J. Piersa WSN 2010/2011 Wykład 13-14




Generalizacja

Sieć niedouczona:-1-0.500.511.52 -1 -0.5 0 0.5 1 1.5 2M. Czoków, J. Piersa WSN 2010/2011 Wykład 13-14




Generalizacja

Sieć dobrze nauczona:-1-0.500.511.52 -1 -0.5 0 0.5 1 1.5 2M. Czoków, J. Piersa WSN 2010/2011 Wykład 13-14




Generalizacja

Sieć przeuczona:-1-0.500.511.52 -1 -0.5 0 0.5 1 1.5 2M. Czoków, J. Piersa WSN 2010/2011 Wykład 13-14




Przeuczenie sieci

przeuczenie sieci jest sytuacją gdy sieć uczy się przykładów „napamięć”,

zdarza się to gdy sieć ma zbyt wiele punktów swobody (za dużoneuronów do nauczenia w porównaniu do skomplikowaniaproblemu i ilości danych),

przeuczona sieć traci możliwości generalizacji.





Systuacja ekstremalna

Dane uczące: -1-0.500.511.52 -1 -0.5 0 0.5 1 1.5 2M. Czoków, J. Piersa WSN 2010/2011 Wykład 13-14




Systuacja ekstremalna

Wewnętrzna reprezentacja-1-0.500.511.52 -1 -0.5 0 0.5 1 1.5 2M. Czoków, J. Piersa WSN 2010/2011 Wykład 13-14



ProblemWalidacja prostaWalidacja krzyżowaLeave One Out









Przypomnienie

Dana jest próbka losowa x1, ..., xn wartości, losowanych niezależnie zrozkładu X .Średnia z próby definiowana jest jako

x̄ =

∑ni=1 xin

Średnia jest (mocno) zgodnym estymatorem wartości oczekiwanejrozkładu X (o ile EX istnieje!).





Przypomnienie

Dana jest próbka losowa x1, ..., xn wartości, losowanych niezależnie zrozkładu X .Estymator wariancji (o ile rozkład X posiada wariancję!):

σ̂2 =1n − 1

n∑i=1

(xi − x̄)2

Estymator odchylenia standardowego:

σ̂ =

√√√√ 1n − 1

n∑i=1

(xi − x̄)2





Przypomnienie

Dana jest próbka losowa x1, ..., xn wartości, losowanych niezależnie zrozkładu X .Medianą próbki losowej xi1 , ..., xin będzie tą próbką po posortowaniu.Mediana jest zdefiniowana jako:

jeżeli n jest nieparzyste xi(n+1/2) (element na samym środkuposortowanej listy),

jeżeli n jest parzystexin/2+xin/2+1

2 (średnia dwóch „środkowych”elementów)





Zagadnienie

Dane nych będzie zbiór punktów uczących wraz z poprawnymiodpowiedziami,

Stosując poznane metody skonstruowana i nauczona została siećneuronowa,

Chcemy ocenić jakość klasyfikacji i generalizacji uzyskanej sieci.





Proste rozwiązanie

Po nauczeniu sieci sprawdzamy ile z przykładów jestklasyfikowanych poprawnie,

Obliczamy ilość wszystkich przykładów,

Przypisujemy:

jakość uczenia :=ilość przykładów sklasyfikowanych poprawnie

ilość wszystkich przykładów





Proste rozwiązanie

Powyższe rozwiązanie jest aż za proste!

powyższa metoda nie mówi nic o zachowaniu się sieci na danych,których nie widziała,

test preferuje uczenie się danych na pamięć, ignorujegeneralizację,

zaletą jest to, że maksymalnie wykorzystuje cały dostępnyzestaw danych do uczenia.





Walidacja prosta

dane uczące są losowo dzielone na dwa rozłączne zbiory:próbkę uczącą U,próbkę testową T ,

sieć jest uczona za pomocą próbki uczącej,

jakość sieci jest badana tylko za pomocą próbki testowej

jakość :=ilość przykładów T sklasyfikowanych poprawnie

ilość wszystkich przykładów w T





Walidacja prosta





Walidacja prosta

Uwagi i niebezpieczeństwa:

czasami na wynik większy wpływ ma stosunek |U||U∪T | , niż

zaimplementowany algorytm,

rozsądnym minimum dla wielkości U jest około 14 całego zbioru,

z drugiej strony U nie powinno być większe niż 910 całego zbioru,

podając wynik walidacji zawsze należy podać proporcje w jakichpodzielono zbiór,

mamy informację o możliwości generalizacji, ale algorytmuczenia sieci korzystał tylko z ułamka dostępnej wiedzy,





k-krotna walidacja krzyżowa

Ang. k-fold cross-validation

dane uczące są losowo dzielone na k rozłącznych zbiorów:T1, ...,Tk ,

zbiory powinny być równoliczne (lub różnić się o maksymalnie 1element, jeżeli nie da się podzielić dokładnie),dla i = 1...k powtarzamy

uczymy sieć na zbiorze uczącym T1 ∪ ...Ti−1 ∪ Ti+1 ∪ Tk ,testujemy tak nauczoną sieć na danych Ti (na tych danych siećnie była uczona),zapamiętujemy rezultat jako ri

zależnie od ilości miejsca podajemy wszystkie rezultaty ri ,

lub przynajmniej ich średnią, medianę, minimum, maksimum iodchylenie standardowe,





Walidacja krzyżowa





k-razy dwukrotna walidacja krzyżowa

Ang. k-times 2-fold cross-validation

odmiana walidacji krzyżowej,dla i = 1...k powtarzamy:

wykonujemy 2-krotną walidację, za każdym razem losujemyzbiory treningowy i testowy od nowa,zapamiętujemy wyniki ri1 ri2 (po dwa na każdą iterację),

zwracamy statystyki uzyskanych wyników,





Leave One Out

odmiana walidacji krzyżowej, w której k = ilość elementów w T ,dla i = 1...n powtarzamy:

uczymy sieć na zbiorze uczącym T\Ti ,testujemy sieć na pozostałym przykładzie Ti ,zapamiętujemy wynik ri (będzie on albo +1, albo 0),

obliczamy średnią i odchylenie standardowe wyników,

można stosować w przypadku małej ilości danych w zbiorze T .




Eksperyment myślowyBłędy pierwszego i drugiego rodzaju









Błędy i błędy

jeżeli przyjmowana klasyfikacja jest binarna to możemy siępomylić na dwa sposoby:

możemy przypadek, który powinien być prawdziwy, ocenić jakofałszywy, (ang. false negative error)możemy przypadek fałszywy ocenić jako prawdziwy (ang. falsepositive),

czasami oba typy błędów są jednakowo złe...





Przykład

egzamin z przedmiotu (np. WSN) powinien testować wiedzęzdających

jeżeli zdający zna materiał i dostał ocenę pozytywną, toegzaminator poprawnie ocenił wiedzę,jeżeli zdający nie zna materiału i nie zaliczył, to również ocenajest poprawna,jeżeli zdający umiał, ale mimo tego nie zaliczył, to egzaminatorpopełnił błąd (false negative),jeżeli zdające nie umiał a zaliczył, to egzaminator popełniłdramatyczny błąd (false positive).

ponieważ zawsze przysługuje egzamin poprawkowy, to błędnaodpowiedź pozytywna jest znacznie gorsza (w tym przypadku)...





Błędy pierwszego i drugiego rodzaju

klasyfikacja pozytywna klasyfikacja negatywna

faktyczny stan poprawna odpowiedź false negativejest pozytywny true positive (błąd II-go rodzaju)faktyczny stan false positive poprawna odpowiedźjest negatywny (błąd I-go rodzaju) true negative





Bardziej życiowe przykłady

filtr antyspamowy,

kontrola bezpieczeństwa na lotnisku,

diagnoza lekarska,

diagnoza usterek technicznych,

...





Wrażliwość i specyficzność

wrażliwość testu (ang. sensitivity) jest odsetkiem poprawnychodpowiedzi wśród poprawnych przypadków, test o wysokiejwrażliwości popełnia mało błędów II-go rodzaju

TPR =true positives

positives

specyficzność testu (ang. specificity) jest odsetkiempoprawnych odpowiedzi wśród negatywnych przypadków, test ospecyficzności popełnia mało błędów I-go rodzaju

TNR =true negatives

negatives





Wrażliwość i specyficzność

stuprocentową wrażliwość da się łatwo osiągnąć odpowiadająctak na każdy przypadek,

podobnie stuprocentową specyficzność łatwo osiągnie „bardzoasertywny test”,

wysokie oba wskaźniki są cechą dobrych testów (co oznacza:trudne do osiągnięcia),

jeżeli projektując test zadany jest cel (np. unikanie fałszywychalarmów), to szukamy najlepszego kompromisu kontrolującważniejszą statystykę,





Reciever Operation Characteristic

Funkcja wrażliwości testu w zależności od progu przyjmowaniaodpowiedzi:




Przypadek ciągłyRegresja liniowa — prostaRegresja liniowa — wielomian stopnia d









Co robić jeżeli wyniki są ciągłe?

błędy można mierzyć jako odległość uzyskanego wyniku odoczekiwanego:

ERR =∑t

|E (t)− O(t)|

lub kwadrat odległości

ERR =∑t

(E (t)− O(t))2

w przypadku wielowymiarowym dodatkowo suma powspółrzędnych

ERR =∑t

∑i

(Ei (t)− Oi (t))2

im mniejszy błąd tym lepsza klasyfikacja





Co robić jeżeli wyniki są ciągłe?

im więcej elementów w zbiorze, tym większy błąd nawet dladobrej sieci,

uśrednimy zatem wyniki:

ERR =1n

n∑i=1

(E (ti )− O(ti ))2

n — ilość przykładów w zbiorze





Regresja liniowa / Metoda najmniejszych kwadratów

danych mamy n punktów na R2: (x1, y1), ..., (xn, yn)

chcemy znaleźć równanie prostej y = ax + b „przybliżającej” tepunkty

idea: znajdziemy równanie prostej f , która minimalizujeodległość od tych punktów

n∑i=1

(f (xi )− yi )2






-15

-10

-5

0

5

0 2 4 6 8 10-15

-10

-5

0

5

0 2 4 6 8 10






postać prostej f (x) = ax + b

błąd E (a, b) =∑i (f (xi )− yi )2 =

∑i (axi + b − yi )2

błąd chcemy minimalizować więc liczymy pochodne po a i po b

∂E∂a

=∑i

∂(axi + b − yi )2

∂a

∂E∂b

=∑i

∂(axi + b − yi )2

∂b





Regresja liniowa

∂E∂a

=∑i

∂(axi + b − yi )2

∂a

∑i

2(axi + b − yi )∂(axi + b − yi )

∂a=

∑i

2(axi + b − yi )xi = 2(a∑i

x2i + b∑i

xi −∑i

xiyi )

Podobnie

∂E∂b

=∑i

∂(axi + b − y i )2

∂b

∑i

2(axi + b − y i )∂(axi + b − y i )∂b

=

∑i

2(axi + b − y i )1 = 2(a∑i

xi + b∑i

1−∑i

yi )






Oznaczmy

S1 =∑i 1 = n

Sx =∑i xi

Sy =∑i yi

Sxy =∑i xiyi

Sxx =∑i x2i






Nasze równania teraz wyglądają następująco:

2(aSxx + bSx − Sxy ) = 0

2(aSx + bS1 − Sy ) = 0

aSxx + bSx = SxyaSx + bS1 = Sy

a =n·Sxy−SxSyn·Sxx−S2x

b =SxxSy−SxySxn·Sxx−S2x






Jeżeli f (x) = adxd + ad−1xd−1 + a1x + a0błąd E (a, b) =

∑i (f (xi )− yi )2

ponownie liczymy pochodne po każdym ze współczynników

∂E∂ai

=∑j

∂(adxdj + ...+ a1x1j + a0 − yj)2

∂aj

dla i = 0...d ,





Aproksymacja wielomianem st. 2

-10

-5

0

5

10

0 2 4 6 8 10






∂E∂ai

=∑j

(adxdj + ...+ a1x1j + a0 − yj

) ∂(adxdj + ...+ a0 − yj)∂aj

dla i = 0...d ,

∂E∂ai

=∑j

(adxdj + ...+ a1x1j + a0 − yj

)x ij

dla i = 0...d ,

∂E∂ai

= ad∑j

xd+ij + ...+ a1∑j

x1+ij + a0∑j

x ij −∑j

yjx ij = 0






Oznaczmy:Sxk =

∑j

xkj

Syxk =∑j

yjxkj

S1 =∑j

1






Otrzymujemy układ równań:Sx2d Sx2d−1 ... Sxd+1 SxdSx2d−1 Sx2d−2 ... Sxd Sxd−1

......

Sxd Sxd−1 ... Sx1 Sx0

·anan−1

...a0

=

SyxdSyxd−1

...Syx0





Aproksymacja wielomianem zbyt wysokiego stopnia

dla wysokich stopni wielomianu d i złośliwych danych problemmoże być źle uwarunkowany (np. w danych jest para(xi , yi )(xj , yj) gdzie xi jest dość bliski xj , a odpowiadające im yznacznie się różnią),

wielomian trafia idealnie (niemal idealnie, jeżeli d < n − 1) wkażdy z punktów uczących, ale ni oddaje tego, co się dzieje pozanimi,

jeżeli d ' n (ilość danych), to prostszym rozwiązaniem jestinterpolacja wielomianowa Lagrange’a.





Aproksymacja wielomianem zbyt wysokiego stopnia

-40

-20

0

20

40

0 2 4 6 8 10


wstep do sieci neuronowych, wyklad 13-14, walidacja...

Documents