percepcja i uwaga
DESCRIPTION
Inteligentne Systemy Autonomiczne. Percepcja i uwaga. W oparciu o wykład Prof. Randall O'Reilly University of Colorado oraz Prof. Włodzisława Ducha Uniwersytet Mikołaja Kopernika. Janusz A. Starzyk Wyższa Szkoła Informatyki i Zarządzania w Rzeszowie. - PowerPoint PPT PresentationTRANSCRIPT
EE1411
Percepcja i uwagaPercepcja i uwaga
Janusz A. Starzyk Wyższa Szkoła Informatyki i Zarządzania w Rzeszowie
Inteligentne Systemy Inteligentne Systemy AutonomiczneAutonomiczne
W oparciu o wykład Prof. Randall O'Reilly University of Colorado oraz Prof. Włodzisława DuchaUniwersytet Mikołaja Kopernika
EE1412
MotywacjeMotywacjePercepcja jest stosunkowo najłatwiejsza do zrozumienia chociaż na wiele szczegółowych pytań nie ma jasnych odpowiedzi.
Pytania ogólne:
Dlaczego pierwotna kora wzrokowa reaguje na zorientowane krawędzie?
Dlaczego układ wzrokowy rozdziela informacje na szlak grzbietowy związany z działaniem i określaniem miejsca, i szlak brzuszny, związany z rozpoznawaniem obiektów?
Dlaczego uszkodzenia kory ciemieniowej prowadzą do zaburzeń orientacji przestrzennej i uwagi?
W jaki sposób rozpoznajemy obiekty w różnych miejscach, orientacji, odległości, przy różnych rzutach obrazu na siatkówkę?
EE1413
System wzrokowySystem wzrokowy
Organizacja hierarchiczna zaczyna się w siatkówce, przechodzi przez ciało kolankowate boczne (część wzgórza), docierając do pierwotnej kory wzrokowej V1, skąd rozsyłana jest dalej.
Wzrok u zwierząt różnego gatunku realizowany jest na wiele sposobów: ślimak ma komórki światłoczułe bez soczewek, owady złożone oko i 10-30.000 heksagonalnych fasetek, ssaki mają oko z siatkówką i soczewką, człowiek ok 120M receptorów.
EE1414
Szlaki wzrokoweSzlaki wzrokoweSzlaki wzrokowe: siatkówka => ciało kolankowate boczne wzgórza (LGN) => promienistość wzrokowa => obszar pierwotnej kory V1 => wyższe piętra układu wzrokowego => obszary kojarzeniowe i wielomodalne.
Kora obszaru V1, zwana jest również korą prążkowaną (białe paski na szarym tle, aksony promienistości wzrokowej kończące się w warstwie 4).
Komórki V1 zorganizowane są w kolumny dominacji dwuocznej i kolumny orientacyjne, retinotopicznie. Proste komórki warstwy 4 reagują na paski o określonym nachyleniu, kontrastowe krawędzie, pobudzenia z jednego oka. Znaczna część środkowego obszaru V1 reaguje na sygnały z okolic plamki żółtej (dołka środkowego) oka, gdzie gęstość receptorów jest największa.
EE1415
“Gdzie to jest" = szlak wielkokomórkowy, zmierzający do płata ciemieniowego.
„Co widzimy" = szlak drobnokomórkowy zmierzający do płata skroniowego (IT).
Dwa strumienieDwa strumienie gdziegdzie?/co??/co?
EE1416
Dwa strumienieDwa strumienie gdziegdzie?/co??/co?
Milner i Goodale (1995): szlaki wzrokowe nie tyle określają gdzie i co, ile umożliwiają działanie i percepcję.
Jest jeszcze stary szlak limbiczny, umożliwiający szybkie działanie w niebezpiecznych sytuacjach (po którym następuje fala strachu).
Co? - płat skroniowy
Gdzie? - płat ciemieniowy
EE1417
Dwa strumienieDwa strumienieUngerleider i Mishkin (1982): istnieją dwa w znacznej mierze rozdzielone szlaki przetwarzania informacji wzrokowej, biegnącej już od oka. Wielkoziarniste komórki PA siatkówki, 3 typy stożków fotorecepcyjnych, duże pola recepcyjne, szybko przewodzące aksony, pobudzenie dla światła w szerokim paśmie. Drobnoziarniste komórki PB, 1 lub 2 typy stożków fotorecepcyjnych, małe pola recepcyjne, wolno przewodzące aksony, rozpoznają opozycje barw.
Szlak wielkokomórkowy: biegnie do dwóch wielkokomórkowych warstw LGN, charakteryzuje go niska rozdzielczość przestrzenna, wysoka wrażliwość na kontrast, szybkie przesyłanie sygnałów, bez informacji o kolorze. Szlak drobnokomórkowy ma 4 drobnoziarniste warstwy w LGN, duża rozdzielczość przestrzenna, kolor, wolniejszy przesył informacji, niska wrażliwość na kontrast.
EE1418
WzrokWzrok
Z siatkówki przez ciało kolankowate boczne (część wzgórza) informacja trafia do pierwotnej kory wzrokowej V1 i stamtąd wędruje
dwiema drogami.
EE1419
SiatkówkaSiatkówka Siatkówka nie jest pasywną kamera rejestrującą obrazy. Kluczowa zasada: wzmacnianie kontrastów podkreślających zmiany
w przestrzeni i czasie, wzmacnianie krawędzi, jednolicie oświetlone obszary są mniej istotne.
Fotoreceptory w czopkach i pręcikach, 3-warstwowa sieć, komórki zwojowe =>LGN.
Pole recepcyjne: obszar, który pobudza daną komórkę.
Kombinacja sygnałów w siatkówce daje pola recepcyjne typu centrum-otoczka (on-center) i odwrotnie, wykrywa krawędzie.
Każde z pól indywidualnych komórek można modelować Gaussem, więc takie pola otrzymuje się jako różnicę (DOG).
EE14110
Ciało kolankowate boczneCiało kolankowate boczne Kompresja sygnału – częściowo już w siatkówce. Informacje różnego typu trafiają do różnych warstw LGN. Stacja pośrednia – wszystkie sygnały zmysłowe (oprócz węchowych)
przechodzą przez różne jądra wzgórza. Dynamiczne przetwarzanie informacji: sterowanie uwagą i szybki
wielkokomórkowy szlak reagujący na ruch. Wsteczne projekcje V1=>LGN są o rząd wielkości bardziej liczne niż
LGN=>V1 (rola - przewidywanie).
Konkurencyjna dynamika wybiera sygnały z pola wzrokowego, zwłaszcza dotyczące ruchu.
Steruje ruchem gałki ocznej przez połączenia z wzgórkami czworaczymi.
EE14111
Detektory krawędzi Detektory krawędzi Sygnały punktowo kontrastowe z LGN kora V1 organizuje w zorientowane pod określonym kątem detektory krawędzi.
Proste komórki V1 łączą się w detektory krawędzi, pozwalając określić kształty, inne komórki reagują na kolor i rodzaj powierzchni (teksturę).
Własności detektorów krawędzi: różna orientacja; wysoka częstość = szybkie zmiany, drobne paski;
niska częstość = łagodne zmiany, szerokie paski;
polaryzacja = ciemne-jasne lub vv, ciemne-jasne-ciemne lub vv.
EE14112
Topografia koryTopografia korySpecyficzna budowa, uwarunkowana częściowo genetycznie, częściowo
rozwija się dzięki stymulacji, organizacja retinotopiczna jak w LGN.
Różne typy detektorów krawędzi i rodzaju tekstury upakowane są
topograficznie w korze V1 w hiperkolumny, obejmujące rozdzielone
sygnały z lewego i prawego oka (widzenie 3D, nie u wszystkich ssaków).
Obszar plamek: sygnały koloru i częściowo kształtu, niskie częstości => V4.
Obszar między plamkami: detektory krawędzi, co 10o, wysokie częstości.
Hiperkolumna ~1mm2, dominacja okulistyczna oka w warstwie 4.
EE14113
Reprezentacja w korze V1Reprezentacja w korze V1
Zorientowane detektory krawędzi mogą się utworzyć przez korelacyjne
uczenie się za pomocą Hebbowskich w oparciu o naturalne sceny.
Co dzieje się z informacją o kolorze, teksturach, ruchu?
EE14114
Szlak grzbietowySzlak grzbietowy
Szlak wielkokomórkowy: przez płat potyliczny szlakiem grzebietowym do kory ciemieniowej. Dochodzi do warstwy 4B w V1, stąd do grubych ciemnych pasków obszaru V2, analizuje informację o ruchu obiektu.
W V1, warstwa 4B => V5, lokalizacja w polu widzenia, ruch.
V5 pobudza płat ciemieniowy, PPC (tylna kora ciemieniowa), obszar 7 i 5; umożliwia to orientację przestrzenną, postrzeganie głębi i ruchu, połączenie z wzgórkami czworaczymi (orientacja oczu).
EE14115
Szlak brzusznySzlak brzuszny
Szlak drobnokomórkowy: szlak brzuszny, do kory dolnoskroniowej.
V1 => V2 obszar międzyplamkowy, reaguje na orientację linii, daje dużą ostrość widzenia, bez koloru. V1 => V3 obszar plamkowy, reaguje na kształty, reakcja na kolor w neuronach w ciemnych prążkach V3. V2 => V4, główny obszar analizy koloru, informacja dochodzi do kory dolnoskroniowej (IT). Obszar IT w płacie dolnoskroniowym ma neurony reagujące na złożone obiekty.
EE14116
Model v1rf.proj.gz, R. 8Model v1rf.proj.gz, R. 8W jaki sposób tworzą się pola recepcyjne? Skąd takie własności V1?
Opis projektu w rozdz. 8.3.2. Naturalne kształty i tekstury prowadzą do
specyficznych pól recepcyjnych: stąd reakcje na krawędzie.
Wejścia: 12x12, sygnały z komórek
LGN on (pos) i off (neg) center.
Wzorce wejściowe: przypadkowo
wybrane z naturalnego obrazu
512x512.
Warstwa ukryta 14x14; połączenia:
przypadkowe z wejściem,
pobudzające z otoczeniem.
EE14117
Własności modeluWłasności modeluKora V1 otrzymuje z LGN sygnał on/off o wzmocnionym kontraście,
wejście do V1 przez warstwę 4, przetwarzanie w tym modelu odpowiada
procesom zachodzącym głównie w warstwach 2 i 3.
Model obejmuje jedną hiperkolumnę, analizującą mały wycinek obrazu
ze zdjęć krajobrazów i roślin => wszystkie elementy widzą to samo.
Własności: geometria sferyczna, tzn. góra = dół, lewa = prawa;wejścia niezależne dla komórek on/off, zgodnie z biologią;
silne i rozległe pobudzające połączenia horyzontalne – jak w SOM; kWTA zostawia ~10% aktywnych neuronów.
Kontrast dla wag jest mały ~1, bo to nie są neurony decyzyjne, progi są duże (~2) by wymusić rzadkie reprezentacje, silne korelacje.
Szum pomaga w unikaniu słabych rozwiązań.
EE14118
Ćwiczenia z v1rfĆwiczenia z v1rfSprawdzić strukturę, wagi połączeń (r.wt): silne pobudzenia wewnątrz
warstwy ukrytej, zawijanie pobudzeń na brzegach, przypadkowe
połączenia z wejściami on/off.
LoadEnv by załadować obrazek 512x512 - do treningu użyto 10
obrazów, tu jest jeden przykładowy, przetworzony na kropki on/off.
StepTrain – obserwacja oscylacji uczenia dla fazy – i + Komplementarność on/off: silniejsza aktywacja on dla obrazów jaśniejszych w środku niż na brzegach, ciemne = dodatnia aktywacja off.
Pytanie: czego się można spodziewać jeśli horyzontalne połączenia będą dominować? Sprawdź swoje przypuszczenia zmieniając chwilowo lat_wt_scale 0.04 => 0.2.
LoadNet by załadować wytrenowaną sieć, po 100.000 prezentacji obrazów i paru dniach obliczeń ...
EE14119
Pola recepcyjnePola recepcyjneW jaki sposób tworzą się pola recepcyjne? Skąd takie własności V1?
View, PROBE_ENV pokazuje 4 różne próbne bodźce, StepProbe pokaże
aktywację jednostek ukrytych.
Sprawdzić aktywacje r.wt, zmienić skalę koloru by lepiej widać było orientację pól,sprawdzić kilka elementów ukrytych, bi- i tri-polarne pola obu rodzajów.
Załadować wszystkie: View, RFIELDSaktywność on=czerwone, off=niebieskie. Orientacja, położenie, rozmiar, polarność to 4 różne cechy pól recepcyjnych.
Promieniste zmiany orientacji (pinwheel), punkty osobliwe.