beskontaktnomjerenjepolozaja

FAKULTET ELEKTROTEHNIKE I RAČUNARSTVA

SVEUČILIŠTE U ZAGREBU

BESKONTAKTNO MJERENJE

PROSTORNOG POLOŽAJA

POMOĆU STRUKTURIRANOG

SVJETLA

doc. dr. sc. Tomislav Pribanić

Zagreb, 2013.

Sadržaj Uvod ........................................................................................................................................................ 3

Princip i podjela metoda strukturiranog svjetla ...................................................................................... 4

Diskretne metode kodiranja .................................................................................................................... 7

Metode prostornog susjedstva ........................................................................................................... 7

Metode vremenskog multipleksa ...................................................................................................... 11

Kontinuirane metode kodiranja ............................................................................................................ 18

Metode faznog pomaka .................................................................................................................... 18

Metode višestrukog faznog pomaka ................................................................................................. 24

Metode kodiranja u frekvencijskoj domeni ...................................................................................... 28

Umjeravanje sustava ............................................................................................................................. 29

Uvod .................................................................................................................................................. 29

Uloga projektivne geometrije u umjeravanju sustav ........................................................................ 30

3D projektivna geometrija ............................................................................................................. 32

Modeli kamere .................................................................................................................................. 41

Model konačne kamere ................................................................................................................. 42

Što otkriva projektivna matrica ..................................................................................................... 46

Izračun projektivne matrice P – tradicionalan način kalibracije ....................................................... 49

Algebarska pogreška...................................................................................................................... 49

Geometrijska pogreška .................................................................................................................. 51

Epipolarna geometrija – fundamentalna i esencijalna matrica ........................................................ 52

Proračun projektivnih matrica kamera preko fundamentalne matrice ........................................ 55

Proračun projektivnih matrica kamera preko esencijalne matrice ................................................. 56

LITERATURA ........................................................................................................................................... 60

Uvod

Jedno od najintenzivnijih istraživačkih područja računalnog vida je trodimenzionalno

mjerenje položaja točaka u prostoru. Izračun prostornog položaja točaka omogućava

mnogobrojne primjene u industrijskoj kontroli kvalitete, reverznom inženjerstvu,

prepoznavanju objekata, biometrici, dizajnu odjeće i obuće itd. Metode mjerenja prostornog

položaja točaka mogu se podijeliti na kontaktne i beskontaktne. Kontaktna mjerenja

omogućavaju načelno govoreći relativno robusno rješenje sa stanovišta neposredne primjene

te su se tradicionalno koristila prilikom industrijske kontrole kvalitete i u reverznom

inženjerstvu. Nedostatak kontaktnih mjerenja je što su vremenski zahtjevna i gotovo redovito

traže skupa ticala za mjerenje koja su samo dio mehaničke strukture od nekoliko dijelova, a

čiji međusobni relativni položaj je nužno točno određivati prilikom kontaktnog mjerenja

dotičnog objekta [1]. K tome u mnogim primjenama kontakt mjerenja sa nekim objektom nije

niti bio moguć. Beskontaktna mjerenja su razvijana sa namjerom rješavanja uobičajenih

problema vezanih za kontaktne metode.

Obrada slika snimljenih (video) kamerama se nametnula kao jedno od najučinkovitijih

beskontaktnih mjeriteljskih metoda prostornog položaja točaka gdje je uobičajena podjela na

pasivne i aktivne metode. Pasivna metoda podrazumijeva snimanje objekta (scene) sa dvije ili

više kamera. Kamere je nužno prethodno umjeriti putem određivanja vanjske i unutrašnje

orijentacije kamere ([2], [3]). Za jednom umjeren 3D sustava kamera i neku točku u prostoru

nalaze se korespondentne projekcije točke na slikama pojedinih kamera, nakon čega je

moguće izračunati prostorni položaj dotične točke. Pasivne metode pronalaska

korespondentnih točaka na slikama zahtijevaju nekoliko pretpostavci, a najvažnija je

prisutnost teksture u okolini točke čiji prostorni položaj određujemo [4]. Shodno tome, objekti

čija površina je monokromatska praktički onemogućavaju pasivno uparivanje

korespondentnih točaka na slikama kamera. Čak i u slučajevima gdje postoji dostatna

tekstura, točno i gusto određivanje mreže korespondentnih točaka zahtjeva primjenu neke od

vremenski zahtjevnih tzv. globalnih metoda pasivnog uparivanja ([5]). Nasuprot tome aktivne

metode uparivanja korespondentnih točaka, odnosno prostornog mjerenja položaja točaka,

temeljene na primjeni strukturiranog svjetla (engl. structured light, SL) ne zahtijevaju

prisutnost teksture objekta.

3D sustav koncipiran na aktivnoj metodi strukturiranog svjetla temelji se na primjeni

kamere i video projektora. Zadaća projektora je projiciranje jednog ili više uzoraka slike na

scenu (objekt). Projicirani uzorci slike sadrže određenu strukturu, tj. kod. Obradom slike

kamere odgovarajući kod nalazi se za pojedine piksele (idealno govoreći za svaki piksel) čime

se uspostavlja korespondencija između piksela na slikama kamere i projiciranog uzorka. Na

taj način moguće je, slično kao i kod pasivnog uparivanja, izračunati prostorni položaj točaka

za korespondentne slikovne parove. Međutim, za razliku od pasivnog uparivanja, umjeravanje

3D SL sustava zahtjeva i umjeravanje projektora, a ne samo kamere [6]. Također SL

omogućava gotovo redovito daleko točnije, robusnije i gušće određivanje korespondentnih

parova što u konačnici daje kvalitetniju mrežu prostorno rekonstruiranih točaka [7].

Princip i podjela metoda strukturiranog svjetla

Cijeli postupak 3D rekonstrukcije strukturiranim svjetlom moguće je prikazati kroz

nekoliko koraka:

Umjeravanje 3D SL sustava sastavljenog od projektora i kamere.

Generiranje jednog ili više uzoraka (slika) za projekciju video projektorom.

Uzorak/uzorci imaju takvu strukturu da je položaj (barem većeg broja) piksela u

uzorku moguće jedinstveno opisati odgovarajućim kodom.

Projekcija jednog ili više uzorka video projektorom na površinu objekata čiji prostorni

položaj se želi odrediti. U slučaju projicranj više uzoraka nužna je vreemnska

sinkronizacija između projektora i kamere za

Snimanje kamerom jednog ili više projiciranih uzoraka svjetla.

Obradba snimljenih slika kojom se izračunava dotični kod za određeni broj (idealno za

svaki) piksela kamere. Uobičajeni nositelji informacije o kodu su boja piksela,

intenzitet sive skale piksela, faza (frekvencija) te određeni geometrijski oblik.

Složenost i brzina obradbe slika su uvelike određeni tipom nositelja informacije koda.

Na temelju izračunatih kodova u prošlom koraku, uparivanje piksela kamera sa

pikselima projiciranih uzoraka projektorom. Ovaj korak se, zajedno sa prethodnim,

smatra općenito govoreći najsloženijim u cijelom postupku primjene strukturiranog

svijetla.

Izračun prostornog položaja točke za korespondentni (upareni) slikovni par projektora

i kamere korištenjem parametra umjeravanja 3D sustava (triangulacija slika 1).

Obrada sirovih 3D podataka. Uključuje cijeli niz radnji, a neke od najčešći su

detekcija i uklanjanje outliera u 3D podacima, opise površine objekta genriranjem3D

mreže podataka, generiranje teksture površine itd.

Uobičajeni problemi za gotovo sve metode strukturiranog svjetla su:

Tekstura objekta otežava nalaženje koda na snimljenom uzorku budući da snimljena

slika uzorka biva modulirana sa teksturom objekta. Metode gdje je nositelj informacije

koda boja su posebno osjetljive na ovaj problem.

Nagle promjene u dubini potencijalno uzrokuju da se određeni dio uzorka/koda neće

vidjeti uopće ili djelomično na slici kamere što će može rezultirati pronalaskom krivog

ili nepotpunog koda. Metode SL koje izračunavaju kod analizom više od jednog

piksela su potencijalno osjetljive na ovaj problem.

Nagle promjene u dubini gotovo redovito narušavaju svojstvo monotonosti uslijed

kojeg redoslijed kodova unutar snimljenog uzorka neće više odgovarati redoslijedu

kodova u projiciranom uzorku. Metode SL koje pretpostavljaju monotonost mogu dati

kriva rješenja.

slika 1 Princip rada 3D SL sustava. Projiciranjem uzorka projektor projicira 'triangulacijsku

ravninu' ∏ čiji je položaj unutar uzorka određen kodom. Nalaženje točaka T na slici kamere

sa istim kodom odgovara nalaženju na kameri slikovnih točaka presjecišta ravnine ∏ sa

objektom. Za umjereni 3D sustav poznate su jednadžbe ravnine ∏ i pravca p gdje njihovo

sjecište određuje prostorni položaj točke T.

Metode SL moguće je grupirati na različite načine, primjerice metode koje koriste

vremenski multipleks, prostorni multipleks, frekvencijski multipleks, metode pogodne za

rekonstrukciju statičkih objekata (scene), metode pogodne za rekonstrukciju dinamičkih

objekata ([8], [9], [10]) itd. U ovome tekstu iskazat će se podjela predložena u [11], u sklopu

čega su osnovne dvije grupe metode SL koje koriste diskretan i metode SL koje koriste

kontinuiran uzorak za projiciranje. Diskretan uzorak podrazumijeva da SL kod pojedine regije

uzorka za projiciranje imaju jednaki SL kod gdje veličina regije neposredno utječe na konačnu

rezoluciju rekonstruiranih točaka u prostoru. Nasuprot tome kontinuirani uzorak omogućava,

u principu, veću rezoluciju rekonstruiranih točaka budući da za svaki piksel uzorka postoji

jedinstven SL kod , i to barem po jednoj osi slike uzorka. Daljnja podjela unutar spomenute

dvije glavne grupe odnosi se na korišteni prostorni, vremenski ili frekvencijski multipleks.

Konačno, svaku konkretnu metodu SL moguće je karakterizirati pomoću slijedećih atributa:

Broj projiciranih uzoraka. To svojstvo definira da li je metoda SL svjetla podobna i za

rekonstrukciju dinamičkih objekata (objekata u gibanju) ili samo statičkih objekata. U

principu bez uporabe brzog hardvera za projiciranje uzoraka i snimanje slika, metode

namijenjene za rekonstrukciju dinamičkih objekata projiciraju samo jedan uzorak.

Broj kamera. Minimalna konfiguracija jedna kamera i jedan projektor može biti

nadograđena sa dodatnim kamerama. U tome slučaju nije nužno umjeravati i projektor

već projektor služi samo za osiguranje teksture u snimanoj sceni, tj. generiranje SL

T - točka izračuna

prostornog položaja

∏

p

koda, dok se neposredna korespondencija slikovnih piksela sa istim kodom traži

između pojedinih kamera.

Broj kodiranih osi uzorka za projiciranje. Uzorak za projiciranje može biti kodiran

uzduž jedne ili obiju koordinatnih osi slike. Kodiranje uzduž samo jedne osi je

jednostavnije, ali triangulacija između projektora i kamere je tada nešto složenija.

Boja projiciranog uzorka. Projicirani uzorak može biti kodiran binarno (B), u sivoj

skali (G) ili u boji (C). Načelno govoreći, kodiranje u boji omogućava definiciju SL

koda sa manjim brojem projiciranih uzoraka (idealno sa jednim uzorkom), ali i velika

ograničenja prilikom pokušaja prostorne rekonstrukcije površina u boji.

Periodičnost projiciranog uzorka. Generirani kod uzorka može biti jedinstven

(apsolutan) uzduž neke osi uzorka ili se kod može periodično ponavljati. Definicija na

šum robusnog apsolutnog koda pomoću (jednog) malog broja projiciranih uzoraka je

znatno teža. Stoga mnoge SL metode koriste nekoliko periodičnih kodova čijom

odgovarajućom obradom se sintetizira apsolutni kod, ali uz kompromis uporabe

povećanog broja uzoraka za projiciranje.

Boja. Pojedine SL metode su robusne kod određivanja prostornog položaja točaka

površine u boji. Takove metode uobičajeno traže projiciranje većeg broja uzoraka.

Zbog lakšeg uvodnog razumijevanja, spomenimo i interesantnu određenu analogiju između

strategije primjene strukturiranog svjetla i teorije informacije: poznati kod se odašilje

(projektorom se uzorak projicira), biva moduliran u komunikacijskom kanalu (od strane

površine koja se skenira) te se rezultat mjeri (snima kamerom). Usporedbom odaslanih i

primljenih podataka želi se pronaći prijenosna funkcija kanala, tj. oblik skenirane površine.

Diskretne metode kodiranja

Ove metode podrazumijevaju sva ona kodiranja gdje je isti SL kod dodijeljen

pojedinim regijama piksela uzorka za projiciranje, a prijelaz između mogućih kodnih riječi je

tipično skokovit. Diskretne metode se koriste prostornim ili vremenskim multipleksom.

Prostorni multipleks definira SL kod na temelju jedinstvenih karakteristika okoline pojedinog

piksela (princip tzv. prostornog susjedstva). Zahvaljujući tome kodiranje prostornim

multipleksiranje je moguće provesti i sa jednim jedinim uzorkom za projiciranje. Vremenski

multipleks gradi SL kod projiciranjem čitavog niza uzoraka u vremenu, a što doprinosi

robusnosti na šum, međutim za potpuno formiranje koda nužno su svi projicirani uzorci.

Postoje metode koji kombiniraju vremenski i prostorni multipleks sa ciljem smanjenja nužnog

broja projiciranih uzoraka.

Metode prostornog susjedstva

De Brujinovi uzorci

Jedna od najpopularnijih SL metoda temeljena na prostornom multipleksu

(susjedstvu) koristi svojstva De Brujinovog niza. De Brujinov niz reda n te koji koristi

abecedu elementa veličine k je niz pseudoslučajnih vrijednosti d0, d1, … dkn

-1 u kojem se svaki

podniz (prozor) duljine n pojavljuje samo jednom. De Brujinov niz moguće je konstruirati

pomoću Eulerovog ili Hamiltonovog puta (kruga) kroz n-dimenzionalni De Brujinov graf

[12]. Ideja kod dizajna uzorka za projiciranje je poistovjetiti pojedinu vrijednost De

Brujinovog niza sa određenom bojom regije piksela unutar uzorka. Dotična regija je

uobičajeno pravokutnog oblika, tj. oblika pruge. Međutim dosljedno pridjeljivanje

elementima De Brujinovog niza vrijednosti pojedinih boja redovito daje uzorak pruga gdje se

neke pruge iste boje nalaze jedna do druge, a što ih čini neuporabljivima kod detekcije ruba

(sredine) između pojedinih regija (slika 2 a)). Taj problem moguće je riješiti primjenom XOR

operacije na par boja susjednih pruga (slika 2 b), [13]). U tome slučaju dolazi do povećanja

uporabljenih boja, pa se u ovome slučaju svojstvo neponovljivosti poduzorka veličine n

unutra čitavog niza odnosi na prijelaze boja (rubove) između pojedinih pruga, a ne više na

same boje regija. Također alternativno rješenje je i na originalnom De Brujinovom uzorku

umetnuti između svih pruga neku prugu još neuporabljenih komponenta boja, npr. crno [14].

U svakom slučaju jedinstvenost poduzorka n susjednih pruga definira jedinstveni položaj/kod

na uzorku za projiciranje (uobičajeno uzduž jedne osi slike). Analizom n susjednih pruga na

slici kamere određuje se korespondentni kod na snimljenoj slici i uspostavlja se

korespondencija između piksela kamere i projektora. U konačnici rekonstruiraju se prostorni

položaji onih piksela kamere koji odgovaraju ili središnjim dijelovima pruga uzorka (npr.

rješenje koje se koristi kada su prisutne crne pruge na uzorku zbog nesvršenosti senzora

kamere) ili rubove između pojedinih pruga. Predloženo je i rješenje koje nalazi i rubove

između pruga i središnje dijelove pojedinih regija, čime se pridonosi povećanju rezolucije

[15].

a)

slika 2 a) Uzorak temeljen na De Brujinovom nizu sa parametrima k=5 boja i veličine prozora n=3 te gdje se pojedine regije site boje nalaze jedna pored druge b) Uzorak dobiven

primjenom XOR operacije na susjedne regije uzorka prikazanog na a)

Spomenimo da je moguće kreirati uzorak u boji koji će biti kodiran ne samo jednom

smjeru koordinate osi već u oba. Primjerice, [16] kodira, koristeći De Brujinov niza trećeg

reda, linije u tri različite boje u horizontalnom smjeru (crvena, plava i zelena) te linije u tri

različite boje u vertikalnom smjeru boji (ružičasta, cijan i žuta). Detektirana na slici kamere

sjecišta vertikalnih i horizontalnih linija predstavljaju točke čiji se prostorni položaj nalazi.

Vrijedno je istaknuti kako De Brujinov niz predstavlja samo prepoznati praktičan matematički

okvir za dizajn uzorka u boji željenih karakteristika, tj. mnoge primjene De Brujnovog niza

nalaze se i izvan područja strukturiranog svjetla.

Neformalno kodiranje

Prije nego što se De Brujinov niz počeo koristiti i u području strukturiranog svjetla,

pojedini pionirski uradci su dizajnirali željene uzorke boja i bez eksplicitne uporabe 'aparata'

De Brujinovg niza [17]. U tome smislu moguće je kod dizajniranja postaviti i neke dodatne

uvjete, koje De Brujinov niz ne ispunjava nužno, kao što je minimalna 'udaljenost' boja

susjednih pruga. Ukoliko boju iz perspektive senzora (kamere) opisujemo pomoću tri

komponente/kanala RGB (crvena, plava i zelena) tada udaljenost boja susjednih pruga

možemo definirati kao sumu razlika boja po pojedinim kanalima. U [18] je predložen uzorak

gdje se boja susjednih pruga razlikuje u najmanje dva kanala/komponenti boja. Pored same

boje predložena su druga rješenja gdje se kod definira duljine dotičnog segmenta i njegovih

susjeda. Npr. u [19] se projicira pseudoslučajan uzorak sa crnim prugama na bijeloj pozadini

gdje duljina dotične pruge kao i njezinih najbližih šest susjeda definira kod. Očigledan

nedostatak ove metode je što duljina segmenta bitno ovisi o udaljenosti projektor-kamera,

objekt kamera. Pojedine metode koriste i uvjete epipolarne geometrije prilikom definiranja

koda uzorka. Slijedeći takvu ideju u [20] se projicira uzorka sa vertikalnim crno-bijelim

prugama (tzv. osnovni uzorak), te zelenim prugama (tzv. kodirajući pravci) za koje se

pretpostavlja da su pod različitim kutom u odnosu na epipolarne pravce. Time se postiže da

presjecište pruge osnovnog uzorka, kodirajućeg pravca te epipolarnog pravca određuje (kod)

jedinstvenu točku unutar uzorka (slika 2). Manji nagib kodirajućih pravaca dati će veći broj

presijecišta sa prugama osnovnog uzorak te time gušću 3D rekonstrukciju. Međutim

istovremeno premali nagib kodirajućih pravaca uzrokuje veću neodređenost kod određivanja

presjecišta i dovodi u pitanje pretpostavku da epipolarni pravaca sječe samo jedan kodirajući

pravac.

slika 3. Korespondentne točke na kodirajućim (zelenim) pravcima pomoću epipolarnih

pravaca. Slika prilagođena iz [20].

Ideja o korištenju uvjeta epipolarne geometrije je također prezentirana kod definiranja uzorka

nalik šahovskoj ploči, ali gdje pojedina polja poprimaju jednu od tri vrijednosti sive skale

([21]). Neposredna točka rekonstrukcije, tj. njezin kod se definira kao sjecište četvero polja, a

one točke koje imaju isti kod se razlikuju upravo zahvaljujući epipolarnoj geometriji između

kamere i projektora.

M polja

Svojevrsnu ekstenziju korištenja 1D De Brujinovog niza u 2D domeni predstavlja

definicija matrice M dimenzija r×v, sačinjena od k elemenata abecede {0, 1, 2, k-1} i uz uvjet

da se svaka podmatrica (prozor) n×m dimenzija pojavljuje samo jednom (engl. perfect map).

Primjer binarne M matrice veličine 4×6 te prozorom 2×2 dan je sa (1):

[

] (1)

Jednostavan neformalni način generiranja matrice M proizvoljne veličine prozora n×m i

abecede k elemenata opisan u [22] glasi: prvo se slučajnim odabirom generiraju elementi

podmatrice n×m i smještaju u lijevi gornji kut matrice M. Zatim se slučajno odabiru elementi

stupčastog vektora od n elementa koji se slijedno dodaju udesno od početno odabrane

podmatrice n×m, sve do ispunjenja stupaca matrice M. Umetnuti stupci se prihvaćaju samo

Kamera Epipolarni pravci Projektor

uz uvjet da nije narušeno svojstvo (prozora) neponovljivosti bilo koje podmatrice n×m unutar

M. Nakon toga se slučajno odabiru elementi vektora retka veličine m elemenata koji se umeću

ispod početno odabrane podmatrice n×m, sve do ispunjenja redaka matrice M. Slično kao i

ranije prihvaćaju se samo oni vektori retka koji ne narušavaju svojstvo (prozora)

neponovljivosti bilo koje podmatrice n×m unutar M. Na kraju se ispunjava ostatak stupac i

redaka matrice M na analogan način. Treba istaknuti da ovakav postupak neće dati rješenje za

svaku proizvoljno odabranu veličinu matrice M i podprozora n×m međutim pokazuje se

unatoč tome relativno efikasna u praksi. Za jednom generiranu matricu M ispunjeni

apstraktnim elementima abecede k {0, 1, 2, k-1} potrebno je, slično kao i kod De Brujinovog

niza, elementima matrice M pridijeliti neko obilježje koje se planira projicirati putem SL

uzorka, tj. detektirati na slikama kamere. U [22] je generirana matrica M veličine 20×20, sa

prozorom veličine 3×3, gdje su elementi abecede k {0, 1, 2} pridijeljeno obilježje su kružići

plave, zelen i crvene boje (Slika 4).

Slika 4. Uzorak u boji generiran temeljem M polja i korišten u [22].

Interesantno je spomenuti kako je 3D SL sustav predložen u [22] korišten za navođenja robota

u prostoru te gdje autori tvrde kako je to prvi puta da se 3D SL sustav koristi za tu svrhu.

Slika 5. Crno bijeli uzorak generiran temeljem M polja i korišten u [23].

Pored korištenja boje, elementima matrice M moguće je pridijeliti i neke geometrijske oblike

temeljem kojih će se izgraditi uzorak za projiciranje te kasnije dotični geometrijski elementi

detektirati na slikama. takav crno bijeli uzorak sastavljen od geometrijskih elemenata kruga,

kružnice i linije predložen je u [23] (Slika 5). Bilo da se radi o uzrocima u boji ili crno bijelim

uzorcima raznih geometrijski oblika, karakterističan nedostatak kodiranja prostornim

susjedstvom je mogućnost da se dio koda (tj. nekog elementa) na slici kamere (djelomično ili

potpuno ne vidi. Tipičan uzrok tome su nagle promjene dubine scene koja se snima te

prostorni položaj projektora i kamere uslijed čega gotovo uvijek postoje dijelovi prostora koje

projektor osvjetljuje ('vidi'), ali kamera ne može snimiti ('vidjeti'). Jednako loša situacija je

kada dođe do perturbacije koda, odnosno situacije da se detektira kod koji odgovara samo

naizgled određenom dijelu projiciranog uzoraka. Uobičajeni uzrok tome je što se uslijed

okluzija različitih dijelova prostora na slici kamere projiciraju dijelovi uzorka koji nisu

susjedni te se na taj način dobiva kod projekcijom različitih dijelova uzorka. Rezultantni kod

može biti ili dio neiskorištenih riječi/koda (što je uvjetno rečeno manji problem) ili neki od

validnih dijelova koda/riječi. Zbog toga se u fazi dekodiranja često ne traži korespondencija

slikovnih točaka kamera-projektor za svaki par posebno, već se pribjegava globalnoj

optimizaciji kojom se istovremeno minimizira određena funkcija pogreške za cijeli niz

potencijalno korespondentnih parova. Uobičajeno se globalna optimizacija provodi pomoću

metode dinamičkog programiranja [13].

Metode vremenskog multipleksa

Vremenski binarni kodovi

Jedna od prvih metoda općenito strukturiranog svjetla je definirana upravo sa

vremenski binarnim kodovima [24]. U tome slučaju projicira se niz uzoraka sa crno-bijelim

(binarnih) prugama. Svaki slijedeći uzorak ima sve veći broj crno bijelih pruga čime se

efektivno postiže sve finija segmentacija uzorka (tj. površine objekta na koji se uzorci

projiciraju). Na slici kamere se za svaki projicirani uzorak i piksel procjenjuje da li je na njega

projicirana crna ili bijela pruga te se slijedno tome formiraju kodne riječi duljine 2m

gdje je m

broj projiciranih uzoraka. Slika 6 a) prikazuje binarno kodiranje sa četiri crno-bijela uzorka.

Odlika binarnog kodiranja je relativno velika robusnost nalaženje piksela koji su za dani

uzorak osvijetljeni ili ne, čak i u slučajevima površina u boji. Toj robusnosti pridonosi i

činjenica da se često još projiciraju/snimaju dodatna dva uzorka/slike: uz ugašeni izvor svjetla

te uz projicirani bijeli uzorak svjetla. Sa ta dva dodatna uzorka za svaki piksel je moguće

posebno definirat prag iznad kojeg će se smatrati da je piksel zahvaćen bijelom prugom, tj.

očitana vrijednost piskela ispod dotičnog praga će predstavljati da je piksel dohvaćen sa

crnom prugom. Međutim problematični su pikseli koji se kod konkretnog uzorka nađu blizu

granice crno-bijele pruge. Netočna procjena takvih piksela pripadnosti crnoj ili bijeloj regiji,

znači da će konačna kodna riječ imati barem za jedan bit drugačiji oblik od one ispravne.

Slika 6 a) jasno ukazuje da pojedine susjedne regije slike uzorka se ne razlikuju nužno samo

za jedan bit u definiranom kodu, odnosno što razlika koda u samo jednom bitu može značiti

bitno različiti dio uzorka te u konačnici krivo korespondiranje piksela kamere i uzorka. Zbog

toga se u praksi primjenjuje Gray-ev kod [25], kod koji je inače poznat da se koristi i u drugim

područjima primjene (telekomunikacijama).

a) Binarno kodiranje b) Gray kod

Slika 6. a) Binarno kodiranje duljine 4 bita. Pojedine susjedne riječi/kodovi se razlikuju za

više od jednog bita b) Grayev kod duljine četiri bita. Susjedne riječi/kodovi se razlikuju za

samo jedan bitan.

0

0

0

0

0

0

0

1

0

0

1

0

0

0

1

1

0

1

0

0

0

1

0

1

0

1

1

0

0

1

1

1

1

0

0

0

1

0

0

1

1

0

1

0

1

0

1

1

1

1

0

0

1

1

0

1

1

1

1

0

1

1

1

1

0

0

0

0

0

0

0

1

0

0

1

1

0

0

1

0

0

1

1

0

0

1

1

1

0

1

0

1

0

1

0

0

1

1

0

0

1

1

0

1

1

1

1

1

1

1

1

0

1

0

1

0

1

0

1

1

1

0

0

1

1

0

0

0

Karakteristika Gray-ovog koda je da se kod susjednih riječi/regija uzorka razlikuju samo u

jednom bitu (Slika 6 b)). Zahvaljujući tome, potencijalno problematični rubni pikseli oko

crno-bijelih regija će poprimiti u najgorem slučaju kod prve susjedne regije u odnosu na

ispravnu te će samim time veličina pogreške biti znatno manja

Vremenski n-dimenzionalni kodovi

B

G

R

Slika 7 Primjer kodiranja uzorka u boji gdje se svaki od R, G i B kanala kodira prema Gray-

jevom kodu čime se broj potrebnih uzoraka (donji redak) smanjuje za trećinu.

Uporaba male baze (B=2) kod binarnog kodiranja omogućava relativno jednostavnu

segmentaciju i detekciju crno-bijelih pruga. Nedostatak svih kodova sa malom bazom je taj

što se za generiranje dovoljno duge kodne riječi (rezolucije) nužno projicirati relativno veliki

broj uzoraka. Alternativa je projicirati također uzorke sa prugama, ali gdje će te pruge

poprimati ne samo jedan od dva ekstremna iznosa intenziteta već neki od n mogućih

intenziteta (Slika 7). U [26] je opisana slična ideja korištenja niza uzoraka na kojem se nalazi

različiti broj pruga koje poprimaju neki n boja (intenziteta). Odabir/broj boja autori optimiraju

preko udaljenosti boja Di koju su definirali kao umnožak standardne devijacije šuma σi u

pojedinim R, G i B kanalima boja te slobodno podesivog faktora α, nazvanog tolerancija na

šum.

{ }

(2)

Nadalje, projiciranjem dvije referentne slike, prva uz ugašeni projektor ([r, g, b]T=[0, 0, 0]

T)

te druga uz projicirani potpuno bijeli uzorak ([r, g, b]T =[255, 255, 255]

T) za neki piksel su

očitane korespondentne vrijednosti [R0, G0, B0] T

i [Rw, Gw, Bw]T. Te su dvije veličine omeđile

R, G, B prostor boja unutar koje su tražene moguće boje uzimajući u obzir i definiranu

udaljenost boja:

(3)

Iz (3) slijedi da je ukupni broj raspoloživih boja L:

(4)

U praksi odabir boja se određuje prema najmanjim vrijednostima Rw ‒ R0, Gw ‒ G0, Bw ‒ B0

dobivenim za neki piksel. Gotovo sve metode SL koje koriste uzorke u boji uzimaju u obzir

da boja definirana na nivou instrukcije koda, npr. kao trojka [r, g, b] T

, će se razlikovat od boje

detektirane u konačnici na slici kamere [R, G, B] T

. Čitav proces transformacije boja su autori

[26] opisali kroz slijedeći predloženi model preslikavanja izvorno definirane boje u konačno

detektiranu boju :

[ ] [

] [

] [

] [

]

[ ] [

] [

]

(5)

gdje je matrica A opisuje uparenost projektora i kamere, matrica K matrica refleksije (engl.

reflectance matrix), P opisuje (nelinearnu) transformaciju između boje [r, g, b] definirane

instrukcijom u kodu i boje koja neposredno biva projicirana, [R0, G0, B0] T

je nivo

ambijentalnog svjetla. Dijagonalna matrica A upućuje na vrlo dobru uparenost između filtara

projektora i kamere, tj. vrlo malo preslušavanje između pojedinih kanala boja. U [26] se

navodi da se A i P nalaze kolorimetrijskom kalibracijom, ali bez navođenja konkretnih

detalja. [R0, G0, B0] T

se nalazi jednostavnim snimanjem slike scene sa ugašenim projektorom.

Konačno za jednom poznate sve ostale veličine u izrazu (5), matricu K je moguće naći uz

puno osvjetljavanje scene bijelim uzorkom [r, g, b] T

=[255, 255, 255] T

, tj. očitanjem [Rw, Gw,

Bw] T

.

Vremenski hibridni kodovi

Analizom prednosti i nedostataka tipičnih metoda kodiranja prostornog susjedstva i

metoda vremenskog multipleksa predstavljena je ideja koja kombinira karakteristike obiju

pristupa. U [27] su definirani uzorci na kojima je moguće generirati ili kao uzorke temeljene

na kodiranju prostornog susjedstva ili kao uzroke koji stvaraju kod na osnovi vremenskog

multipleksa ili kao uzorke koji kombiniraju svojstva obiju tipa uzorak, a gdje je moguće

odrediti stupanj zastupljenosti svakog od dva ekstremna tipa kodiranja uzorka. Svaki uzorak,

generiran za projiciranje u diskretnom vremenu, t definiran je sa slijedećim izrazima:

( ) ( ) (

)

(6)

( ) (

)

(7)

gdje je int(∙) računska operacija zaokruživanja na prvi manji ili jednaki cijeli broj, G(k, y)

predstavlja neki od n Gray kod poduzoraka, gledano u y (vertikalnom) smjeru čitavog uzorka.

k [0, n-1] predstavlja dotičan Gray kod poduzorak, m je širina poduzorka u x smjeru, a

veličina čitavog uzorka je određena sa Ix×Iy brojem piksela. Korištenjem izraza (6) i (7) autori

su dobili uzorke koji su u horizontalnom smjeru kodirani/podijeljeni sukladno Grayevom

kodu. Takav poduzorak moguće je periodično ponoviti željeni broj puta na cjelokupnom

uzorku (Slika 8 daje primjer za dva ponavljanja istog Grayevog poduzorka). Posmakom

uzorka za projiciranje n puta u vremenu, sukladno broju bita Gray-eveg koda (Slika 8 daje

primjer za 8 posmaknutih i projiciranih uzoraka), provodi se kodiranje vremenskim

multipleksom namijenjeno za statične objekte. S druge strane, procesiranjem slike svakog

pojedinog uzorka, koristeći prostorno susjedstvo, definira se kod za dinamičke objekte.

Između ta dva krajnja slučaja, autori [27] predlažu metodu analize scene temeljem koje je

moguće dati više značenja vremenskom (načelno veća točnost rekonstrukcije) ili prostornom

(ušteda na borju uzoraka) kodiranju.

t=0 t=1

t=2 t=3

t=4 t=5

t=6 t=7

Slika 8. Niz uzoraka projiciran u [27] u t=[0, 1, … 7] vremenskim trenutcima i za odabir

kodne riječi duljine 8 bitova.

Metode posmaka korištenjem diskretnih uzoraka

Iako se kontinuirane metode kodiranja uobičajeno smatraju posebna grupa SL,

postoje i uradci gdje su diskretni uzorci korišteni za generiranje u konačnici kontinuiranih

kodova, tj. čime se želi postići učinak kao da je eksplicite korištena neka od kontinuiranih

metoda kodiranja. Tipičan primjer za to je projiciranje Gray-evog koda, koji sam za sebe

predstavlja diskretnu metodu kodiranja (Slika 6 b)). Međutim ukoliko se posljednje projicirani

uzorak, sa najviše crno-bijelih pruga, posmakne i projicira određeni broj puta dobiva se

daleko točniji kod, ali koji se nažalost periodično ponavlja. Zadaća Gray-evog koda

određivanje apsolutnog položaja unutar uzorka za dotičan periodičan kod [28]. Slično tome u

radu [13] koji makar je načelno namijenjen kao predstavljanje metode SL pomoću jedno

jedinog projiciranog uzorka u boji, analizirana je i mogućnost projiciranja nekoliko

posmaknutih uzoraka u nizu. Prikazani rezultata upućuju da se na taj način postiže 3D

rekonstrukcija sa više detalja.

Kontinuirane metode kodiranja

Ove metode koriste uzorke gdje se neposredni nositelj koda, npr. intenzitet sive skale

ili boja, kontinuirano mijenja. Vrlo često takvi uzorci se po dijelovima periodični, a što

zahtjeva dodatni napor kod dekodiranja u cilju izračuna apsolutnog koda u odnosu na cijeli

uzorak. Kontinuirane metode kodiranja mogu slično, kao i diskretne metode, koristiti prilikom

generiranja koda vremenski multipleks, tj. projicirati više uzoraka. Alternativa vremenskom

multipleksu su ona rješenja koja rabe frekvencijski multipleks. Također postoje i rješenja koja

koriste samo jedan uzorak te su potencijalno uporabljiva i za rekonstrukciju dinamičkih

objekta, međutim vrlo često su i osjetljivija na izvore šuma.

Metode faznog pomaka

Uobičajeni uzorak koji se koristi je sinusoidalnog profila gdje uzorak ima po jednoj

koordinatnoj osi isti intenzitet (kod) za sve piksele, a po drugoj osi se intenzitet (kod) mijenja

prema zakonu sinusu. Metoda faznog pomaka (engl. phase shifting PS) tada podrazumijeva

projekciju cijelog niza uzorka koji se međusobno razlikuju samo za određeni pomak u fazi.

Kvantitativno se takav periodični sinus uzorak definira kao uzorak koji se N puta projicira,

svaki puta sa jednim od N različitih pomaka i, te gdje ti pomaci su jednako raspodijeljeni

kroz čitav period sinusa (Slika 9):

(8)

Za projicirane uzorke, zabilježeni intenziteti Ii nekog piksela na slici kamere se

pojednostavljeno mogu izraziti kao:

( )

(9)

gdje je I0 intenzitet ambijentalnog svijetla, A je amplituda detektiranog intenziteta koja ovisi i

o refleksijskom faktoru (engl. albedo) dotičnog dijela površine od kojeg se reflektirao uzorak,

a R je tzv. relativna faza tj. dio konačnog koda koji tražimo. Uobičajeni izračun relativne

faze R posredstvom svih N uzoraka slijedi iz minimizacije slijedećeg izraza:

∑( ( ( ))

(10)

Vrijednost ε u (10) je moguće minimizirati metodom najmanjih kvadrata. Izjednačavanje

derivacije ∂ε/∂R sa nulom proizlazi:

∑ ( )

∑ ( )

∑ ( ) ( )

(11)

Slika 9. Primjer sinusoidalnih uzoraka za projiciranje metodom faznog pomaka. Kodiranje

uzduž horizontalne vertikalne osi sa 11 perioda te uz fazni pomak između pojedinih uzoraka

od 90° (redoslijed uzoraka: gore lijevo, gore desno, dolje lijevo, dolje desno).

Pojednostavljenje gornjeg izraza (11) moguće je pretpostavku da i poprima vrijednosti

prema (8), da je N≥3 te uz poznavanje jednakosti izraženih (12):

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( )

∑ ( )

∑ ( )

∑ ( ) ( )

∑ ( )

∑ ( )

(12)

Tada (11) prelazi u:

∑ ( )

( ) ∑ ( )

( ) ∑ ( )

(13)

Konačno proizlazi izraz za proračun relativne faze R:

( ∑ ( )

∑ ( )

)

(14)

gdje tan-1

u ovome kontekstu podrazumijeva arkus tanges funkciju koja za relativnu fazu R

vraća kut u intervalu [- , ]. Očigledna prednost ovakve metode je što se dio koda, relativna

faza R, može naći za svaki piksel te (barem teoretski) bez uzimanja u obzir i utjecaja okolnih

piksela. Slika koja predstavlja iznos relativnih faza za svaki piksel se naziva mapa relativnih

faza. Međutim, nedostatak je što uslijed uporabe periodičnih sinus uzoraka tijekom

projiciranja također i izračunata faza R biva periodična, tj. dobiva vrijednosti u spomenutom

intervalu [- , ] (Slika 10). Zbog toga nije moguće povezati relativnu fazu R sa apsolutnim

položajem u uzorku te relativna faza R predstavlja samo dio koda. Tzv. odmotavanje faze

(engl. phase unwraping) je postupak utvrđivanja apsolutnog/odmotanog iznosa faze čime se

utvrđuje jedinstveni kod za dotični piksel. Pojedini postupci pretpostavljaju površine objekta

čija prostorna promjena dubine je relativno blago tako da kod dva susjedna piksela ne

uzrokuje skok faze veći od jedne periode. U tom slučaju moguće je odmotati fazu samo sa

jednom mapom relativnih faza. Nažalost, veliki broj primjena u praksi određuje položaje

prostornih točaka gdje gornji uvjet nije zadovoljen.

a) b)

Slika 10. a) Primjer izračunate mape relativnih faza projiciranjem na ravnu površinu

sinusoidalnim uzorcima sa 15 perioda b) periodična promjena relativne faze R uzduž jednog

retka slike.

pikseli retka

rela

tivn

a f

aza

Slika 11. Uporaba Gray-jevog koda (gornji redak) i mape relativnih faza (srednji redak) za

izračun apsolutne (odmotane) faze (donji redak).

U tome slučaju, standardni način odmotavanja faze je projiciranjem dodatnih uzoraka slike,

npr. kodiranih Gray-evim kodom ([28]). Gray-jev kod efektivno segmentira sliku u regije gdje

unutar svake regije pikseli imaju isti kod ali istovremeno i jedinstveni u odnosu na ostale

regije na slici. Ukoliko se segmentacija Gray-jevim kodom podesi tako da se poklapa sa

periodama mape relativnih faza dobiva se izuzetno učinkovit postupak odmotavanja faze, čak

i za slučajeve naglih promjena prostorne dubine. Slika 11 u gornjem retku prikazuje

segmentiranu sliku nakon obrade projiciranih uzoraka 4 bitnog Gray-jevog koda (Slika 6 b)).

Zbog bolje vizualizacije različite regije slike Gray-jevog koda su prikazane u različitim

tonovima sive skale, tj. na grafu su dodijeljene diskretne vrijednosti pikselima retka u

ovisnosti kojoj Gray kod regiji slike pripadaju. Slično tome, u srednjem retku (Slika 11) je

dan prikaz izgleda relativne faze, tj. njene promjene za jedan redak, dobiven obradbom

projiciranih sinusoidalnih uzoraka metodom pomaka. Usporedbom tih dvaju redaka uočava se

kako periodičan kod relativne faze nekog piksela (koji je inače daleko precizniji u odnosu na

Gray-jev kod za dotičan piksel) moguće nadograditi sa Gray-jevim kodom čime se postiže

Gra

y k

od

re

lati

vn

a f

aza

ap

solu

tna

faza

pikseli retka

pikseli retka

pikseli retka

apsolutno određivanje koda unutar projiciranog uzorka. Slika 11, donji redak, prikazuje tzv.

mapu apsolutnih faza gdje svaki piksel nekog retka se preko koda jedinstveno povezuje sa

odgovarajućom 'triangulacijskom ravninom' (slika 1), čime se zadovoljava pretpostavka za

jedinstveno određivanje prostornog položaja točke. Postupak odmotavanja relativne faze

moguće je provesti i bez korištenja Gray-jevog koda ([29], [30]), npr. korištenjem više od

jedne mape relativnih faza dobivenih projiciranjem sinusoidalnih uzorka različitih perioda.

Takovi metode se nazivaju metode višestrukog faznog pomaka (engl. multiple phase shifting

MPS), a o pojedinim MPS izvedbama će biti više riječi u daljem tekstu.

Velika prednost MPS i PS+GC metoda je mogućnost 3D rekonstrukcije visoke točnosti i

rezolucije, velikim dijelom zahvaljujući redundanciji povećeg broja projiciranih uzoraka.

Relativno velik broj potrebnih uzoraka gotovo pa sigurno onemogućava primjenu za objekte u

gibanju. Barem ne bez uporabe brzih kamera i projektora, a što značajno povećava trošak

sustava, ali i tada je poželjno da broj uzorka za projiciranje bude što manji (teoretski

minimum za sinusoidalne uzorke je N=3). Sa ciljem korištenja minimalnog broja

sinusoidalnih uzoraka jedna od predloženih metoda projicira jedan jedini kompozitni uzorak u

boji gdje se u svakome od R, G i B kanala nalazi jedan od minimalno tri sinusoidalna uzorka,

međusobno pomaknutih u fazi za 90° [31] (Slika 12). Time de facto izračun relativne faze

poprima oblik:

(

)

(15)

gdje su Ir, Ig i Ib očitani intenziteti na slici kamere u pojedinim R, G i B kanalima. Kompromis

u ovome slučaju su već spomenuti problemi korištenja uzorka u boji, posebice kod skeniranja

također površina u boji te činjenica da u praksi (zbog djelovanja raznih izvora šuma) samo tri

fazno pomaknuta uzorka neće dati točan izračun faze kao kod četiri, pet ili više fazno

pomaknutih uzoraka (broj uzoraka veći od šest ili sedam obično više ne utječe znatno na

točnost izračun relativne faze preko izraza (14)):

Slika 12. Uzorak u boji gdje se odvojenim promatranjem intenziteta u R, G i B kanalima

koristi metoda faznog pomaka za izračun relativne faze.

Smanjenje broja neposredno projiciranih uzoraka, osim multipleksiranjem u prostoru boja,

moguće je provesti i frekvencijskim multipleksiranjem. Takav primjer možda i najbolje slijedi

izrečenu analogiju u uvodu, između strategije primjene strukturiranog svjetla i teorije

informacije: Ideja je uzeti sinusni uzorak (kanal) koji se mijenja u horizontalnom

(vertikalnom) smjeru te koji predstavlja signal nosioc i biva moduliran sa drugim sinusnim

uzorkom koji se mijenja vertikalnom (horizontalnom) smjeru. Zbrajanjem nekoliko takvih

amplitudno moduliranih uzoraka dobiva se kompozitni uzorak koji se jedini neposredno

projicira (Slika 13). Frekvencije nosioci su uobičajeno ravnomjerno raspoređene uz dovoljno

veliki odmak od osnovnog pojasa [32]. Na snimljenoj slici se prvo svaki od dotičnih kanala

zasebno izdvaja filtriranjem. U praksi se pokazuje da odabir frekvencija nosioca,

odgovarajućeg (reda) filtra nije trivijalan zadatak, a u cilju smanjenja preslušavanja između

pojedinih kanala. Nakon filtriranja, slijedi demodulacija signala kojom se dolazi do samih PS

uzoraka te koje je moguće uporabiti za izračun relativne faze (14). Dodatne praktične

poteškoće stvara i promjene frekvencija signala nosioca uslijed promjene dubine [32].

×

+=

×

×

×

Slika 13. Kompozitni uzorak dobiven modulacijom četiri signala nosioca sa PS uzrocima te

njihovom sumom [32].

Metode višestrukog faznog pomaka

Primjer odmotavanja relativne faze korištenjem Gray-veog koda predstavljana je u ranijem

tekstu (Slika 11). Alternativa je koristiti više od jedne mape relativnih faza, gdje je svaka

pojedina mapa relativnih faza rezultat projiciranja sinusoidalnih uzoraka različitih perioda.

Takovi metode se nazivaju metode višestrukog faznog pomaka (engl. multiple phase shifting

MPS). Jedno od najjednostavnijih rješenja je za jednu mapu relativnih faza koristiti

sinusoidlani uzorak sa jediničnom periodom, tj. kada jedna perioda prekriva cijeli uzorak. U

tome slučaju ne postoji problem nejednoznačnosti uslijed više perioda, pa načelno niti ne

treba druga mapa relativnih faza već je dovoljna samo jedna. Takav primjer, iako u kontekstu

frekvencijskog multipleksiranja, prikazuje Slika 13. Međutim, točnost dekodiranja je veća

ukoliko se koriste relativne faze dobivene projekcijom slika sinusnog profila sa periodom

znatno većom od jedinične. U [33] je predstavljena MPS metoda koja koristi samo dvije mape

relativnih faza, a temelji na efikasnom ispunjavanju slijedećeg izraza za iznos apsolutne faze

ФABS:

2,221,11 RRABS kkΦ

(16)

gdje λ1 and λ2 predstavljaju duljine perioda dva sinusna uzorka signala, k1 i k2 su potrebni

(nepoznati) brojevi punih perioda koje na koje treba sumirati neposredno detektirane iznose

para relativnih faza R,1, tj. R,2 da bi se dosegao traženi položaj unutar projiciranog uzorak

ФABS . Slika 14 daje uvid u odnose nekog detektiranog para relativnih faza (R,1, R,2) i

traženog iznosa apsolutne faze ФABS. Naime, moguće je pokazati da do iznosa umnoška λ1·λ2

na osi apsolutne faze ФABS, detektirani par relativnih faza (R,1, R,2) će biti jedinstven.

Nadalje metoda [33] se koristi prepoznatom činjenicom da su mogući parovi vrijednosti k1 i

k2 jedinstveni na osi apsolutne faze ФABS.

φR,2

Inte

nzi

tet

3 λ2 2 λ2 ΦABS

ΦABS

1 λ2

2 λ

1 1 λ1

Inte

nzi

tet

3 λ

1

4 λ

1

5 λ

1

I II III IV V VI VII

k1,k2 0, 0 1, 0 1, 1 2, 1 3, 1 3, 2 4, 2

I II IV VI VII V

φR,1

Slika 14. Promjena vrijednosti relativne faze uzduž osi apsolutne faze ФABS za dva različita

sinusna signala. Za dotičan iznos apsolutne faze slika istaknut je odgovarajući par relativnih

faza (R,1, R,2). Vertikalne isprekidane linije pokazuju intervale ФABS karakterizirane sa

jedinstvenim kombinacijama brojeva perioda (k1, k2).

To otvara mogućnost da se za svaki mogući par vrijednosti (k1, k2) i detektirani iznos

relativnih faza (R,1, R,2) izračunaju odgovarajuće ФABS,1 i ФABS,2. U idealnom slučaju za

apsolutno točno izračunate relativne faze (R,1, R,2) i jedan od parova (k1, k2) razlika |ФABS,1 −

ФABS,2| iznosit će nula. Za ostale parove (k1, k2) razlika |ФABS,1 − ФABS,2| biti će različita od

nule. U praksi, uvažavajući prisutnost šuma kod izračuna relativnih faza (R,1, R,2), traži se

onaj par (k1, k2) koji daje minimalni iznos |ФABS,1 − ФABS,2|, odnosno taj par (k1, k2) definira

traženu apsolutnu fazu.

MPS metoda u [33] je jedna od rijetkih SL metoda koja zadovoljava cijeli niz uvjeta na putu

definiranja optimalne metode za rekonstrukciju statičkih uvjeta:

1. Čitav SL kod treba biti definirana vrijednostima samo jednog piksela, tj. za svaki

piksel treba biti moguće definirati SL kod što omogućava 3D rekonstrukciju velike

rezolucije. Očigledno metoda za neki piksel gradi kod analizom

projiciranih/detektiranih vrijednosti samo za dotičan piksel.

2. Razlika (udaljenost) koda dviju susjednih piksela treba biti što velika čime se

osigurava veća osjetljivost na prostornu rezoluciju dubine točaka. Predložena metoda

koristi sinusne uzorke velikog broja perioda što omogućava veću razliku između koda

susjednih piksela.

3. Robusnost na refleksijske karakteristike površine objekta, tj. boju objekta je poželjna,

budući da svaki zahtjev za kolorimetrijskom kalibracijom sustava i/ili ograničenjem na

rekonstrukciju samo objekata neutralne boje, bitno umanje primjenjivost 3D SL

sustava u praksi. Opisana metoda, temeljna na principu faznog pomaka je (idealno

govoreći) apsolutno robusna na refleksije karakteristike površine objekta, budući da se

iznos amplitude detektiranog intenziteta A (9), koji ovisi i o refleksijskom faktoru

(engl. albedo), u konačnici ne pojavljuje u izrazu za izračun relativne faze (14). Dakle

predstavljena metoda ne zahtjeva nikakvu posebnu prilagodbu ili kolorimetrijsko

umjeravanje sustava.

4. Robusnost na nagle promjene u prostornoj dubini točaka objekta koja neće izazvati

pertubaciju detektiranog koda, kao što je karakteristično npr. za metode prostornog

susjedstva. (M)PS metode su izuzetno robusne u tom smislu, budući da se ne oslanjaju

na okolinu piksela prilikom izračuna koda.

5. Što jednostavnija obradba slika osigurava jednostavnu SW implementaciju i vrlo brzi

izračun konačnog rezultata. Metode koje zahtijevaju procesiranje slika nalaženjem

rubova na slikama, detekcijom različitih oblika, segmentacijom boja i sl. unose

dodatnu složenost koja značajno otežava gornji zahtjev. Nasuprot tome, predložena

metoda uključuje samo sumiranje, umnožak tj. indeksiranje preglednih tablica čime su

stvorene pretpostavke za implementaciju u stranom vremenu.

6. 3D sustav treba biti sačinjen od široko dostupnih HW komponenti. Bilo kakva uporaba

specijalnog HW poskupljuje sustav i otežava njegovu realizaciju. Predložena metoda

koristi široko dostupne kamere i komercijalne video projektore.

Odmotavanje apsolutne faze moguće je provesti na temelju teorije brojeva (engl. a number

theoretic approach), korištenjem odnosa kongruencije između dva broja [34]. Dva cijela broja

ФABS and R su kongruentna ako svaki od njih dijeljen sa nekim brojem λ daje isti ostatak, a

takav se odnos obično zapisuje:

(17)

gdje u kontekstu dotične problematike odmotavanja faze ФABS se može smatrati nepoznatom

apsolutnom fazom, R relativnom fazom, λ iznosom valne duljine jedne periode projiciranog

sinusoidalnog uzorka. Dakle, uz uporabu k mapa relativnih faza potrebno je riješiti simultano

slijedeći sustav:

(18)

Rješenje gornje sustava dano je pomoću tzv. kineskog teorema ostatka [35] u obliku:

(19)

gdje se koeficijenti ei zadovoljavaju slijedeće izraze:

jie

e

ji

ii

)(mod0

)(mod1

(20)

Proizlazi da koeficijenti ei su brojevi koji dijeljeni sa korespondentnim λi daju ostatak 1.

Koeficijente ei je moguće izračunati korištenjem tzv. proširenog Euklidskog algoritma (engl.

extended Euclidean algorithm) [36]. Slika 15 prikazuje primjer za dva sinusoidalna signala te

vrijednosti λ1 = 5, λ2 = 3, R1=2 i R2=1.

)(modRABS

kRkABS

RABS

RABS

mod

:

mod

)(mod

22

11

)...mod( 21

1

k

k

i

iRiABS eΦ

Slika 15. Primjer uporabe dva sinusoidalna signala u sklopu metode koja koristi kongruentne

odnose brojeva.

Slika 15 također postavlja slijedeći uvjet koja mora biti zadovoljen:

(21)

gdje su k1 i k2 nepoznati brojevi punih perioda potrebni da bi se dosegao nepoznati iznos

apsolutne faze ФABS. Također primjećuje se da brojevi ФABS i R1 dijeljeni sa by λ1 daju isti

ostatak, R1. Slična činjenica vrijedi i za brojeve ФABS and R2 dijeljene sa λ2. Zaključujemo

da je moguće postaviti kongruentni sustav prema (18) i naći nepoznati iznos apsolutne faze

ФABS (19). Do sada se podrazumijevalo da su iznosi R1 i R2 cijeli brojevi što naravno u

praksi nije točno. Obično se realni iznosi R1 i R2 prvotno zaokružuju na cjelobrojne iznose,

izračuna se približna vrijednost apsolutne faze ФABS na koju se zatim dodaje srednja

vrijednost sume decimalnih dijelova R1 i R2. Međutim, praktičan problem je upravo

zaokruživanje iznosa relativnih faza na neku vrijednost. Pretpostavimo da se uvijek

zaokružuje na prvi manji cijeli broj te neka je točan iznos relativne faze malo iznad nekog

cijelog broja, ali uslijed djelovanja šuma izračunat je iznos koji je malo ispod cijelog broja.

Očigledno, zaokruživanje u tome slučaju na prvi manji cijeli broj dati će krivi ulaz za izračuna

sustava (18) i posljedično tome krivi iznos za apsolutnu fazu ФABS (19). Slična problematična

situacija može se dogoditi i u ostalim slučajevima. Primjerice, ukoliko se zaokružuje iznos

relativne faze na prvi veći broj i točan iznos relativne faze bude malo ispod cijelog broja, a

detektirani iznos zbog djelovanja šuma ispadne iznad cijelog broja. Efikasno rješenje dotičnog

problema predstavljeno je u [37], a temeljeno je na procijeni intervala djelovanja šuma u

sustavu. Slika 16 prikazuje rezultat 3D rekonstrukcije lica korištenjem unaprijeđene metode

[37] i osnove ideje prezentirane u [34].

222111 RRABS kkΦ

R1 ФABS

ФABS R2

a) b)

Slika 16. 3D rekonstrukcija lica temeljem metode SL koja se oslanja na princip kongruentnog

odnosa brojeva. a) Slika kamere tijekom projiciranja jednog od sinusoidalnih uzoraka b)

rekonstruirana 3D mreža korištenjem unaprijeđene metode [37] i osnovne metode [34].

Metode kodiranja u frekvencijskoj domeni

Najveći broj metoda ove grupe se temelji na projiciranju sinsoidalnog (najčešće samo jednog)

uzorka i Fourierovoj frekvencijskoj analizi snimljenog signala (slike kamere) (engl. Fourier

transform profilometry FTP). Originalna FTP ideja predstavljen je u [38] gdje se

projiciranjem sinusoidalnog signala želi frekvencijskom obradom odrediti modulacija

(promjena) relativne faze snimljenog signala ∆R budući da je ta veličina u direktnoj vezi za

3D oblikom tijela h koji se želi odrediti:

(22)

gdje je L udaljenost do referentne ravnine u odnosu na koju se izražava visina objekta h, ∆R

je relativna faza određene Fouirerovom analizom, f0 je frekvencija signala nosioca, a d je

kalibracijska udaljenost između projektora i kamere.

Umjeravanje sustava

Uvod

Kamera, kao osnovni alat sustava, snimajući neku scenu svakoj točki u prostoru jedinstveno

pridjeljuje njen korespondent u ravnini slike. Međutim, obrnuto gledajući za svaku točku na

slici postoji beskonačan broj kandidata točaka u prostoru koje imaju tu istu poziciju na slici.

Može se pokazati prema funkcijskoj ovisnosti preslikavanja točaka kamerom iz 3D u 2D da se

točke mogući kandidati za neku slikovnu koordinatu sve nalaze na odgovarajućem pravcu

preslikavanja [39]. Funkcija modela kamere, koja analitički opisuje preslikavanje, uvjetovana

je osim samim položajem točke u prostoru i tzv. parametrima modela kamere. Određivanje

parametra modela kamere se provodi tzv. kalibracijom kamere ([40], [41]). Dakle, za svaku

kalibriranu kameru u stanju smo rekonstruirati pravac preslikavanja svih onih točaka iz 3D

koje imaju isti slikovni položaj. U slučaju da za neku točku u prostoru možemo identificirati

njene slikovne koordinate na najmanje dvije kalibrirane kamere tada smo u mogućnosti

rekonstruirati i dotična dva pravca preslikavanja čija sjecišta odgovaraju položaju točke u

prostoru. Zbog toga su u principu nužne barem dvije kamere za 3D informaciju, izuzevši neke

specijalne slučajeve gdje uz pretpostavku određenih uvjeta na snimljenu scenu moguće

napraviti 3D rekonstrukciju i samo sa jednom kamerom [42].

Postupci kalibracija se mogu podijeliti u tri grupe [43], s obzirom na jednostavnost samog

postupka kalibracije od strane korisnika, odnosno složenost neposrednih algoritama koji vrše

proračun parametara kamere. Tradicionalan način kalibracije kamera zahtjeva neposredno

poznavanje položaja određenog broja točaka u prostoru, tzv. kalibracijskih točaka. Redovito

se za tu svrhu izrađuju razne 3D rigidne strukture (kalibracijski kavezi) koji na sebi imaju

jasno istaknuti određeni broj točaka čiji međusobni položaj je izuzetno točno poznat ([44],

[45], [46]). Uz sve prednosti koje ovakav pristup nudi, prije svega izuzetno točne

kalibracijske točke, ozbiljan nedostatak mu je što izrada, držanje i posebice manipulacija

nekog kalibracijskog kaveza je redovito vrlo zahtjevna [47]. Druga grupa kalibracijskih

postupaka je za krajnjeg korisnika puno prihvatljivija jer ne traži eksplicitno bilo kakovu

izradu kalibracijskog kaveza već neke pretpostavke o snimljenoj sceni kao što je postojanje

određenog broja paralelnih/okomitih pravaca, poznatih omjera duljina ([48], [49], [50], [51])

itd. Druga je stvar koliko je ta pretpostavka ostvariva za određene aplikacije 3D

rekonstrukcije. Treća grupa kalibracijskih postupaka, tzv. autokalibracija, još je jednostavnija

na uvjete snimljene scene ([43], [52], [53], [54]). Autokalibracija je postupak određivanja

parametara kamere bez uporabe kalibracijskih naprava, čak i bez korištenja poznatih

karakteristika scene (okomiti, paralelni pravci …). Takav pristup kalibraciji je naročito

pogodan u uvjetima gdje kamera vrlo često mijenja svoj položaj u prostoru i/ili unutrašnje

parametre ([55], [56], [57]). Jedini zahtjev autokalibracijskih metoda na scenu je pronalaženje

dovoljnog broja (ovisno o konkretnoj metodi) korespondentnih točaka da bi se zatim

postavljanjem određenih uvjeta (iznos, međusobni odnosi, konstantnost, ograničenost s

obzirom na geometriju pokreta kamere itd.) na parametre kamere postavile jednadžbe za

rješenje parametara kamere. Čini se gotovo idealan način kalibracije, međutim takovi postupci

su naročito osjetljivi na međusobne položaje (konfiguraciju) kamera u prostoru, tj.

opravdanost spomenutih pretpostavki na parametre kamere ([58], [59]). Nadalje gotovo svi su

izuzetno osjetljivi i na distorziju slike, te uspješnost kalibracije zahtjeva prethodno rješavanje

distorzije što nije uvijek moguće ([60], [61], [62], [63], [64]).

Uloga projektivne geometrije u umjeravanju sustav

Uvriježeni ljudski način poimanja prostora i geometrijskih odnosa unutar istog je tzv.

euklidski. Npr. "normalno" je da geometrijsko tijelo zarotirano i/ili translatirano za neki iznos

ne mijena zbog toga niti svoje dimenzije, niti svoj oblik. Razmišljanje u okviru euklidske

geometrije osigurava stanovitu jednostavnost utemeljenu na precizno određenim svojstvima

euklidske geometrije i preslikavanja. Međutim, takva relativno velika doza determinizma

unosi velike poteškoće kod razjašnjenja pojmova koji su na granici ili izvan okvira euklidske

geometrije, a bitni su u problematici računalnog vida (engl. computer vision). Izlaz iz takve

situacije je definicija jedne općenitije geometrije koja će dozvoliti više slobode u definiranju

geometrijskih transformacija i odnosa između geometrijskih entiteta. Takve zahtjeve

ispunjava tzv. projektivna geometrija (engl. projective geometry) i može se pokazati da je

euklidska geometrija specijalni slučaj projektivne geometrije. Stanoviti nedostatak projektivne

geometrije je taj što unošenje općenitosti kod geometrijskih preslikavanja i geometrijskih

odnosa može otežati intuitivno shvaćanje već definiranih pojmova iz euklidske geometrije.

Npr. u projektivnoj geometriji su točke i pravci, odnosno ravnine ekvivalentni zahvaljujući

principu dualnosti.

Pojam projektivne geometrije i općenito način zapisivanja (matematički formalizam) koji ona

omogućuje su od krucijalnog značenja za razumijevanje same suštine i matematičke osnove

velikog broja algoritama u sklopu računalnog vida. Između ostaloga, projektivna geometrija

zahvaljujući svim karakteristikama na kojima se temelji olakšava zapisivanje mnogih

geometrijskih pojmova i algebarskih izraza, npr. pojam tzv. točke u beskonačnosti se daleko

konciznije može predstaviti i zapisati u okvirima projektivne geometrije, zatim nelinearno

perspektivno preslikavanje (kao i neka druga nelinearna preslikavanja) moguće je konciznije

zapisati linearnim matematičkim izrazom. Poznato je da perspektivna projekcija unosi

određene geometrijske distorzije, zato pojedini geometrijski odnosi više nisu sačuvani, dok

drugi ostaju. Primjerice paralelni pravci preslikani po zakonu centralne projekcije nisu nužno

paralelni, dok točke kolinearne prije preslikavanja ostaju kolinearne i poslije preslikavanja.

Projektivnom geometrijom moguće je matematički modelirati i opisati transformacije vezane

uz perspektivnu projekciju. To je od esencijalnog značaja jer se geometrija preslikavanja

sustavom leća neke kamere izuzetno dobro aproksimira perspektivnim preslikavanjem.

Svaku geometriju karakteriziraju, između ostaloga, dimenzija prostora i svojstvena

preslikavanja – transformacije. Tako nas kod 2D projektivne geometrije interesiraju

projektivne transformacije ravnine, odnosno geometrijski entiteti unutar ravnine. Govoreći o

primjeni kod računalnog vida 2D projektivne transformacije mogu modelirati (perspektivno)

preslikavanje ravnine, zajedno sa svim popratnim geometrijskim distorzijama koje su nastale

preslikavanjem po zakonu perspektivne projekcije, tj. principu nastajanja slike pomoću video

kamere.

Neki od pojmova/geometrijskih entiteta su relativno lako intuitivno predočivi, posebno ako se

radi o dimenziji projektivnog prostora 1 ili 2. Drugi mogu biti toliko apstraktni da ih je gotovo

nemoguće intuitivno predočiti. Opširniji opis za dimenzije prostora 1 i 2 se mogu naći u [65].

U ovome tekstu biti će predstavljeni prvotno pojmovi koji vrijede u bilo kojem projektivnom

prostoru, a to su točka, geometrijske transformacije i podprostori (tzv. slojevi), da bi nakon

toga posebice istaknula, za umjeravanje najvažnija, obilježja projektivnih prostora dimenzije

tri.

Točka u projektivnom n dimenzionalnom prostoru Pn predstavljena je s n+1 dimenzionalnim

koordinatnim vektorom x = [x1, x2,… xn+1] za čije koordinate vrijedi da je barem jedna različita

od nule. Komponente vektora x zovemo homogenim ili projektivnim koordinatama točke, a

za vektor x kažemo da predstavlja homogenu prezentaciju točke. Neka dva vektora x = [x1, x2,

xn+1] i y = [y1, y2, yn+1] predstavljaju istu točku onda i samo onda ako postoji skalar takav da

vrijedi (23):

(23)

Ovdje se već susrećemo s prvim obilježjem svojstvenim za projektivnu geometriju, tj. veza

između koordinatnog vektora i točke koju on predstavlja nije jednoznačna, već ista točka

može biti predstavljena s više vektora čiji međusobni odnos je definiran s (23). Točka čije

n+1 komponente iznose nula naziva se točka u beskonačnosti (engl. point at infinity) ili

idealna točka (engl.ideal point).

Uzmimo neki skup točaka X = [x1, x2,… xn, xn+1]T i koeficijente A = [a1, a2,… an, an+1]

T koji u

projektivnom prostoru Pn zadovoljavaju sljedeću linearnu jednadžbu (24):

(24)

(24) predstavlja tzv. jednadžbu hiper-ravnine (engl. hyperplane) opisane koeficijentima A i

kojoj pripadaju točke X. Pobližom analizom jednadžbe (24) primjećujemo simetričnost

između X i A: za fiksan X, a varijabilni A se (24) može shvatiti kao da točke A prolaze

hiperravninom opisanom koeficijentima X. U tom smislu se prostor hiperravnina A smatra

dualnim prostorom originalnog prostora Pn kojem pripadaju točke X. Štoviše, dual duala dati

će ponovno isti prostor Pn. Zahvaljujući iskazanoj simetriji slijedi vrlo važan princip dualnosti

karakterističan za projektivnu geometriju. Princip dualnosti kaže da za bilo koji teorem postoji

dualan (simetričan) koji se dobija zamjenom uloga točke i hiperravnine u originalnom

teoremu. Primjerice pravac koji prolazi kroz dvije točke (25) dualan je točki (presjecištu) kroz

dva pravca (26) (gdje su pravci opisani vektorima l i l', a točke vektorima x i x').

(25)

11 niyx ii

1

1

0n

i

ii axAXT

'xxl

(26)

Dakle, jednostavna zamjena riječi "pravac" sa "točka" ili obrnuto daje nam dualan teorem.

Konačno za jednom dokazani teorem njemu dualan nije potrebno eksplicitno dokazivati.

Jedna od definicija geometrije glasi: geometrija je znanost proučavanja onih karakteristika

koje su invarijantne (ostaju nepromijenjene) s obzirom na određene grupe transformacija. S

takvog gledišta projektivna geometrija je znanost proučavanja onih karakteristika

projektivnog prostora koje su invarijantne za grupu transformacija nazvanu projektivnim

transformacijama. U literaturi se susreću sinonimi kao što su projektivno preslikavanje,

kolineacija i homografija. Preslikavanje projektivnog prostora dimenzije n je po definiciji

invertibilno preslikavanje h:PNP

N takvo da postoji nesingularna matrica H, dimenzije

(n+1) (n+1), koja svakoj točki x pridružuje njenu sliku (projekciju) h(x) = Hx. Iz takve

definicije proizlazi da je linearna transformacija homogenih koordinata projektivno

preslikavanje i obrnuto.

Podrazumijeva se i da je moguć prijelaz, pod određenim uvjetima, iz euklidske geometrije u

projektivnu, te obrnuto. Štoviše, postoje geometrijski prostori koji su po svojim obilježjima i

složenosti negdje između projektivnog i euklidskog. Konkretno, radi se o afinoj geometriji

(engl. affine geometry) i geometriji sličnosti (engl. similarity geometry), zvanoj još i

metričkom geometrijom (engl. metric geometry). Dakle, prijelaz iz projektivne geometrije u

euklidsku je moguć postupno preko afine i metričke geometrije. Kaže se da su geometrijski

prostori podijeljeni na različite slojeve (engl. stratum, stratification of geometry). Afini,

metrički i euklidski prostor su prema tome (pod)prostori projektivnog prostora, no svaki je od

njih predstavljan i posebnom grupom preslikavanja i invarijanci.

3D projektivna geometrija

Projektivna geometrija u tri dimenzije P3, tzv. projektivni prostor, je svojevrsna nadogradnja

na projektivnu geometriju u dvije dimenzije P2, odnosno projektivnu ravninu. U tom smislu

velik broj definicija, teorema i raznih geometrijskih entiteta je samo proširenje za još jednu

dimenziju više već rečenoga za P2

[65]. Primjerice ono što je predstavljao pravac u

beskonačnosti l sada preuzima ravnina u beskonačnosti . Nadalje, jednako kao što se P2

može shvatiti kao dvodimenzionalni euklidski prostor proširen za tzv. točke u beskonačnosti

koje leže na l, tako se i P3 može predstaviti kao trodimenzionalni euklidski prostor proširen

za tzv. točke u beskonačnosti, ali koje sada leže u . S druge strane proširenje za još jednu

dimenziju donosi i određene različitosti: algebarski prikaz pravca u P3 je nešto složeniji nego

u P2. No, krenimo od najjednostavnijeg, a to je prikaz (homogene) točke i ravnine u P

3.

Koordinate točke x se u P3 opisuju četverodimenzionalnim vektorom kao (27):

(27)

Uz uvjet x4 0 prelazak na nehomogene koordinate x = [x y z]T se provodi na način (28):

'llx

Txxxx 4321x

(28)

Zbog lakšeg praćenja daljnjeg teksta istaknimo odmah jednu činjenicu da u P3 vrijedi dualnost

između točke i ravnine, a ne više između točke i pravca kao u P2.

Pravac se definira kao spojište kroz dvije točke ili presjek dviju ravnina. Pravac u P3

ima četiri stupnja slobode. Iako to na prvi pogled zvuči pomalo čudno, razmišljanje na

slijedeći način potkrjepljuje gornju tvrdnju. Zamislimo pravac kao spoj točaka presjecišta

pravca s dvije okomite ravnine. Svaki od presjecišta pravca i ravnine ima dva stupnja slobode

što u konačnici daje četiri stupnja slobode za određivanje samog pravca. Općenito govoreći

algebarski prikaz pravca u P3 je pomalo nespretan. Naime, za prikaz geometrijskog entiteta od

četiri stupnja slobode je nužan peterodimenzionalni homogeni vektor. Uporaba takvog

vektora u izrazima gdje se inače koriste četverodimenzionalni vektori za točke i ravnine je

bitno otežana. Zbog toga se pravac prikazuje na razne alternativne načine kao što je

Plückerova matrica ili Plückerove koordinate [43]. Plückerova matrica je 44 antisimetrična

matrica L koja je formirana, odnosno njeni elementi li,j (i = 1,..4, j = 1,..4) na način:

(29)

gdje su a i b vektori točaka na pravcu. Očekivana četiri stupnja slobode za pravac L su

ostvarena tako što je matrica L dimenzije 44 antisimetrična (što bi samo po sebi dalo šest

stupnjeva slobode), homogena i njezin rang iznosi 2. Dualna prezentacija L* od matrice L je

pravac definiran kao presjecište dviju ravnina p i q (30):

(30)

Jednadžba ravnine se u P3 može napisati kao (31):

(31)

gdje je vektor = [1 2 3 4]T homogeni vektor ravnine, a x = [x y z 1]

T homogeni vektor

točke u ravnini. Prve tri komponente vektora su u biti normala na ravninu u euklidskom 3D

prostoru (podsjetimo se baš kao što su prve dvije komponente vektora pravca l u P2 vektor

smjera u 2D euklidskom prostoru). Izraz (31) se može zapisati na nehomogeni način:

(32)

u sklopu kojeg je kvocijent d/||n|| udaljenost ravnine od ishodišta. Sljedeće zakonitosti opisuju

međusobne odnose ravnine, pravca i točke u P3:

a) ravnina je jedinstveno definirana s tri (nekolinearne) točke ili jednim pravcem i

točkom

b) presjecište dviju ravnina je pravac

4

3

4

2

4

1

x

xz

x

xy

x

xx

jijiji abbal

,

TTabbaL

TT*pqqpL

0

014321

xπT

zyx

0

1 44321

d

dxzyxT

xn

xn

c) presjecište tri ravnine je u točki.

Idealne točke i ravnina u beskonačnosti

One točke x u P3 (27) koje imaju komponentu x4 = 0 nazivamo idealne točke ili točke u

beskonačnosti.

(33)

Ono što za 2D projektivno preslikavanje znače pravac u beskonačnosti l i kružne točke za

dobivanje slike sa afinim, tj. metričkim karakteristikama (izrazi (112) i (117) u [65]), sličnu

ulogu za P3 preuzimaju tzv. ravnina u beskonačnosti i apsolutni konik . Ravnina u

beskonačnosti je ravnina čiji kanonski položaj u 3D afinom prostoru glasi:

(34)

sadrži točke u beskonačnosti (33), tj. smjerove D = [x1 x2 x3 0]. Vezano uz vrijedi da su

dvije ravnine (ili pravca) paralelne ako njihovo presjecište leži u . Pravac je paralelan

ravnini također ako se presjecište nalazi u .

Ravnina u beskonačnosti ostaje nepromijenjena (odnosno njene kanonske koordinate (34))

ako je izložimo afinom preslikavanju. Međutim uslijed projektivnog preslikavanja to više nije

slučaj. Projektivno preslikavanje ima 15 stupnjeva, a afino 12 stupnjeva slobode. Razlika od

tri stupnja je upravo određena specificiranjem komponenti ravnine koja u svome

općenitom (nekanonskom) obliku ima tri stupnja slobode. Pronalaskom komponenti vektora

ravnine u prostoru (nakon projektivnog preslikavanja), zatim odgovarajuće matrice H koja

će primijenjena na takav nekanonski oblika dati ponovno kanonski oblik, u stanju smo

primjenom matrice H na sve točke u projektivnom prostoru P3 dobiti prostor (geometriju) sa

afinim karakteristikama.

Kvadrik i dualni kvadrik

Slično kao što u projektivnom prostoru P2 definiramo krivulju konik, tako u projektivnom

prostoru P3 definiramo plohu kvadrik jednadžbom (35):

(35)

gdje je Q 44 simetrična matrica, a x točka koja pripada plohi kvadrik. Većina karakteristika

kvadrika je analogna onima za konik, tj. podrazumijeva proširenje za još jednu dimenziju:

Matrica kvadrik Q dimenzije 44 je simetrična i homogena, te ima devet stupnjeva

slobode.

Devet točaka je dovoljno za proračun elemenata matrice Q.

Txxx 0321x

T1000π

0 xQxT

Ako je Q singularna tada govorimo o degenerativnom kvadriku čije elemente je

moguće pronaći i sa manje od devet točaka.

Presjek ravnine i plohe kvadrika Q je krivulja konik.

Dualni kvadrik Q* je kvadrik definiran s obzirom na ravnine koje tangiraju plohu tzv.

točkastog kvadrika Q (engl quadric defined pointwise) (36):

(36)

Matrica Q* je adjungirana matrica od Q, a ako je Q invertibilna tada vrijedi Q* = Q-1

.

3D projektivne transformacije

Projektivna transformacija u P3 je linearna transformacija četverodimenzionalnog homogenog

vektora (27) x u x' predstavljena sa 44 homogenom matricom H (37):

(37)

Uslijed homogenosti matrica H ima 15 stupnjeva slobode. Kao i kod P2 preslikavanja su

kolineacija, odnosno pravci se ponovno preslikavaju u pravce.

Za neko projekcijsko preslikavanje H prema (37) gdje se točke x, koje pripadaju ravnini ,

preslikavaju u točke x', a koje leže u ', vrijedi odnos između ravnina i ' (38):

(38)

Za neku transformaciju točaka x u x' putem matrice H imamo preslikavanje kvadrika Q u Q'

prema (39), tj. preslikavanje dualnog kvadrika Q* u Q*' prema (40):

(39)

(40)

Preslikavanjem točke x u x' matricom H matrica L, tj. njena dualna prezentacija L* biva

transformirana prema (41), tj. (42):

(41)

(42)

3D Hijerarhija preslikavanja

Baš kao i kod planarnog projektivnog preslikavanja P2 tako i za 3D projektivno preslikavanje

možemo definirati specijalne slučajeve preslikavanja. Ponovno će na analogan način kao i u

P2 ti specijalni slučajevi biti (pod)grupe projektivnog preslikavanja koje su algebarski

0* QT

xHx'

πHπ'T

1THQHQ'

THQHQ **'

THLHL'

TT*pqqpL

predstavljene s odgovarajućim matricama i karakterističnim invarijancama za pojedinu grupu

preslikavanja. U principu algebarski opis preslikavanja za podprostore je analogan onima kao

i u 2D ((104), (105), (106), (107), (108), (109) u [65]) uz adekvatno proširenje za još jednu

dimenziju. Stoga spomenimo samo da 3D projektivno preslikavanje (P3) ima petnaest

stupnjeva slobode koji podrazumijevaju tri parametra za rotaciju i tri parametra za translaciju

(euklidski dio), parametar za izotropno skaliranje (metrički dio), pet parametara za afino

skaliranje i tri parametra za "čisto" projektivno preslikavanje.

Apsolutni konik

Rečeno je da presjek kvadrik plohe sa ravninom daje konik krivulju. Uzmimo u obzir

kvadrik plohu oblika Q = I, gdje je I 44 jedinična matrica, i ravninu u beskonačnosti

(43):

(43)

Presjek ravnine u beskonačnosti i kvadrika zadanog sa (43) daje tzv. apsolutni konik.

Apsolutni konik je konik krivulja, definirana s obzirom na točke (engl. pointwise), koja se

nalazi u ravnini u beskonačnosti . Kanonski oblik ravnine u beskonačnosti je (34), pa

sukladno tome točke koje se nalaze na krivulji apsolutnog konika nužno imaju oblik

x = [x1 x2 x3 0], dok su jednadžbe koje definiraju apsolutni konik dane sa (44):

(44)

Promatrajući apsolutni konik unutar ravnine u beskonačnosti daje izraz koji opisuje

apsolutni konik jednostavnije (45):

(45)

gdje se sada krivulja apsolutnog konika može opisati jednom jednadžbom i u svome

kanonskom obliku odgovara jediničnoj matrici I dimenzije 33. Iz izraza je očito da su točke

apsolutnog konika imaginarne. Iako nema realnih točaka osnovne karakteristike konika

(iznesene u ranijim poglavljima) vrijede i za apsolutni konik uz još dodatne: svaki krug siječe

u dvije točke, te svaka kugla siječe ravninu u beskonačnosti upravo u .

Kut pravaca u 3D projektivnom prostoru

Txxxx

1000

00 24

23

22

21

π

xIxT

0

0

4

23

22

21

x

xxx

ΩI

I 0

3

2

1

321

x

x

x

xxx

U euklidskom koordinatnom sustavu (geometriji) kut između dva pravca je (46):

(46)

gdje su d1 i d2 vektori smjerova pravaca čiji međusobni kut tražimo. Izraz koji će dati iznos

kuta u bilo kojem 3D projektivnom koordinatnom sustavu uključuje i apsolutni konik:

(47)

gdje su d1 i d2 točke presjecišta pravaca sa ravninom u beskonačnosti, a matrična

reprezentacija apsolutnog konika u ravnini u beskonačnosti. U slučaju euklidskog

koordinatnog sustava izraz (47) prelazi u izraz (46) uvrštenjem jedinične matrice za apsolutni

konik.

Apsolutni dual kvadrik

Dual apsolutnog konika nije neki novi konik, već kvadrik i to degenerirani oblik kvadrika u

P3 zvan apsolutni dualni kvadrik. Na prvi pogled to može izgledati zbunjujuće jer je za

očekivati da će dual konika biti neki konik, tj. dual kvadrika ponovno neki kvadrik. Dual

apsolutnog konika (krivulje definirane s obzirom na točke (44)) je, u skladu s principom

dualnosti, tzv. apsolutni dualni kvadrik Q* koji predstavlja plohu definiranu s obzirom na

ravnine (48):

(48)

Pobliže gledano, Q* geometrijski predstavlja skup ravnina koje tangiraju krivulju apsolutnog

konika . Osnovna prednost sa praktičnog stajališta apsolutnog dualnog kvadrika Q* u

odnosu na apsolutni konik je u tome što se Q* algebarski prikazuje sa homogenom

matricom dimenzije 44 i ranga 3 (49). S druge strane algebarski prikaz traži dvije

jednadžbe (44) osim ako se ne ograničimo samo na ravninu u beskonačnosti.

(49)

U 3D metričkom sustavu matrica Q* ima kanonski oblik (49). Bitno svojstvo Q

* je i da je

ravnina u beskonačnosti nul vektor od Q*. Degenerirani dualni kvadrik ima osam

stupnjeva slobode (simetrična matrica ima 10 stupnjeva, ali zbog irelevantnog faktora skale i

singularnosti matrice nestaju još dva stupnja slobode).

)()(

)(cos

2211

21

dddd

dd

TT

T

)dΩ(d)dΩ(d

)dΩ(d

2T21

T1

2T1

cos

0 πQπ*T

0

0

0000

0100

0010

0001

T*

0

IQ

Kut ravnina u 3D projektivnom prostoru

Slično kao što apsolutni konik upotpunjuje izraz za kut između dva pravca u bilo kojem

projektivnom sustavu (47), tako je i dualni apsolutni kvadrik Q* sadržan u izrazu za kut

između dvije ravnine, također u proizvoljnom projektivnom sustavu (50):

(50)

Izračun afinih i metričkih karakteristika u 3D

Ravnina u beskonačnosti – izračun geometrije s afinim karakteristikama

U analogiji s planarnim projektivnim preslikavanjem i ulogom pravca u beskonačnosti za

dobivanje slike sa afinim karakteristikama, ovdje u P3 tu zadaću preuzima ravnina u

beskonačnosti. Kanonski oblik ravnine u beskonačnosti je zadan s (34). Može se pokazati da

je afino preslikavanje određeno sa matricom H (51) invarijantno s obzirom na položaj ravnine

u beskonačnosti , drugim riječima ne mijenja njene kanonske koordinate (51):

(51)

Nasuprot tome, projektivno preslikavanje nije invarijantno s obzirom na ravninu u

beskonačnosti, pa ćemo u općenitom slučaju dobiti za koordinate vektora iznose različite

od kanonskih (34). Zato je potrebno prvo pronaći nekanonski položaj (koordinate) ravnine u

beskonačnosti. To je moguće uz poznavanje određenih afinih karakteristika transformiranog

prostora (scene). Podsjetimo se da je ravnina u beskonačnosti mjesto gdje se paralelni pravci

ili ravnine sijeku, stoga preslikavamo li npr. kocku tada će tri para paralelnih bridova kocke

definirati koordinate ravnine u beskonačnosti u projektivnom prostoru (Slika 17).

)()(

)(cos

2*T

21*T

1

2*T

1

πQππQπ

πQπ

1

0

0

0

)(

1000

34333231

24232221

14131211

ππHπ'

H

Tinv

hhhh

hhhh

hhhh

Slika 17. Projektivna i afina struktura kocke

Nakon toga nam treba takva matrica preslikavanja HPA koja će izračunate nekanonske

koordinate vratit nazad u kanonske. Može se pokazati da pogodna matrica HPA ima oblik:

(52)

gdje je A bilo koja matrica s determinantom različitom od nule, a su prva tri elementa od

ravnine u beskonačnost gdje je zadnji skaliran tako da iznosi jedan. Najjednostavnije je za

matricu A uzeti jediničnu matricu. Primjenjujući HPA na sve točke u projektivnom prostoru

dolazimo do rekonstrukcije afine geometrije (karakteristika).

Apsolutni (dual) konik – izračun geometrije s metričkim karakteristikama

Apsolutni konik je invarijantan s obzirom na metrička preslikavanja. Krivulja ima

općenito, tj. u nemetričkoj geometriji, pet stupnjeva slobode čiji proračun je dovoljan za

izračun geometrije sa metričkim obilježjima, a na osnovi afine geometrije. Polazeći od afinog

geometrijskog prostora uzmimo za općenitu matrica preslikavanja HA oblik (53):

(53)

Na preslikavanje točaka u ravnini u beskonačnosti (33) [x1, x2, x3, 0]), samim time i na

apsolutni konik (45), utječe samo dio matrice HA, odnosno imamo planarno preslikavanje

određeno sa A (53). Nadalje, da bi uslijed preslikavanja apsolutnog konika ((102) u [65])

njegov kanonski položaj ostao nepromijenjen mora biti zadovoljeno (54):

(54)

1

03

T

A

πHPA

1

1000

3333231

2232221

1131211

0

tAHA

taaa

taaa

taaa

IAIAAIAIΩ1T

T

Iz (54) jasno proizlazi da matrica A mora biti ortogonalna što je ispunjeno ako se radi o

metričkom (euklidskom) preslikavanju, te time potvrđujemo da je apsolutni konik invarijantan

s obzirom na metričke transformacije.

Sljedeći geometrijski entitet kod transformacija u P3 koji omogućava dobivanje slike sa

metričkim karakteristikama je dual apsolutnog konika , tzv. apsolutni dual kvadrik Q*

(49). Prisjetimo se da je prednost duala ta što se može predstaviti jednom matricom što je

daleko praktičnije za manipulaciju u algebarskim izrazima. Opći oblik metričke (euklidske)

transformacije HM je dan s (55):

(55)

gdje je R ortogonalna matrica rotacije, t vektor translacije i = 1 za euklidsku transformaciju.

Pokazati invarijantnost metričkih transformacija HM s obzirom na apsolutni dual kvadrik je

trivijalno (56):

(56)

Slika 18. Afina i metrička struktura kocke

Praktična procedura rekonstrukcije metričkih karakteristika može ići ili preko afine

geometrije ili direktno iz projektivne. U prvom slučaju ćemo se poslužiti invarijantnim

obilježjem apsolutnog konika na metrička preslikavanja, a koji se kao takav nalazi u

ravnini u beskonačnosti, pa stoga njegovo određenje uvjetuje i pronalazak ravnine u

beskonačnosti (geometrije sa afinim karakteristikama). Prema tome, jednom kada smo

rekonstruirali geometriju sa afinim karakteristikama (52) tada će dalje pet parova okomitih

pravaca, na osnovi izraza za kut između dva pravca (47), omogućiti izračun matrice

apsolutnog konika . Nakon što smo odredili nekanonske koordinate apsolutnog konika

pogodna transformacija HAM koja će vratiti apsolutni konik u kanonski položaj glasi (57):

(57)

103T

tRHM

0000

0100

0010

0001

Q*H*QHQ'TEE

*

1T

1

AM

AAΩ

AH

10

0

3

3

T

gdje matricu A dobijamo iz preko Cholesky dekompozicije. Primjenjujući HAM na sve

točke afinog prostora dolazimo do metričkih karakteristika (geometrije). Kombinacija (52) i

(57) daje algebarski izraz za direktan prijelaz iz projektivne u metričku geometriju, ali nakon

što je poznata i ravnina u beskonačnosti i apsolutni konik:

(58)

U drugom slučaju za direktan prijelaz iz projektivne geometrije u metričku (bez eksplicitnog

proračuna ravnine u beskonačnosti i apsolutnog konika) poslužit ćemo se invarijantnim

obilježjem apsolutnog dual kvadrika Q* (56) proračunatog iz minimalno poznatih devet

parova ortogonalnih ravnina (50). Matrica dual kvadrik Q* u svome općenitom

(nekanonskom) obliku, iako dimenzija 44, zbog svoje simetričnosti, homogenosti i

singularnosti (degeneriranosti) (rang = 3) ima u konačnici osam stupnjeva slobode. Upravo

onoliko koliko je potrebno za određivanje geometrije sa metričkim obilježjima na temelju

projektivne. Poznavajući Q* tražimo projektivno preslikavanje H koje će vratiti tzv.

kanonski oblik od Q* (49) i kao takvo primijenjeno na sve točke u projektivnom prostoru

dati prostor sa metričkim karakteristikama. Postupak nalaženja H je analogan opisanoj

proceduri kod konika dualnog kružnim točkama ((121) u [65]) i rekonstrukcije metričke

geometrije u 2D (prema izrazima (126) i (127) u [65]).

Modeli kamere

Sa geometrijskog stanovišta učinak video-kamere na točke u prostoru je takav da svakoj točci

u prostoru pridružuje njezinu korespondentnu točku u ravnini slike. Algebarski gledano

odigrava se preslikavanje točaka iz 3D projektivnog sustava u 2D projektivni sustav opisano

tzv. projektivnom matricom P oblika:

(59)

Izraz (59) ima jedanaest stupnjeva slobode (matrica P je homogena) i opisuje tzv. općenitu

projektivnu kameru kojom se homogena reprezentacija točke X u prostoru preslikava u

homogenu reprezentaciju točke x na slici kamere (60):

(60)

gdje je w proizvoljni faktor skale različit od nule, pa za x = (x, y) imamo nehomogenu

reprezentaciju točke na slici. Uvriježeno je reći da se nastanak slike video kamerom modelira

projektivnim preslikavanjem iz 3D u 2D. Postoje različiti modeli kamera koji su

1

03

π

AHHH

1

PAAMPM

34333231

24232221

14131211

pppp

pppp

pppp

P

XPx

X

x

WZYX

wwywx

specijalizacija općenite projektivne kamere opisane matricom P (59) uslijed čega elementi

matrice poprimaju i fizikalna značenja. Najčešće modeliranje kamera podrazumijeva

preslikavanje točaka po zakonu o centralnoj projekciji. Takve modele kamera u grubo

možemo podijeliti u dvije grupe. Kod prve grupe centar projekcije (mjesto gdje se sijeku sve

zrake kod preslikavanja točaka iz prostora u ravninu slike) leži u konačnici (engl. finite

centre) i takve kamere zovemo konačne kamere (engl. finite cameras). Kod druge grupe

centar projekcije leži u ravnini u beskonačnosti, pa takve kamere nazivamo kamere u

beskonačnosti (engl. infinite cameras). Najjednostavniji model prve grupe kamera (konačnih

kamera) se temelji na tzv. pinhole modelu kamere i on služi kao osnova gotovo svih modela

konačnih kamera. Takav konačni model kamere je model kakav će se koristiti u ovom radu,

pa će u daljem tekstu biti pobliže opisan.

Model konačne kamere

Slika 19. Preslikavanje točaka centralnom projekcijom

Uslijed snimanja video-kamerom nastajanje slike nekog predmeta može se sa

dovoljnom točnošću aproksimirati projiciranjem zraka svijetlosti (točaka) sa dotičnog

predmeta u ravninu slike prema zakonu o centralnoj projekciji. U sklopu takve aproksimacije

sustav leća objektiva se zamjenjuje točkom – centrom projekcije (Slika 19), a ravnina slike, u

kojoj završavaju projicirane točke, je udaljena za žarišnu duljinu f od centra projekcije. Centar

projekcije se naziva centar kamere ili optički centar. Definirajmo koordinatni sustav kamere

(X, Y, Z) sa ishodištem u centru kamere i gdje os Z okomito probada ravninu snimke, te

koordinatni sustav slike (x, y) u sklopu kojega su dakle sve točke koplanarne, pa su nam

relevantne samo dvije komponente (Slika 19). Tada se točka X u prostoru preslika u točku x u

ravninu slike prema zakonu o sličnosti trokuta (61):

X

Y

ZC

Centarkamere

x

y

X

x

P

Ravnina slike

Opticka os kamere

(61)

Izraz (61) je preslikavanje iz 3D euklidskog prostora u 2D euklidski prostor.

"Homogenizacija" izraza omogućit će prikaz preslikavanja kao linearnu transformaciju

koordinata iz 3D projektivnog prostora u 2D projektivni prostor – ravninu. Drugim riječima

homogeni prikaz točke u prostoru X=[X Y Z 1] dati će homogene koordinate točke u ravnini

snimke prema (62):

(62)

gdje matricu P34 identificiramo kao projektivnu matricu kamere. Pravac koji okomito

probada ravninu snimke i prolazi kroz centar kamere se naziva glavna optička os kamere

(engl. principal camera axis) ili kratko optička os. Sjecište optičke osi i ravnine snimke je

glavna točka snimke (engl. principal point). Izrazi (61) i (62) podrazumijevali su da je

ishodište sustava slike točno u glavnoj točki slike. U praksi obično postoji pomak glavne

točke snimka od ishodišta za neki (px, py), odnosno koordinate glavne točke snimke su

različite od nule. Uzimajući to u obzir kod preslikavanja homogenih koordinata imamo

sljedeće (63):

(63)

gdje matricu K nazivamo kalibracijskom matricom kamere. Također isticanje da su prostorne

koordinate točke Xcam izražene s obzirom na koordinatni sustav kamere (Slika 20), ima za cilj

skrenuti pažnju na još jednu uobičajenu stvar u praksi: položaj točaka u prostoru će najčešće

biti izražen s obzirom na neki proizvoljni prostorni koordinatni sustav koji je različit od

koordinatnog sustava kamere. Stoga točka X na putu preslikavanja iz prostora u ravninu

snimke prolazi prvo kroz transformaciju vezanu uz rotaciju i translaciju iz prostornog

koordinatnog sustava u koordinatni sustav kamere (Slika 20).

Z

Yfy

Z

Xfx

ZYX

yx

X

x

XPxXx

Xx

0100

000

000

1

f

f

ZYXwwywxTT

100

0

0

0100

00

00

x

y

camcamy

x

pf

pf

pf

pf

K0|IKP

XPxXx

Slika 20. Prijelaz iz prostornog koordinatnog sustava u sustav kamere

Algebarski rečeno to izgleda kao (64):

(64)

gdje je oznaka ~ označava nehomogenu reprezentaciju položaja točke, t je translacijski vektor

izražen u koordinatnom sustavu kamere, R je matrica rotacije, a C položaj centra kamere u

prostornom koordinatnom sustavu. Spajanje izraza (63) i (64) daje konačan izraz za

preslikavanje pinhole modelom kamere točke iz prostora X u ravninu slike x (65):

(65)

Analiza projektivne matrice pinhole kamere P, koja karakterizira čitavo preslikavanje, otkriva

da matrica ima devet stupnjeva (parametara modela) slobode. Tri nepoznanice odnose se na

parametre kalibracijske matrice K: px, py i f. Oni se nazivaju još i unutrašnji parametri kamere

(engl. internal parameters). Sljedeća tri parametra su rotacijski kutovi sadržani u rotacijskoj

matrici R i posljednja tri parametra se odnose na centar projekcije C. Parametri u R i C

opisuju orijentaciju kamere i njen položaj u prostoru s obzirom na prostorni koordinatni

sustav, te se nazivaju vanjski parametri kamere (engl. external parameters).

Većina video-kamera danas ima neki oblik CCD senzora koji u biti ima ulogu

ravnine slike. CCD senzor je predstavljen sa određenim brojem slikovnih elemenata (engl.

pixel) u oba koordinatna smjera, pa se slikovne koordinate najčešće izražavaju u broju

slikovnih elemenata. Razumije se da su slikovni elementi konačnih dimenzija, odnosno broja

Ycam

C

Xcam

Zcam

Z

X

YO

R, t

X10

CRR

10

CRRX

tXR)CX(RX

~~

~~~~

cam

~

1

Z

Y

X

cam

t|RKP

Xt|RKxXC|IRKx~

na slici. Gornji izrazi za slikovne koordinate su do sada podrazumijevali idealnu situaciju, tj.

beskonačnu rezoluciju u ravnini slike. Međutim u realnosti slikovne koordinate beskonačne

rezolucije (x, y) bivaju pretvorene u koordinate konačne rezolucije, izražene u broju slikovnih

elemenata, tako što se množe sa faktorima mx i my u odgovarajućim koordinatnim

smjerovima. Faktori mx i my predstavljaju broj slikovnih elemenata po jedinici duljine. Sada je

kalibracijska matrica nešto promijenjenog oblika jer obuhvaća i gornju pretvorbu:

(66)

Parametri x i y nam govore kolika je žarišnu duljina izraženu u broju slikovnih elemenata u

oba koordinatna smjera. U idealnom slučaju za kvadratne slikovne elemente vrijedi x = y.

Sljedeći čimbenik koji se uzima u obzir je mogućnost da koordinatne osi slike nisu okomite.

Takvo izobličenje se kompenzira dodatnim parametrom zakošenosti s (engl. skew parameter)

u sklopu kalibracijske matrice (67), iako je kod novijih video kamera faktor izobličenja vrlo

mali, najčešće zanemariv:

(67)

Lijeva submatrica (dimenzije 3 3) projektivne matrice P iznosi KR i za nju je

karakteristično da nije singularna za tzv. modele konačne kamere. Odnosno, bilo koja matrica

P34 koja ima lijevu 3 3 submatricu nesingularnu je matrica modela konačne kamere.

Naime, neku nesingularnu matricu M33, pomoću RQ dekompozicije matrica, uvijek možemo

rastaviti na gornju trokutastu matricu K i ortogonalnu matricu R.

Čest slučaj u praksi je da se srećemo sa projektivnom matricom zadanom u obliku za

općenitu projektivnu kameru (59), gdje tek trebamo odgovarajućom dekompozicijom doći do

određenih fizikalnih parametara modela. Tipičan primjer je nelinerna optimizacija parametara

kamere po fizikalnim parametrima. Nadalje pojedini napredniji kalibracijski algoritmi također

zahtijevaju podatke koje je moguće direktno dobiti iz projektivne matrice oblika (59). Na koji

način se do njih dolazi te koje još relevantne geometrijske odnose nude elementi projektivne

matrice zadane kao (59) vidjet ćemo u sljedećem poglavlju.

yyxxxy

yx

mfmfp

p

100

0

0

K

100

0 xy

yx

p

ps

K

Što otkriva projektivna matrica

CENTAR KAMERE Za projektivnu matricu kamere (59) vrijedi da je njezin centar C vektor

nul prostora matrice P (68):

(68)

Takav rezultat proizlazi iz sljedećeg razmišljanja. Razmotrimo pravac u prostoru X() koji

sadrži centar projekcije C i neku točku A, te preslikavanje točaka tog pravca u ravninu slike

određeno projektivnom matricom P (69):

(69)

uz uvažavanje pretpostavke PC = 0. Proizlazi da se sve točke na pravcu preslikavaju u jednu

te istu točku, a to je na osnovi definicije o centralnom preslikavanju moguće samo onda ako je

pravac zraka preslikavanja kroz centar kamere, tj. ako je C centar kamere.

DEKOMPOZICIJA PROJEKTIVNE MATRICE Za danu projektivnu matricu P moguće

je dekompozicijom iste doći do unutarnjih i vanjskih modela konačne kamere, koji kao takvi

imaju određeno fizikalno značenje. Za tri vanjska parametra koja definiraju položaj kamere u

prostoru je već pokazano u izrazom (68) kako se do njih dolazi. Do preostalih parametara

dolazimo također vrlo jednostavno uz uvjet da je lijeva submatrica M33 projektivne matrice P

nesingularna, a što je inače uvjet za model konačne kamere:

(70)

Tada RQ dekompozicijom rastavljamo matricu M na produkt gornje trokutaste matrice K i

ortogonalne matrice R. Na taj način došli smo do kalibracijske matrice K (67) koja sadrži

unutrašnje parametre i matrice R koja sadrži preostala tri vanjska parametra – rotacijske

kutove. Prilikom dekompozicije na K i R treba povesti računa da se dobiju pozitivne

vrijednosti na dijagonali matrice K, budući da to odgovara fizikalnoj stvarnosti.

STUPCI PROJEKTIVNE MATRICE Označimo stupce projektivne matrice P (59) kao pi (i

= 1, … 4) i tada za njih možemo reći da predstavljaju slike točaka u beskonačnosti (33) od

koordinatnih osi X, Y i Z. Npr. za točku u beskonačnosti od osi X sa koordinatama

D=[1, 0, 0, 0]T evidentno proizlazi (71):

(71)

0CP

APCPAPCPXPx

CACX

)(

)()(

RKM

p|MCR|RKP 4

~

][

1pPDPx

0

0

0

1

Analogan izračun bi dobili za točke u beskonačnosti od koordinatnih osi Y i Z ([0, 1, 0, 0]T i

[0, 0, 1, 0]T) i stupce p2 i p3. Četvrti stupac p4 je slika ishodišta prostornog koordinatnog

sustava [0, 0, 0, 1]T:

(72)

RETCI PROJEKTIVNE MATRICE Označimo retke projektivne matrice P (59) kao P1, P

2

i P3. Njihovo geometrijsko značenje je takvo da predstavljaju određene ravnine u prostoru.

Jedna od nih je i tzv. glavna ravnina. Glavna ravnina je ravnina paralelna sa ravninom slike, a

prolazi kroz centar projekcije kamere C. Točke X u toj ravnini se preslikavaju u pravac u

beskonačnosti (izraz (89) u [65]) od ravnine slike (to očito proizlazi iz geometrijskih odnosa

ravnine slike i glavne ravnine), odnosno slike točaka X su oblika [x, y, 0]T. Da bi dobili sliku

točke takvog oblika mora biti ispunjeno sljedeće:

(73)

Na temelju proizašle jednadžbe ravnine iz izraza (73) zaključujemo da treći redak projektivne

matrice predstavlja glavnu ravninu. Nadalje, da glavnoj ravnini pripada i centar kamere

vidimo iz (68), ili ekvivalentno (74):

(74)

Što se tiče prvog retka projektivne matrice vidimo da točke X koje pripadaju ravnini opisanoj

sa P1 poprimaju sljedeći oblik slikovnih koordinata:

(75)

Stoga zaključujemo da se slike takvih točaka nalaze na Y osi koordinatnog sustava slike, a

uvažavajući i rezultate proizašle iz (74) uviđa se da redak P1 određuje ravninu definiranu

centrom projekcije kamere i pravcem x = 0 na slici. Analognim rezoniranjem zaključili bi da

je redak P2 ravnina određena centrom projekcije kamere i pravcem y = 0.

GLAVNA TOČKA SNIMKE Glavna točka slike x0 je probodište optičke osi kamere i

ravnine slike. Iz prijašnjih razmatranja znamo da na osnovi jednadžbe glavne ravnine P3 (73),

paralelne ravnini slike, poznajemo i vektor normale ravnine slike ([p31, p32, p33]), što je

ekvivalentno vektoru smjera optičke osi kamere (jer je os okomita na ravninu slike). U tom

slučaju znamo i koordinate točke u beskonačnosti na pravcu optičke osi kamere Pr. To je

4

1

0

0

0

pPDPx

0XPXP3T

0

y

x

0CP

0CP

0CP

0CP3T

2T

1T

w

y

0

XP0XP1T

dovoljno za određenje slikovnih koordinata glavne točke slike x0 budući da se sve točke na

pravcu projiciranja preslikavaju u istu točku (76):

(76)

VEKTOR OPTIČKE OSI KAMERE U sadržaju iznad pokazano je da su elementi vektora

smjera optičke osi m3 u biti prva tri elementa trećeg reda projektivne matrice P. Projektivna

matrica je homogena, pa ta neodređenost s obzirom na množenje proizvoljnim skalarom

ostavlja dvojbe da li m3 ili m

3 pokazuje u pozitivnom smjeru koji je po definiciji smjer

gledanja ispred kamere. Može se pokazati da se vektor smjera optičke osi v, koji pokazuje u

pozitivnom smjeru i neovisan je o skaliranju matrice P skalarom k, dobija kao:

(77)

PROJEKCIJA UNAPRIJED Preslikavanje točaka iz prostora u ravninu slike se zove

preslikavanje unaprijed (engl. forward projection). Vrlo često su od posebnog značaja točke u

prostoru koje se nalaze u ravnini u beskonačnosti D=[d1 d2 d3 0]T (tzv. točke u

beskonačnosti), a čije projekcije (engl. vanishing points) općenito bivaju preslikane u ravnini

slike u točke sa konačnim koordinatama. Na njihov položaj na slici utječe samo dio

projektivne matrice P (78):

(78)

PROJEKCIJA UNAZAD Za danu točku x na slici moguće je odrediti skup točaka,

preciznije govoreći pravac, u prostoru čije se sve prostorne točke preslikavaju u istu točku x

na slici. Takav problem se naziva projiciranje unazad (engl. back-projection of points to rays).

Za određivanje pravca u prostoru potrebne su nam bilo koje dvije točke na tom pravcu.

Pogodne dvije točke su centar projekcije i točka u beskonačnosti dotičnog pravca, koja se

inače preslikava u točku x na slici. Dakle, na osnovi (78) možemo napisati parametarsku

jednadžbu pravca u prostoru X() koji se dobija preslikavanjem unazad točke x, odnosno sve

točke toga pravca se posredstvom projektivne matrice preslikavaju u točku x na slici (79):

(79)

DUBINA TOČAKA Poznavajući poziciju točke u prostoru i centar projekcije kamere u

stanju smo izračunati udaljenost točke od kamere. Ponekad je interesantan podatak kolika je

udaljenost relativno (okomito) na ravninu slike – tada govorimo o tzv. dubini točaka s

333231

33323134333231 0

ppp

pppppppTT

330

40

3

mmMx

Prp|MPrPx

PrP

3

4

mMv

p|MC]R|[RKP

)det(

][kk

dMD]p|[MDPx

dD

4

T

0

1

)(

01)(

0)(

411

41

14

1~

pxMxMpMX

xMDpMC

TT

obzirom na dotičnu kameru. Do takvog podatka dolazimo na sljedeći način. Za neku točku X

u prostoru i njenu sliku x u ravnini slike vrijedi sljedeće (80):

(80)

Posljednji red jednakosti gornjeg izraza govori da je omjer w/T jednak skalarnom produktu

vektora u smjeru optičke osi, te vektora definiranog točkom u prostoru i centrom kamere. Ono

što mi tražimo je veličina D projekcije vektora definiranog točkom i centrom kamere na

optičku os kamere koju nalazimo nakon određene algebarske manipulacije (81):

(81)

gdje se može pokazati da množenje predznakom determinante matrice M osigurava pozitivne

vrijednosti za sve one točke koje se nalaze ispred kamere. Iznos D < 0 znači da se točka nalazi

iza kamere, te u stvarnosti nije niti projicirana u ravninu slike.

Izračun projektivne matrice P – tradicionalan način kalibracije

Algebarska pogreška

Poznato je da se preslikavanje točaka u prostoru X u točke u ravnini slike x algebarski opisuje

pomoću projektivne matrice P kamere (82):

(82)

Postavlja se pitanje na koji način izračunati elemente projektivne matrice (engl. resection

problem) P oblika (59) ili ono što se efektivno želi napraviti je tzv. kalibriranje kamere nakon

čega je moguće provesti 3D rekonstrukciju točaka u prostoru. Drugim riječima da bi se našao

položaj neke točke X u prostoru (tri nepoznanice) nužno je poznavati njene slikovne

koordinate na barem dvije kamere x1 i x2 zajedno s projektivnim matricama P1 i P2 istih,

budući da za svaku od kamera vrijedi (82), pa tako raspolažemo sa sustavom četiri jednadžbe

sa tri nepoznanice. Najjednostavniji način kalibracije kamere podrazumijeva poznavanje

dovoljnog broja točaka X u prostoru (tzv. kalibracijskih točaka) i njihovih korespondentnih

točaka x na slici. Izraz (82) moguće je preformulirati i napisati sljedeći homogeni sustav

jednadžbi:

(83)

)()(

)(

1

CXPCXm

CXPXPXPx

xXX

3~~

3

33

~

T

w

T

w

wwywxTTZTYTX

T

T

3m

MD

T

wsign )(det

XPx

0pA

gdje je p vektor nepoznanica projektivne matrice P čije elemente tražimo i očito je vektor p

vektor nul prostora matrice A. Dimenzije matrice A su 2n 12, a broj stupnjeva slobode

matrice P je jedanaest, pa nam je potrebno minimalno jedanaest jednadžbi ili šest parova

kalibracijskih točaka u prostoru i na slici (svaki par pridonosi sa dvije jednadžbe). U praksi se

zbog nazočnosti raznih izvora pogrešaka koristi daleko veći broj od minimalno potrebnoga

(n>>6). U tom slučaju imamo homogeni sustav jednadžbi oblika (83) u kojem za neki

odabrani podskup od jedanaest jednadžbi ostale jednadžbe gotovo sigurno nisu linearna

kombinacija odabranih jedanaest, upravo zbog navedenih raznih izvora pogrešaka. Posljedica

toga je da ne postoji jedinstveno rješenje za vektor p koje će za sve jednadžbe dati čistu nulu

na desnoj strani u (83). Zbog toga se pribjegava takvom setu rješenja za vektor p koji će

minimizirati iznos tzv. algebarske pogreške definirane kao:

(84)

Ne bi li izbjegli trivijalno rješenje za vektor p gdje su sve komponente nula postavlja se

dodatni uvjet prilikom minimizacije na vektor p i to najčešće da norma vektora iznosi jedan.

Može se pokazati da takav način proračuna projektivne matrice vodi k rastavu matrice A na

singularne vrijednosti (SVD) u obliku A=UDVT gdje je traženi vektor rješenja p onaj stupac

matrice V koji odgovara najmanjoj singularnoj vrijednosti na dijagonali matrice D. Recimo i

da ono što se efektivno postiže korištenjem SVD-a u postupku traženja rješenja je de facto

linearna metoda najmanjih kvadrata izraza (83).

Nameće se pitanje da li konkretan red veličine kalibracijskih točaka u prostoru X ili točaka x

u ravnini, te izbor ishodišta koordinatnih sustava utječe na točnost rješenja prilikom proračuna

vektora p. Pokazuje se da odgovarajuća normalizacija točaka na slici ima pozitivan učinak.

Naime, provedbom normalizacije, prije postupka minimizacije funkcije pogreške, poništava

se utjecaj izbora skale i ishodišta koordinatnog sustava slike. Prvi korak normalizacije

podrazumijeva proračun centroida dotičnog skupa kalibracijskih točaka na slici i odabira

centroida za ishodište koordinatnog sustava. Drugi korak normalizacije obuhvaća izotropno

skaliranje koordinatnih osi slike tako da prosječna udaljenost točke od ishodišta iznosi drugi

korijen iz dva, odnosno prosječna točka na slici je oblika [1 1 1]T.

Razmatrajući utjecaj normalizacije prostornog skupa točaka situacija je nešto složenija.

Pokazuje se da normalizacija ima smisla samo za takve konfiguracije prostornih točaka gdje

je varijacija u dubini točaka relativno mala. Tada se na analogan način ishodište prostornog

koordinatnog sustava postavlja u centroid točaka, a skaliranje koordinatnih osi se provodi tako

da je prosječna udaljenost točke od ishodišta drugi korijen iz tri, tj. prosječna točka je oblika

[1 1 1 1]T. Ipak, čak i u tom specijalnom slučaju svrhovitost normalizacije skupa prostornih

točaka dijeli mišljenja istraživača, pa se najčešće provodi smo normalizacija skupa slikovnih

koordinata.

Normalizacija slikovnih x i prostornih koordinata X može se algebarski opisati nekim

matricama T i U. Nakon što smo izračunali vrijednosti projektivne matrice Pn sa

normaliziranim koordinatama potrebno je izvršiti denormalizaciju dobivenog rješenja Pn da

bi se dobila projektivna matrica P s obzirom na originalne skupove koordinata (85):

pA

(85)

Geometrijska pogreška

Nedostatak minimizacije algebarske pogreške je taj što ne minimiziramo neku od veličina sa

fizikalnim značenjem u prirodi. Zato se pribjegava i drugim funkcijama pogrešaka kojima se

minimizira neka od fizikalnih veličina koje direktno utječu na točnost proračuna. Jedna od

takvih je i minimizacija geometrijske pogreške uslijed koje se minimizira (euklidska)

udaljenost između detektirane pozicije točke na slici i pozicije dane sa modelom. Preciznije

govoreći minimiziramo sumu kvadrata pogrešaka između stvarnih pozicija točaka na slici i

pozicija danih sa modelom:

(86)

gdje je N broj kalibracijskih točaka, a d(x, Px) udaljenost između točaka za nehomogene

vrijednosti istih. Takav postupak je nelinearnog karaktera, pa kao set inicijalnih rješenja za

projektivnu matricu P mogu poslužiti vrijednosti dobivene minimizacijom (linearnim

algoritmom) algebarske pogreške. Teorijski gledano minimizacija geometrijske pogreške

trebala bi donijeti točniji izračun od minimizacije algebarske. Spomenimo i to da su do sada

podaci za prostorni položaj kalibracijskih točaka bili smatrani izuzetno točnima, te kao takvi

uzeti idealnim. U suprotnome, što je rjeđi slučaj u praksi, moguće je u funkciju pogreške

uvrstiti i pogreške određenja prostornih koordinata kalibracijskih točaka.

Govoreći o proračunu projektivne matrice smatrali smo da se ona tiče općenite

projektivne kamere. Ako imamo model konačne kamere projektivnu matricu možemo

parametrizirati preko unutarnjih i vanjskih parametara kamere (65), (67). To ima za posljedicu

također nelinearan karakter opisa preslikavanja točaka iz prostora u ravninu slike, pa je kao

predkorak nužan set inicijalnih rješenja, dobavljiv dekompozicijom elemenata općenite

projektivne matrice izračunatih minimizacijom algebarske pogreške.

Na slikama je gotovo uvijek prisutna i nelinearna distorzija, ponajviše zbog

nesvršenosti sustava leća, a s obzirom na smjer djelovanja može se podijeliti na radijalnu i

tangencijalnu distorziju. Takvu pojavu moguće je kompenzirati uključivanjem dodatnih

parametara (opisanih nelinearnom funkcijom), koji inače pripadaju grupi unutarnjih

parametara kamere, te minimizaciju vršimo i po tim dodatnim parametrima. Oni su redovito

vrlo malog iznosa te se inicijalne vrijednosti za njih postavljaju na nulu.

Proračun elementa projektivne matrice ili ekvivalentno govoreći kalibracije kamere

na gore opisane načine predstavlja otvoreni put euklidskoj rekonstrukciji točaka u prostoru, a

na temelju "samo" snimljenih slika video kamerom. Međutim, navedene metode se vrlo često

svrstavaju u tzv. tradicionalne načine kalibracije jer koliko god bile efikasne imaju i jedan

ozbiljan praktični nedostatak. Naime, ključna pretpostavka u iznesenim izlaganjima je

UPTPUPTPnXnUPTxn

XUXnxTxnXPx111

N

i

d1

)( ii XP,x

preduvjet poznavanja određenog broja točaka u prostoru (tzv. kalibracijskih točaka) da bi se

izvršila kalibracija, odnosno riješio sustav jednadžbi (84) i/ili (86). U praksi se za to koriste

posebno napravljene trodimenzionalne strukture koje na sebi maju jasno označene pozicije

kalibracijskih točaka ili se koriste točke u prirodi koje već postoje. Kaže se da je za 3D

rekonstrukciju potrebna a priori dosta opsežna euklidska informacija o snimljenoj sceni.

Često puta je uporaba tradicionalnih trodimenzionalnih kalibracijskih naprava nezgrapna,

korisnički gledano vrlo neomiljena, a u nekim primjenama računalnog vida (npr. kretanje

robota u novoj ili gotovo novoj sredini) skoro nemoguća. Sve je to uvjetovalo ubrzani razvoj,

naročito zadnjih petnaestak godina, takvih algoritama koji će izvršiti kalibraciju odnosno

rekonstrukciju točaka uz poznavanje daleko manje euklidske informacije o snimljenoj sceni.

Npr. umjesto poznavanja preciznih pozicija točaka u prostoru dovoljno je samo apriori znanje

o omjerima raznih duljina i/ili kutova pravaca (obično okomitih), paralelnost pravaca itd.

Ipak, čak i te tipične "euklidske veličine" (duljina, kut…) su povezane sa pojmovima

(geometrijskim entitetima) koji prelaze okvire euklidske geometrije, a poznavanje tih

pojmova nužno je za razumijevanje same suštine takvih naprednijih algoritama.

Epipolarna geometrija – fundamentalna i esencijalna matrica

Geometrija koja opisuje prostorne odnose dviju kamera (pogleda) se naziva epipolarna

geometrija, a algebarski pokazatelj tih odnosa je sadržan u fundamentalnoj (esencijalnoj)

matrici koja je dakle kao takva proizašla iz epipolarne geometrije ([40], [41]). Stoga je nužno

prvo pobliže objasniti epipolarnu geometriju i fundamentalnu (esencijalnu) matricu.

Slika 21. Geometrija korespondencije točaka dviju kamera C i C'. a) Centri kamera i točka X

u prostoru leže u tzv. epipolarnoj ravnini. b) Točka x na slici kamere C se projicira unazad u

prostor kao pravac koji se preslikava na slici druge kamere kao epipolarni pravac l'.

epipolarna ravnina

C C'

X

ba

x'x x

e e'

epipolarnipravac od x

l2

X?

XX?

Zamislimo točku X u prostoru, te njenu projekciju u točke x1 i x2 u ravninama slike neke dvije

kamere. Postavlja se pitanje da li su točke X, x1 i x2 u nekakvom odnosu? Prema konstrukciji

(Slika 21) projiciranja točke X u x1, tj. x2 jasno proizlazi da su točke X, x1 i x2 koplanarne i

tvore neku ravninu tzv. epipolarnu ravninu. U istoj toj ravnini nalaze se i centri kamera C1 i

C2 (Slika 34) za koje kažemo da su povezani tzv. osnovnim pravcem (engl. base line). Što

više, epipolarna ravnina je određena uz poznavanje osnovnog pravaca i pravca dobivenog

projiciranjem unazad neke točke x1 u ravnini slike prve kamere. Ostaje otvoreno pitanje da li

uz poznavanje točke x1 i epipolarne ravnine možemo pronaći korespondentnu točku x2 u

ravnini slike druge kamere. Odgovor slijedi na osnovi geometrijskih odnosa dviju kamera

(Slika 34) gdje je evidentno da tražena korespondentna točka x2 leži negdje na pravcu l2

presjecišta epipolarne ravnine i ravnine slike druge kamere. Pravac l2 nazivamo epipolarni

pravac. Znajući da je točka x2 negdje na epipolarnom pravcu l2 nam bitno olakšava pretragu u

odnosu na pretraživanje cijele slike što koriste razni algoritmi za pronalazak korespondentnih

točaka na slikama. Analogna razmišljanja vrijede i za danu točku x2, te njen korespondentni

par x1 koji se nalazi negdje na epipolarnom pravcu l1 (presjecište epipolarne ravnine i ravnine

snimke prve kamere). Za različite točke X u prostoru i njene projekcije x1 i x2 dobijamo

odgovarajuće epipolarne ravnine i epipolarne pravce u ravninama slika dviju kamera.

Zajedničko svim epipolarnim pravcima je da se sijeku u točki zvanoj epipol. Slika 34 jasno

ukazuje da su epilolovi e1 i e2 de facto presjecišta osnovnog pravca sa ravninom slike prve,

odnosno druge kamere. Drugim riječima epipol e1 je slika centra druge kamere C2 u ravnini

slike prve kamere, a epipol e2 je slika centra prve kamere C1 u ravnini slike druge kamere.

Za neku točku x1 na slici prve kamere zadane sa projektivnom matricom P1 i centrom kamere

C1 moguće je napisati jednadžbu pravca zrake projiciranja (tzv. projiciranje unazad) na način

prikazan u (79). Alternativni način prikaza takvog pravca glasi (87):

(87)

gdje je matrica P1+ tzv. pseudo-inverzna matrica projektivne matrice P1 definirana prema

(88), pa između ostaloga očito proizlazi da točka P1+x1 pripada pravcu projiciranja (88):

(88)

Točke P1+x1 i C1 pravca (87) se preslikavaju u ravninu slike druge kamere, zadane

projektivnom matricom P2, kao P2P1+x1 i P2C1 i obje se nalaze na epipolarnom pravcu l2:

(89)

uzimajući u obzir da je slika centra prve kamere de facto epipol e2. Prije sljedećeg koraka

zgodno je prisjetiti se da je za neki vektor a moguće definirati anti-simetričnu matricu [a]x:

1111 CxP(λX λ)

111T

11T1111111

11

1T11

T11

xx)P(PPPxPPXPx

IPP

)P(PPP

)xP(Pel

)xP(P)C(Pl

11222

112122

(90)

gdje je vektor a i vektor nul prostora matrice [a]x. Praktična važnost izraza (90) je u tome što

sada u izrazu (89) možemo vektorski produkt zamijeniti sa skalarnim produktom:

(91)

gdje matricu F nazivamo fundamentalnom matricom. Uobičajeno je fundamentalnu matricu

pisati kao dio tzv. epipolarnog uvjeta koji kaže da su slike x1 i x2 neke točke X u prostoru

povezane izrazom (92):

(92)

(92) je temeljni algebarski izraz epipolarne geometrije, tj. geometrijskih odnosa stereo para

kamera. Uz pretpostavku da prostorni koordinatni sustav koincidira sa koordinatnim sustavom

kamere prvotni izraz (91) za fundamentalnu matricu poprima sljedeće oblike:

(93)

Fundamentalna matrica izražena preko epipolova e1 i e2 glasi (94):

(94)

Karakteristike fundamentalne matrice mogu se sažeti u nekoliko točaka:

za svaku točku x1 na slici prve kamere i točku x2 na slici druge kamere fundamentalna

matrica zadovoljava izraz (92)

ako je F fundamentalna matrica para kamera (P1, P2) tada je FT fundamentalna

matrica para kamera (P2, P1) i vrijedi (95):

(95)

epipolarni pravac l1 kojem pripada točka x1, te epipolarni pravac l2 kojoj pripada točka

x2 se preko fundamentalne matrice računa prema (96), odnosno (97):

(96)

0

0

0

12

13

23

321

aa

aa

aa

aaa

xa

a

12x2

1112x22

PPeF

xFxPPel

0

1

T2

2T2

12xFx

0lx

xFl

x

T

1

T

1

T

2

1

1x

TT

2

1

1x

T

2

1

12x212x1212x2

1

1

1

12211

tRKKRKKtRRKKRtKF

KRKtKPPCPPPeF

1

0C

0

KPt|RKP0|IKP

x1

T1

T2

112x2

1T

11

eKRKKRKeF

tKPetRKtR

Pe

2211

0

1

0xFx 2TT

1

2T

1 xFl

(97)

Uvažavajući da izraz (97) vrijedi za bilo koju točku x1 na slici prve kamere (osim za

točku e1), te da epipolarnom pravcu l2 pripada i epipol e2 možemo pisati (98). Drugim

riječima epipol e2 je lijevi vektor nul prostora matrice F. Na analogan način dolazimo

do zaključka da je epipol e1 desni vektor nul prostora matrice F (99).

(98)

(99)

Fundamentalna matrica F iako dimenzije 33 zbog homogenosti i singularnosti ima

zapravo samo sedam stupnjeva slobode.

Matricu F možemo izračunati ili uz poznavanje projektivnih matrica P1 i P2 (91) ili

preko parova korespodentnih točaka x1 i x2 (92), tj. (95).

Proračun projektivnih matrica kamera preko fundamentalne matrice

Na temelju fundamentalne matrice F moguće je izračunati i projektivne matrice para

kamera P1 i P2. Međutim taj proračun nije jedinstven što je evidentno na osnovi sljedećih

razmatranja. Projektivne matrice povezuju točke u 3D prostoru sa njihovim slikama, te kao

takve ovise i o izboru koordinatnog sustava slike i o izboru prostornog koordinatnog sustava.

S druge strane fundamentalna matrica ovisi samo o transformacijama koordinatnog sustava

slike (95), tj. promjena prostornog koordinatnog sustava dati će istu fundamentalnu matricu.

Primjerice, za neku proizvoljnu transformaciju (37) H44 (točaka) prostornog koordinatnog

sustava možemo uzeti sljedeće parove projektivnih matrica prije i poslije transformacije u

obliku (P1, P2), tj. (P1H-1

, P2H-1

). Ta dva iako različita para projektivnih matrica dati će iste

parove točaka na slici (100):

(100)

Zaključujemo da makar dvije projektivne matrice jedinstveno određuju fundamentalnu

matricu obrat, na žalost, ne vrijedi: različiti parovi projektivnih matrica pomnoženi sa

proizvoljnom transformacijom H će svi dati iste parove korespondentnih točaka (100), tj.

fundamentalnu matricu (95). Prema tome za danu fundamentalnu matricu F moguće je

odrediti odgovarajući par projektivnih matrica, ali ne jedinstveno već samo do stupnja

proizvoljne neodređenosti (nedefiniranosti) projektivne transformacije 3D prostora H44.

Skraćeno se kaže da imamo projektivnu nedefiniranost (engl. projective ambiguity) para

kamera za dani F.

Zato se u praksi se od svih mogućih parova projektivnih matrica najčešće prvo

promatra tzv. kanonski oblik projektivnih matrica P1 i P2 (101):

12 xFl

0Fex0,xFexFl0leT211

T2122

T2

0eFx0,xFexFl0le 122TT

12T

11T1

xX)(H)H(PXPx1

(101)

Uporabom izraza (91) trivijalno je provjeriti da dani F odgovara paru kanonskih projektivnih

matrica definiranih kao u (101). Međutim postavlja se pitanje kako eksplicitno izračunati

projektivne matrice P1 i P2 budući da F nije nužno poznat u faktoriziranom obliku kao u

(101). Nakon podužeg algebarskog izvoda [43], proizlazi da općeniti izraz za par kanonskih

projektivnih matrica za dani F glasi (102):

(102)

gdje je v31 bilo koji vektor, a skalar različit od nule.

Proračun projektivnih matrica kamera preko esencijalne matrice

Pretpostavimo da je poznata unutrašnja orijentacija kamera (67), tj. matrice K1 i K2.

U tom slučaju moguće je provesti normalizaciju slikovnih koordinata kao x1N = K1-1

x1 i

x2N = K2-1

x2. Projektivna matrica koja odgovora normaliziranim slikovnim koordinatama se

naziva normalizirana projektivna matrica kamere koja se može shvatiti i kao matrica kamere

čija unutrašnja orijentacija odgovara jediničnoj matrici. Uvođenjem jediničnih matrica za K1 i

K2 u (93) bitno se pojednostavljuje originalni izraz za fundamentalnu matricu. No, u tom

slučaju ne govorimo o fundamentalnoj matrici već je nazivamo esencijalnom matricom E

(engl. essential matrix) (103):

(103)

Budući da esencijalna matrica E također opisuje epipolarni uvjet (92), ali uz poznavanje

normaliziranih koordinata x1N i x2N (tj. poznatu unutrašnju orijentaciju K1 i K2), lako

pronalazimo izraz koji povezuje fundamentalnu F i esencijalnu E matricu (104):

(104)

Iako prema (103) proizlazi da esencijalna matrica ima šest stupnjeva slobode (tri rotacijska

kuta i tri komponente vektora translacije (64)) uslijed homogenosti stvarni broj stupnjeva

slobode matrice E iznosi pet. Nadalje, detaljnija analiza esencijalne matrice [43] pokazuje da

od tri singularne vrijednosti dvije su jednake, a treća je nula. Esencijalnu matricu možemo

izračunati ili iz fundamentalne matrice ili direktno na osnovi određenog broja parova

normaliziranih koordinata.

m|MP0|IP

MmF

21

x

2T

2x221 eveFeP0|IP |

xTx

12x1212x2

21

tRRRtE

PPCPPPeE

t|RIP0|IIP

1T2

11

T2

1T2

112

122N

111N1N

T2N

KFKEKEKF

xFxxKExK

xKxxKxxEx

00)()(

0

112

21

T

Za jednom proračunatu esencijalnu matricu E moguće je slično kao i za

fundamentalnu matricu F izračunati projektivne matrice P1 i P2 nekog para kamera. Međutim,

ključna je razlika u tome što je u slučaju esencijalne matrice moguće pronaći projektivne

matrice sve do stupnja nepoznatog faktora skale, a ne više samo do nepoznate transformacije

(točaka) prostornog koordinatnog sustava. Uz pretpostavku da prostorni koordinatni sustav

koincidira sa koordinatnim sustavom prve kamere i uz poznavanje unutrašnje orijentacije

kamera tražene projektivne matrice su oblika P1 = [I|0] i P2 = [R|t]. Problem se dakle sastoji u

pronalasku rotacijske matrice R i translacijskog vektora t, de facto pronalazak vanjske

orijentacije (64). Oba podatka sadržana su u esencijalnoj matrici (103), no njihov izračun

zahtjeva faktorizaciju esencijalne matrice E na produkt antisimetrične matrice S (90) i

rotacijske matrice R (105):

(105)

To postižemo pomoću dekompozicije esencijalne matrice na singularne vrijednosti (engl. SVD

decomposition). Štoviše, dobijamo čak dva moguća rješenja za rotacijsku matricu koja

zadovoljavaju faktorizaciju (105), dok je izračun antisimetrične matrice S moguć samo do

nepoznatog faktora skale . U tom slučaju imamo (106):

(106)

Nepoznavanje faktora skale je razlog da će u konačnici proračunati par projektivnih matrica

P1 i P2 biti moguć samo do stupnja spomenutog faktora skale. Uz pretpostavku = 1

Frobenius-ova norma antisimetrične matrice S (Fr(S) := sqrt(sum(diag(SST)))) iznosi drugi

korijen iz dva i budući da znamo da je S = [t]x (90) jednostavno zaključujemo da je u tom

slučaju norma translacijskog vektora ||t|| = 1. Činjenice da za = 1 imamo ||t|| = 1, te da je

vektor t vektor nul prostora i matrice S, ali i matrice E upućuju da je vektor t jednak trećem

stupcu matrice U dobivene SVD rastavom esencijalne matrice (106). U biti, ponovno imamo

dva rješenja za vektor t koja oba zadovoljavaju gornje uvjete jer se suprotan predznak može

staviti pod nepoznati faktor skale (107):

(107)

Konačno, zaključujemo da za danu esencijalnu matricu E i njen SVD rastav, pomoću kojeg

vršimo faktorizaciju prema (105), postoje dva moguća rješenja za antisimetričnu matricu i dva

moguća rješenja za rotacijsku matricu što znači da na kraju imamo četiri moguća rješenja za

projektivnu matricu P2 (108):

RSRttRRE xxT

100

001

010

000

001

010

WZ

VWURVWURUZUS

VDUsvd(E)E

TT2

T1

T

T

λ

331

T

uUtuUt

VDUsvd(E)E

)3(:,)3(:, 2

(108)

Ipak, fizikalnoj stvarnosti odgovara samo jedno od četiri moguća rješenja što se vidi iz

geometrijske interpretacije mogućih rješenja (Slika 22). Oni parovi rješenja koji imaju

suprotan predznak translacijskog vektora (Slika 22 a) i b), te Slika 22 c) i d)) se razlikuju

samo u smjeru translacijskog vektora. S druge strane parovi rješenja koji imaju različite

rotacijske matrice (Slika 22 a) i c), te Slika 22 b) i d)) se razlikuju u rotaciji jedne od kamera

za 180 oko osnovnog pravca. Odlučujući faktor u odabiru pravog rješanja je činjenica da

kamera može preslikavati ("vidjeti") samo one točke koje se nalaze ispred nje. Slika 22 jasno

govori da takav zahtjev ispunjava samo jedna kombinacija (Slika 22 a)). Zato je u praksi

dovoljno odabrati jednu točku u prostoru (tj. slikovne koordinate na obje kamere) za koju

znamo da se nalazi ispred obje kamere, te za razne kombinacije projektivnih matrica P1 i P2

(108) računamo dubinu odabrane točke (81) i provjeravamo predznak, uvažavajući da

pozitivan predznak znači da se točka uistinu nalazi ispred kamere. Na kraju, odabiremo onu

kombinaciju (P1, P2) gdje za izračunate dubine (81) imamo pozitivan predznak za obje

kamere budući da to odgovara točnom rješenju (Slika 22 a)).

Slika 22. Četiri moguća rješenja dobivena dekompozicijom esencijalne matrice E. Samo

u slučaju a) se rekonstruirana točka nalazi i ispred kamere A i ispred kamere B.

Na kraju ostaje pronaći nepoznati faktor skale budući da je naš translacijski vektor t,

tj. projektivna matrica P2 izračunat uz pretpostavku = 1. U suprotnome 3D rekonstrukcija

našeg prostora biti će metrička gdje se sve duljine razlikuju od prave euklidske rekonstrukcije

za traženi faktor skale . Najjednostavniji način je izračunati (rekonstruirati) neku poznatu

udaljenost (duljinu). Izračunata udaljenost d i stvarna vrijednost D se upravo razlikuju za

faktor skale . U praksi se obično uzima tzv. kalibracijski štap poznate stvarne duljine D koji

3

TT2

3TT

2

3T

2

3T

2

2

u|VWUP

u|VWUP

u|VWUP

u|VWUP

t|RP

BA

(a)

AB

(b)

A B'

(c)

AB'

(d)

se snima i rekonstruira kroz cijeli niz od N pozicija unutar kalibracijskog volumena. Iz takvog

niza dobivenih vrijednosti di (i=1,..N) nalazimo faktor skale kojim korigiramo translacijski

vektor t, tj. projektivnu matricu P2 (109):

(109)

gdje sada tE i P2E predstavljaju veličine za stvarnu euklidsku rekonstrukciju. Napomenimo da

kalibracijski štap vrlo često služi ne samo za proračun faktora skale , nego njegovo snimanje

unutar kalibracijskog volumena daje i potrebni skup korespondentnih točaka x1 i x2 za izračun

fundamentalne matrice F (92) (obično se uzimaju krajnje točke na štapu). Time je sa

korisničke strane postupak kalibracije 3D kinematskog sustava bitno pojednostavljen u

odnosu na uporabu tradicionalnih 3D kalibracijskih kaveza/struktura i/ili kalibracijskih

ravnina. Takva prednost naročitu ulogu igra kod uporabe sustava na otvorenome, izvan

laboratorija.

tRPttD

d2EE

i

|1

1

N

iN

LITERATURA [1] J. Vanherzeele, P. Guillaume, S. Vanlanduit, Fourier fringe processing using a regressive

Fourier-transform technique, Optics and Lasers in Engineering 43 (6) (2005) 645–658.

[2] J. Salvi, X. Armangue, J. Batlle. A comparative review of camera calibrating methods

with accuracy evaluation, Pattern recognition 35 (7) (2002) 1617-1635.

[3] T. Pribanić, P. Sturm, M. Cifrek. Calibration of 3D kinematic systems using orthogonality

constraints. Machine Vision and Applications. 18 (6), 367-381, 2007.

[4] D. Scharstein and R. Szeliski. A taxonomy and evaluation of dense two-frame stereo

correspondence algorithms. International Journal of Computer Vision, 47(1/2/3), 7-42, 2002.

[5] A. F. Bobick and S. S. Intille. Large occlusion stereo. International Journal of Computer

Vision, 33(3), 181–200, 1999.

[6] S. Zhang, P. Huang. Novel method for structured light system calibration, Optical

Engineering 45 (2006) 083601.

[7] T. Pribanic, N. Obradovic, J. Salvi. Stereo computation combining structured light and

passive stereo matching, Optics communication 285 (2012) 1017-1022.

[8] J. Salvi, J. Pages, J. Batlle, Pattern codification strategies in structured light systems,

Pattern Recognition 37 (4) (2004) 827–849.

[9] X. Su, W. Chen, Fourier transform profilometry: a review, Optics and Lasers in

Engineering 35 (5) (2001) 263–284.

[10] Z.H. Zhang. Review of single-shot 3D shape measurement by phase calculation-based

fringe projection techniques, Optics and Lasers in Engineering, 50 (8) (2012),1097–1106.

[11] J. Salvi, S. Fernandez, T. Pribanic, X. Llado, A state of the art in structured light patterns

for surface profilometry, Pattern Recognition 43 (2010) 2666-2680.

[12] H. Fredricksen, A survey of full length nonlinear shift register cycle algorithms, SIAM

Review (1982) 195–221.

[13] L. Zhang, B. Curless, S. Seitz, Rapid shape acquisition using color structured light and

multi-pass dynamic programming, in: 3D Data Processing Visualization and Transmission, ,

2002, pp. 24–36.

[14] C. Chen, Y. Hung, C. Chiang, J. Wu, Range data acquisition using color structured

lighting and stereo vision, Image and Vision Computing 15 (1997) 445–456.

[15] J. Pages, J. Salvi, C. Collewet, J. Forest, Optimised De Bruijn patterns for one- shot

shape acquisition, Image and Vision Computing 23 (2005) 707–720.

[16] J. Salvi, J. Batlle and E. Mouaddib. A robust-coded pattern projection for dynamic 3D

scene measurement, Pattern Recognition Letters 19 (1998) 1055-1065.

[17] K. Boyer, A. Kak, Color-encoded structured light for rapid active ranging, IEEE

Transactions on Pattern Analysis and Machine Intelligence 9 (1987) 14–28.

[18] P. Fechteler, P. Eisert, Adaptive color classification for structured light systems, in: IEEE

Computer Society Conference on Computer Vision and Pattern Recognition Workshops,

2008, pp. 1–7.

[19] M. Maruyama, S. Abe, Range sensing by projecting multiple slits with random cuts,

IEEE Transactions on Pattern Analysis and Machine Intelligence 15 (6) (1993) 647–651

http://www.sciencedirect.com/science/journal/01438166

[20] T. Koninckx, L. Van Gool, Real-time range acquisition by adaptive structured light,

IEEE Transactions on Pattern Analysis and Machine Intelligence 28 (3) (2006) 432–445.

[21] M. Ito, A. Ishii, A three-level checkerboard pattern (TCP) projection method for curved

surface measurement, Pattern Recognition 28 (1) (1995) 27–40.

[22] J. Pages, C. Collewet, F. Chaumette, J. Salvi, S. Girona, F. Rennes, An approach to

visual servoing based on coded light, in: IEEE International Conference on Robotics and

Automation, ICRA, vol. 6, 2006, pp. 4118–4123.

[23] C. Albitar, P. Graebling, C. Doignon, Design of a monochromatic pattern for a robust

structured light coding, in: IEEE International Conference on Image Processing, ICIP, vol. 6,

2007, pp. 529–532.

[24] J. Posdamer, M. Altschuler, Surface measurement by space-encoded projected beam

systems, Computer Graphics and Image Processing 18 (1) (1982) 1–17.

[25] S. Inokuchi, K. Sato and F. Matsuda. Range imaging system for 3-D object recognition,

in Proc. Int. Conf. Patt. Recog., 1984, pp.806–808.

[26] D. Caspi, N. Kiryati, J. Shamir, Range imaging with adaptive color structured light, IEEE

Transactions on Pattern Analysis and Machine Intelligence 20 (5) (1998) 470–480.

[27] I. Ishii, K. Yamamoto, K. Doi, T. Tsuji, High-speed 3D image acquisition using coded

structured light projection, in: IEEE/RSJ International Conference on Intelligent Robots and

Systems (IROS), , 2007, pp. 925–930.

[28] G. Sansoni, M. Carocci, R. Rodella, Calibration and performance evaluation of a 3-D

imaging sensorbased on the projection of structured light, IEEE Transactions on

Instrumentation and Measurement 49 (3) (2000) 628–636.

[29] T. Pribanic, S. Mrvos, J. Salvi. Efficient multiple phase shift patterns for dense 3D

acquisition in structured light scanning, Image and Vision Computing 28 (2010) 1255–1266

[30] T. Pribanic, H. Dzapo, J. Salvi, Efficient and low-cost 3D structured light system based

on a modified number-theoretic approach, EURASIP Journal on Advances in Signal

Processing, Volume 2010, Article ID 474389, 11 pages

[31] C. Wust, D. Capson, Surface profile measurement using color fringe projection, Machine

Vision and Applications 4 (3) (1991) 193–203.

[32] C. Guan, L. Hassebrook, D. Lau, Composite structured light pattern for three-

dimensional video, Optics Express 11 (5) (2003) 406–417.

[33] T. Pribanic, S. Mrvoš, J. Salvi. Efficient multiple phase shift patterns for dense 3D

acquisition in structured light scanning. Image and Vision Computing 28 (2010) 1255–1266.

[34] V. I. Gushov, Y. N. Solodkin, Automatic processing of fringe patterns in integer

interferometers, Opt. Lasers Eng. 14 (4) (1991), pp. 311–324.

[35] P. Ribenboim, Algebraic Numbers, John Wiley and Sons, Inc. New York, 1972.

[36] K.H. Rosen. Elementary number theory and its applications, Addison-Wesley, 1988.

[37] T. Pribanic, H. Dapo, J. Salvi, Efficient and low-cost 3D structured light system based on

a modified number-theoretic approach, EURASIP Journal on Advances in Signal Processing,

Volume 2010, Article ID 474389, 11 pages doi:10.1155/2010/474389

[38] M. Takeda, M. Mutoh, Fourier transform profilometry for the automatic measurement of

3-D object shapes, Applied Optics 22 (1983) 3977–3982.

[39] Abdel-Aziz Y.I. and Karara H.M. Direct linear transformation from comparator

coordinates into object space coordinates. In Close-Range Photogrammetry. In Proc. ASP/UI

Symp. on Close-Range Photogramm., 1-18, 1971.

[40] Faugeras, O. 1993 Three-Dimensional Computer Vision. MIT Press, Cambridge,

Massachusetts, 1993.

[41] G.Q. Wei, S.D. Ma. Implicit and explicit camera calibration: theory and experiment,

IEEE Transactions on PAMI, 16, 469-480, 1994.

[42] J. Eian, J., Poppele, R.E. A single-camera method for three-dimensional video imaging.

Journal of Neuroscience Methods, 120, 65-83, 2002.

[43] Hartley, R., Zisserman, A. Multiple View Geometry in Computer Vision, Cambridge

University Press, 2000.

[44] Ferrigno G., Pedotti A. ELITE: (1985) Digital dedicated hardware system for movement

analysis via real-time TV signal processing. IEEE Trans. Biomed. Eng., 32, 943-950, 1985.

[45] Shapiro R. (1978) Direct linear transformation method for three-dimensional

cinematography. Res. Quart., 49, 197-205, 1978.

[46] Pribanić, T. Izračun položaja ljudskog tijela u prostoru. Magistarski rad. Fakultet

elektrotehnike i računarstva, Sveučilište u Zagrebu, 2001.

[47] Pribanić, T., Cifrek, M., Tonković, S. Comparison of three different camera calibration

types. XIVth Congress of the International Society of Electrophysiology and Kinesiology,

Vienna, Austria, 106-107, 2002.

[48] Caprile, B. Torre, V. Using Vanishing Points for Camera Calibration, International

Journal of Computer Vision, 4, 127-140, 1990.

[49] Liebowitz, D., Zisserman, A. Metric rectification for perspective images of planes. IEEE

Conference on Computer Vision and Pattern Recognition, 482-488, 1998.

[50] Hartley, R., Agapito, L., Hayman, E., Reid, I.. Camera calibration and the search for

infinity. IEEE Int. Conference on Computer Vision, 510-517, 1999.

[51] Devernay, F., Olivier Faugeras, O. Straight lines have to be straight: Automatic

calibration and removal of distortion from scenes of structured environments, Machine Vision

and Applications, 13, 14–24, 2001.

[52] Hartley, R. Kruppa’s equations derived from the fundamental matrix. IEEE Transactions

on Pattern Analysis and Machine Intelligence, 19(2), 133-135, 1997.

[53] M. Pollefeys, M., Gool, L. Self-calibration from the absolute conic on the plane at

in_nity, Proc.CAIP'97. 1997.

[54] Hartley, R. Extraction of focal lengths from the fundamental matrix. unpublished

manuscript, 1993.

[55] Willson, R.G., Shafer, S.A. A perspective Projection Camera Model for Zoom Lenses.

Technical Report, Robotics Institute, Carnegie Mellon University, Pittsburg, 1994.

[56] Yanai, T., Hay, J.G., & Gerot, J.T. Three-dimensional videography of swimming with

panning periscopes. J. Biomech., 29, 673-678. 1996.

[57] Yu, B., Koh, T.J., & Hay, J.G. A panning DLT procedure for three-dimensional

videography. J. Biomech. 26, 741-751. 1993.

[58] Sturm, P. Critical motion sequences for the self calibration of cameras and stereo systems

with variable focal length. Image and Vision Computing, 20(5-6), 415-426, 2002.

[59] Sturm, P. A Case Against Kruppa’s Equations for Camera Self-Calibration. IEEE

Transactions of Pattern Analysis And Machine Intelligence, 22, (10), 1199-1204, 2000.

[60] Chen, L., Armstrong, C.W., Raftopoulos, D.D.An investigation on the accuracy of three-

dimensional space reconstruction using the direct linear transformation technique. J. Biomech.

27:493-500, 1994.

[61] Hatze H. High-precision three-dimensional photogrammetric calibration and object space

reconstruction using a modified DLT approach. J. Biomech., 21, 533-538, 1998.

[62] Heikkilä, J. & Silvén, O. A four-step camera calibration procedure with implicit image

correction. IEEE Computer Society Conference on Computer Vision and Pattern Recognition

(CVPR'97), San Juan, Puerto Rico, 1106-1112, 1997.

[63] Heikkilä, J., Silvén, O. (1996) Calibration procedure for short focal length off-the-shelf

CCD cameras. Proc. 13th International Conf. Pattern Recogn., Vienna, Austria, 166-170,

1996.

[64] Fitzgibbon, A.W. Simultaneous linear estimation of multiple view geometry and lens

distortion. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,

2001.

[65] Pribanić, T. Metoda modeliranja i analize ljudskog pokreta optoelektroničkim sustavom.

Doktorski rad. Fakultet elektrotehnike i računarstva, Sveučilište u Zagrebu, 2005.

beskontaktnomjerenjepolozaja

Documents