teorija informacija i kodova (3.dio)

Teorija informacija i kodovaTreći čas

3.1. Asimptotska ekviparticiona osobina i tipičke sekvence

Definicija 3.1.1 Niz konvergira u vjerovatnoći, ako za svako

. Postoje i drugi oblici konvergencije (za nas manje bitni).

Primjer 3.1.1. Neka je niz slučajnih promjenljivih i neka:

je srednja vrijednost ovog niza. Neka je tačna srednja vrijednost ovog niza . Tada:

kada

Jednostavnije, ovo se može reći da u vjerovatnoći.

Jedan od načina da kvantifikujemo kako stižemo do konvergencije (brzinu konvergencije) je u smislu Markovljeve relacije, koja za pozitivnu slučajnu promjenljivu i

Odavde se može zapisati Chebyshev-ljeva nejednakost za slučajnu promjenljivu sa srednjom vrijednošću i varijansom

Sada možemo da dokažemo sljedeću teoremu.

Teorema 3.1.1. Neka su nezavisne slučajne promjenljive sa istom funkcijom gustine

raspodjele . Tada:

po vjerovatnoći.

Dokaz. Kako su nezavisne slučajne promjenljive sa istom gustinom raspodjele, isto važi i za

. Odavde slijedi:

Sada možemo primijeniti osobinu da srednja vrijednost odbiraka konvergira u vjerovatnoći ka srednjoj vrijednosti ansambla:

čime je dokaz završen. Odavde dalje slijedi: što se naziva asimptotskom ekviparticionom osobinom.

Primjer 3.1.2. Posmatrajmo sa i . Vjerovatnoća sekvence

je: . Posmatrajmo sljedeći slučaj q=0.7 i p=0.3 posmatrajmo i

vjerovatnoće sljedećih događaja:

1

Niz Vjerovatnoća Broj kombinacija Ukupna vjerovatnoća0000000000 0.0282 1 0.02820000000001 0.0121 10 0.1210000000011 0.005 45 0.2250000000111 0.0022 120 0.2640000001111 0.00095 210 0.19950000011111 0.0004 252 0.10080000111111 0.00017 210 0.0360001111111 0.000075 120 0.0090011111111 0.000032 45 0.001440111111111 0.0000138 10 0.0001381111111111 0.0000059 1 0.0000059

Jasno je da svih poruka nema istu vjerovatnoću. Uočljivo je da one sekvence koje imaju približno jedinica imaju najveću totalnu vjerovatnoću. Ovdje se vidi da je to za onu sekvencu koja sadrži 3 jedinice. To se može smatrati tipičnom sekvencom. Kolika je vjerovatnoća događaja

? Iz prethodne priče slijedi da je to blisko sa velikom vjerovatnoćom. U

prethodnom primjeru može se reći da su najvjerovatnije one sekvence koje imaju jedinica i sve su takve sekvence jednako vjerovatne. To je prosto zakon velikih brojeva. Skup sekvenci koje se pojavljuju najčešće nazivaju se tipične sekvence.

Definicija 3.1.2. Tipičan skup u odnosu na je skup sekvenci koje zadovoljavaju sljedeću osobinu:

Dakle, tipična sekvenca se pojavljuje sa vjerovatnoćom približno jednakom .Posmatrajmo primjer 3.1.2. i . Tada je . Ovo je očigledno veoma blisko vjerovatnoći pojedinačnog događaja da se pojave tri jedinice. Tipični skup ima osobine definisane sljedećom teoremom.

Teorema 3.1.2. 1. Ako je tada

2. za dovoljno veliko.

3. , gdje ||A|| označava broj elemenata u skupu.

4. za dovoljno veliko.

Tumačenje teoreme. Po (1) skoro svi elementi u tipičnom skupu su skoro jednako vjerovatni. Po (2) tipični set se pojavljuje sa vjerovatnoćom koja je bliska 1. Po (3) i (4) broj elemenata u tipičnom skupu je blizu .

Definicija 3.1.3 Oznaka znači:

Ova notacija se može primijeniti za sekvence i , kao i i , ali ne

može na i .

Ovu ćemo oznaku koristiti da bi razmatrali jednu važnu karakteristiku tipične sekvence. Dakle, uočili smo da je tipična sekvenca mali skup koji daje veliku vjerovatnoću, ali nije jasno da li je to najmanju takav skup. Sada ćemo pokazati da bilo koji skup sa velikom vjerovatnoćom mora imati značajno preklapanje sa tipičnom sekvencom.

2

Definicija 3.1.4. Neka je skup zadovoljava . Ovakav se skup naziva

visokovjerovatnim.

Teorema 3.1.3. Neka su slučajne promjenljive sa funkcijom raspodjele . Za i

neko ako je tada

za dovoljno veliko. Dakle, mora sadržati najmanje elemenata do prvog reda u

eksponentu. Vidjeli smo da sadrži oko elemenata. Dakle, ovaj skup je reda veličine istog

broja članova kao i , .

Na primjer, posmatrajmo skup sa binarnim događajima, gdje je vjerovatnoća jedinice 0.9 sa ponavljanja. Skup sadrži one događaje, gdje se 1 pojavljuje 9 puta, ali ne sadrži pojedinačno

najvjerovatniji događaj da skup sadrži samo jedinice. Skup će uključiti sve najvjerovatnije sekvence, uključujući i onu koja sadrži sve jedinice.

3.2 Entropijski odnosi

Vidjeli smo da entropija uzastopnih događaja sa istom raspodjelom teži . Nezavisni slučajni događaji sa istom raspodjelom se često označavaju i.i.d. Entropijski odnosi nam omogućavaju razmatranje entropije za niz slučajnih promjenljivih koje nijesu nezavisne. Naime, nezavisni i na isti način distribuirani procesi nijesu dobar model za realne poruke.

Definicija 3.2.1. Entropijski odnos za stohastički proces definiše se kao:

pod pretpostavkom da postoji granična vrijednost.

Slična veličina se može usvojiti za uslovnu entropiju:

Ovo su suštinski dva različita koncepta koji za i.i.d. sekvence vode ka istom.

Teorema 3.2.1. Za stacionarni proces je opadajuća funkcija od i ima

graničnu vrijednost .

Teorema 3.2.2. Za neki stacionarni proces dvije definicije entropije postoje (konvergiraju) i međusobno su jednake:

Na osnovu ovoga se može (ovdje bez dokaza) zapisati generalizacija AEP teoreme da za niz slučajnih promjenljivih sa identičnom funkcijom rasodjele (ali ne i nužno nezavisnih) važi:

3

Na osnovu ove generalizacije moguće je definisati tipičnu sekvencu i odrediti broj tipičnih sekvenci (približno svaka sa vjerovatnoćom ). Za predstavljanje ove sekvence je neophodno približno .

Alternativni način da se razmatra entropija za proces, koji nije i.i.d. je preko odgovarajućeg Markovljevog modela i uslovanih vjerovatnoća . Neka je:

Uslovna entropija računata po alfabetu preko

simbola se definiše kao:

Uvodeći vjerovatnoću stanja , kao entropija Markovljevog procesa se može definisati kao:

Kako važi: entropija se može izraziti kao:

Da bi se odredila entropija Markovljevog izvora potrebno je naći stacionarne vjerovatnoće za svako stanje Markovljevog procesa. Ovo je teško poznavati unaprijed. Postoji koncept pridruženih sistema kojim se može izvršiti procjena Markovljevog izvora. Da bi upotrebu ovih sistema ilustrovali posmatrajmo Markovljevov proces prvog reda (kod procesa višeg reda samo se mijenja notacija). U ovom slučaju suštinski imamo rad sa dvije slučajne promjenljive pa formiramo vjerovatnoće

i združenu . Važe relacije i .

Pođimo od relacije (ovo slijedi na osnovu osobine međusobne informacije):

Jednakost važi samo kada je ( i su nezavisne slučajne promjenljive).

Koristeći izraz za uslovnu vjerovatnoću dobija se:

Dalje važi:

Korišćenjem uslovnih raspodjela slijedi:

gdje je entropija sistema originalnih simbola koju ćemo zvati pridruženi sistem. Dakle, može se pisati da je:

4

pa je entropija Markovljevog sistema ogrničena entropijom pridruženog sistema, koja se dobija za sisteme sa nultom memorijom i izvornim alfabetom . Jednakost važi za . Dakle, ograničenja mogu samo da smanje entropiju. Nije teško pokazati da za simbola Markovljevog koda važi ograničenje da je njegova entropija manja od .

3.3 Kompresija podataka – uvodna razmatranja

Osnovni smisao asimptotske ekviparticione osobine je da pokaže mogućnost kompresije podataka. Vidjeli smo da se tipična sekvenca pojavljuje većinom vremena za veliko . Znamo da ASCII kod daje istu dužinu podatka za svaki od elemenata skupa. Ako bismo elemente (sekvence) koje se često pojavljuju zamijenili sa manjim brojem bita, a one koje se pojavljuju veoma rijetko sa velikim brojem bita, ostvarili bismo kompresiju. Ovdje se može donekle iskoristiti princip tipične sekvence. Naime, vidjeli smo da elemenata u tipičnoj sekvenci ima manje ili jednako . Svaka od ovih sekvenci se može kodirati sa bita. Pretpostavimo da svakoj tipičnoj sekvenci dodamo po jedan bit kao prefiks da bi se znalo da je to tipična sekvenca (npr. 0), to znači da se svaki element u tipičnoj sekvenci kodira sa bita. Svaka sekvenca koja nije u tipičnom

skupu se može kodirati sa ne više od bita i ako joj dodamo prefiks 1, dobili smo koder

svih sekvenci u skupi . Naravno, ovo je samo gruba shema, ali može da posluži kao dobar primjer kako semože komprimovati sistem na osnovu tipične sekvence. Oznaka podrazumijeva sekvencu (niz) .

Teorema 3.3.1. Neka je sekvenca sa nezavisnim promjenljivima sa istom raspodjelom i neka je . Tada postoji kodiranje koje preslikava sekvencu u binarni niz tako da je preslikavanje 1

na 1 (kodiranje bez gubitaka) i da prosječna dužina koda zadovoljava:

na dovoljno veliko.

Kompresijom podataka u cilju umanjivanja redundancije će se u našim razmatranjima baviti koder ili koder izvora. Koder je uređaj koji vrši preslikavijanje ulaznog alfabeta u skup kodnih simbola. Podtrazumjevaćemo da su ulazni alfabet i skup kodnih simbola konačni (ponekad se kaže diskretni) odnosno, da imaju konačan broj elemenata. Kod je preslikavanje niza simbola ulaznog alfabeta u niz kodnih simbola.

Definicija 3.3.1. Izvorni kod za slučajnu promjenljivu je preslikavanje iz u skup stringova sa konačnom dužinom za -arni alfabet. Neka predstavlja kodnu riječ koja odgovara i neka označava dužinu kodne sekvence kojom je kodirana riječ .

Definicija 3.3.2. Kod se naziva singularnim ako se dva simbola ulaznog alfabeta preslikavaju u istu kodnu riječ. Ovakvi kodovi se ne mogu jednoznačno dekodirati (preslikati iz skupa kodnih simbola u polazni alfabet).

Primjer 3.3.1. Kod (kodno pravilo) dat tabelom je singularan

S ş1 s2 s3 s4X 0 01 11 01

Primjer 3.3.2. Neka je D, i neka je crvena, plava, zelena, crna i ljubičasta . Neka je kod C(crvena)=1, C(plava)=11, C(zelena)=0, C(crna)=01, C(ljubičasta)=10. Pretpostavimo da

5

imamo sekvencu simbola zelena crvena crna ljubičasta koja je kodirana sa 010110. Da li se ova sekvenca može jedinstveno dekodirati na prijemniku?

Prethodni kod predstavlja primjer nesingularnog koda koji nije jednoznačno dekodabilan. Znači nesingularnost je potreban ali ne i dovoljan uslov za jednoznačno dekodiranje.

Primjer 3.3.3. Neka je slučajna promjenljiva sa sljedečom distribucijom i kodom , , , , , i , . Entropija ove sekvence je 1.75. Toliko je jednaka i prosječna dužina

kodne riječi. Ova se sekvenca može na jedinstven način dekodirati.

Primjer 3.3.4. kodna riječ , kodna riječ , kodna riječ , kodna riječ Ne može se

razlikovati kod i .

Definicaja 3.3.2. Za kodnu riječ se kaže je nesingularna, ako se svaka riječ u preslikava u različito D*, tj. ako je da je .

Definicija 3.3.3. Proširenje koda koda je preslikavanje stringa konačne dužine iz u string konačne dužine iz , gdje je na desnoj strani izraza označeno nadovezivanje stringova.

Primjer 3.3.5. Ako je i tada je .

Definicija 3.3.4. Za kod se kaže da se može na jedinstveni način dekodirati, ako mu se na jedinstveni način može dekodirati proširenje .Grubo rečeno, ako imamo string koji sadrži kodne riječi mi bi morali da znamo gdje koja kodna riječ počinje i završava. Recimo, sekvenca iz prvog primjera ne zadovoljava ovaj uslov. Na primjer 0110 može biti tumačena kao {crna, ljubičasta}, {zelena, plava, zelena}. Postoje i takvi kodovi koji se mogu na jedinstveni način dekodirati, ali da bi se izvršilo dekodiranje dekoder mora da gleda i unaprijed i unazad da bi odredio jedinstvenu sekvencu. U cilju pojednostavljenja hardvera dekodera treba ovakve situacije izbjegavati koliko je god to moguće.

Definicija 3.3.5. Kod se naziva prefiksim ili trenutnim ako nijedana kodna riječ nije prefiks nijedne druge kodne riječi. Ovakvi kodovi se mogu dekodirati bez “gledanja unazad“.

Primjer 3.3.6. Naredna tabela prikazuje tri različita koda za slučajnu promjenljivu :

Kod 1 Kod 2 Kod31 0 10 02 010 00 103 01 11 1104 10 110 111

Pogledajmo primjer koda 2: Ako su prva dva bita 11 trebamo pogledati naredni bit i ako je 1 onda je to početak nove kodne riječi, a ako je 0 onda je to kraj tekuće kodne riječi ili početak kodne riječi 00. Suprotno tome kod 3 nema ovaj problem. Ovaj kod se naziva i koma kod jer 0 predstavlja kraj kodne riječi ili se do kraja kodne riječi stiže nakon tri bita. Šta se dešava kod koda 1?

Teorema 3.3.2. Trenutni kod definisan na alfabetu veličine sa kodnim riječima mora zadovoljavati:

Dokaz. Pretpostavimo da je kod kreiran kao kodno stablo, gdje je put od korjena do listova kodna sekvenca i neka svaki list eliminiše prethodne čvorove kao moguće čvorove (to znači da prefiks

6

posmatranom kodu ne može biti kodni simbol). Neka je dužina najduže kodne riječi. Kodne

riječi na nivou ima potomaka na nivou . Ovo znači da kodna riječ na nivou eliminiše

kodnih riječi na nižim nivoima. Ukupan broj listova na nivou je . Sumirajući sve “eliminisane“ kodne riječi dobijamo:

Odavde slijedi da:

3.4. Grayov kod

Napravimo malu digresiju u odnosu na ostatak priče i uvedimo prvi kod koji nema neke velike veze sa ostalim kodovima koji će biti uvedeni u ovom kursu, ali zbog njegove upotrebljivosti biće ovdje definisan. To je Grayov kod, koji pripada klasi specijalnih kodova. Polazi od posmatranja nekog stanja reprezentovanog binarnim stanjima. Svaka promjena datog stanja treba da se reprezentuje sa jednom promjenom bita u binarnom stringu. Ovo je veoma pogodno za praćenje promjena koje se događaju kod kontinualnih varijabli, koje su diskretizovane i pretvorene u binarni zapis. Ne postoji jedinstvena strategija za realizaciju ovog koda (osim kod dužina kodne riječi 2 i 3) i ovdje ćemo demonstrirati jednu moguću strategiju. Najčešće se prvi bit u sekvenci ostavi isti. Zatim se svaki sljedeći kodira kao gdje je operator ekskluzivno ili. Tako se sada 7 i 8 kodiraju umjesto 0111 i 1000 kao 0100 i 1100, odnosno razlikuju se za samo jedan bit. 4-bitni kod je sada

Standardni 0000 0001 0010 0011 0100 0101 0110 0111 1000 1001 1010Grayov 0000 0001 0011 0010 0110 0111 0101 0100 1100 1101 1111Standardni 1011 1100 1101 1110 1111Grayov 1110 1010 1011 1001 1010

Operacija ekskluzivno ili nad bitovima će se u narednim koracima često koristiti, pa ćemo je od sada na dalje označavati prosto sa + vodeći računa da nije u pitaju ili već ekskluzivno ili operacija.

3.5. Optimalni kodovi

Pod optimalnim kodom podrazumijevamo onaj sa najmanjom prosječnom dužinom koda. To se tretira kao sljedeći optimizacioni problem: pronaći kod sa dužinama kodne riječi l1, l2, .., lm takav da je prosječna dužina kodne riječi:

što je moguće manja. Cilj je minimizacija prethodnog izraza pod uslovom da je zadovoljena Kraftova nejednakost:

Da bi se podjednostavilo razmatranje pretpostavimo sljedeće: (a) dužine kodnih riječi ne moraju biti cijeli brojevi (ovo je radi simplifikacije, a nije stvarna situacija) (b) Izraz na lijevoj strani Kraftove nejednakosti je jednak jedan (važi nejednakost). To dalje možemo da posmatramo kao Lagrange-ve množioce:

7

Uzmimo izvode po dužinama koda i izjednačimo sa nulom:

Zamjenom izraza u ogrničenje dobijamo:

Dalje se dobija da je optimalna dužina koda , pa je minimalna prosječna dužina kodne

riječi:

gdje je entropija kod koje je uzet logaritam sa osnovom D. U praksi dva uvedena ograničenja ne važe pa smo na ovaj način identifikovali donju granicu.

Vježbe za treći nastavni čas:

3.1. Dokaži teoremu 3.1.2.

Rješenje: 1. Uzmimo od definicije tipičnog skupa:

2. Po definiciji tipičnog skupa, po asimptotskoj ekviparticionoj osobini i definiciji konvergencije po vjerovatnoćama slijedi:

kada

Tada za bilo koje postoji , takvo da za svako važi:

Postavimo i dobili smo (2) teoreme.

3. Jasno je da važi:

4. Za dovoljno veliko , tako:

8

3.2. Dokažite teoremu 3.2.2.

Dokaz. Da bi dokazali predmetnu teoremu prvo dokažimo teoremu o “carskoj sredini”, koja kaže

ako i tada . Ideja je da ako je blisko to znači da srednja vrijednost

prvih brojeva u nizu teži takođe stoga što su prvi elementi sve manje i manje važni u srednjoj vrijednosti velikog broja elemenata.

Dokaz. Pošto to znači da za neko postoji tako da za . Ovo

je definicija konvergencije. Dakle:

Posljednja relacija slijedi na osnovu poznate nejednakosti trougla:

Prvi član u ovom izrazu teži nuli ako teži beskonačnosti. Naime, broj članova u sumi je ograničen, dok može da raste. Dakle, iz ovog se može lako zaključiti da se razlika između i a

može učiniti proizvoljno malom. Sada se može dokazati i jednakost .

Dokaz. Po lančanom pravilu slijedi

Poznato je da entropije imaju granične vrijednosti. Po carskoj sredini srednja vrijednost ima istu tu graničnu vrijednost, a koja je u ovom slučaju jednaka granici kondicionalne entropije:

3.3. Dokazati teoremu 3.3.1.

Rješenje: Očekivana dužina kodne riječi je:

gdje je

koje se može učiniti proizvoljno malim na osnovu izbora i izbora .

3.4. Dokazati sljedeću teoremu: Očekivana vrijednost dužine za svaki trenutni -arni kod za slučajnu promjenljivu zadovoljava: .

Dokaz.

9

jer je relativna entropija nenagativna i po Kraftovoj nejednakosti.

3.5. Posmatran je fajl sa podacima na engleskom jeziku. Broj pojavljivanja određenih simbola je:

a 4186 b 832 c 1589 d 2045 e 6103 f 1050g 947 h 2232 i 3785 j 134 k 456 l 2018m 1223 n 3702 o 3697 p 1079 q 51 r 3124s 3420 t 4450 u 1333 v 555 w 952 x 85z 855 z 64

Odrediti tipičnu sekvencu za predmetni model, ako se posmatra 100 karaktera teksta.

3.6. Posmatrajte model opisan prethodnim zadatkom. Pretpostaviti da je najčešće pojavljivanih simbola kodirano sa bita i prefiksom 1, dok je ostatak simbola kodiran sa ASCII kodom sa prefiksnim bitom 0. Koliko je bita potrebno za zapis originalne sekvence u ASCII kodu, kao i za zapis komprimovane sekvence, ako je . Ne treba voditi računa o mogućnosti dekodiranja predmetne poruke.

3.7. Posmatrajte tabelu na strani 2 ovog dodatka. Provjerite asimptotsku ekviparticionu osobinu za .

3.8. Pretpostaviti da je poznata entropija izvora H(X). Neka je nad alfabetom izvora primjenjena linearna transformacija i neka je na osnovu kodnog simbola x dobijen kodni simbol y=ax+b gdje su a i b konstante. Odrediti entropiju izvora y u zavisnosti od entropije izvora .

3.9. Razmotriti jednoznačnu dekodabilnost kodova kao i njihovu optimalnost ako su vjerovatnoća pojavljivanja pojedinih simbola P(s1)=1/2, P(s2)=1/4, P(s3)=1/8, P(s4)=1/8.

S (a) (b) (c)s1 00 0 0s2 01 10 01s3 10 110 011s4 11 1110 0111

10

teorija informacija i kodova (3.dio)

Documents