情報理論楫情報理論:楫勇(かじ勇一(かじゆうい...
TRANSCRIPT
情報理論 楫 勇 (かじ ゆういち)情報理論:楫 勇一(かじ ゆういち)
情報理論:情報理論:
C. E. Shannon によって創始された理論体系
情報伝達の効率と限界を議論する手段を与える情報伝達の効率と限界を議論する手段を与える
Claude E. Shannon
デジタル情報処理・通信の発達と二人三脚で発展してきた
1916-2001
離散数学を多用,デジタルシステムと高い親和性
画像・音声情報処理,通信・ネットワークの基礎を与える
必ずしも電子計算機やデジタル通信を意識した理論ではない
1人工知能,学習理論方面への応用も
情報伝達のモデル情報伝達のモデル
観測対象において なんらかのイベント e が発生する観測対象において,なんらかのイベント e が発生する
発生したイベントが,通信路に入力される
通信路の出力 e’ から 発生イベント e を推測する通信路の出力 e から,発生イベント e を推測する
通信路観測
e ?
’通信路観測対象
e’e
’ を知ることで 発生イベントに関する知識の量は増えるe’ を知ることで,発生イベントに関する知識の量は増える
知識量を増加させたものが「情報」である
(次回以降 も と厳密に議論を行う)(次回以降,もっと厳密に議論を行う)
2
モデルの汎用性モデルの汎用性
情報伝達の多くは 概念上 前スライドのモデルとして表現可能情報伝達の多くは,概念上,前スライドのモデルとして表現可能
「イベント」 「通信路の出力」:「イベント」 – 「通信路の出力」:
「野球の試合結果」 – 「友人からの速報メール」
「プログラムの出力」 「ファイルからの読み出しデータ」「プログラムの出力」 – 「ファイルからの読み出しデータ」
「明日の天気」 – 「天気予報」
「画像デ タ」 「JPEG圧縮デ タ」「画像データ」 – 「JPEG圧縮データ」
「敵軍隊の指令文書」 – 「盗聴で得た暗号文」
「イベント」「通信路」という言葉にとらわれ過ぎる必要はない
3
このモデルの約束事このモデルの約束事
観測対象の統計的性質は既知であるとする観測対象の統計的性質は既知であるとする
発生するイベントの種類,発生確率はわかっている
実際にどのイベントが発生するかは 事前に特定できない実際にどのイベントが発生するかは,事前に特定できない
例:コイン投げ...2つのイベント「表」「裏」が等確率で発生
通信路は,かならずしも正確でない
「入力=出力」の保証はないケ スも多い「入力=出力」の保証はないケースも多い
誤り,近似...入出力の統計的性質は既知であるとする
19.219.0 19
入出力の統計的性質は既知であるとする
表 表0.9
0.1
18.818.618.4
4裏 裏0.9
0.1 18.218.0 18
情報伝達における課題情報伝達における課題
小さなデータ量で 発生イベントを正確に伝えたい小さなデ タ量で,発生イベントを正確に伝えたい
どこまでデータ量を削減できる?
多少不正確でも良ければ データ量を減らせるか?多少不正確でも良ければ,デ タ量を減らせるか?
信頼性の低い通信路でも 情報を正確に送りたい信頼性の低い通信路でも,情報を正確に送りたい
誤りの影響を軽減するには?
性能改善の限界は?性能改善の限界は?
情報を できるだけ伝えないようにしたい情報を,できるだけ伝えないようにしたい
上記はすべて 情報理論がタ ゲ トとする課題上記はすべて,情報理論がターゲットとする課題
5
本講義の概要本講義の概要
第一部:情報の量を計る第 部:情報の量を計る
情報を計量可能にし,工学的な議論を可能にする
第二部:情報をコンパクトに表現する
情報に含まれるムダを削り 情報を圧縮する情報に含まれるムダを削り,情報を圧縮する
第三部:情報を正確に伝える第三部:情報を正確に伝える
通信途中で発生する誤りを検出し,訂正する
第四部:情報を不正者から隠す
いわゆる暗号技術の基礎について学ぶ
6
いわゆる暗号技術の基礎について学ぶ
講義計画講義計画
火2 木16
1320
81522
4月
20273
222965月 3
1118
61320
5月
251
2736月
6月3日...試験
講義日程の中間付近で,レポート出題予定
7講義資料...http://narayama.naist.jp/~kaji/lecture/
第 部 情報の量を計る第一部:情報の量を計る
目標:情報を計量可能にし 工学的な議論を可能にする目標:情報を計量可能にし,工学的な議論を可能にする
良い自動車を作りたい:良い自動車を作りたい:燃費の良い車を... 距離や燃料を正確に計ることが必要
スピードが出る車を 距離や時間を正確に計ることが必要スピードが出る車を...距離や時間を正確に計ることが必要
正確な計量ができなければ,精度の高い議論はできない
良い情報システムを作るには,情報を正確に計ることが必要
⇒第 部の具体目標 情報量の概念を導入すること⇒第一部の具体目標...情報量の概念を導入すること
8
情報源と通報情報源と通報
情報伝達モデル:「観測対象」で「イベントが発生」情報伝達モデル:「観測対象」で「イベントが発生」
イベントを文字,文字列で表現する...通報(message)と呼ぶ
「観測対象」と「イベントを通報に変換する仕組み」をあわせて「観測対象」と「イベントを通報に変換する仕組み」をあわせて
情報源(information source)と呼ぶ
観測対象
e抽象的な
変換 通報抽象的な「イベント」
注意点:
何を情報源と考えるかは,問題により異なってくる
観測対象は多種多様 (⇒次スライド)
9
観測対象 多種多様 ( 次 ライ )
情報源は,情報を発生しているのではない(通報 ≠ 情報)
観測対象の分類観測対象の分類
連続時間 (continuous time) vs 離散時間 (discrete time)連続時間 (continuous-time) vs. 離散時間 (discrete-time)連続時間:時間的に途切れることなく,イベントが発生し続ける
離散時間:決まった時刻に イベントが一個ずつ発生離散時間:決まった時刻に,イベントが 個ずつ発生
アナログ (analog) vs デジタル (digital)アナログ (analog) vs. デジタル (digital)アナログ:イベントは非可算(連続集合となる)
デジタル:イベントは可算(離散集合となる)デジタル:イベントは可算(離散集合となる)
4タイプ {連続時間 離散時間} × {アナログ デジタル}4タイプ:{連続時間,離散時間} × {アナログ,デジタル}⇒情報源の中の変換器で違いを吸収可能:標本化,量子化
10
標本化と量子化標本化と量子化
標本化 (sampling):標本化 (sampling):連続時間イベントを,離散時間イベントに近似する技法
特定の時刻に発生したイベントを抜き出す特定の時刻に発生したイベントを抜き出す
量子化 (quantization):量子化 (q )アナログイベントを,デジタルイベントに近似する技法
既定の代表値でもっとも近いものに置換える既定の代表値でもっとも近いものに置換える
11
本講義における「情報源」本講義における「情報源」
離散時間・デジタル的な振舞いをする情報源だけ考えれば良い離散時間 デジタル的な振舞いをする情報源だけ考えれば良い
情報源は 1 2 の各時刻に通報を一個発生する情報源は,1, 2, ....の各時刻に通報を 個発生する
通報は,離散集合M の要素のどれか
通報は| M |種類 | M |元(| M | ary) 情報源という通報は| M |種類...| M |元(| M |-ary) 情報源という
観測対象に関する約束より観測対象に関する約束より...同一の情報源でも,試行のたびに異なる通報を発生する
通報の確率分布が事前にわか ている通報の確率分布が事前にわかっている
12
情報源と確率情報源と確率
コイン投げを行い 表(H)か裏(T)かを通報とする情報源:コイン投げを行い,表(H)か裏(T)かを通報とする情報源:
時刻 1 2 3 4 5 6 7 8 ...試行試行1 H T T H T H T H ...試行2 T T H T H T H H ...試行3 H H T H T T H T
試行によって 通報の発生系列は異なる
試行3 H H T H T T H T ...
試行によって,通報の発生系列は異なる
時刻 t に発生する通報を,確率変数 Xt によりあらわす
時刻 t で通報 a が発生する確率 P(X = a) を P (a) と書く時刻 t で通報 a が発生する確率 P(Xt = a) を,PXt(a) と書く
結合(同時)確率 P(Xt1=a1, Xt2=a2) を PXt1, Xt2(a1, a2) と書く
条件付確率 P(X =a | X =a ) を P (a | a ) と書く
13
条件付確率 P(Xt2=a2| Xt1=a1) を PXt2|Xt1(a2 | a1) と書く
情報源の分類情報源の分類
コイン投げの結果 非常に単純な「無記憶」「定常」情報源コイン投げの結果...非常に単純な「無記憶」「定常」情報源
発生する通報は,それ以前に発生した通報と無関係
どの時刻でも 通報の発生確率は変わらないどの時刻でも,通報の発生確率は変わらない
世の中には もっと複雑な情報源もある 2種類の分類法世の中には,もっと複雑な情報源もある...2種類の分類法
分類法1:記憶があるか 記憶がないか分類法1:記憶があるか,記憶がないか
分類法2 定常か 定常でないか分類法2:定常か,定常でないか
14
記憶のない情報源記憶のない情報源
情報源に記憶がない(memoryless):情報源に記憶がない(memoryless):ある時刻の通報が,それ以前の通報とは無関係に選ばれる
⇒確率 P (a | a a ) の値が a a に依存しない⇒確率 PXt|X1,...,Xt–1(at | a1,..., at–1) の値が a1, ..., at–1に依存しない
⇒定数 PXt (at) が存在し,PXt|X1,...,Xt–1(at | a1,..., at–1) = PXt (at)
コイン投げは,記憶のない情報源である
M = {H T}M = {H, T}任意の t, 任意の a1, ..., at–1M,任意のatM に対し,
P ( | ) P ( ) 1/2PXt|X1,...,Xt–1(at | a1,..., at–1) = PXt (at) = 1/2
15
記憶のない情報源と記憶のある情報源記憶のない情報源と記憶のある情報源
記憶のない情報源では記憶のない情報源では,
t
itXttXtX aaa
11,...,1 )(P),...,(P
i 1⇒確率分布の計算が容易
⇒シンプルで扱いやすい情報源である
記憶のない情報源以外の情報源⇒記憶のある情報源
現実世界の多くの情報源は,「記憶のある」情報源
例:英文では,文字 q の次は u の出現確率が著しく高いq確率分布の計算も困難で,扱いにくい情報源
通報に相関がある分,圧縮できる余地が大きい
16
通報 相関 ある分, 縮 る余 大
⇒第二部での議論
定常情報源定常情報源
定常(stationary)情報源:定常(stationary)情報源:
時刻をシフトしても,通報の確率分布が変わらない情報源
⇒任意の i に対して P (a a ) = P (a a )⇒任意の i に対して PX1,...,Xt (a1,..., at) = PXi,...,Xi+t–1 (a1,..., at) ⇒ t = 1 のときを考えると,PX1(a1) = PXi(a1)...定常確率 P(a1)
通報の発生確率は どの時刻でも変化しない通報の発生確率は,どの時刻でも変化しない
時刻 1 2 3 4 5 6 7 8 ...試行1 H T T H T H T H
コイン投げは定常情報源
定常でない情報源の例
試行1 H T T H T H T H ...試行2 T T H T H T H H ...試行3 H H T H T T H T ...
定常でない情報源の例...電話での発声:
「もしもし」から始まることが多い P (も) P (も)
::
17
「もしもし」から始まることが多い:PX1(も) > PX2(も)
小休止 ここまでのまとめ小休止:ここまでのまとめ
情報源の分類情報源の分類
離散時間アナログ的連続時間アナログ的 標本化
離散時間デジタル的連続時間デジタル的 標本化
量子化 量子化
離散時間デジタ 的連続時間デジタ 的
定常 非定常
無記憶有記憶
コイン投げ
自然言語
有記憶・定常な情報源無記憶・非定常な情報源
どのようなものがあるか?
18
どのようなものがあるか?
マルコフ情報源マルコフ情報源
第二部以降の議論 記憶のない定常情報源が中心となる第二部以降の議論...記憶のない定常情報源が中心となる
実用上は,記憶のある情報源も重要
記憶のある情報源の一例として,マルコフ情報源について紹介
m 重マルコフ (m-th order Markov) 情報源:
通報の発生確率が 直前 個より前の通報には依存しない通報の発生確率が,直前m個より前の通報には依存しない
任意の時刻 i, m より大きな任意の n に対し,
P ( | ) P ( | )PXi|Xi–1, ..., Xi–n(ai | ai–1, ..., ai–n) = PXi|Xi–1, ..., Xi–m(ai | ai–1, ..., ai–m)
記憶のない情報源 0 重マル フ情報源
19
記憶のない情報源 = 0 重マルコフ情報源
マルコフ情報源の例マルコフ情報源の例
P(0) = q P(1) = 1 – q である 無記憶定常情報源 S を使ってP(0) = q, P(1) = 1 – q である,無記憶定常情報源 S を使って...
S Xi
R1ビット記憶素子 は排他的論理和
直前の通報 Xi–1= 0 なら,R = 0 となっているはず...S の出力が 0 なら Xi = 0 ⇒ PXi|Xi 1(0 | 0) = q
排他 論 和
S の出力が 0 なら,Xi 0 ⇒ PXi|Xi–1(0 | 0) qS の出力が 1 なら,Xi = 1 ⇒ PXi|Xi–1(1 | 0) = 1 – q
直前の通報 Xi 1= 1 なら,R = 1 となっているはず...直前の通報 i–1 なら, となっているはず...S の出力が 1 なら,Xi = 0 ⇒ PXi|Xi–1(0 | 1) = 1 – qS の出力が 0 なら,Xi = 1 ⇒ PXi|Xi–1(1 | 1) = q
20
i Xi|Xi 1
この情報源は,1重マルコフ情報源(単純マルコフ情報源)
マルコフ情報源と状態図マルコフ情報源と状態図
n 元 m 重マルコフ情報源n 元 m 重マルコフ情報源
直前 m 個の通報により,次の通報が決定
情報源の内部に nm 通りの内部状態が存在 と考えられる情報源の内部に nm 通りの内部状態が存在,と考えられる
各状態について,通報の発生確率が定義される
通報の発生にともなって 状態の遷移が起こる通報の発生にともなって,状態の遷移が起こる
1 / 1–qXi / 確率
P(0) = q0
P(0) = 1–q1
0 1
1 / 1 q
0 / q 1 / qP(1) = 1–q P(1) = q
前ページの情報源の状態図
0 / 1–q
少し違う書き方
21
前ペ ジの情報源の状態図 少し違う書き方
状態図による情報源定義状態図による情報源定義
マルコフ情報源 必ず状態図として表現できるマルコフ情報源...必ず状態図として表現できる
状態図は必ず,なんらかのマルコフ情報源と対応するか?
⇒対応しないこともある⇒対応しないこともある
マルコフ情報源は,状態図により表現される情報源の真の部分クラスである真の部分クラスである
だ あ 厳密 議論す な う も多ただし...あまり厳密に議論する必要なし,というケースも多い
状態図により表現される情報源:
(一般化(generalized))マルコフ情報源と呼ぶことも
22
マルコフ情報源の分類マルコフ情報源の分類
既約(irreducible)マルコフ情報源既約(irreducible)マルコフ情報源
任意の状態から任意の状態に遷移可能なマルコフ情報源
00
1 2左は既約でないマルコフ情報源状態 1 からは,状態 0 や 2 に遷移できない1 2 状態 らは,状態 や 遷移 きな
正規( l ) ル 情報源正規(regular)マルコフ情報源
どの状態からスタートしても,十分な時間が経過した後には,
状態確率分布が じ値 収束する既約 情報源状態確率分布が同じ値に収束する既約マルコフ情報源
23
正規マルコフ情報源の例正規マルコフ情報源の例
0/0 9 1/0 1 状態 0 から状態 1 へは遷移しにくい
0 1
0/0.9 1/0.1 状態 0 から状態 1 へは遷移しにくい
状態 1 から状態 0 へは遷移しやすい
初期状態が 0 でも 1 でも 十分な時間0/0.8 1/0.2
初期状態が 0 でも 1 でも,十分な時間
経過後は状態 0 に居る確率が高い?
状態 0 からスタ ト
時刻0に居る確率
11.0
20.9
30.89
40.889
...
...
状態 0 からスタート
これらの確率は,
1に居る確率 0.0 0.1 0.11 0.111 ...
状態 1 からスタート同じ値に収束する
定常確率分布
時刻0に居る確率1に居る確率
10.01 0
20.80 2
30.880 12
40.8880 112
...
...
状態 1 からスタ ト
24(stationary prob. dist.)
1に居る確率 1.0 0.2 0.12 0.112 ...
定常確率分布の計算法定常確率分布の計算法
時刻 t で状態 0 に居る確率:時刻 t で状態 0 に居る確率:t
時刻 t で状態 1 に居る確率:t
収束時には 以下の式が成り立つ0 1
0/0.9 1/0.1
収束時には,以下の式が成り立つ
t+1 = 0.9t + 0.8t
0 1 + 0 2
0 1
0/0.8 1/0.2t+1 = 0.1t + 0.2t
t+1+ t+1= 1
t, t が, に収束する場合, t+1=t=, t+1=t=とし,
= 0.9 + 0.8 = 0.1 + 0.2+= 1
この連立方程式を解いて,=8/9, =1/9
25
より 般的な場合の計算法より一般的な場合の計算法
確率分布ベクトルを w = (w w )とする確率分布ベクトルを w = (w0, ..., wn–1)とする
(n は状態数,wi は,状態 i に居る確率,w0 + ... + wn–1= 1)状態遷移行列を =(p )とする状態遷移行列を =(pi,j)とする
( i 行 j 列目の要素 pi,jは,状態 i から状態 j への遷移確率)
定常確率分布は w = w Σw =1の解として与えられる定常確率分布は,w = w,Σwi=1の解として与えられる
0.3 0.3 0.3 0.4
0 10.30.4
(w0 w1 w2)=(w0 w1 w2) 0.4 0.0 0.60.0 1.0 0.0
w + w + w = 1 0
20.4
0.61.0 w0 + w1 + w2 = 1.0
これを解いて
26(遷移確率のみ表示) w0 = 40/168, w1 = 70/168, w2 = 58/168
正規マルコフ情報源正規マルコフ情報源
正規マルコフ情報源:正規マルコフ情報源:
十分な時間経過後は,定常情報源とみなすことができる
0 1
0/0.9 1/0.1
定常確率分布は w = 8/9 w = 1/90 1
0/0.8 1/0.2定常確率分布は,w0 = 8/9, w1 = 1/9
0 の定常確率 P(0) = 0.9w0 + 0.8w1 = 0.8891 の定常確率 P(1) = 0.1w0 + 0.2w1 = 0.1111 の定常確率 P(1) 0.1w0 0.2w1 0.111
以上の議論を踏まえ,「記憶」が情報量に影響することを示す
27⇒次回講義
本日のまとめ本日のまとめ
様々なタイプの情報源があることを紹介した様々なタイプの情報源があることを紹介した
自分が扱おうとしている対象がどれに相当するのか,
「対象を知る」ことが非常に大切「対象を知る」ことが非常に大切
記憶のある情報源は 一般には複雑で扱いが難しい記憶のある情報源は,一般には複雑で扱いが難しい
マルコフ情報源等,適切なモデルにより近似を
次回の講義では...情報「量」を導入する
28
練習問題練習問題
無記憶・非定常な情報源を一つ例示せよ無記憶 非定常な情報源を つ例示せよ
以下のマルコフ情報源について,
状態の定常確率分布を求めよ状態の定常確率分布を求めよ
通報 A, B の定常確率を求めよ
0A/0.4 A/0.5 B/0.6
1 2B/0.2
A/0.8 B/0.5宿題,レポート課題ではありません
29
解答例は次回講義冒頭で
情報基礎学講座(関研)講座紹介情報基礎学講座(関研)講座紹介
本日・明日の4限(15:10--),B507の部屋にて
その他の日時も,随時受付中
メイルで連絡 kaji@is naist jp まで連絡メイルで連絡 [email protected] まで連絡
オフィスB505まで直接訪問
講義資料 htt // i t j / k ji/l t /講義資料...http://narayama.naist.jp/~kaji/lecture/
30