匿名化の崩壊

匿名化の崩壊

中川裕志

(東京大学)

http://www.r.dl.itc.u-tokyo.ac.jp/node/43/

あらましのあらまし

• パーソナルデータのデータベースは個人ＩＤ＋多数の属性値というレコードからなります。

• 属性値には購買した品物、特定の場所の滞在履歴や移動履歴、評価した商品（映画など）があります。

• 個人ＩＤを消して匿名化していても、少数の属性値が攻撃者に知られるだけで、個人識別ができてしまいます。

• 稀(rare)な属性値が知られると非常に危険です。

• こういった直感をモデル化して数量的に評価した話です。

• Netflixの映画評価データベースを使った公開タスク事件：

Narayanan, A., Shmatikov, V. (2008) Robust De-anonymization of Large Sparse Datasets, Proc. of the 2008 IEEE Symposium on Security and Privacy, 111-125

という論文が以下のような匿名性の崩壊現象を示しました。

このデータベースは、５０万人のユーザがのべ１億件の映画評価を行ったデータベース。１人あたり８本を評価したデータで評価実験タスクが公開され、参加者が募集されました。

評価した日が３日程度誤差があるとすると

• ２本の映画評価が知られると、６０％のユーザが識別され、

• ４本の映画評価が知られると９０％のユーザが識別されます

– 識別とは個人を特定できないが、同一人物のデータだと認識された状態であり、外部のデータと突き合わせると個人特定につながりやすい

• これによって、Netflix公開タスクは中止に追い込まれました。

あらまし Narayanan2008:Robust De-anonymization of

Large Sparse Datasets

あらまし Narayanan2008 （続き） • さらに、個人名まで入った映画評価データベースInternet Movie

Database (IMDb)と突き合わせると、容易に個人特定に至ります。(次のスライドの図を参照してください）

• この論文では、攻撃者が、個人についてわずかな情報を知っているだけで、Netflixの映画評点データベース、（あるいはそのサンプルからなるデータベース）の個人データを特定できてしまうことを示しています。恐怖）

– あるいは、少数の候補者グループに高い確率で絞り込めます。

• さらにデータがスパース、すなわち個人のデータは量が少ない場合も分析していますが、それでも匿名化は高い確率で破られます。

• つまり、予想を遙かに超える容易さで匿名化が崩壊することを示しました。

あらまし（ポンチ絵）

個人ＩＤ＼映画評点 (匿名化）

映画１映画２・・・・映画M

太郎（個人１） 1 2 ・・・・ 5

次郎（個人2) 1 null ・・・・ 5

・・・・・・・・・・・・

映画評価データベース：Netflix

個人ＩＤ＼映画評点映画１映画２・・・・映画M

太郎 1 2 ・・・・ 5

次郎 1 null ・・・・ 5

・・・・・・・・・・・・

個人名付き映画評価データベース：ＩＭＤｂ

①少数でもこの評価点が分かると

②こちらの評価点も推定できる識別しやすくなる

③個人１，２が同じグループと絞り込め、識別しやすくなる

④個人１＝太郎だと特定される

あらまし Merener2012：Theoretical Results on De-

Anonymization via Linkage Attacks

• 2012年にNarayanan2008論文の弱点を改善と拡張が以下の論文で発表されました。 Martin M. Merener：Theoretical Results on De-Anonymization via

Linkage Attacks, TRANSACTIONS ON DATA PRIVACY 5 (2012) 377–402

• この論文では、 Narayanan2008がうまくいかない簡単な例を示しました。

• その上で、

• 評価点が個人データ保護のために雑音を加算された場合も検討しますが、やはり匿名性は崩壊しています。 – 雑音加算によりk-匿名化のような方法も扱えます。

Merener(2012)あらまし(続き)

• さらに、まれにしか起こらない属性の値を攻撃者が知っている場合をいわゆるロングテール現象としてモデル化します。

まれにしか起こらない属性の値が知られるということは、その属性に値を与えた人（＝レコード）は攻撃者に識別されやすくなります。したがって、以下に示すように匿名化を破られる確率が急激に悪化します。

• 具体例

1. Ｎｅｔｆｌｉｘ映画評価データ 48万レコードのデータベースで、nullではない17個以上の属性値が知られると、 84%以上の確率で匿名化が崩壊し、識別されてしまいます。

1. Joint Canada/United States Survey of Health (2004), Statistics Canada,

Identification number jcush 82M0022 E 2004. • データベースの属性数＝353個、レコード数＝約8600 • 攻撃者が値を知っている属性数＝42 で匿名化崩壊の確率＝9% • 同上＝57 同上＝71% • 同上＝77 同上＝87%

応用

• 以上で紹介した論文では、データベースの属性はユーザ個人の見た映画の評価点でした。

• しかし、この論文では、個人データの構造は – （個人ＩＤ、疑似ＩＤ（住所など）、機微情報など）ではなく – （個人ＩＤ、映画1の評価点，映画2の評価点， …..）でした。

– ここで、映画iの評価点を

「滞在位置」や「場所:A から場所:Bへの移動」などの移動履歴に置き換えると、

• 個人の移動履歴データがどのくらい攻撃者に知られてしまうと、個人識別や特定がされてしまい、危険なのかを評価できます。

今後の研究課題ですが、移動履歴、位置情報の匿名性の崩壊はパーソナルデータ利活用の場面で重要な知識となります。

ここから先は数学的なモデルの話になりますので、ここで引き返すのも一つの手です。

Narayanan2008:Robust De-anonymization of Large Sparse Datasets

• この論文で示された技術的内容、数学的モデルを以下に示します。

• 定理の証明は原論文に譲ることにします。

モデル化:データベース

• データベース 𝐷：N×M行列匿名化された場合は𝐷 • 横方向は属性（映画:x）、縦方向は個人(r) • nullの場所は評点なし。 • 個人rに属性で評点の入っている部分をsupp(r)と書きます

• 属性i (この場合は映画i)からみたsupp(i)はiに評点を付けている人の集合です

個人ＩＤ＼映画評点映画１映画２・・・・映画M

太郎（個人１） 1 2 ・・・・ 1

次郎（個人2) 3 null ・・・・ 5

・・・・・・・・・・・・

九郎（個人N) null 4 ・・・・ 1

モデル化:類似度、スパース性

rrrrSim

DrrD

SimXX

rr

rrSimrrSim

Nteflixrr

rrrrrr

Sim

i ii

MM

;,Pr

,sparse,:database :Sparsity

)2.2(suppsupp

,,

,

)(),(2

r

21

2121

21

2,212,1,111

しとは以下で定義。ただが

数例えば、同じ値の要素

。の定義はいろいろある属性間のの要素数、右辺分子のは

　　　　　

に対してコードですでは個人に対応するレはレコード

個のレコードデータベースの

　類似性

εより類似したレコードはほとんどでない（確率δ以下）

モデル化

• 攻撃者(advesary)は、レコードrに関してsupp(r)を構成する属

性値の一部分に雑音加算したり摂動したりしたデータが与えられます。これを用いて、 𝑟の真の値を獲得しようとします。

– 攻撃者が 𝑟 に関して持つ確率分布や属性値が近接するレコードなどの知識を𝐴𝑢𝑥 𝑟 と書きます。

• プライバシー侵害(privacy breach)は再識別(deanonymize)によって数学的に定義されます。

rrSimA

r

rAuxDA

D

,Pr

output

,input:

eddeanonymiz,

が存在し　　というアルゴリズム

は

　とは

が

r‘ にθ以上類似したrが高い確率ωで得られる

null outputs Pr thenˆIf

,Pr as such outputs thenˆIf

eddeanonymiz,ˆ

breach)(privacy プライバシー侵害

ADr

rrSimrADr

Arr

rAuxrr

DD

　　

　　

成立が存在し以下の２つがムを生成するアルゴリズから

」を持つとき、についての知識と「攻撃者が

のときがータベースの任意の部分集合のデ

　

rに類似したレ

コードが見つからない確率がωより大きい

以下で解決したい問題は攻撃者がどのくらい多くの情報(aux)を持っていれば、プライバシー侵害が可能か？です。

匿名化を破るアルゴリズム de-anonymize algorithm

1. データベース𝐷の第i属性に関して攻撃者が持っている知識𝑎𝑢𝑥𝑖を用いて次のスコアを計算：

𝑆𝑐𝑜𝑟𝑒 𝑎𝑢𝑥, 𝑟′ = 𝑚𝑖𝑛𝑖∈𝑠𝑢𝑝𝑝 𝑎𝑢𝑥 𝑆𝑖𝑚 𝑎𝑢𝑥 𝑖 , 𝑟′𝑖

ただし、𝑎𝑢𝑥 = 𝑎𝑢𝑥𝑖

2. 攻撃者は自分の持つ知識𝑎𝑢𝑥を用い、予め決められた定数𝛼に従って、マッチング集合𝐷′ = 𝑟′ ∈ 𝐷 |𝑆𝑐𝑜𝑟𝑒 𝑎𝑢𝑥, 𝑟′ > 𝛼 を計算

3. 𝐷′の要素を𝑆𝑐𝑜𝑟𝑒の高さ順に高い確率になるような確率分布を決める。（簡単には一様分布でもよい）この分布の上位をde-anonymizeした結果とする。

いよいよ匿名化崩壊の定理 • 前提：

– 攻撃者はrに関して𝑚 = 𝑎𝑢𝑥 個の属性値を知っているとする。

• 定理１

Nm

rrSim

D

auxrauxSimrri

Nmr

ND

iiii

log

11,'Pr

zeddeanonymai1,1

1,supp

1log

log

1,0

が小さいと、注：

注：つまり、

は　

攻撃者は知っている。

を　である属性値：

個に関して　の属性のうち　

とする。。個のレコードからなるはデータベース

εが小さくなるほど①r,r’が類似 ②大きなmが必要

定理１の補遺 • 証明はNarayanan2008を参照してください。

• 証明には次のLemmaが重要です。

る□のだという仮定に反すに対応しない誤ったもがとなり、

、に対応する仮定するとはを否定する、つまり

　　　　　　

ではない）　　　　　（すなわち

い誤ったレコード生成されたものではな

からによってがアルゴリズム　　

rr

rrSimrrSim

rr

rrSim

rrA

rArLemma

iiri

'

111,11,Pr

Lemma1

Proof

11',Pr

'

' 1

rsupp

δが大きくなると低い類似性でもr’がrに類似していると判断：（甘い判断）

　　　　　　　　□は存在する。　　　　わち一つは正しいものすな

のなかに少なくともが生成しただから、アルゴリズムなお、

である確率はの逆により、正しい

率はを一つも生成しない確誤った

を生成する確率は誤ったがよりアルゴリズム

たかだか個以上出現する確率はがったデータベース全体で誤

　　である確率はたかだかより誤った

定理１の

r

rArrSim

r

r

rAN

Nm

Nr

r

m

m

m

1,

1Lemma1

1

1

1log

log

11

1Lemma1

Proof

スパースなデータベースの場合

定理２

11,Przeddeanonyumi1,1

;1,Pr

,1

,,

r

rrSimD

rrrrSim

sparseD

aux

すなわちは

なら

すなわちがデータベース

は定理１と同じ前提。

Dがスパースで非常に類似したデータペアｒ、ｒ‘が存在するなら、

高い確率(1-ε）で匿名化が破られるスパースなほど匿名化が破られやすいという直感的に正しい結果が得られている。

なぜなら、、1個のデータの値が知られたとき、他の類似データで隠せないから。

k-匿名化とのアナロジー

k

rrSimk

D

k

k

k

N

mk

rrk

rrSim

sparsekk

D

auxk

11,Preddeanonymiz

1,1

/1

1

1log

1log

11;

1,Pr

11,

1

,,1

11

r

すなわちは

ード数の期待値は正しく識別できたレコ

コード数はり、誤って識別するレ定理１と同じ議論によ

ならでさらに

すなわちがデータベース

してみるとは定理１と同じ前提と　　で定理

k-匿名化として理解できる

サンプリングして作ったデータベースの場合

• サンプリングで作ったデータベースの場合も定理１と同じようなことがいえ、けっこう脆弱。

　　

ができる以上の確率で知ること　　　　　　

中に存在しないことをに一致するレコードが攻撃者は

る以上の確率で発見でき　　　　　　

中からに一致するレコードを攻撃者は

合：の値を知ろうとした場つまり、攻撃者が

は

とするとき、ったデータベースをからサンプリングで作

。は定理１と同じとする

定理

1

ˆ thenˆ If

1

ˆ thenˆ If

eddeanonymiz1,1ˆ

ˆ

,,

4

DrDr

DrDr

r

D

DD

aux

Merener2012：Theoretical Results on De-Anonymization via Linkage Attacks

• 基本的にはNarayanan2008の記法、定理を踏襲します。

• まず、定理１が成立しない場合：

• レコード数＝105、属性数＝200、

ε=0.25、δ=0.125

• 類似度 Sim は max(1-|a-b|,0)

• データベースD,D’は次のページに記載します

11,'Pr

1,1

supp1,

1log

log)(

1

125.0

0.75175.0, , 1 25.0

25.0225.02

25.0225.02

75.175.1

75.175.1

75.075.0

75.075.0

22

5.025.02

22

5.15.1

11

5.05.0

rrSim

zeddeanonymaiD

rirauxSim

r

NmauxrAux

rrSimDrDrNi

NN

NN

D

NN

NN

D

ii

つまり、

　は　

を満たす属性値　かつ

、からランダムに選ばれランダムに

個の　　　　　　　

再掲　定理

なので＝

　　　

１は成立しない。が矛盾。よって、定理

　　でしたがって、

ードの場合も同じ。　　　これは他のレコ

率で推測される。個で、攻撃者に同じ確の可能性のある候補は次

であるときであるとすると、

より　定理

なので＝に対して、前ページの

))((

)(5.05.0,Pr2001

2,...,2,5.1,...,5.1

2

75.1,...,75.12,...,2

)(75.025.01625.0,Pr125.025.01,Pr

6.96125.01log

25.010log1

175.0, ,1

25.0,

5

ba

brrSimm

rr

arrSimrrSim

m

rrSimDrDrNi

DADD

以下では、この問題点を訂正した方法を示す。

Narayanan2008論文の改善

• 以下では、Narayanan2008の定理1の問題点の改善策を示します。

– 基本的定義から見直します。

3.2suppsupp

suppsupp,

2.2suppsupp

,,

supp1.2suppsupp

,:,

, thenor that such , if

similar-h

similar-h

yx

yxyxSim

yx

yxSimyxSim

nullrryx

yxSimiyxSim

hddSimnullDdnullDdji

DD,

i ii

ii

ijijijij

でない部分の要素では注

類似度

　　

という。条件を満たすときは同じ大きさで以下のデータベース

定義：

supp

,,| ,ˆ :Output

supp'supp, that such :Input

ˆ

　　　　が最小であるもの　　　の要素のうち

は集合

と書く　　　　　＊ここで

されたレコードでは　　

匿名化アルゴリズム　

ii yrSimsiDyDrA

ms

srrsDrr

A

pDrDrSim

mDr

mp

mpAD

pNmSim

mpAD

pNmSim

SimDD

,Pr

supp max

zeddeanonyumi,,

zeddeanonyumi,,outputˆ then

121log

1log2.2 if 2

zeddeanonyumi,,outputˆ then

21log

1log1.2 if 1

1similar21,

008Narayanan24

1

り立つことである。であるとき、下式が成

とは、ここで

はのに対するアルゴリズム

　ただしで定義され、かつが

はのに対するアルゴリズム

で定義され、かつが

立つ。このとき、以下が成り

とする。が三角不等式を満たすで、が

の定理１の改訂版です　　定理

ができる。」個の属性値を知ることコードの攻撃者はさらにそのレ

るなら、個の属性値を知っていランダムに選んだ

んだレコードの全体と、ランダムに選で「攻撃者が確率

の場合属性数

定理４の具体例

の下界が定理１では

ことが三角不等式を満たす定理４では

が

４の差異はすると、定理１，定理

で同じ内容は

このとき、

となる

るを使った場合に代入すを定理４のにしているので、これを定理１の

の対応になるは定理１の記法と以下定理４の

27

29

99.0

35.0,160,99.01,10

11log

log3

12

simliar2/1 simliar 1,1

eddeanonymiz,1,1 eddeanonymiz,,

121log

log

21log

1log

)2.2()2.2(

1,1:,

6

D

pN

Nmm

Sim

DD

mmpD

Nm

pNm

Sim

pp

定理４とNarayanan2008の定理１の関係

eddeanonymiz,21ˆ then

21log

log)2.2( if

similar21,,

8

Pr

eddeanonymiz,perfectly supp

mperfectlyDA

NmSim

Sim

DDsparseD

prrDr

ArD

mpDmD

にに対しては

式であり、が

。とき、以下が成り立つが三角不等式を満たす

であり、がで、が

定理

　

を持つことである。ムを生成するアルゴリズから次式を満たす攻撃者が

とは、に対してであるとき、が

定義　

する。で完全に匿名化が崩壊すなわち確率

が知れば、個以上の属性を攻撃者

のうち、つまり、全属性

であるとで、　すなわち　

データベースの場合、のの場合、定理

　　　とするは　属性毎の

た例データベースに適用しを定理

0.84

edeanonymiz)84.0 ,1(17

770,1703.175.025.1log

08.0000,480log

08.0,25.084.02108.0

000,4808

0

if1,

Netflix8

m

sparse

NetflixN

otherwise

babaSimSim

Ｓｐａｒｓityに関する定理の改善

prrDr

ArD

mpDmD

qDDSimKjNjqSimD

jDDNK

jk

j

Pr

eddeanonymiz,perfectly supp

,:,1Prsparse,

],1[ :Sparsity

　

を持つことである。ムを生成するアルゴリズから次式を満たす攻撃者が

とは、に対してであるとき、が定義（再掲）　

かつであるとは、に関してが

行とする。の第をんだ値とする。区間からランダムに選を定義

である。に対してとは

が成立するならこのとき、

とする。はさらに、

であるとする。に関してとはアルゴリズム

があるとき、に関する）仮定条件に関するあるとする。

定理

eddeanonymizperfectly'

sparse,

eddeanonymiz,,'

',,(',

7

qpDAD

H

qD

mpDSimA

HDDmDDqp

ロングテールの情報が知られた場合の危険性

い。の図を参照してくださ直感的には次のページ

。データベースとします

なる個は含むレコードからな属性を少なくとも希少番目より

ではない属性がに入っているのすなわち、

。データベースとします

るであるレコードからなをそこで、

この定義によれば、

　　ただし、　　　　

とはがスの大きさのデータベー定義：

します。の降順に並んでいるとの大きさ、すなわち属性は

します。つまり個人）の集合とでないレコード番号がは属性

1)(

null)supp(

supp

supp

1,0supp

tail,

suppsupp

(supp

rareM

rr

riandMiiD

NiMi

NM

DMN

ii

nullii

レコード数

②ここより左側にはκN

個のレコードが含まれる

τM番目 M

属性（順位）

①この曲線の下の部分の面積が全レコード数Nに対

応

④この部分に入っている属性でsuppされているレコードはrareなデータでsuppされているので、

攻撃者に識別されやすく、匿名化が崩れやすい

③τMより右側のテール部分の属性にも少なくとも1

個はsuppされているレコードの集合がD>τ

ロングテールの情報が知られた場合の危険性続き）

　は

性数とすると、が攻撃者に知られた属式の定義の場合、　なら、

は三角不等式を満たすで、がで、が

定理

）原論文を参照されたいになります。（証明は具体的には以下の定理

つまり

部分のデータに対しての

eddeanonymiz,,ˆ 21log

1log

)1.2(

1similar21,tail,

9

eddeanonymiz,,,Pr

1,Pr,tail

1

mpADpN

m

mSim

SimDDD

mpprrSim

prrSimDrMi

定理４と比べると、分子がNからκNと小さく

なっているので、匿名化が崩壊してしまいやすい、ということだ！

されやすい

知られてしまうと

攻撃者に評価していない評点が

しか部分のほうの少ない人

eddeanonymiz

tail

の大きさが最小のもののうちの要素

のがという属性で値を持つに対してただし、

アルゴリズム

suppsupp:,|ˆ:Output

supp,|:Input

ˆ

yysDyDsrB

rrsDrDsr

B

　にに対しては

。のとき以下が成り立つは

、、が

定理

eddeanonymiz,21ˆperfectly 21log

log

,

suppsuppsuppsupptail,

10

2121

mBDDN

m

sparseD

rrrrSimD

だ！する可能性があるわけの部分が匿名化が崩壊したがって、

となる。は全レコード中でによると、定理

されているので、だけで

属性個の映画多く評価されたのレコードがもっとも

であるが映画数）の場合、総属性数（例：

%97

%97 056.0 10

supp

)(1000%97

770,17

D

Netflix

他の匿名性評価法との比較

このスライドで説明したのは、 – 大元のデータベースDをアルゴリズムAで変換した結果データベース

D’ (すなわちA(D))が攻撃者に渡った場合の匿名性の崩壊の度合いの評価

一方、

サンプリング、k-匿名化、差分プライバシーの評価のSlideShare: – http://www.slideshare.net/hirsoshnakagawa3/samplimg-kanondp

– は、データベースD’ そのものは公開されず、攻撃者からの質問への回答でその内容を知ろうとされる場合の危険性の評価。

両者は異なる視点からの評価なので、同列に比較はできない。

これらの異なる評価法をプライバシー保護の観点から俯瞰できる評価手法を明らかにすることが今後の課題であると思われます。

http://www.slideshare.net/hirsoshnakagawa3/samplimg-kanondp





匿名化の崩壊

Data & Analytics