匿名化の崩壊
DESCRIPTION
パーソナルデータのデータベースは、「個人ID+多数の属性値」というレコードの多数集まったものです。 属性値には購買した品物、特定の場所の滞在履歴や移動履歴、評価した商品(映画など)があります。 個人IDを消して匿名化していても、少数の属性値が攻撃者に知られるだけで、個人識別ができてしまいます。稀(rare)な属性値が知られると非常に危険です。 こういった直感をモデル化して数量的に評価した話です。TRANSCRIPT
あらまし の あらまし
• パーソナルデータのデータベースは 個人ID+多数の属性値 というレコードからなります。
• 属性値には購買した品物、特定の場所の滞在履歴や移動履歴、評価した商品(映画など)があります。
• 個人IDを消して匿名化していても、少数の属性値が攻撃者に知られるだけで、個人識別ができてしまいます。
• 稀(rare)な属性値が知られると非常に危険です。
• こういった直感をモデル化して数量的に評価した話です。
• Netflixの映画評価データベースを使った公開タスク事件:
Narayanan, A., Shmatikov, V. (2008) Robust De-anonymization of Large Sparse Datasets, Proc. of the 2008 IEEE Symposium on Security and Privacy, 111-125
という論文が以下のような匿名性の崩壊現象を示しました。
このデータベースは、50万人のユーザがのべ1億件の映画評価を行ったデータベース。1人あたり8本を評価したデータで評価実験タスクが公開され、参加者が募集されました。
評価した日が3日程度誤差があるとすると
• 2本の映画評価が知られると、60%のユーザが識別され、
• 4本の映画評価が知られると90%のユーザが識別されます
– 識別とは個人を特定できないが、同一人物のデータだと認識された状態であり、外部のデータと突き合わせると個人特定につながりやすい
• これによって、Netflix公開タスクは中止に追い込まれました。
あらまし Narayanan2008:Robust De-anonymization of
Large Sparse Datasets
あらまし Narayanan2008 (続き) • さらに、個人名まで入った映画評価データベースInternet Movie
Database (IMDb)と突き合わせると、容易に個人特定に至ります。(次のスライドの図を参照してください)
• この論文では、攻撃者が、個人についてわずかな情報を知っているだけで、Netflixの映画評点データベース、(あるいはそのサンプルからなるデータベース)の個人データを特定できてしまうことを示しています。 恐怖)
– あるいは、少数の候補者グループに高い確率で絞り込めます。
• さらにデータがスパース、すなわち個人のデータは量が少ない場合も分析していますが、それでも匿名化は高い確率で破られます。
• つまり、予想を遙かに超える容易さで匿名化が崩壊することを示しました。
あらまし(ポンチ絵)
個人ID \映画評点 (匿名化)
映画1 映画2 ・・・・ 映画M
太郎(個人1) 1 2 ・・・・ 5
次郎(個人2) 1 null ・・・・ 5
・・・・ ・・ ・・ ・・・・
映画評価データベース :Netflix
個人ID\映画評点 映画1 映画2 ・・・・ 映画M
太郎 1 2 ・・・・ 5
次郎 1 null ・・・・ 5
・・・・ ・・ ・・ ・・・・
個人名付き映画評価データベース:IMDb
①少数でもこの評価点が分かると
②こちらの評価点も推定できる識別しやすくなる
③個人1,2が同じグループと絞り込め、識別しやすくなる
④個人1=太郎だと特定される
あらまし Merener2012:Theoretical Results on De-
Anonymization via Linkage Attacks
• 2012年にNarayanan2008論文の弱点を改善と拡張が以下の論文で発表されました。 Martin M. Merener:Theoretical Results on De-Anonymization via
Linkage Attacks, TRANSACTIONS ON DATA PRIVACY 5 (2012) 377–402
• この論文では、 Narayanan2008がうまくいかない簡単な例を示しました。
• その上で、
• 評価点が個人データ保護のために雑音を加算された場合も検討しますが、やはり匿名性は崩壊しています。 – 雑音加算によりk-匿名化のような方法も扱えます。
Merener(2012)あらまし(続き)
• さらに、まれにしか起こらない属性の値を攻撃者が知っている場合をいわゆるロングテール現象としてモデル化します。
まれにしか起こらない属性の値が知られるということは、その属性に値を与えた人(=レコード)は攻撃者に識別されやすくなります。したがって、以下に示すように匿名化を破られる確率が急激に悪化します。
• 具体例
1. Netflix映画評価データ 48万レコードのデータベースで、nullではない17個以上の属性値が知られると、 84%以上の確率で匿名化が崩壊し、識別されてしまいます。
1. Joint Canada/United States Survey of Health (2004), Statistics Canada,
Identification number jcush 82M0022 E 2004. • データベースの属性数=353個、レコード数=約8600 • 攻撃者が値を知っている属性数=42 で匿名化崩壊の確率=9% • 同上 =57 同上 =71% • 同上 =77 同上 =87%
応用
• 以上で紹介した論文では、データベースの属性はユーザ個人の見た映画の評価点でした。
• しかし、この論文では、個人データの構造は – (個人ID、疑似ID(住所など)、機微情報など) ではなく – (個人ID、映画1の評価点,映画2の評価点, …..)でした。
– ここで、映画iの評価点を
「滞在位置」や「場所:A から場所:Bへの移動」などの移動履歴に置き換えると、
• 個人の移動履歴データがどのくらい攻撃者に知られてしまうと、個人識別や特定がされてしまい、危険なのかを評価できます。
今後の研究課題ですが、移動履歴、位置情報の匿名性の崩壊はパーソナルデータ利活用の場面で重要な知識となります。
ここから先は数学的なモデルの話になりますので、ここで引き返すのも一つの手です。
Narayanan2008:Robust De-anonymization of Large Sparse Datasets
• この論文で示された技術的内容、数学的モデルを以下に示します。
• 定理の証明は原論文に譲ることにします。
モデル化:データベース
• データベース 𝐷:N×M行列 匿名化された場合は𝐷 • 横方向は属性(映画:x)、縦方向は個人(r) • nullの場所は評点なし。 • 個人rに属性で評点の入っている部分をsupp(r)と書きます
• 属性i (この場合は映画i)からみたsupp(i)はiに評点を付けている人の集合です
個人ID\映画評点 映画1 映画2 ・・・・ 映画M
太郎(個人1) 1 2 ・・・・ 1
次郎(個人2) 3 null ・・・・ 5
・・・・ ・・ ・・ ・・・・
九郎(個人N) null 4 ・・・・ 1
モデル化:類似度、スパース性
rrrrSim
DrrD
SimXX
rr
rrSimrrSim
Nteflixrr
rrrrrr
Sim
i ii
MM
;,Pr
,sparse,:database :Sparsity
)2.2(suppsupp
,,
,
)(),(2
r
21
2121
21
2,212,1,111
しとは以下で定義。ただが
数例えば、同じ値の要素
。の定義はいろいろある属性間のの要素数、右辺分子のは
に対してコードですでは個人に対応するレはレコード
個のレコードデータベースの
類似性
εより類似したレコードはほとんどでない(確率δ以下)
モデル化
• 攻撃者(advesary)は、レコードrに関してsupp(r)を構成する属
性値の一部分に雑音加算したり摂動したりしたデータが与えられます。これを用いて、 𝑟の真の値を獲得しようとします。
– 攻撃者が 𝑟 に関して持つ確率分布や属性値が近接するレコードなどの知識を𝐴𝑢𝑥 𝑟 と書きます。
• プライバシー侵害(privacy breach)は再識別(deanonymize)によって数学的に定義されます。
rrSimA
r
rAuxDA
D
,Pr
output
,input:
eddeanonymiz,
が存在し というアルゴリズム
は
とは
が
r‘ にθ以上類似したrが高い確率ωで得られる
null outputs Pr thenˆIf
,Pr as such outputs thenˆIf
eddeanonymiz,ˆ
breach)(privacy プライバシー侵害
ADr
rrSimrADr
Arr
rAuxrr
DD
成立が存在し以下の2つがムを生成するアルゴリズから
」を持つとき、についての知識と「攻撃者が
のときがータベースの任意の部分集合のデ
rに類似したレ
コードが見つからない確率がωより大きい
以下で解決したい問題は 攻撃者がどのくらい多くの情報(aux)を持っていれば、プライバシー侵害が可能か? です。
匿名化を破るアルゴリズム de-anonymize algorithm
1. データベース𝐷の第i属性に関して攻撃者が持っている知識𝑎𝑢𝑥𝑖を用いて次のスコアを計算:
𝑆𝑐𝑜𝑟𝑒 𝑎𝑢𝑥, 𝑟′ = 𝑚𝑖𝑛𝑖∈𝑠𝑢𝑝𝑝 𝑎𝑢𝑥 𝑆𝑖𝑚 𝑎𝑢𝑥 𝑖 , 𝑟′𝑖
ただし、𝑎𝑢𝑥 = 𝑎𝑢𝑥𝑖
2. 攻撃者は自分の持つ知識𝑎𝑢𝑥を用い、予め決められた定数𝛼に従って、マッチング集合𝐷′ = 𝑟′ ∈ 𝐷 |𝑆𝑐𝑜𝑟𝑒 𝑎𝑢𝑥, 𝑟′ > 𝛼 を計算
3. 𝐷′の要素を𝑆𝑐𝑜𝑟𝑒の高さ順に高い確率になるような確率分布を決める。(簡単には一様分布でもよい)この分布の上位をde-anonymizeした結果とする。
いよいよ匿名化崩壊の定理 • 前提:
– 攻撃者はrに関して𝑚 = 𝑎𝑢𝑥 個の属性値を知っているとする。
• 定理1
Nm
rrSim
D
auxrauxSimrri
Nmr
ND
iiii
log
11,'Pr
zeddeanonymai1,1
1,supp
1log
log
1,0
が小さいと、注:
注:つまり、
は
攻撃者は知っている。
を である属性値:
個に関して の属性のうち
とする。。個のレコードからなるはデータベース
εが小さくなるほど①r,r’が類似 ②大きなmが必要
定理1の補遺 • 証明はNarayanan2008を参照してください。
• 証明には次のLemmaが重要です。
る□のだという仮定に反すに対応しない誤ったもがとなり、
、に対応する仮定するとはを否定する、つまり
ではない) (すなわち
い誤ったレコード生成されたものではな
からによってがアルゴリズム
rr
rrSimrrSim
rr
rrSim
rrA
rArLemma
iiri
'
111,11,Pr
Lemma1
Proof
11',Pr
'
' 1
rsupp
δが大きくなると低い類似性でもr’がrに類似していると判断:(甘い判断)
□は存在する。 わち一つは正しいものすな
のなかに少なくともが生成しただから、アルゴリズムなお、
である確率はの逆により、正しい
率はを一つも生成しない確誤った
を生成する確率は誤ったがよりアルゴリズム
たかだか個以上出現する確率はがったデータベース全体で誤
である確率はたかだかより誤った
定理1の
r
rArrSim
r
r
rAN
Nm
Nr
r
m
m
m
1,
1Lemma1
1
1
1log
log
11
1Lemma1
Proof
スパースなデータベースの場合
定理2
11,Przeddeanonyumi1,1
;1,Pr
,1
,,
r
rrSimD
rrrrSim
sparseD
aux
すなわちは
なら
すなわちがデータベース
は定理1と同じ前提。
Dがスパースで非常に類似したデータペアr、r‘が存在するなら、
高い確率(1-ε)で匿名化が破られる スパースなほど匿名化が破られやすいという直感的に正しい結果が得られている。
なぜなら、 、1個のデータの値が知られたとき、他の類似データで隠せないから。
k-匿名化とのアナロジー
k
rrSimk
D
k
k
k
N
mk
rrk
rrSim
sparsekk
D
auxk
11,Preddeanonymiz
1,1
/1
1
1log
1log
11;
1,Pr
11,
1
,,1
11
r
すなわちは
ード数の期待値は正しく識別できたレコ
コード数はり、誤って識別するレ定理1と同じ議論によ
ならでさらに
すなわちがデータベース
してみるとは定理1と同じ前提と で定理
k-匿名化として理解できる
サンプリングして作ったデータベースの場合
• サンプリングで作ったデータベースの場合も定理1と同じようなことがいえ、けっこう脆弱。
ができる以上の確率で知ること
中に存在しないことをに一致するレコードが攻撃者は
る以上の確率で発見でき
中からに一致するレコードを攻撃者は
合:の値を知ろうとした場つまり、攻撃者が
は
とするとき、ったデータベースをからサンプリングで作
。は定理1と同じとする
定理
1
ˆ thenˆ If
1
ˆ thenˆ If
eddeanonymiz1,1ˆ
ˆ
,,
4
DrDr
DrDr
r
D
DD
aux
Merener2012:Theoretical Results on De-Anonymization via Linkage Attacks
• 基本的にはNarayanan2008の記法、定理を踏襲します。
• まず、定理1が成立しない場合:
• レコード数=105、属性数=200、
ε=0.25、δ=0.125
• 類似度 Sim は max(1-|a-b|,0)
• データベースD,D’は次のページに記載します
11,'Pr
1,1
supp1,
1log
log)(
1
125.0
0.75175.0, , 1 25.0
25.0225.02
25.0225.02
75.175.1
75.175.1
75.075.0
75.075.0
22
5.025.02
22
5.15.1
11
5.05.0
rrSim
zeddeanonymaiD
rirauxSim
r
NmauxrAux
rrSimDrDrNi
NN
NN
D
NN
NN
D
ii
つまり、
は
を満たす属性値 かつ
、からランダムに選ばれランダムに
個の
再掲 定理
なので=
1は成立しない。が矛盾。よって、定理
でしたがって、
ードの場合も同じ。 これは他のレコ
率で推測される。個で、攻撃者に同じ確の可能性のある候補は次
であるときであるとすると、
より 定理
なので=に対して、前ページの
))((
)(5.05.0,Pr2001
2,...,2,5.1,...,5.1
2
75.1,...,75.12,...,2
)(75.025.01625.0,Pr125.025.01,Pr
6.96125.01log
25.010log1
175.0, ,1
25.0,
5
ba
brrSimm
rr
arrSimrrSim
m
rrSimDrDrNi
DADD
以下では、この問題点を訂正した方法を示す。
Narayanan2008論文の改善
• 以下では、Narayanan2008の定理1の問題点の改善策を示します。
– 基本的定義から見直します。
3.2suppsupp
suppsupp,
2.2suppsupp
,,
supp1.2suppsupp
,:,
, thenor that such , if
similar-h
similar-h
yx
yxyxSim
yx
yxSimyxSim
nullrryx
yxSimiyxSim
hddSimnullDdnullDdji
DD,
i ii
ii
ijijijij
でない部分の要素では注
類似度
という。条件を満たすときは同じ大きさで以下のデータベース
定義:
supp
,,| ,ˆ :Output
supp'supp, that such :Input
ˆ
が最小であるもの の要素のうち
は集合
と書く *ここで
されたレコードでは
匿名化アルゴリズム
ii yrSimsiDyDrA
ms
srrsDrr
A
pDrDrSim
mDr
mp
mpAD
pNmSim
mpAD
pNmSim
SimDD
,Pr
supp max
zeddeanonyumi,,
zeddeanonyumi,,outputˆ then
121log
1log2.2 if 2
zeddeanonyumi,,outputˆ then
21log
1log1.2 if 1
1similar21,
008Narayanan24
1
り立つことである。であるとき、下式が成
とは、ここで
はのに対するアルゴリズム
ただしで定義され、かつが
はのに対するアルゴリズム
で定義され、かつが
立つ。このとき、以下が成り
とする。が三角不等式を満たすで、が
の定理1の改訂版です 定理
ができる。」個の属性値を知ることコードの攻撃者はさらにそのレ
るなら、個の属性値を知っていランダムに選んだ
んだレコードの全体と、ランダムに選で「攻撃者が確率
の場合属性数
定理4の具体例
の下界が定理1では
ことが三角不等式を満たす定理4では
が
4の差異はすると、定理1,定理
で同じ内容は
このとき、
となる
るを使った場合に代入すを定理4のにしているので、これを定理1の
の対応になるは定理1の記法と以下定理4の
27
29
99.0
35.0,160,99.01,10
11log
log3
12
simliar2/1 simliar 1,1
eddeanonymiz,1,1 eddeanonymiz,,
121log
log
21log
1log
)2.2()2.2(
1,1:,
6
D
pN
Nmm
Sim
DD
mmpD
Nm
pNm
Sim
pp
定理4とNarayanan2008の定理1の関係
eddeanonymiz,21ˆ then
21log
log)2.2( if
similar21,,
8
Pr
eddeanonymiz,perfectly supp
mperfectlyDA
NmSim
Sim
DDsparseD
prrDr
ArD
mpDmD
にに対しては
式であり、が
。とき、以下が成り立つが三角不等式を満たす
であり、がで、が
定理
を持つことである。ムを生成するアルゴリズから次式を満たす攻撃者が
とは、に対してであるとき、が
定義
する。で完全に匿名化が崩壊すなわち確率
が知れば、個以上の属性を攻撃者
のうち、つまり、全属性
であるとで、 すなわち
データベースの場合、のの場合、定理
とするは 属性毎の
た例データベースに適用しを定理
0.84
edeanonymiz)84.0 ,1(17
770,1703.175.025.1log
08.0000,480log
08.0,25.084.02108.0
000,4808
0
if1,
Netflix8
m
sparse
NetflixN
otherwise
babaSimSim
Sparsityに関する定理の改善
prrDr
ArD
mpDmD
qDDSimKjNjqSimD
jDDNK
jk
j
Pr
eddeanonymiz,perfectly supp
,:,1Prsparse,
],1[ :Sparsity
を持つことである。ムを生成するアルゴリズから次式を満たす攻撃者が
とは、に対してであるとき、が定義(再掲)
かつであるとは、に関してが
行とする。の第をんだ値とする。区間からランダムに選を定義
である。に対してとは
が成立するならこのとき、
とする。はさらに、
であるとする。に関してとはアルゴリズム
があるとき、に関する)仮定条件に関するあるとする。
定理
eddeanonymizperfectly'
sparse,
eddeanonymiz,,'
',,(',
7
qpDAD
H
qD
mpDSimA
HDDmDDqp
ロングテールの情報が知られた場合の危険性
い。の図を参照してくださ直感的には次のページ
。データベースとします
なる個は含むレコードからな属性を少なくとも希少番目より
ではない属性がに入っているのすなわち、
。データベースとします
るであるレコードからなをそこで、
この定義によれば、
ただし、
とはがスの大きさのデータベー定義:
します。の降順に並んでいるとの大きさ、すなわち属性は
します。つまり個人)の集合とでないレコード番号がは属性
1)(
null)supp(
supp
supp
1,0supp
tail,
suppsupp
(supp
rareM
rr
riandMiiD
NiMi
NM
DMN
ii
nullii
レコード数
②ここより左側にはκN
個のレコードが含まれる
τM番目 M
属性 (順位)
①この曲線の下の部分の面積が全レコード数Nに対
応
④この部分に入っている属性でsuppされているレコードはrareなデータでsuppされているので、
攻撃者に識別されやすく、匿名化が崩れやすい
③τMより右側のテール部分の属性にも少なくとも1
個はsuppされているレコードの集合がD>τ
ロングテールの情報が知られた場合の危険性 続き)
は
性数とすると、が攻撃者に知られた属式の定義の場合、 なら、
は三角不等式を満たすで、がで、が
定理
)原論文を参照されたいになります。(証明は具体的には以下の定理
つまり
部分のデータに対しての
eddeanonymiz,,ˆ 21log
1log
)1.2(
1similar21,tail,
9
eddeanonymiz,,,Pr
1,Pr,tail
1
mpADpN
m
mSim
SimDDD
mpprrSim
prrSimDrMi
定理4と比べると、分子がNからκNと小さく
なっているので、匿名化が崩壊してしまいやすい、ということだ!
されやすい
知られてしまうと
攻撃者に評価していない評点が
しか部分のほうの少ない人
eddeanonymiz
tail
の大きさが最小のもののうちの要素
のがという属性で値を持つに対してただし、
アルゴリズム
suppsupp:,|ˆ:Output
supp,|:Input
ˆ
yysDyDsrB
rrsDrDsr
B
にに対しては
。のとき以下が成り立つは
、、が
定理
eddeanonymiz,21ˆperfectly 21log
log
,
suppsuppsuppsupptail,
10
2121
mBDDN
m
sparseD
rrrrSimD
だ!する可能性があるわけの部分が匿名化が崩壊したがって、
となる。は全レコード中でによると、定理
されているので、だけで
属性個の映画多く評価されたのレコードがもっとも
であるが映画数)の場合、総属性数(例:
%97
%97 056.0 10
supp
)(1000%97
770,17
D
Netflix
他の匿名性評価法との比較
このスライドで説明したのは、 – 大元のデータベースDをアルゴリズムAで変換した結果データベース
D’ (すなわちA(D))が攻撃者に渡った場合の匿名性の崩壊の度合いの評価
一方、
サンプリング、k-匿名化、差分プライバシーの評価のSlideShare: – http://www.slideshare.net/hirsoshnakagawa3/samplimg-kanondp
– は、データベースD’ そのものは公開されず、攻撃者からの質問への回答でその内容を知ろうとされる場合の危険性の評価。
両者は異なる視点からの評価なので、同列に比較はできない。
これらの異なる評価法をプライバシー保護の観点から俯瞰できる評価手法を明らかにすることが今後の課題であると思われます。