プライバシー保護の法制と技術課題（2014年時点）

プライバシー保護の法制度と技術課題

中川裕志

(東京大学)

次から次へと問題が起こる

Suica事件：JR東日本がSuicaデータを個人名を消す程度の処理で日立に売却しようとした。プライバシーを不安視する声が大きくなり、結局売却は中止。

技術的にはどの範囲まで個人情報を削除すればよいかが問題。

EUのように行動履歴が原則的に個人情報と見なされると原理的に売却不可。

この原則は個人名と乗車履歴が完全分離できれば、乗車履歴だけを売却しても良さそうに見えるのだが、そう簡単ではない。

技術的には後に述べる行動の可観測性やデータベースでの可知／不可知の問題とからんでいる。


日本の会社が傘下のライフサイエンス企業を米国ファンドへ売却中国資本の台湾の会社に売却される可能性あり（診療データを含む）日本人の診療データが中国に渡る！

個人データ越境の問題は深刻。会社が個人データを他国に売却するような越境がまず問題だが

この例のように会社の資産としての個人データを会社ごと他国の企業に売却してしまう場合は、どうするか？

法律で防ぐしかないか、あるいはデータと会社を分離して売却？会社の価値がなくなってしまうが。。。。。

技術的には、個人データが他のデータと分離不可能な状態で混ざってしまうことをどう防ぐかが問題。


Google Suggest 訴訟：自分の名前でGoogle検

索すると、犯罪関連の単語が出るので、関連単語のリンク削除要求：

東京地裁で2件は1審一勝一敗。東京高裁の2審ではいずれもGoogle勝ち

Googleの公共性は個人の不利益より公益性が高いという判断

裁判では検索エンジンの公共性と言っているが。。。


Google 訴訟：自分の名前でGoogle検索すると、過去の家賃滞納など関連のページがしつこく出る

スペインの裁判所では判断できず、EU司法裁判所でGoogle敗訴が確定（EUではこれで決着かつ、この判例がEU全域で有効） http://eumag.jp/question/f0714/01

ＥＵ域内ではGoogleは利用者からの個人データ消去の要求に応じるようになった

忘れられる権利の執行は、報道の自由とのからみで非常に難しいが、Googleが対象となったメディアなどに削除記事を通知する...としているのは、せっかく忘れかけた個人情報を帰って公に晒してしまい、かえってよくないとEUは主張している

http://eumag.jp/question/f0714/01

http://eumag.jp/question/f0714/01


Google訴訟再び：

犯罪に関わっているかのような検索結果が出てくるのはプライバシー侵害だとして、日本人男性がグーグルの米国本社に検索結果の削除を求めていた仮処分申請で、東京地裁は(2014年10月）９日、検索結果の一部の削除を命じる決定を出した

人格権侵害の表題やスニペットは削除せよ。人格権の侵害が検索エンジンの公共利益に勝るとした。

リンク削除を要請しているかどうか不明技術的な詳細に触れていないようだ

続報

• グーグルが検索結果削除「裁判所の決定尊重」

• 2014/10/22 17:47 【共同通信】によれば

• Googleで人名検索したとき表示される不名誉な内容の投稿記事で日本人男性の人格権が侵害されていると訴えた裁判で、東京地裁が検索結果の一部削除を命じた仮処分。

• グーグル日本法人は２２日、「裁判所の決定を尊重して仮処分命令に従う」として検索結果を削除する方針を明らかにした。

• また、削除対象の大部分が既に表示されなくなっていることを確認された。

検索エンジンからの個人データ消去を巡る問題

法律的問題

「国民の知る権利」とプライバシーに係わる「忘れられる権利」とのバランスの上で消去すべきかどうか決める

ケース毎に決めるとなると厄介。

検索エンジン側としては、消費者から出された全ての消去要求を受け付けるべきかの判断が難しい

文句を言ったもの勝ちか？

機微情報機微情報が検索エンジンで晒されることが問題だとすると

そもそもこの問題には機微情報が何かという定義がはっきりしない部分がある。犯罪歴、病歴、家族構成、収入、身体的特徴などは機微情報であろうが、

行動履歴が機微情報かどうか？通学している学校名は機微情報か？


技術的問題

個人から訴えられたリンクを消すことはプログラムを書いてある程度は自動化できるが、人手はかかる個人名と文句をつけられたリンク先の入力は人手によらざるをえない。

リンクを消さずに表示だけをさせないようにするのはかえって難しい。つまり、表示される単語を表示毎に認識しなければならず、検索エンジン自体の表示パフォーマンスの低下を招く

削除したリンクをオフラインで残しておけば、後に必要になったときに使える政府からの犯罪やテロなどの捜査要請

ただし、検索エンジン内部のコンプライアンスが十分でなく流出するとお問題医療データの連結匿名性に似た問題のようだ

補遺：連結匿名性

• [個人名,疑似ID(住所,年齢,性別など）、その他情報（病気の症状などの機微情報）]

• というデータベースを以下のように分解する。

• [個人名,仮名] [仮名,疑似ID,その他情報（機微情報）]

• 同一

• この状態だと分解しても仮名をたどれば元のデータを復元できる連結匿名ではない

• [個人名,仮名]のデータベースを完全の消去すると

• [仮名,疑似ID,その他情報（機微情報）]から個人名が分からない連結匿名性あり – 医療分野では研究目的で患者個人のデータを使う場合は連結匿名性を確保しないといけない


技術的問題

そもそも特定の個人のことを悪く言うサイト自体は残っているので、同じことが他の検索エンジンでも起こっているかもしれない。そのようなサイトを見つけて、サイト運営者に削除要求を出せるか？表現の自由との関係

Torという多段ルーティングを使われると技術的にそのようなサイトを見つけることが困難かもしれない。匿名の攻撃者が悪意を持って個人攻撃したければTorを使うことはありえる。

ただし、Torは内部告発の有効な手段という見方もある。同じ技術が善にも悪にも使えてしまう。

検索エンジン

Torで何段もルー

ティングされるとここまでたどり着けない

Torによる多段ルーティング

Onion Routing


Yahoo!が会員データをCCCにも流用すると一方的に宣言して実施。

ベネッセの会員データの名簿業者への流出事件

典型的な部内者による秘密データの持ち出しと名簿業者への横流しして金銭授受

セキュリティの典型的内部犯行問題だが

ベネッセがファイルにわざと混ぜておいた架空の会員データは鮮やかに排除された後、残った個人データが使われている。

高度な処理技術と名寄せ技術の悪用が推測される

名寄せ技術のおさらい

属性1,2,3

太郎 …

次郎 ***

花子 @@@

属性3,4,5

太郎 .¥¥

次郎 *??

花子 @^^

属性1,2,3,4,5

太郎 …¥¥

次郎 ***??

花子 @@@^^

太郎ではなくTaroと記述されているかもしれない

という概念を名寄せだと思うのは間違い

個人名の異表記を統一するという拡張をすれば名寄せだというのでもまだ甘い

名寄せの本当の脅威

属性1,2,3,4

太郎 …..

次郎 **??

花子 @@@@

属性3,4,5,6

..¥ 1K$

??? 3M$

@@^ 5M$

属性1,2,3,4,5,6

太郎 …¥ 1K$

次郎 **??? 3M$

花子 @@@^ 5M$

属性3,4をキーにして、機微情報と個人IDが結びついてしまう

IDを含むDB

IDを含まないが機微情報5,6を含むDB

プライバシー保護を巡る海外の状況

米国：ＦＴＣ3要件

米国：消費者プライバシー権利章典

REPORT TO THE PRESIDENT BIG DATA AND PRIVACY, USA, 2014/5 匿名化に加えて、自己情報コントロール（忘れられる権利、あるいは開示、訂正、消去の要求できる権利）が明記されてきている。

EU: OECDプライバシーガイドライン改正旧版は1980年

EU:Data Protection Regulation Revision(個人データ保護規則改正案） 2014/3

ＦＴＣ3要件 1. データ事業者はそのデータの非識別化を確保するために合理的

な措置を講ずるべき

2. データ事業者は、そのデータを非識別化された形態で保有及び利用し、そのデータの再識別化を試みないことを、公に約束すべき

3. データ事業者が非識別化されたデータを他の事業者に提供する場合には、それがサービス提供事業者であろうとその他の第三者であろうと、その事業者がデータの再識別化を試みることを契約で禁止

• ※個人を識別可能なデータと、ここで説明した非識別化のための措置を講じたデータの双方を保有及び利用する場合には、これらのデータは別々に保管すべき

• 違反した場合の罰則執行はFTC5条による。 • FTCには法的執行機能があることに留意されたし。（課徴金や仲裁）

第3者への提供が前提になっています。

個人の識別ができないようにすること。含む「匿名化」

EU: OECDプライバシーガイドライン改正提案されたOECD Data Protection Principleｓ

Accountability関連の改正の骨子

a. データ事業者（データ収集者を含む）は、どのようなデータがどのように使われるか、またデータ源の個人はどのような権利を有するかを開示しなければならない（無料）

b. データ事業者は、彼らのミスによって起こる可能性のある被害を明記すること

c. データ源の個人は、自己データへのアクセス、訂正、消去を速やかに実行させる権利を持つ。

a. 権利執行にかかる費用は不当なものであってはならない。

d. データ事業者は上記の個人からの要請に応えなければならない。もし応えられない場合は、その合法的な理由を明示しなければならない

Data Protection Regulation Revision

• Data Protection Regulation改正案は2014年3月12日にEU議会で可決。

• This reform (MEMO/13/923 and MEMO/14/60) was approved by EU parliament on March 12, 2014 by voting in plenary with 621 votes in favour, 10 against and 22 abstentions for the Regulation and 371 votes in favour, 276 against and 30 abstentions for the Directive. – http://europa.eu/rapid/press-release_MEMO-14-186_en.htm – 旧Data Protection Directiveは1980年

• 中心的ポイントを以下に述べるが、Cavoukianの考えに近い。 – ただし、人権に基礎をおき、かなり急進的と言われる。

– 成案となるためには欧州の各国代表からなる理事会でも可決しないといけないため、見通しは不透明。

– 各国別個の立法を要請する「指令」ではなく、EU全域に効力を持つ「規則」であることが争点だという話もある

http://ec.europa.eu/commission_2010-2014/reding/pdf/news/20131022-libe-data-protection_en.pdf

http://europa.eu/rapid/press-release_MEMO-14-60_en.htm









Data Protection Regulation Revision 抜粋１ http://europa.eu/rapid/press-release_MEMO-14-186_en.htm

• A right to be forgotten: （忘れられる権利） – When you no longer want your data to be processed

and there are no legitimate grounds for retaining it, the data will be deleted. This is about empowering individuals, not about erasing past events or restricting freedom of the press.

• Easier access to your own data: （自分の個人データへの容易なアクセスの権利） – A right to data portability will make it easier for you to

transfer your personal data between service providers.

– これはCavoukianのＰＤＥに近い

報道の自由とプライバシーの微妙なバランス








Data Protection Regulation Revision 抜粋２http://europa.eu/rapid/press-release_MEMO-14-186_en.htm

• Putting you in control: （個人データ利用の同意はexplictに） – When your consent is required to process your data, you must be

asked to give it explicitly. It cannot be assumed. Saying nothing is not the same thing as saying yes. Businesses and organisations will also need to inform you without undue delay about data breaches that could adversely affect you.

– ここはaccountabilityでも対応するかもしれない

• Data protection first, not an afterthought:（個人データ保護はシステム設計時から考慮すべき） – ‘Privacy by design’ and ‘privacy by default’ will also become

essential principles in EU data protection rules – this means that data protection safeguards should be built into products and services from the earliest stage of development, and that privacy-friendly default settings should be the norm – for example on social networks.

– CavoukianのPrivacy by Design のアイデアを直接利用








Cavoukian：Privacy by Design

1. Proactive not Reactive: 事後の尻ぬぐいではなく事前に対策を;

2. Privacy 配慮はデフォールト;

3. Privacy 対応策は制度、システム設計時に;

4. ゼロサムではなく win-win : Privacy対策をしっかりやれば、データ業者側にも得になる;

5. End-to-End Security: データが活きている間はいつもProtection;

6. 可視性と透明性: 公開性を確保;

7. User Privacyを中心に考えるべし.

Schőnbergerの主張

• プライバシーに関しては「同意」万能の風潮があるのだが、それに対立する意見がSchőnbergerから述べられた – IAPP Data Protection Congress in Brussels での Viktor Mayer-

Schönberger （「ビッグデータの正体」の著者）のKeynote address http://www.youtube.com/watch?v=40fSCZaLv_A

• 文書としての出展は"Data Protection Principles for the 21st

Century;” • http://www.oii.ox.ac.uk/publications/Data_Protection_Principles_f

or_the_21st_Century.pdf

• 上記の文書で触れられている1980年制定のOECDのData Protection Guideline† 改正案とコメントがSchönbergerの主張

• 以下にその要点を述べる。

†各国のデータ保護法制の基礎になってきた。

http://www.youtube.com/watch?v=40fSCZaLv_A

http://www.oii.ox.ac.uk/publications/Data_Protection_Principles_for_the_21st_Century.pdf





データ業者が個人情報を収集、利用することについての同意の形骸化

Webサービスに参加、あるいはWebアプリやソフトのダウンロード時に、「同意します」を儀式的にクリックするが、その一方で、契約文書を読んだ人は果たしてどれほどいるだろうか？

例えば、2008年の調査では、このような契約文書（プライバシー・ポリシー）をちゃんと読むと、年間244時間（＝30日間のフル仕事）になってしまう。多くの契約文書はほとんどコピペだとも言われる！

プライバシー・ポリシーはサービスやアプリの利用者に自己情報開示の度合いを選ぶ権利を与えていない。さらに第3者への利用者データの転移の状況も教えないという。そして、「同意」しなきゃサービスやアプリは使えないだけだよ、というある意味非常に不平等な契約。

（付合契約というらしい）

こんなわけで、本来は「通知と同意」(notice and consent)という枠組みは有効なプライバシー保護を与えるはずだったのに、現状では全く非効率ないし実質的に機能しない

同意から説明責任へデータ源の個人の同意が実効性がなくなっているので、別のアプローチが必要

本質的に個人データ収集時には、どのような利用方法があるか予測しきれない。同意の内容は「データ利用法を限定しない包括的」かつ「データ事業者側に有利なもの」にならざるを得ない。

別の方向性

データ事業者（個人データ収集とデータマイニングなどの利用を行う業者）が、収集、利用について説明責任(accountability)を持つ。

データ源の個人からの要求による説明責任の実行は法律で担保する。

この説明責任の実行がデータ事業者が個人データの利用以前、以後を通じてできるのかどうかがキーポイント。

しかし、企業の説明責任をどう法制化するかが問題

Cavoukian のカウンターの提案 Personal Data Ecosystem：ＰＤＥ

情報サイロと呼ばれる寡占状態を打破して、個人に自己データの利用決定権を取り戻し、他人（あるいはデータ事業者）と契約によりシェアする

個人による自己データ管理のアイデアに賛同し、それをシェアするための新規ツール、技術、ポリシーを共有するデータ事業者の集合をＰＤＥと呼ぶ

個人データ管理権が個人になることによって、新規の方法でデータ利用することが、個人も巻き込んで進展すれば、個人、データ事業者の双方にとって win-win という主張理想的ではあるが、特に知識を持たない一般の個人がそれだけの判断ができるかどうか疑問（中川）

個人とデータ事業者の間にデータ仲介者が必要になるのではないか。ツールはＶＲＭ(Vender Relation Management)に関連したものであり、仲介者はVRMにおける第4者（Fourth Party)になるかもしれない（ドク・サールズのインテンション・エコノミー）

Vender Relation Management:VRM

• PbDに近いアイデアをVRMが提唱している。 – インテンション・エコノミー（ドク・サールズ著）2013

• データ源の個人のプライバシー保護に関しては、PbDとVRMは驚くほど似た主張をしている

– VRMはマーケティングの話なので、元々の分野が違う。

– ＰｂＤの実現形態としてVRM。ただし、両者は完全一致するわけではない

– 以下では、インテンション・エコノミーに記載されていることで、 SchönbergerとCavoukian論争、およびPbDに関連の深いところを紹介する。

付合契約

• 契約当事者の一方（企業側）が契約内容の全てを決める契約であって、もう一方（個人顧客）は、(1)その契約に同意するか、(2)サービスを受けないか、の二者択一しかできない契約 – Webサービスやソフトライセンスはほとんど全てこの契約になっており、「同意」は不平等。だから、 Schönbergerは企業側のaccountabilityを重視する。

– Accountabilityが実効性があるのは法律の裏付けがある場合のみだろう。

ステークホルダーの関係図

第2者企業

第3者

クレジットカード会社など

VRM: 第4者

個人顧客の代理人

第1者個人顧客

弱い

ＶＲＭの提唱する構図

個人側から自分の個人データを選んだ企業に使わせてやる、という契約の仕方

当然、個人データの管理権は個人側にある A right to data portabilityに対応する仕掛け

従来ないし現在の構図

フォースパーティ：第4者

• 図にある第4者はVRM提案の概念で、顧客の利益を代表し、その代理人として機能する存在。以下の特性を持つ

1. 取引相手企業の置き換え可能性

2. サービスのポータビリティ

3. データの使用企業を顧客が選べる（ポータビリティ）これがPbDの実装と見なせる部分

4. 独立性

5. 説明責任（企業のaccountabilityの代理する）

パーソナル・ドットコムの2011年の「所有者データ契約」

• これがPbDのアイデアの実装となる契約と読み取れる

1. 個人自身が自分のデータを所有

2. 個人が他者のデータへのアクセスをコントロール

3. 個人が承認した形でだけ業者はデータ利用可

4. 個人の要求による削除

完全な自己情報コントロールになっている。

実現可能なストーリー

パーソナル・ドットコムの2011年の「所有者データ契約」は完全な自己情報コントロールの実現

だが、既存のデータ処理業者には負担も大きく、抵抗も激しいだろう。

既存の事業者が取り込むことは望み薄なので、VRMシンパとして新規企業を巻き込むか（Project VRM)

既存企業に対して個人は第4者を代理人として使って、accountabilityを実現させるか（Schönbergerの路線） Accountabilityの実効性を法律的に担保する公の機関として第3者機関（個人情報保護委員会のような組織）が日本的には実現性があるのではないだろうか。

実現可能なストーリー Accountabilityの実効性を法律的に担保する公の機関として第3者機関（個人情報保護委員会のような組織）が日本的には実現性があるのではないだろうか。

データ業者のプライバシー取り扱い資格を第3者機関が与える。

データ源個人の代理人であるVRMの第４者へのお墨付きも第3者機関が与える

この業務をこなせる強力な第3者機関ないしはその実行機関が作れるかどうか。。。。相当大変そう実現可能じゃないかも

世界的にはトラストフレームワークとして動き始めている

この論争のまとめ

SchönbergerもCavoukianも個人データをデータ業者がどのように蓄積し使うかをデータ源の個人が知り、場合によっては訂正、消去させる権利（自己情報コントロール）の実効性を重視している。

Schönbergerはデータ業者側のaccountabilityの形を推奨。ただし、自己情報コントロールがどのタイミングで発動できるかは明らかでない

Cavoukianは個人データの管理まで含めてデータ源の個人が持つ方向を目指す。当然、自己情報コントロールの発動は任意の時刻にできる。

この論争のまとめ

現在のデータ業者が個人データを収集して利用するという構図の下では、

結局のところ、 SchönbergerとCavoukianの対立点をデータ源の個人の自己情報コントロールの発動がいつできるかに帰着

だが、CavoukianのPbDを徹底し、データ管理権を個人に帰属させる方向でVRMが提唱されてきている。

EUの技術検討レベル

• 匿名化技術に関する05/2014意見（WPI216)

• ２０１４年４月１０日採択

• 検討した技術は – ノイズ付加

– 差分プライバシー

– k-匿名性

– l-多様性、t-近接性

– 仮名化

• リスク分析し、完全な匿名化をできる技術はなく、ケースバイケースで対応せざるをえないと結論付けた。 – 現在、考えられる技術をよく網羅しておりレベルが高い

プライバシー保護を巡る国内状況

現個人情報保護法は2003年に成立インターネット、ビッグデータなどＩＴ環境が激変

ビジネスになりそうなパーソナルデータを利活用したいという政府方針

当初は個人情報保護法の改正は考えていなかったらしい。

EUからは日本は個人情報保護法制が十分に整っていない国と見なされ、EU発の医療データや

ゲノムデータを国内に持ち込めない。（「十分性がない」という言い方が使われる。）

EUでは個人の移動履歴も個人情報と見なすトヨタがEUでの走行データを研究開発に利用したくても、利用できない状況が起こりうる

製薬会社もEU発のゲノムデータを使えない。日本から研究拠点や製造拠点が逃げていく

米国はEUとの間でがsafe harbor を結び、特別扱いを許容されている。もっとも例の盗聴事件で少々評判を落としているが。

日本では第3者の独立機関で個人情報保護のチェックができていないのが十分性がない理由の一つ従来は各省ばらばらの主務大臣制だった。

2014年1月1日に「特定個人情報保護委員会」（公正取引委員会と同列）という第3者機関が設置され、これが拡充するとこの問題は解消する。

残る問題は「個人情報保護法」本体の改正。

パーソナルデータに関する検討会

• 親委員会＋技術検討ＷＧ – 2013年9月から2014年6月まで12回＋ＷＧ数回

– 「パーソナルデータの利活用に関する制度改正大綱」パブコメ

– 2015年１月以降、可能な限り早期に関係法案を国会に提出

– だがこの大綱の真意はなかなか読み取りにくい • EUからの十分性を獲得しようとする理想にはほど遠いという意見もある

• パブコメはいろいろ出ているが、私の見た中では日弁連のパブコメが明快

• 最終的に出てきたパブコメたちはかなり十分性を意識したものが増えている。

パーソナルデータの利活用に関する制度改正大綱

• 第三者提供等を本人の同意がなくても行える

– 「個人の特定性を低減したデータ」への加工が本人の同意の代わりという考え

• 「低減」というのは非常に曖昧な言い方

–行政機関等が保有するパーソナルデータに関する研究会「中間的な整理」によれば、「個人特定性低減データ」のイメージは以下のようなものとされている。

氏名顧客ID 住所成年月日その他

↓ ↓ ↓ ↓ ↓

削除仮名ID 都道府県まで誕生年までそのまま？


• だが、大綱では「個人を特定しうる情報の削除」というものの、購買履歴や行動履歴のように注意深くみれば個人特定に至るデータの削除については曖昧なままだし、どちらかと言えば、削除の必要なしという雰囲気が漂う。

• ということは、法律で担保する以上のプライバシーの安全性を消費者から要求された場合には、技術的な解決策が必要。

氏名顧客ID 住所成年月日その他

↓ ↓ ↓ ↓ ↓

削除仮名ID 都道府県まで誕生年までそのまま？


• パーソナルデータの利活用と個人情報及びプライバシーの保護を両立させるため、消費者等も参画するマルチステークホルダープロセス。

– 民間団体が業界の特性に応じた具体的な運用ルール（例：個人の特定性を低減したデータへの加工方法）や、法定されていない事項に関する業界独自のルール（例：情報分析によって生じる可能性のある被害への対応策）を策定

– その認定等実効性の確保のために第三者機関が関与する枠組みを創設する。


• パーソナルデータの利活用と個人情報及びプライバシーの保護を両立させるため、消費者等も参画するマルチステークホルダープロセス。

– 業界独自ルールに相当な疑念がある。IT業界のある企業は、自社の利権を保持するために猛烈なロビー活動

– 国際標準からかけ離れ、十分性認定からはどんどん遠ざかる傾向

– IT業界が少々得をしても、製薬、自動車、機械などは仮に現地法人でもデータを持ち込めない、ないしは莫大な課徴金を要求され苦境に陥る可能性あり

– Googleでさえ、企業利益に反する消去要求に応じざるをえなくなっている


• 保護対象になる個人情報（未定）：

–指紋認識データ、顔認識データ等個人の身体的特性に関するもの

–なぜか、ゲノム情報が欠落。個人の位置情報も欠落（EUでは個人情報）、IP Addressは?

• 先送りされたものが多い –機微情報の定義

–開示、訂正、消去についての裁判上の請求権は一応記載されているが。。。

–個人プロファイリング

–プライバシー影響評価

–名簿業者ベネッセ事件で強く規制されるかも

技術的な視点から見ると

• 以上述べた検討のプロセスで、技術検討WGが出した提案でもっとも重要視されたのは、

• 完全な匿名化技術は存在しないという事実 – しかし、この議論はやや時代遅れ感のあるk-匿名化をベースにしたもので

– 暗号化は検討されていない（計算効率が悪いと思われているらしい）

制度設計側は、確率的な安全性という考え方が嫌いらしいだが、工学ではおおかた確率的に考える

– サンプリングや差分プライバシーのような議論も全く考えられていない。 • 差分プライバシーは理解が難しいらしい

Z

質問

シーが安全　　　　　のプライバ

別できないだと質問からは全く区例えば、

が区別しにくいとが小さいと

質問

質問する確率の比データベースの差に関

0

),Pr(

),Pr( ',

DD

eD

DDD

データベース：D データベース：D’

差分プライバシーとは何か

暗号を用いた秘密計算 • 準同型公開鍵暗号を用いる

• Enc[x]*Enc[y]=Enc[x+y] というように公開鍵で暗号化したままで計算ができる

暗号化された回答

質問者：Ａ

暗号化データベース

公開鍵で暗号化された質問

Ａさんの秘密鍵で回答を復号

準同型性公開鍵暗号によりDBを暗号化した上で暗号化したまま検索

個人データ越境に係わる問題

EUからは十分性のない国への個人データの越境は禁止

ところが、計算機の世界では、物理的にデータは動かしにくく、処理プログラム、もっと言えばプログラムや仮想マシンは容易に移動できます

たとえば、アマゾンでは米国の東海岸のクラウドサービスが混んでいるので、西海岸にもクラウドを作ったのですが、東から西へデータを通信回線を使って移動する時間もコストも高いので、やっぱり東海岸のクラウドは混み続けているとか。

個人データ越境に係わる問題さて、某社がEU域内での自社製品の車の走行データを収集したとします。

行動履歴が個人情報であるというEUの立場からすると、この走行データは某社が本社を持つ日本に持ち出せません。

しかし、データはEU域内の計算サーバに乗せたまま、本社から処理プログラムや計算環境をEUに持ち込んで処理したら、処理結果は持ち出せるかという問題が生じます。処理結果が完全に個人再識別ができない統計データなら持ち出せそうです。ただし、本社が個人情報保護法の十分でない日本に存在する会社の支社や子会社の場合、EU市民の個人データをEU域内であっても保持したり処理したりできるのか？

つまり、移動するのはデータではなく、処理プログラムの方だ、という時代になったとき、どういう問題があるのか？

◆匿名化が有効な場合は？

以下では、まず、次のような技術的問題について考えます。

データ構造は以下を想定します。（個人名，疑似ID,それ以外（機微情報，その他））

なお、以下の技術的問題については別のSlideShareにも似たものをアップしてあります。

◆匿名化が有力なケースの分析

• a．疑似ＩＤ（住所、年齢、性別などの典型的なもの）の有無

• b．「それ以外の情報」がデータベースへの登

録されていることが外部者に確定的に知られているかどうか？（可知／不可知）

疑似ＩＤ無

疑似ＩＤ有

外部不可知

不可知 & 疑ＩＤなし

不可知 & 疑ＩＤあり

外部可知

可知 & 疑ＩＤなし

可知 & 疑ＩＤあり

この視点が今まで軽視されていたようです。

不可知↔確率的可知↔確定的可知

• 外部から当該情報の収集を観察可能

データベースに格納されていることが知られる＝可知

例えばSuicaデータや購買履歴はその人の挙動を観察できます。

確定的な可知＝観察可能な全データからなるデータベースＯＰＴ－ＯＵＴ時点が不明ならOPT-OUT以前のデータを消去しない場合は確定的可知

確率的な可知＝サンプリングなどによって作れられたデータベース：ある個人データがデータベースに入っているかどうかは確率的にしか分からない

k-匿名化されたデータベース

確定的／確率的可知サンプリングとk-匿名化

• データ処理業者が収集した個人データを保護するには – 全データからランダムサンプリングしたデータベースを使ってマイニング処理、あるいは第3者に渡す

– 全データから、疑似ＩＤの情報を粗くすることでk-匿名化したデータベースを使ってマイニング処理、あるいは第3者に渡す

という方法があります。

全員のデータベースサンプリングされた

データベース

ある割合で少数をランダムサンプル＝確率的可知

疑似IDの精度を粗

くして、同じ疑似ＩＤの人がk-人以上いるように変換＝確定的可知

復習：k-匿名化の例個人名の匿名化だけではsenstiveな情報の保護には不十分。匿名化手法：＝疑似識別子の変形法 • 一般化

– 例えば、対象分野のデータは抽象度によって階層化されているなら、上の階層のデータを公開

• 抑圧 – 特異性のあるデータ項目は削除（個別セルごと、レコードごと、属性ごと）

• k-匿名化（k人以上が同じ疑似ID:誕生日、性別、ZIP)

誕生日性別 Zipcode

21/1/79 男 53715

10/1/79 女 55410

1/10/44 女 90210

21/2/83 男 02274

19/4/82 男 02237

誕生日性別 Zipcode

group 1 */1/79 人 5****

*/1/79 人 5****

抑圧されます 1/10/44 女 90210

group 2 */*/8* 男 022**

*/*/8* 男 022**

元データ 2-匿名化されたデータ

ちょっと寄り道 k-匿名化と濡れ衣

名前年齢性別住所 N月M日P時の所在

一郎 35 男文京区本郷XX K消費者金融店舗

次郎 30 男文京区湯島YY T大学

三子 33 男文京区弥生ZZ T大学

四郎 39 男文京区千駄木WW Y病院

名前（匿名化）年齢性別住所 N月M日P時の所在

一郎 30代男文京区 K消費者金融店舗

次郎 30代男文京区 T大学

三子 30代男文京区 T大学

四郎 30代男文京区 Y病院

４-匿名化

次郎、三子、四郎も一郎と区別出来なくなった結果、4人ともK消費者金融店舗に居たことを疑われるＫ-匿名化が誘発する濡れ衣現象

ところが事態はそう簡単ではない



次郎 30代男文京区 K消費者金融店舗

三子 30代男文京区 K消費者金融店舗

四郎 30代男文京区 K消費者金融店舗

個人を入れ替えて２-多様化

研四郎もＫ消費者金融に居たのではないかと疑われる

Ｌ-多様化が誘発する濡れ衣現象

Ｌ-多様性を導入するともっと面倒なことになる

これでは4人とも消費者金融に居たことが露呈



研次郎 30代男文京区 K消費者金融店舗

研三子 30代男文京区 K消費者金融店舗

研四郎 30代男文京区Ｔ大学

滞在場所のk-匿名化が濡れ衣の被害を誘発してしまう

K-匿名化の領域：内部にK人いる

消費者金融ショップ

滞在場所のk-匿名化が濡れ衣の被害を誘発してしまう

K-匿名化の領域：内部にK人いる

消費者金融ショップ

この就活中の学生さんはK-匿名化領域内にいるの

で、消費者金融に出入りしたことを疑われ、不利な

ことに。。。

濡れ衣

さて本題に戻りましょう

匿名化が有力なケースの詳細分析

疑似ＩＤ無

疑似ＩＤ有

外部不可知

不可知 & 疑ＩＤなし個人データではない

不可知 & 疑ＩＤあり k-匿名化が有効

外部確率的可知確率的可知 & 疑ＩＤなし

その他データが疑似ID化する場合は問題。サンプリング率などに依存：ＤＰによる評価が必要（課題）

確率的可知 & 疑ＩＤありサンプリング率に加えて疑似ＩＤの詳細さ（データ収集時刻の精度）等に依存。k-匿名化もある程度有効：ＤＰでの評価（課題）

外部確定的可知確定的可知 & 疑ＩＤなし

同上。行動履歴など疑似IDとみなせる場合、k-匿名化でデータ価値大幅減非現実的

確定的可知 & 疑ＩＤあり同左

以上をまとめると

外部からデータ収集していることを観察できる場合は、k-匿名化はデータの価値をさげるため、有力な匿名化手法ではない。

外部からデータ収集していることを観察できない場合は、疑似ＩＤがなければk-匿名化は不要、疑似IDがあれば疑似ID を対象にしたk-匿名化が有力となる。

◆匿名化された個人データの開示、訂正、消去に関する疑問

• Webサービスやアプリソフトを申し込むとき、

• 「あなたの個人データは匿名化しているので安全です。また、あなたからのご希望があれば、あなたのデータの開示、訂正、消去に応じます。」

• と契約文書に書いてあるとします。

• でも、匿名化されたら自分のデータだっていうことがもう分からないわけだから、開示、訂正、消去ができるってなんだかおかしくない？

個人データを収集したデータ事業者は、仮名化し、対応表を持っているので、匿名化された個人データの開示、訂正、消去はできます。

匿名化の安全性を高めるには、個人1人に多数の仮名をつけます。（1時間毎に異なる仮名に更新など）. この場合も面倒くさいけど、これらの対応を使えばできます

個人ＩＤ（氏名など）その他の個人データ

個人ＩＤ（氏名など）

仮名（A123B など）

仮名（A123B など）

その他の個人データ

この（個人ＩＤ、仮名）の対応表は厳重に管理

データ利活用（マイニング）はこっちのレコードだけ

で行うので安全

個人からの要請による開示、訂正、消去は仮名で対応付けすればできる


仮名：A123B4

仮名：C1263B

仮名：X91234

仮名：Z12345

仮名：A123B4 その他の個人データ:1

仮名：C1263B その他の個人データ:2

仮名：X91234 その他の個人データ:3

仮名：Z12345 その他の個人データ:4

2個のレコードに分解

その他の個人データが事態を複雑化します

その他の個人データに個人を示唆するものが含まれていないデータなら、今までの議論でめでたしめでたしですが

その他の個人データは、個人の識別や特定ができる疑似ＩＤというものになり得るので、事態が複雑になります。以下の2種類の捉え方があります。

古典的な捉え方：疑似ＩＤ＋外部から観察できない個人データ

新しい捉え方：外部から観察できる個人の行動データ

古典的な捉え方：疑似ＩＤ＋外部から観察できない個人データ

個人ＩＤ疑似ＩＤ機微情報その他情報

氏名住所、年齢、性別病名、など趣味、など

個人ＩＤ仮名

氏名 a123x

仮名疑似ＩＤ機微情報その他情報

a123x 住所、年齢、性別病名、など趣味、など

分離

他のデータベース疑似ＩＤと個人ＩＤを含む

疑似ＩＤと他のデータベースを突き合わせると個人ＩＤが知られてしま

う危険性があります。

疑似ＩＤの記述を粗くしてデータベース中に同じ疑似ＩＤを持つ人がk人以上いるようにした

のがk-匿名化です。

古典的な捉え方の場合の自己情報コントロール：開示

（仮名、疑似ＩＤ，機微情報）が別の業者に渡っている場合は厄介です。

別の業者が何らかの外部情報や他のデータベースと疑似ＩＤを突き合わせると個人の特定もできそうです。

データ収集した会社

データ収集した事業者が個人データを第3者の転売、再配布するときは、当然、（仮名、その他の個人データ）のレコードだけしか渡さないですよね。

なるほど。でもこれだけの仮名をまとめて別会社に開示を要求したら、個人データ１から４が全部同じ人のデータだと分かってしまい、まずくないですか？

この（個人ＩＤ、仮名）の対応表は厳重に管理し他者に渡さないので別の業者は開示、訂正、消去すべきデータが分からない！


仮名：A123B4

仮名：C1263B

仮名：X91234

仮名：Z12345

仮名：A123B4 その他の個人データ:1

仮名：C1263B その他の個人データ:2

仮名：X91234 その他の個人データ:3

仮名：Z12345 その他の個人データ:4

別の会社この会社に渡されたのはこれだけ

仮名：A123B4

仮名：C1263B

仮名：X91234

仮名：Z12345

その他の個人データ:1




そういう危険性はたしかにありますね。対策としては、別の人の仮名も適当に混ぜて、別の会社に質問すれば、危険性は緩和でき

ます。

古典的な捉え方の場合の自己情報コントロール：開示の危険回避

（他人のデータを混ぜる方法は使えます。

仮名を頻繁に更新し、さらに複数の人の仮名も混ぜて開示要求を別業者に出せば、個人を識別されにくくなります。

当然ですが、データ収集業者は、（個人ＩＤ，仮名）の対応表を厳重に管理する必要があります。当然、暗号化もするべきでしょう。

訂正に関しては、訂正すべき個人の（仮名、個人データ）のペアを別業者に渡して訂正依頼すればよい。つまり同一個人の全データを見ないのは良いことですが、

部分的にせよ訂正要求が1個人のものだと分かるのはうれしくない。

かといって、別人の訂正要求を混ぜるわけにはいかない別人は訂正要求しているわけではないですから

一方、訂正要求には速やかに応える必要があるので、別人の訂正要求が来るまで待ってから、それらを混ぜて要求を出すのも、ちょっとやりくい。

古典的な捉え方の場合の自己情報コントロール：訂正、消去

消去の場合も別の業者に消去すべき個人の（仮名、個人データ）を全て渡します。

消去の場合も、データベースの変更が起こるので、他人のデータを混ぜて消去要求はできないので、1人のデータであることを知られる危険性は高くなります。

本当に消去したかどうかをチェックすることは困難です。契約か法律によって保証するしかないでしょう。

古典的な捉え方の場合の自己情報コントロール：訂正、消去

第3者に渡った場合、第3者のデータの現状を知りたいですよね。

k-匿名でもデータ源の個人からの開示要求には対応可能です。

つまり、データ収集業者がデータを渡した第3者にk-匿名化で同

じ疑似ＩＤの人のデータを全員分を返送させ、自分の対応表で開示要求した人のデータだけ取り出して回答すればよい。

(下図は３－匿名の例：疑似IDの値は3人とも同じ xxx）

古典的な捉え方の場合の自己情報コントロール： k-匿名化は使えるか？開示要求の場合

個人ＩＤ仮名

山田 a12

山川 b23

山下 c34

仮名疑似ＩＤ機微情報など

a12 xxx インフル

b23 xxx 高血圧

c34 xxx 盲腸

データ収集業者Ａ

データ収集業者Ａから3-匿名化データをもらった業者Ｂ

山田

①開示要求 ②この3人

（A12,B23,C34)の

データを質問

④3人分の病名のうち、山田（＝A12）のデータを山田君に開示

③3人のデータを返す

古典的な捉え方の場合の自己情報コントロール： k-匿名化は使えるか？消去要求の場合

個人ＩＤ仮名

山川 b23

山下 c34

仮名疑似ＩＤ機微情報など

b23 xxx 高血圧

c34 xxx 盲腸

データ収集業者Ａ： 2-匿名化

①消去要求

山下ですが、消去してください

2-匿名化が崩れてしまいます。 1-匿名化？匿名化ではない！

k-匿名化も再計算？ Oh ,NO!

ＯＰＴ－ＯＵＴによって、個人データが収集されなくなる場合と似ています。ただし、ＯＰＴ－ＯＵＴ以前のデータが残るなら、消去とはなりません。もし、ＯＰＴーＯＵＴ以前のデータも消去するなら、ここでの議論と同じ状況になります。

K-匿名化のもっと深刻な問題

• ある人のデータを消去するとk-匿名化が崩れてしまいますね！

• 2-匿名化だと、1人のデータが消去されたら、残った1名は1-匿名化、つまり一意的になります危険

対策１：k-匿名化を全データに対してやり直して再配布。手間が大変すぎます。

対策２：k-匿名化が崩れたk-人のグループはまとめて削除データマイニングの精度への影響は検討課題

対策３：k+α-匿名化のデータにしておけば、α人消去されてもk-匿名化は崩れません。ただし、αが大きくなると、データに質が劣化します。


• 移動履歴（駅での乗降履歴や自動車の移動情報など）、購買履歴（売店、時刻、購買物）

などは、他人から観測できる行動であるので、長期間のデータが集積すると個人を特定できる可能性がある。

2，3日でも十分に長期間の場合もあります。

個人ＩＤ疑似ＩＤ疑似ＩＤと見なせる情報その他情報

氏名住所、年齢移動履歴、購買履歴など趣味、など

個人ＩＤ仮名

氏名 a123x

仮名疑似ＩＤ疑似ＩＤと見なせる情報その他情報

a123x 住所、年齢移動履歴、購買履歴など趣味、など


• 移動履歴（駅での乗降履歴や自動車の移動情報など）、購買履歴（売店、時刻、購買物）

などは、他人から観測できる行動であるので、長期間のデータが集積すると個人を特定できる可能性がある。 2，3日でも十分に長期間の場合もあります。

疑似ＩＤと見なせるので、大変です。

移動履歴は個人ＩＤとして自己情報コントロールの対象にする考え方がＥＵでは出てきました。

• Opinion 13/2011 on Geolocation services on smart mobile WP 185 (16.05.2011) http://ec.europa.eu/justice/data-protection/article-29/documentation/opinion-recommendation/files/2011/wp185_en.pdf

http://ec.europa.eu/justice/data-protection/article-29/documentation/opinion-recommendation/files/2011/wp185_en.pdf








新しい捉え方の場合の自己情報コントロール：開示

移動履歴と個人ＩＤが紐付いた外部データがあると危険です。

例えば、移動履歴や購買履歴と個人の行動を観察して対応付けると個人の特定もできそうです。

対策としては仮名を頻繁に更新するのがお勧めです。これで、他の外部データとの突き合わせには耐性が上がります。

新しい捉え方の場合の自己情報コントロール：開示

しかし、前にスライドに書いたように、開示要求に対しては、開示要求した個人の（仮名、疑似ＩＤと見なせる情報）を全部、別業者に渡すので、

多数の仮名は同一の個人ＩＤから作られたと分かり、識別が容易にできます。したがって、個人の特定もされかねません。

他人のデータを混ぜて別業者に質問すれば、個人識別は防げそうです。

– 行動履歴以外の疑似ＩＤは別の業者に渡っていないとします。

– それでも（仮名、移動履歴などの疑似ＩＤと見なせる情報）が別の業者に渡っている場合は厄介です。

訂正に関しては、訂正すべき個人の（仮名、個人データ）のペアを別業者に渡して訂正依頼すればよいです。つまり同一個人の全データを見ないので、仮名を頻繁に変えていれば、危険性はやや低いです。

消去の場合も別の業者に消去すべき個人の（仮名、個人データ）を全部渡します。きちんと消去してくれれば問題は起きませんが、悪意の業者だと、個人の特定をされる可能性があります。特に訂正、消去の場合は、データベースの変更が起こるので、他人のデータを混ぜることができないので、危険性は高くなります。

新しい捉え方の場合の自己情報コントロール：訂正、消去

K-匿名化されたデータベースに対する開示、訂正、消去

移動履歴のような個人データが大量にあるとk-匿名化はデータの質を大きく劣化させます。

仮名を頻繁に更新してしまえば、同じ仮名に対する（仮名、個人データ）は少ないので、仮名を単位としてk-匿名化すれば、安全性はあがり、データ精度劣化も抑えられます。したがって、悪意のある第3者に渡しても危険性は抑えられます。

同一仮名を使う時間が短い（１時間、あるいは半日程度）のであれば、その同一仮名の時間内だけでk-匿名化するので、類似の行動の人が同一の行動履歴になりやすく、k-匿名化は効果的です。

K-匿名化されたデータベースに対する開示、訂正、消去

移動履歴のような個人データが大量にあるとk-匿名化はデータの質を大きく劣化させます。

開示、訂正、消去 K-匿名化した仮名のデータが第3者に渡った場合は、古典的な場合と同じ議論ができます。

つまり、k-匿名でもデータ源の個人からの開示要求には対応可能。

ただし、訂正,消去は1人の個人データだけを全部処理しないとならないので、処理依頼の対象の複数の仮名が同一人物を指すことが知られてしまう危険性はあります。

しかし、個人データが連続的な行動履歴は従来の考え方でよいでしょうか？

• 移動履歴や行動履歴のような長い時間にわたる連続的ないし断続的な個人データは一意性が非常に高いので、そもそもk-匿名性などの従来の方法が有効か疑問です。

• 仮名化を頻繁に行うことが推奨されるかもしれませんが、もっと根本的なところを考え直してみたい気がします。

移動履歴の２つの見方場所（駅名など）

A B C D E F G

個人ＩＤ（氏名な

ど）

伊藤 1 1 1 1

加藤 1 1 1

田中 1 1 1

山下 1 1 1

渡辺 1 1 1

列和 3 3 2 2 2 1 3

移動経路 A-B A-C B-D C-D B-E D-G E-G C-F


ど）

伊藤 1 1 1

加藤 1 1

田中 1 1

山下 1 1

渡辺 1 1

列和 2 1 1 1 2 2 1 1

A

B C

D

G

F E

伊藤さんの経路

公開あるいは再配布、転売しても安全なのは列和という統計データです

• 移動履歴の２つの見方、どちらでも列和だけを公開、転売してもかなり安全です。

• 列和の成分で１の成分があると危険

– 滞在地や移動経路単位が一意的なので外部観察されると個人特定ができる可能性があります。

列和成分の最小値がk以上になるようなグルー

プ化をしたデータで、列和を公開、再配布すれば、最悪でもk-匿名性以上の効果あります。

– 前のページの例で調べると次のページのようになる

移動履歴の２つの見方場所（駅名など）

A B C D E F G


ど）

伊藤 1 1 1 1

加藤 1 1 1

田中 1 1 1

山下 1 1 1

渡辺 1 1 1

列和 3 3 2 2 2 1 3

移動経路 A-B A-C B-D C-D B-E D-G E-G C-F


ど）

伊藤 1 1 1

加藤 1 1

田中 1 1

山下 1 1

渡辺 1 1

列和 2 1 1 1 2 2 1 1

A

B C

D

G

F E

田中を追い出せば、列和 ≥ ２

誰を追い出しても列和 ≥ ２にならない。む

しろ、グループの人数を増やすべきでしょう。

列和 ≥ k という条件を満たすには、場所データのほうが

移動経路データより少ない人数のグループでよさそうなので、データ精度も高いようです。

k-匿名化データの訂正と消去の困難さ

• この場合は、行動履歴データ自体が疑似ＩＤとなので、訂正でも消去でもk-匿名化が崩れる可能性があります。 – 作り直しは大変すぎ。

– 1人消去したら残りのk-1人も使えないので、まとめて削除しかないです。しかし、残りのk-1人の中の人から開示要求があると「データなし」と回答しなくてはならず、やや問題かもしれないです。

– 行動履歴の場合は１人行動履歴を訂正すると、 k-匿名化が崩れる可能性があります。

– 仮名を頻繁に更新し、個々の仮名に対してk-匿名化してあるなら、削除したときの被害は小さくなります。

– k+α-匿名化ですが、k人にα人追加によるデータの質の劣化はもっと深刻でしょう。

まとめ

• 個人情報保護はビジネスとプライバシーの狭間にある法制度と技術が絡み合った話

• 問題は山積し、

• 完全な解決策はない。

• 開示、訂正、消去要求の面倒さ

• プライバシーの安全性 – 分かりにくい「差分プライバシー」という概念が有力

• 日本に差分プライバシーの研究者がほとんどいない状況

• 国際会議のプライバシー関連論文は差分プライバシーが主流

• なんとかしないといけません。

公開あるいは再配布、転売しても安全なのは統計データ＋雑音だが

• 移動履歴の２つの見方、どちらでも列和だけを公開、転売してもかなり安全です。

• さらに、列和に雑音を加算する方法があります。これは差分プライバシーとして質問への答えに雑音加算する方法に似ています。

• ただし、ここでは元のデータに雑音を加えるので、処理結果にバイアスがあることが問題です。

• また、第３者に渡したのが雑音入りのデータですから開示、訂正の要求をしにくくなります。

• むしろ、第３者へ渡すのはランダムサンプリングされた一部のデータとする方法が有力かもしれません。 – サンプルデータとk-匿名化の関係は2012年にACMで論文が発表されました。 • http://dl.acm.org/citation.cfm?id=2414474

以上述べたように行動履歴データを再配布、転売する場合は、困難なので信頼できるところを探す

• Cavoukianが提案した BigPrivacyのTrsut Frameworkように契約によって再識別、再特定（re-idenfication)しないという解しかないのでしょうか？ – だが、信頼できる強力なデータ集積センター（Personal Cloud)が必要なのです。

• 第三者機関との関係 – 公的な第三者機関なら、お上を信じる日本人がお墨付きを信じるかもしれません。

– でも事件が起きたら第三者機関も安全性の説明責任を問われます。

その他の研究

ここで述べたことは、匿名性とデータ公開（主に第三者提供）の関係を開示、訂正、消去の観点からの話です。

行動履歴に関しては、データベースへの外部者から質問へ答えるという利用もあり、その場合は差分プライバシーを利用する研究が数多く提案されています。

暗号化のアプローチもありますが、鍵の管理の問題などがあり、データ公開とは違う局面の技術なので、ここでは触れませんでした。

プライバシー保護の法制と技術課題（2014年時点）

Law