[ddbj challenge 2016] 機械学習と予測モデルコンペティション

23
1 KYOTO UNIVERSITY KYOTO UNIVERSITY DEPARTMENT OF INTELLIGENCE SCIENCE AND TECHNOLOGY 機械学習と予測モデルコンペティション 京都大学 情報学研究科 知能情報学専攻 鹿島 久嗣

Upload: dna-data-bank-of-japan-center

Post on 16-Apr-2017

519 views

Category:

Education


2 download

TRANSCRIPT

Page 1: [DDBJ Challenge 2016] 機械学習と予測モデルコンペティション

1 KYOTO UNIVERSITY

KYOTO UNIVERSITY

DEPARTMENT OF INTELLIGENCE SCIENCE

AND TECHNOLOGY

機械学習と予測モデルコンペティション

京都大学情報学研究科知能情報学専攻

鹿島久嗣

Page 2: [DDBJ Challenge 2016] 機械学習と予測モデルコンペティション

2 KYOTO UNIVERSITY

“人工知能” の成功:

– クイズ王に勝利した質問応答システム

– プロ棋士に勝利したコンピュータ将棋・囲碁

今回の“人工知能”ブームは機械学習に支えられている

– とりわけ深層学習がブームを牽引

機械学習の躍進:“人工知能”の成功を支えるコア技術

Page 3: [DDBJ Challenge 2016] 機械学習と予測モデルコンペティション

3 KYOTO UNIVERSITY

機械学習とは、もともと「人間のもつ‟学習能力„を機械(計算機)にも持たせる」ことを目指す人工知能の一研究分野

近年では、「統計的」機械学習が主流

– 遺伝子情報処理、自然言語処理他、ビジネス分野での成功

– データ解析技術一般を指すほかの領域との境は曖昧

深層学習の大ブレーク

– 機械学習≒深層学習≒人工知能??

機械学習とは何か:機械学習はデータ解析の一分野

Page 4: [DDBJ Challenge 2016] 機械学習と予測モデルコンペティション

4 KYOTO UNIVERSITY

データ解析手法の大別:予測と発見

– 予測:「これから何が起こるのか?」≒教師つき学習

• 過去~現在のデータをもとに、将来のデータについての予測をおこなう

– 発見:「いま何が起きているのか?」≒教師なし学習

• 過去~現在のデータをもとに、何らかの知見を得る

機械学習には何ができるか:予測と発見

Page 5: [DDBJ Challenge 2016] 機械学習と予測モデルコンペティション

5 KYOTO UNIVERSITY

マーケティング

–商品推薦

–Web上の評判分析

–Web広告の最適化

金融

–信用リスク評価

–不正検出

サイエンス

–遺伝子予測(バイオ)

–新規材料開発(材料)

機械学習の様々な応用:オンラインショッピングからシステム監視まで

Web

–検索

–スパム判定

– SNS

ヘルスケア

–医療診断

マルチメディア

–音声・画像認識

システム監視

–故障・異常検知

Page 6: [DDBJ Challenge 2016] 機械学習と予測モデルコンペティション

6 KYOTO UNIVERSITY

進む機械学習の社会実装

– 不確定で膨大なデータに対応する方法論が進展

– ブラックボックス・ツールが整備

IT分野に限らず、様々な分野への応用が検討されている

– ヘルスケア、航空、自動車、バイオ、製薬、材料科学、…

非IT系分野への広がり:機械学習は社会実装フェーズ

Page 7: [DDBJ Challenge 2016] 機械学習と予測モデルコンペティション

7 KYOTO UNIVERSITY

機械学習等によるデータの自動解析は、しばしばデータ解析の中心として捉えられる

データ解析全体のプロセスは、その大部分が人間に依存する

データ解析の労働集約性:データ解析プロセスの大部分が人間に依存

データ収集 データ統合クレンジング注釈 視覚化

モデル化評価/解釈

電子化

データ解析のプロセス大部分が

属人的・労働集約的

データ化(データフィケーション) データ分析(アナリティクス)

Page 8: [DDBJ Challenge 2016] 機械学習と予測モデルコンペティション

8 KYOTO UNIVERSITY

「2015年までに、ビッグデータ需要により創出される雇用機会は世界で440万人に達するが、実際に採用につながるのは3分の1のみにとどまる」(ガートナー)

「データサイエンティストは、21世紀でもっとも‟セクシー„な職業」(ハーバード・ビジネス・レビュー)

これらの‟煽り„はデータ解析の労働集約性の高さを示している

データサイエンティストの不足:データ解析の属人性の象徴

Page 9: [DDBJ Challenge 2016] 機械学習と予測モデルコンペティション

9 KYOTO UNIVERSITY

クラウドソーシングとは:

「(インターネットを通じて)不特定多数の人に仕事を依頼すること、もしくはその仕組み」

クラウドソーシングのメリット:群衆の叡智にアクセス(「三人寄れば文殊の知恵」)

Foldit:タンパク質の立体構造予測

– オンラインゲームの形で実現

クラウドソーシングの登場:みんなの力を合わせて目標を達成

※ クラウドソーシング ≠ クラウドコンピューティング

Page 10: [DDBJ Challenge 2016] 機械学習と予測モデルコンペティション

10 KYOTO UNIVERSITY

クラウドソーシングによるデータ解析:知識とスキルを集結してデータ解析を実現

データ収集 データ統合クレンジング注釈 視覚化

モデル化評価/解釈

電子化

データ解析のプロセス

データ化(データフィケーション) データ分析(アナリティクス)

クラウドソーシングによるプロセス実行

Page 11: [DDBJ Challenge 2016] 機械学習と予測モデルコンペティション

11 KYOTO UNIVERSITY

自動化の進むモデリング部分も実は労働集約的

–“No free lunch”定理: どんな場合でもうまくいく方法はない

–しばしば、結果を大きく左右するのは、既存の手法の選択+データ固有のヒューリスティクス(特徴量、サンプル選択など)

データに合ったモデルを(人手で)広範囲に探索する必要がある

データ解析コンペティション:モデリングのクラウドソーシング

–データを公開し、結果(予測精度)を競う

クラウドソーシングによる予測モデリング:予測コンペティションによる網羅的なモデル探索

Page 12: [DDBJ Challenge 2016] 機械学習と予測モデルコンペティション

12 KYOTO UNIVERSITY

Wikipediaのリンク予測を題材にしたコンペティションを開催

短期間で‟プロ„ を遥かに超える予測精度を達成

–初期分析結果を4日目で抜き、最終的に20%以上の精度向上

予測コンペティションの威力:短期間で‟プロ„を超える精度を実現

初期分析の予測精度

4日で抜き去られる

20%以上の精度向上

予測精度

Baba et al. Crowdsourced Data Analytics. In DSAA 2014.

Page 13: [DDBJ Challenge 2016] 機械学習と予測モデルコンペティション

13 KYOTO UNIVERSITY

:教育用途コンペプラットフォーム

–データ解析の実践を通じた、データ解析教育を目的に開発

–大学講義・演習、企業内研修での利用も

現在約400名が参加登録

10を超えるコンペティションを開催

ビッグデータ大学:実践を通じたデータ解析教育のためのプラットフォーム

Page 14: [DDBJ Challenge 2016] 機械学習と予測モデルコンペティション

14 KYOTO UNIVERSITY

コンペティションの流れ:

1. 訓練データ(正解付き)とテストデータの公開

2. テストデータに対する予測の提出

3. 期間終了後、テストデータに対する予測精度で順位決定

リーダーボード:中間評価用データ(テストデータの一部)に対する順位を公開

コンペティションの仕組み:テストデータに対する予測精度で勝者を決定

データ公開

予測提出 y=f(x)

最終結果

データ提供者参加者

数週間~数か月

Page 15: [DDBJ Challenge 2016] 機械学習と予測モデルコンペティション

15 KYOTO UNIVERSITY

予測精度の評価(イメージ):正解を隠したテストデータで予測の良さを評価

入力(配列)

正解

GATTAT ○

ATGCTC ×

CGTGAT ×

CACTTA ○

モデル作成 モデル適用

入力(配列)

予測正解

(非公開)

AAAAA ○ ○

TATATA × ×

GTACTA × ×

クロマチン特徴領域が含まれるか否か

訓練データ テストデータ

予測と正解の一致率で評価

入力(配列)

予測正解

(非公開)

AAAAA ○ ○

TATATA × ×

GTACTA × ×

入力(配列)

予測正解

(非公開)

AAAAA ○

TATATA ×

GTACTA ×

入力(配列)

予測正解

(非公開)

AAAAA

TATATA

GTACTA

Page 16: [DDBJ Challenge 2016] 機械学習と予測モデルコンペティション

16 KYOTO UNIVERSITY

より具体的な予測精度の評価:予測の自信度を提出⇒正解との相関(AUC)で評価

入力(配列)

正解

GATTAT ○

ATGCTC ×

CGTGAT ×

CACTTA ○

モデル作成 モデル適用

入力(配列)

予測正解

(非公開)

AAAAA ○ ○

TATATA × ×

GTACTA × ×

訓練データ テストデータ

予測と正解の相関(AUC)で評価

入力(配列)

予測正解

(非公開)

AAAAA 0.9 ○

TATATA 0.3 ×

GTACTA 0.2 ×

クロマチン特徴領域が含まれる自信度

Page 17: [DDBJ Challenge 2016] 機械学習と予測モデルコンペティション

17 KYOTO UNIVERSITY

さらに今回のチャレンジは複数ラベルの予測:複数のラベルそれぞれに自信度を提出

入力(配列)

正解

条件1 … 条件8

GATTAT ○ … ×

ATGCTC × … ○

CGTGAT × … ×

CACTTA ○ … ×

訓練データ テストデータ

入力(配列)

正解

条件1 … 条件8

AAAAA 0.9 … 0.1

TATATA 0.3 … 0.8

GTACTA 0.2 … 0.4

8条件それぞれに対する正解

8条件それぞれに対する予測(自信度)

Page 18: [DDBJ Challenge 2016] 機械学習と予測モデルコンペティション

18 KYOTO UNIVERSITY

アカウント作成http://universityofbigdata.net

Page 19: [DDBJ Challenge 2016] 機械学習と予測モデルコンペティション

19 KYOTO UNIVERSITY

今回のチャレンジ

Page 20: [DDBJ Challenge 2016] 機械学習と予測モデルコンペティション

20 KYOTO UNIVERSITY

データをダウンロード

いくつかの規約に同意

データファイルの説明

Page 21: [DDBJ Challenge 2016] 機械学習と予測モデルコンペティション

21 KYOTO UNIVERSITY

テストデータへの予測ファイルを提出(1日3回まで)

現在の順位(テストデータの一部で算出)

Page 22: [DDBJ Challenge 2016] 機械学習と予測モデルコンペティション

22 KYOTO UNIVERSITY

最終順位(テストデータ全部で算出)

チャレンジ終了時

Page 23: [DDBJ Challenge 2016] 機械学習と予測モデルコンペティション

23 KYOTO UNIVERSITY

広がる機械学習の応用

コンペティション形式で実際の解析を通じた学習「DNA配列からのクロマチン特徴予測」

みんなの力で「専門家」を超える

コンペティション参加者は

–遺伝研のスーパーコンピュータ

–MATLAB

が利用可能

まとめ:機械学習と予測モデリングコンペティション