本当に知ってる!?...
TRANSCRIPT
本当に知ってる!?リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~
祖山 寿雄株式会社サイカ
2017/03/16ヒカラボ
ヒカラボ2017/03/162
自己紹介
● 祖山 寿雄– @who_you_me
● 株式会社サイカ– Statistics Division
● Data Analysis Engineer
● 社会学修士→ネットワークエンジニア→Webエンジニア→DBエンジニア→データ分析エンジニア
今日の目的
Before
● データサイエンティスト/AI/ディープラーニング 流行ってるけどなんだかよく分からない
● 自分もやってみたいけど、どこから何に手を付け
After
● AI/ディープラーニング/機械学習/統計学 これらがどんなものか分かる
● これらの分野の将来像が分かる
ヒカラボ2017/03/166
今日話さないこと
● 個別の手法の解説– 自分で手を動かして学ばないと身につかないです– 自ら学ぶためのアドバイスはします
● 明日すぐに役立つこと– 明日役に立つことは明後日には役に立たなくなって
るかもしれません
1.AI/ディープラーニング/機械学習/統計学一体何が違うのか
ヒカラボ2017/03/168
一般的なイメージ (1/2)
● AI– なんかすごいもの– 人の仕事を奪うもの– いつかはこいつが人類を支配する日が来るらしい
● ディープラーニング– なんかすごいもの– 囲碁で人間に勝った
ヒカラボ2017/03/169
一般的なイメージ (2/2)
● 機械学習– よくわからない
● 統計学– 昔授業でやったけどぜんぜんわからなかったやつ
ヒカラボ2017/03/1610
実際はこうじゃ
ヒカラボ2017/03/1611
AI (1/2)
● 人工的にコンピュータ上などで人間と同様の知能を実現させようという試み、或いはそのための一連の基礎技術を指す(Wikipedia)
● バズワードとして使われている「AI」は「機械学習」とほぼ同義であり、その中の大半は「ディープラーニング」– 囲碁、将棋– 自動運転 etc...
ヒカラボ2017/03/1612
AI (2/2)
● 「何でもできるすごいやつ」みたいに思われている実際はそんなことない
● 現に大手ベンダーとかが「AI」と称して売っているのは単なる機械学習パッケージ– H社の事例
● http://social-innovation.hitachi/jp/solutions/ai/● https://wirelesswire.jp/2016/11/57683/
ヒカラボ2017/03/1613
ディープラーニング
● 「機械学習」の一手法● パーセプトロン→ニューラルネットワーク→
ディープラーニング と進化してきた– 半ば見捨てられていた手法がムーアの法則により蘇
り世界を席巻するという胸熱展開ではある
ヒカラボ2017/03/1614
再掲
残ったのは「機械学習」「統計学」じゃあこれらはいったい?
の前に、説明してない大事な言葉がもうひとつ
データサイエンス/データサイエンティスト
ヒカラボ2017/03/1618
定義 (1/5)
● 「データサイエンティスト協会」なるものがあるのでここを見れば分かるに違いない– http://www.datascientist.or.jp/
● “実際には新しい職業である「データサイエンティスト」には明確な定義がなく、対応領域も広いことから、さまざまな課題も生まれています”– 定義ないんかーい
ヒカラボ2017/03/1619
定義はどこだ (2/5)
● がんばってPDF漁ったらあった– http://www.datascientist.or.jp/news/2014/pdf/1
210.pdf● 「データサイエンティストとは、データサイエ
ンス力、データエンジニアリング力をベースにデータから価値を創出し、ビジネス課題に答えを出すプロフェッショナル」
ヒカラボ2017/03/1620
定義はどこだ (3/5)
● 「データサイエンス」「データエンジニアリング」 is 何
● データサイエンス(力)– 「情報処理、人工知能、統計学などの情報科学系の
知恵を理解し、使う力」
● データエンジニアリング(力)– 「データサイエンスを意味のある形に使えるように
し、実装、運用できるようにする力」
ヒカラボ2017/03/1621
定義を求めて三千里 (4/5)
● よくわからんので、今春開設される滋賀大学データサイエンス学部のサイトも見てみる– https://www.ds.shiga-u.ac.jp/
● “データサイエンスとは社会に溢れているデータから<価値>を引き出す学問です”
ヒカラボ2017/03/1622
やっと定義に出会えた (5/5)
● これは非常に分かりやすいし、皆さんがこの分野に興味を持っているのもここなのでは– データから価値を引き出したいですよね?
● というわけで、やっと「機械学習」と「統計学」の話に戻ります
機械学習 vs. 統計学 (1/3)
● 結論から言うと「データから価値を引き出す」
ヒカラボ2017/03/1624
機械学習 vs. 統計学 (2/3)
● 機械学習で定評のある入門書『はじめてのパターン認識』で取り上げられている手法
ベイズの識別規則 kNN法 線形識別関数 ロジスティック回帰 パーセプトロン サポートベクトルマシン 主成分分析
部分空間法 k-means法 階層型クラスタリング EMアルゴリズム 決定木 ブースティング ランダムフォレスト
ヒカラボ2017/03/1625
機械学習 vs. 統計学 (3/3)
● 明らかに統計学の手法だったり、そこから派生したものだったりが混じっている
ベイズの識別規則 kNN法 線形識別関数 ロジスティック回帰 パーセプトロン サポートベクトルマシン 主成分分析
部分空間法 k-means法 階層型クラスタリング EMアルゴリズム 決定木 ブースティング ランダムフォレスト
ヒカラボ2017/03/1626
機械学習の定義
● 大量のデータをコンピュータを使って学習し、そこに潜むパターンを見つけ出すこと– SASのサイトから借用して一部アレンジ
● 見つけ出したパターンを未知のデータに適用し、予測すること– メールの文章からスパムかどうか判定する– 明日の天気と気温からビールの売上を予測する
ヒカラボ2017/03/1627
統計学の定義
● 対象の全体または一部を観察し、そこから数量的法則(規則)を発見する– みんな大好き『統計学入門』を要約
● あれっおんなじだ
ヒカラボ2017/03/1628
機械学習 vs. 統計学 再び
● どちらも「データからパターン・法則を見出す」という点であんまり変わらない– 木を切るのに斧を使うのか鉈を使うのかぐらいのノ
リで、「木を切る」という行為に変わりはない
● 若干のニュアンスの違いはある(後述)– とはいえ「データから価値を引き出す」が目的であ
る我々にとっては単なる道具の違いでしかない– 道具を選り好みする奴にろくなのはいない
ヒカラボ2017/03/1629
まとめ (1/2)
● 「AI」は「機械学習」とほぼ同義で使われている
● 「ディープラーニング」は機械学習の一手法● 「機械学習」「統計学」はどちらもデータから
何らかのパターン・法則を見出す手法
ヒカラボ2017/03/1630
まとめ (2/2)
● 我々がやりたいのは「データから価値を引き出す」こと
● この目的に照らすと、機械学習も統計学もあくまで道具であり、取り立てて区別する必要はない
2.「データ分析」の今とこれから
ヒカラボ2017/03/1632
はじめに
● ここまでは便宜上「統計学や機械学習を駆使してデータから法則を見出す行為」を「データサイエンス」と呼称していましたが、宗教上の理由によりここからは「データ分析」とします– 理由が気になる人は懇親会で聞いてみてください
問題です
データ分析の中でも「AI」がすごいブームですが、なんでブームになっているんでしょうか?
答え
誰でも簡単にできるようになってきたから
ヒカラボ2017/03/1637
昔
● そもそもデータがない● データがあってもマシンパワーが足りない● 高度な数学の知識がないと扱えない● ナレッジがない
ヒカラボ2017/03/1638
今 (1/2)
● データなら腐るほどある– 人の行動履歴がWebに蓄積されるようになった– オープンデータがいっぱい
● マシンパワーも腐るほどある– ムーアの法則– GPU– クラウド
ヒカラボ2017/03/1639
今 (2/2)
● 大量データと潤沢な計算資源により、高度な数学を駆使しなくても「物理で殴れる」– 総当り(に近いノリ)で試行錯誤が可能に
● ディープラーニングとかまさにそれ
● 情報がいくらでも転がっている– 出版ラッシュ– Webにもいっぱい
ね、簡単でしょう?
ここで第二問
「誰でも簡単にできること」がただできるだけで競争優位になるでしょうか?
ヒカラボ2017/03/1643
生存戦略としてのデータ分析 (1/5)
● 今流行ってるのは機械学習よりのアプローチ● 機械学習は工学的なアプローチのため、ITエン
ジニアとの親和性が高い– 理論、プロセスより結果重視
● というのもあり、周囲でも優秀なエンジニアがどんどん機械学習を始めている– 優秀なのですぐに成果が上がっている
ヒカラボ2017/03/1644
生存戦略としてのデータ分析 (2/5)
● 端的に言うとエンジニア個人の生存戦略という観点ではこの分野はとっくにレッドオーシャン
● 他の分野で既に優秀な人が、得意分野と機械学習を掛け合わせてなんかやる、みたいなのはまだまだ有望
● むしろある程度使えないとヤバいみたいになることもありえる……?
ヒカラボ2017/03/1645
生存戦略としてのデータ分析 (3/5)
● まだあるよ● 某2016年にもっとも売れた技術書にこんな記述
が– 「ディープラーニングって学習の過程に人が介在し
ないから素晴らしい」(意訳)
● それってもう人いらないじゃん……
ヒカラボ2017/03/1646
生存戦略としてのデータ分析 (4/5)
● マシンパワーを武器に試行錯誤するアプローチは容易に機械で代替可能
● 「データさえ突っ込めば勝手に学習してくれる」ことを謳うプロダクトは既にいっぱいあるし、精度もこれから上がる
ヒカラボ2017/03/1647
生存戦略としてのデータ分析 (5/5)
● こんな時代はもう目の前– 実用上必要なレベルの精度は機械が勝手に出せる– それを越えようとしたらとてつもない専門性が必要
● データ収集や前処理など、とても大事だが地道でつらい作業は当分残りそうではある– そういうのが好きな人はそこに振るのはありそう
ヒカラボ2017/03/1648
小休止
● 「人工知能ブーム」は誰でも簡単にできるようになったから起こった
● 「誰でも簡単にできる」ので、既存の得意分野と組み合わせるとか、みんなやりたがらないことをするとかしないと競争優位にならない– 「これしかできない」データサイエンティストはすぐに仕事がなくなる……
あれ?あんまり明るい話にならない?
- - - ここからポジショントーク - - -
ヒカラボ2017/03/1651
このセクションのタイトルは?
● 「データ分析」の今とこれから● ここまで機械学習の話ばっかりだけど統計学は?● そうです
– なので● ここから
– さっきちょっと言った「若干のニュアンスの違い」の話をします
ポジショントーク中
ヒカラボ2017/03/1652
ニュアンスの違い is 何
● キーワードは既に出ている– 「機械学習は工学的なアプローチ」– 「理論、プロセスより結果重視」
● 「結果重視」の結果とは?– 機械学習の定義をおさらい
● 大量のデータをコンピュータを使って学習し、そこに潜むパターンを見つけ出す
● 見つけ出したパターンを未知のデータに適用し、予測する
ポジショントーク中
ヒカラボ2017/03/1653
機械学習
● (主流の)機械学習の目的は「予測」– 予測が当たれば正義
● なので、予測精度が上がるためならなんでもやる– ニューラルネットをものすごい多層にしたり– 複数の学習器で多数決したり
ポジショントーク中
ヒカラボ2017/03/1655
一方の統計学
● 「データからパターンを見出す」という点では同じでは– 同じです
● だが、統計学においては必ずしもパターンを予測に使うことが目的ではない– 「パターンを見出しそれを理解する」ことに力点が置かれる
ポジショントーク中
ポジショントーク中
http://xica.net/magellan/marketing-idea/stats/statistics-words/
それって何が違うのか (1/2)
● 競馬予測を例に取ってみましょう
ポジショントーク中
ヒカラボ2017/03/1658
それって何が違うのか (2/2)
● 予想屋– 使える情報は全て使って、勝つ馬が予測できればそ
れでいい● 勝つ馬が分かればお金が儲かるから
– 税務署がアップを始めました
● 馬主、調教師– 予測できるだけではあまり意味がない
ポジショントーク中
ヒカラボ2017/03/1659
なぜ意味がない?
● 彼らの仕事は「勝てる馬を育てる」「目の前にいるこの馬を勝たせる」こと– 「強い馬はなぜ強いのか」「今強くない馬を強くす
るにはどうすればいいか」が重要
● なので、生まれてから成長し、強くなるまでのパターン(メカニズム)そのものを理解する必要がある
ポジショントーク中
ヒカラボ2017/03/1660
補足:それって機械学習じゃダメ?
● 機械学習なら予測できるんだから、シミュレーションして一番いい結果が出る方法を採用すればいいんじゃないの?
● あまりよくない– 特徴量がすごい多いので総当りできなそう– 「相関」と「因果」は違う– 「雨の日には絶対勝てます!」じゃあ雨降らせろっ
てか……?
ポジショントーク中
- - ポジショントークが加速します - -
ポジショントーク中
ヒカラボ2017/03/1662
まとめ (1/5)
● 機械学習の目的は「未来(未知のデータ)を予測すること」– 予測さえできればそれがゴール
● 統計学の目的は「データの背後に潜むメカニズムを理解すること」– ある程度の予測精度はもちろん必要– だが、予測の精度を上げるためには何でもやってい
い訳ではない
ポジショントーク中
ヒカラボ2017/03/1663
まとめ (2/5)
● 「未来を予測する」ことだけが目的なら、人を介さず機械だけで完結する時代は目の前– もちろんそれだけでも価値をたくさん生み出すこと
はできる
● でも、やりたいことって本当にそれだけ?
ポジショントーク中
ヒカラボ2017/03/1664
まとめ (3/5)
● 競馬の話に戻ります● 調教師は目の前にいる馬が「次のレースで負け
る」と予測されれば諦めるのか?– 勝とうともがくよね– 勝つための手段を追求し続けるよね
● 彼/彼女がやりたいのは「未来を変える」こと
ポジショントーク中
ヒカラボ2017/03/1665
まとめ (4/5)
● 「未来を予測する」だけではなく「未来を変える」ことまで求められるフィールドは絶対にある
● 「未来を変える」ためには「人の行動を変える」必要がある
● 人の行動を変えられるのは人だけ– 「なんだかよく分からないけど当たるからそれに従
え」で人は動くか?– それって神のお告げと何も変わらない
ポジショントーク中
ヒカラボ2017/03/1666
まとめ (5/5)
● なぜ人にしかできないのか– 事象の背後に潜むメカニズムを明らかにして、成功
までのストーリーを提示しないと人は動かない– 今のところ(そしてたぶん今後しばらくは)「背後
のメカニズムを理解する分析」は機械だけではできない
● 人や社会の行動に関する深い考察と、それを数式に落としこむ能力が必要
ポジショントーク中
結論
● こっちはまだまだ明るいぞ
ポジショントーク中
- - - ポジショントークここまで - - -
おまけ
● 適当に書いて出した事前のプログラムから漏れ
ヒカラボ2017/03/1670
Googleと同じ土俵で戦ってもGoogleには勝てない● 機械学習(特にディープラーニング)では大量
のデータと潤沢な計算資源で「物理で殴る」のがとっても有効
● 世界で一番データと計算資源を持っているのは誰?– おまけに連中はディープラーニングに最適化された
プロセッサを独自に作ったりとかしてるぞ
ヒカラボ2017/03/1671
「AI」の得意なこと、苦手なこと(1/3)● 実活用の分野では、人間の「ちょっぴり知的だ
けどほぼ単純作業」はかなりの部分が代替可能– 名刺の画像からデータ化– エッチな画像を検出してBAN– ローンの審査– 自動運転もこの範疇かな
ヒカラボ2017/03/1672
「AI」の得意なこと、苦手なこと(2/3)● 「囲碁で勝つ」は「ちょっぴり知的だけどほぼ
単純作業」には当てはまらなそうだが、これも万能ではない– 囲碁で勝つAIは将棋では勝てない
● それどころか将棋を指すことすらできない
– 将棋で勝てるAIも別にあるが、こんな面白い話が● http://www.news-postseven.com/archives/20140424_
252628.html
ヒカラボ2017/03/1673
「AI」の得意なこと、苦手なこと(3/3)● 「ルールが明確に決まっていて今後もそのルー
ルは変わらない」分野では人間を超えられる– この世界のごく一部
● AIは意味を理解することができないので、ルール自体が変わると弱い– 囲碁で勝つことはできても「どうして勝っている
か」は分からない● 人に教えることはできない
3.未来を変える人になるための道標
ヒカラボ2017/03/1675
さあ一歩踏み出そう
● さっきまでのは一旦忘れましょう– あくまでハートやスタンスの問題であって、技術的
にはやることそんなに変わらない– 機械学習を学ぶと統計にフィードバックがあるし、逆もまた然り
● てなわけで、学ぶ時も好き嫌いせず両方やりましょう
ヒカラボ2017/03/1676
大事な心構え (1/2)
● あなたが簡単に身に付けられるものは、隣の人も簡単に身に付けられる– なのですぐ追い付かれる
● だが、苦労して身に付けたものは簡単には追い付かれない
ヒカラボ2017/03/1677
大事な心構え (2/2)
● 努力しよう● 「大事って分かっているが面倒だから実際には
なかなかできない」ことを地道にやろう– それって具体的に何というのは後述
で、まずは何から始めればいいの?
ヒカラボ2017/03/1679
これは実は
ヒカラボ2017/03/1680
こうじゃ
ヒカラボ2017/03/1681
数学は科学の女王にして奴隷 (1/3)
● 今日の聴衆はエンジニア想定だからコンピュータサイエンスはそこそこ分かってるとして……
● 当たり前だが数学分からないと無理
ヒカラボ2017/03/1682
数学は科学の女王にして奴隷 (2/3)
● でも安心を– 統計学/機械学習に入門するための数学はそこまで
レベル高くない
● 高校数学+大学入門レベルの微積・線形代数で十分– それすらやりたくない人は諦めましょう
ヒカラボ2017/03/1683
数学は科学の女王にして奴隷 (3/3)
● 高校数学やり直しではこの本が評判いい– 朝倉書店『統計学のための数学入門30講』
● 大学数学はぶっちゃけ学習参考書が実用的で割といい– マセマの『大学数学キャンパス・ゼミシリーズ』– 読んだことないが高校数学もマセマでいいかも
ヒカラボ2017/03/1684
大事な心構え 再び
● 「大事って分かっているが面倒だから実際にはなかなかできない」ことを地道にやろう– 真面目に技術書読む時には「写経」するよね– 数学も全く同じ
● 読むだけじゃ理解したつもりになってるだけ
– 手を動かそう● さあ紙とペンを持って
ヒカラボ2017/03/1685
準備は整った
● ここまでやると、いよいよ統計学/機械学習の入門書がちゃんと読めるようになる
● ここからは独断と偏見で、というか自分が読んでよかったと思う本を紹介– 割と定番書ばかりなので面白みとかはない– いきなり本だと重い人はオンラインコースでもいい
かも● 自分は詳しくないのでググッて
ヒカラボ2017/03/1686
統計学編 (1/2)
● 東大出版会『統計学入門』(通称「赤本」)はやはり外せない……– 初学者には難しいという声もあるが、確率・確率分布は早めに入門しておかないと
– 線形回帰はいろんな手法の基礎だし
● 東大出版会『自然科学の統計学』(通称「青本」)も超いい本だが難しい– 一人で読めたら自信を持っていい
ヒカラボ2017/03/1687
統計学編 (2/2)
● これだけだとベイズ論者から馬鹿にされるのでベイズも– 岩波書店『データ解析のための統計モデリング入
門』だと前2冊からうまく接続できる
● 「因果は相関と違う」と言ったが因果を追求する統計学も実はある– 『岩波データサイエンス vol.3』がすごく分かりやす
い
ヒカラボ2017/03/1688
機械学習編
● 黄色い悪魔は必ず挫折するのでやめよう● 森北出版『はじめてのパターン認識』(通称
「はじパタ」)はかなりいい– が、結構難しいのでコロナ社『言語処理のための機械学習入門』を先に読んでおくといいかも
● 古い版は誤植多いので注意
ヒカラボ2017/03/1689
大事な心構え 再び
● 「大事って分かっているが面倒だから実際にはなかなかできない」ことを地道にやろう– さあ紙とペンを持って– 数式は全部写して式展開省略してるところは全部自
分で埋めるぐらいの気概は必要● 一人でやるとしんどいので、教えてくれる人や一緒に悩ん
でくれる人を探すのが結構重要かもしれない
プログラミング編
● まあPythonだよね● インプレス『Python機械学習プログラミング』
ヒカラボ2017/03/1691
その先は……
● ここまでできたあなたは相当力がついています● 自分の好きな分野のオープンデータを探していろいろやってみましょう
● 割とガチな勉強会に行ってもだいたい話は通じるので、人から刺激を受けましょう
という訳で
みんなで「未来を変える分析ができる人」になろう!
以上、ご清聴ありがとうございました