20151013nodered whatson
TRANSCRIPT
Node-RED で実装した人工知能 Whatson が TOEIC に挑戦!2015-10-13
Node-RED ライトニングトーク祭※Whatson( ワッツオン ) は、 Watson サービスではありません。www.ibm.com/smarterplanet/jp/ja/ibmwatson/quiz
背景• 人工知能が挑戦している試験の例
• 東大入試• センター試験• 医師国家試験
→ 人工知能の発展は、コンピュータの得意分野や限界を明らかにし、 人間がより人間らしい仕事にフォーカスすることに貢献
• TOEIC とは• 英語能力を測るリスニング、リーディングのテスト• 受験のメリット
• 大学入試や国家試験の英語科目免除、優遇• 大学での単位認定• 就職、転職、昇進でのアピール など
• 世界の受験者数 : 700 万人 / 年• 日本の平均点 : 584 点 (990 満点 )
参考 : 21robot.org, www.keio.ac.jp/ja/press_release/2015/osa3qr0000013aey.html, www.toeic.or.jp
正答率 60% を目標とし、人工知能 Whatson を開発
検索対象文字列leaning againstleaning betweenleaning afterleaning after
人工知能 Whatson文法問題を解くウェブアプリケーション• 選択肢が入る空欄前後の単語を手かがりとし、膨大な書籍のテキスト上で、最も使われる単語の並びを解答とする。• 書籍 800 万冊分、圧縮形式で 9TB の N-gram データを加工して使用• 品詞問題、コロケーション問題が得意
使用データ : TOEIC Bridge 公式ガイド & 問題集 ( 公式問題を基にに問題例を作成、 Google Books Ngram: storage.googleapis.com/books/ngrams/books/datasetsv2.html
(3)N-gram データを検索し、使用頻度をグラフ化
問題文 :The ladder is leaning ---- the wall.
選択肢 :(A) between (B) after (C) about (D) against
(1) 空欄と前後の 1 ~ 3 単語を切り出す(2) 各選択肢を追加 検索対象文字列
leaning againstleaning betweenleaning afterleaning after
切り出した文字列is leaning ---- is leaning ---- theis leaning ----is leaning ---- theis leaning ---- the wall
検索対象文字列leaning betweenleaning afterleaning aboutleaning against
図 1 解答導出手順
(2)
解答
開発方法• N-gram データの格納に分析向けデータベース dashDB を活用• 試行錯誤を効率的に行える Node-RED を用いて開発 ( 開発時間は 4 時間 )
ユーザインターフェイス( 入力フォーム、グラフ表示の HTML を出力 )
図 2 Node-RED で開発したノード
統合スコア取得 API( 各要素スコアを取得し、正規化 )
要素スコア取得 API( 各切り出しパターン毎に dashDB を検索 )
動作画面 品詞問題 コロケーション問題
give me ame a
give me against theleaning against the
against the wall
I a between theafter the
about the
評価結果と考察• TOEIC 公式問題集の 120 問で評価し、正答率 65 ~ 88% を達成• 最近の問題は品詞問題、コロケーション問題が少ないため、正答率低
# 問題集 問題 正答率1 公式問題集
Vol 4TEST 1 Part5 88% (35/40)
2 公式問題集Vol 5
TEST 1 Part5 70% (28/40)
3 公式問題集Vol 6
TEST 1 Part5 65% (26/40)
改善アイデア• ノイズとなる副詞、固有名詞を除去し処理• 選択肢から問題パターンを判定し、パターンに特化したアルゴリズムを使用• 要素スコアの重みを機械学習により導出• 頻出語彙 (both A and B等 ) とマッチング• 自然言語処理 OSS(Apache OpenNLP等 ) が持つ品詞判定機能のスコアを活用
今後やりたいことWatson の力を借りて、リスニング問題に挑戦!
• 写真描写問題 (Part1) の戦略• 写真に写っていない名詞を含む選択肢は、解答にならない。→画像認識と音声認識の結果を、同義語も含め比較
同義語辞書 WordNet: wordnet.princeton.edu発音辞書 The CMU Pronouncing Dictionary: www.speech.cs.cmu.edu/cgi-bin/cmudict
※実装イメージ
※実装イメージ
• 会話問題 (Part2) の戦略• 質問文と似た発音を含む選択肢は解答にならない。 ( 例 :copy と coffee)
→Watson音声認識結果の単語を発音記号に変換し、類似度計算
問題文” This is ---- a pen.” の空欄には、選択肢 are, is, be, being のどれが入るのが適切かを人工知能 Whatson に解答させる。
デモ1 ( 品詞問題に挑戦 )
URL: toeic.mybluemix.net/whatson
デモ2 (同じアルゴリズムを用いて、質問応答に挑戦 )質問文“Which is Japanese food?” の解答として、選択肢 Sushi 、 Curry 、 Chocolate 、 Pizza のどれが適切かを人工知能 Whatson に解答させる。
入力 出力