自然言語解析エンジンの汎用化と nlpビジネスへの展開 · 1 institute of...

14
1 Institute of Language Understanding Institute of Language Understanding 自然言語解析エンジンの汎用化と NLPビジネスへの展開 青江順一 徳島大学 工学部知能情報工学科 [email protected] ()言語理解研究所 http://www.ilu.co.jp/ 1.大学発ベンチャーの仕組み 2.NLPビジネスになぜ汎用化自然言語処理エンジンが必要か? 3.汎用化エンジンを利用した製品展開 4.電子メール理解ソリューション 5.音声対話理解ソリューション 6.感性情報理解ソリューション

Upload: others

Post on 11-Sep-2019

3 views

Category:

Documents


0 download

TRANSCRIPT

1Institute of Language UnderstandingInstitute of Language Understanding

自然言語解析エンジンの汎用化とNLPビジネスへの展開

青江順一

徳島大学 工学部知能情報工学科 [email protected](株)言語理解研究所 http://www.ilu.co.jp/

1.大学発ベンチャーの仕組み2.NLPビジネスになぜ汎用化自然言語処理エンジンが必要か?3.汎用化エンジンを利用した製品展開4.電子メール理解ソリューション5.音声対話理解ソリューション6.感性情報理解ソリューション

2Institute of Language UnderstandingInstitute of Language Understanding

大学研究室と言語理解研究所の関係大学研究室と言語理解研究所の関係

情報検索 自然言語理解 知識辞書の構築 音声対話

自然言語インタフェース 感性情報抽出とデータマイニング

研究課題研究課題

研究論文発表

スタッフスタッフ(徳島大学工学部知能情報工学科知能工学講座)(徳島大学工学部知能情報工学科知能工学講座)教職員:青江、泓田(ふけた)講師、森田助手、富士技官大学院博士後期課程:7名 大学院博士前期課程:16名 学部4年生:10名小計 37名

青江研究室

基礎研究

ILU言語理解研究所

実践的人材育成

大学発ベンチャーの組織構成

事業化

研究開発費

製品販売

(株)言語理解研究所(産学連携研究員)知識辞書構築 25名; 開発7(内大学院社員2名)

小計32名

技術顧問 筑波大学大学院 津田助教授

3Institute of Language UnderstandingInstitute of Language Understanding

各種言語解析システムの現状と課題

高度言語理解の必要性 多種多彩な辞書メンテナンスとエンジンの開発の高コスト化

仮名漢字変換エンジン 仮名漢字

変換辞書

金(名詞)/は(助詞)/鉱山(名詞)/で(助詞)/掘る(動詞)きんはこうざんでほる

金(名詞)/は(助詞)/鉱山(名詞)/で(助詞)/掘る(動詞)日本語解析エンジン 日本語解析

辞書

金は鉱山で掘るきん(名詞) /は(助詞)/こうざん(名詞)/で(助詞)/ほる(動詞)

読み上げエンジン

きんわ[01]/こーざんで[01]/ほる[01]読み上げ辞書

音声合成エンジン

読み上げ&合成エンジン

金は鉱山で掘る

音声認識エンジン

読み上げエンジン

日本語解析エンジン

読み上げ辞書

音声言語辞書

文書情報

日本語生成エンジン

日本語解析辞書

音声認識&言語生成エンジン 認識結果の言語解析

音声言語トレーニング&ルールベース

金は鉱山で掘る音声

音声

4Institute of Language UnderstandingInstitute of Language Understanding

汎用日本語解析エンジン

汎用日本語解析辞書

汎用理解エンジン

汎用意味概念辞書

各種理解辞書

汎用言語理解エンジンの構成

1.個別エンジンを統合した汎用的日本語解析エンジン仮名漢字変換、日本語解析、音声読み上げを一つのエンジンと辞書で実現辞書構築とメンテナンスコストが大幅削減。アプリケーション別個人情報学習の統合(仮名漢字変換学習、ネット検索学習など)

2.意味優先解析法(早期意味解析)の実現基本的な意味共起関係処理、概念情報付加を実現 → 解析精度の向上、理解エンジンへの情報抽出

3.連結の容易な汎用理解エンジンと理解辞書高度言語理解処理の開発コストの大幅な削減

4.話題転換認知エンジンの実現音声対話、個人嗜好理解、分野認知、感情転換などの種々の状況転換の汎用化エンジンを分野連想語構築

高度言語理解処理開発のための技術と資産を統括

5.20年間の継続的された大規模知識辞書構築とメンテナンス

汎用化言語理解エンジンの特徴

従来型日本語解析エンジン従来型音声合成エンジン従来型仮名漢字変換

きんはこうざんでほる

感性情報抽出、感情理解、文書要約、音声対話理解などの高度知識処理への応用

→ 製品の差別化

金は鉱山で掘る

5Institute of Language UnderstandingInstitute of Language Understanding

(1) 日本語意味解析結果

句点てん。

(時制;過去)助動詞たた

(文体;敬体)助動詞ましまし

(反対語;乗る,乗車)<人間>+が+<動作¥上下¥下車>

<乗り物>+を+<動作¥上下¥下車>

<動作¥上下¥下車>動詞おり降り

<乗り物>+を+<動作¥上下¥下車>

助詞をを

(下位語;観光バス,高速バス)

<乗り物>+を+<動作¥上下¥下車>

<乗り物¥陸上乗り物¥人運搬¥商用>

名詞ばすバス

<人間>+が+<動作¥上下¥下車>

助詞がが

(同義語;人)(文体;敬体)

<人間>+が+<動作¥上下¥下車>

<人間¥尊人>形式名詞かた方

助詞のの

(地域連想語;東京),(同義語;Tokyo)

<都道府県名><首都名>

地名とうきょう

東京

意味情報意味共起概念品詞読み単語

6Institute of Language UnderstandingInstitute of Language Understanding

(2) 音声合成の読み上げ情報抽出結果

句点てん。

(時制;否定)助動詞んん

(文体;敬体)助動詞ませませ

(反対語;あがる)<方向>+で+<動作¥上下¥降る>

<天候¥雨>+が+<動作¥上下¥降る>

<動作¥上下¥下る>

動詞ふ@り降り

<天候¥雨>+が+<動作¥上下¥降る>

助詞がが

(類義語;土砂降り)<天候¥雨>+が+<動作¥上下¥降る>

<天候¥雨>名詞お@ーあめ大雨

<方向>+で+<動作¥上下¥降る>

助詞がで

(同義語;方向)<方向>+で+<動作¥上下¥降る>

<方向>形式名詞ほー方

助詞のの

(地域連想語;九州),<都道府県名>地名か@ごしま鹿児島

意味情報意味共起概念品詞表音文字列単語

7Institute of Language UnderstandingInstitute of Language Understanding

(3) 仮名漢字出力例

句点。

(方言;関西弁)助動詞ねんねん

(感性,希望)助動詞たいたい

(類義語;曲げる)<人間>+が+折る<道具¥スポーツ道具¥打

つ道具>+を+折る

<動作¥破壊¥折る>動詞折りおり

<道具¥スポーツ道具¥打つ道具>+を+折る

助詞をを

(分野連想語;テニス)

<道具¥スポーツ道具¥打つ道具>+を+折る

<道具¥スポーツ道具¥打つ道具>

名詞ラケットらけっと

<人間>+が+折る助詞がが

(同義語;人)<人間>+が+折る<人間¥尊人>形式名詞方(型)かた

助詞のの

(類義語;インストラクター)

<人間¥指導者¥スポーツ指導者>

名詞コーチこーち

意味情報意味共起概念品詞単語読み

8Institute of Language UnderstandingInstitute of Language Understanding

音声対話解釈モジュール

汎用日本語意味解析モジュール

メール文書解釈モジュール

商品好評・不評判定

意図理解知識

メール要約知識

携帯電話への転送

大規模言語知識

感性情報解釈モジュール

カーナビ

ボイスポータル

感情理解知識 対話理解知識

緊迫度理解知識

電子メール理解エンジン

感性理解知識

苦情集計分類

医療情報知的検索

感情理解コミュニケーション&マンマシンインタフェース

感性情報理解エンジン 音声対話理解エンジン

メールセキュリティ

メール分類と要約医療情報入力支援

ロボット

言語理解エンジン言語理解エンジン

目的別目的別

応用製品応用製品

汎用的汎用的

意味抽出意味抽出

目的別目的別

解釈解釈

目的別理目的別理

解エンジン解エンジン

9Institute of Language UnderstandingInstitute of Language Understanding

音声対話製品への応用(1)

ILU音声対話理解への特徴音声認識、音声合成を言語理解エンジンに取り込む対話システム主導による音声入力絞り込みのための応答文自動生成

応用範囲個人情報獲得型雑談エージェント、ロボット、カーナビ、モバイル端末、ボイスポータル、癒しエージェント、介護エージェント、コールセンターのコスト削減、医療用診断画像所見入力などへ適用可能。

音声認識 日本語解析

応答文生成読み上げ解析(感情解析)

対話理解解析認識誤り補正

音声合成

従来の対話エンジン

読み上げ辞書など

仮名漢字変換&対話理解&絞り込み応答文生成&読み上げ解析&感情理解型)

ILU言語理解&対話エンジン

音声認識&言語生成

音声認識

音声合成

10Institute of Language UnderstandingInstitute of Language Understanding

データマイニングへの応用(1)ー現状と課題ー

未加工データ

対象データ加工・抽出

データマイニング

理解・評価

汎用システム => 本当に役立つのか? 質を高く => コスト大=> データ加工・抽出悪い => 発掘(マイニング)できない

抽出データ 分類・表示データ データ発見

ゴール指向の精選情報抽出何をしたい => 言語理解エンジン+ILU常識知識辞書+抽出知識構築=> 良質の情報抽出

揺らぎ辞書

言語理解エンジン

抽出知識

学習

解析辞書

意味辞書

概念辞書

分野辞書

感性情報知識

精選情報抽出エンジン

学習

未加工データ

情報マイニング

理解・評価

知識発見精選抽出情報 分類・表示情報

11Institute of Language UnderstandingInstitute of Language Understanding

医療情報の知的検索ナレッジマネージメントへの応用

背景ナレッジマネージメント(KM)/企業情報ポータルへの注目労働流動化・終身雇用の崩壊、製品・サービスの高付加価値化、業務の効率化

病院の生き残りをかけたIT投資 =不況下でも大きな市場が形成医療費削減、保険制度の改革、医療法人の株式会社化、ヘルスケアビジネスへの注目

医療情報のナレッジマネージメント(ポータル)構築が重要・医療分野のIT化には、有益な医療情報の蓄積・検索・分析が必要・知的検索、大量情報の高速で安全な処理、多様なユーザインターフェースなどの導入の遅れ

目的医療にかかわる知識を蓄積し、迅速かつ的確に検索するための基盤技術を開発

・種々の医療情報分野で必要とされる基盤技術・不況期でもIT投資が迫られる医療業界、ヘルスケアビジネスの市場拡大に貢献・企業内の情報システムなど、様々な産業へ技術的・経済的波及効果の期待

ゴール:新薬などの治療効果を発見し、最新の治療マニュアルを更新し、直る病院を目指したい。抽出情報: 治癒度(病気かどうかも含めて)所見から数値レベルをつけて分類抽出

12Institute of Language UnderstandingInstitute of Language Understanding

医療情報の知的検索ナレッジマネージメントへの応用(電子カルテ)

グループウエアとしての電子カルテグループウエアとしての電子カルテ生き残りをかけて情報化する病院

検索困難な紙カルテから・・洛和会音羽病院写真提供

生き残りをかけて情報化する病院

ゴール:新薬などの治療効果を発見し、最新の治療マニュアルを更新し、直る病院を目指したい。抽出情報: 治癒度(病気かどうかも含めて)所見から数値レベルをつけて分類抽出

13Institute of Language UnderstandingInstitute of Language Understanding

医療情報の知的検索システム構成

・医療用感性情報検索エンジン⇔感性情報辞書,

・医療用あいまい検索エンジン分野連想語/ゆらぎ処理⇔分野連想語辞書,ゆらぎ辞書

・医療情報検索用マルチモーダル・マンマシンインターフェース自由文理解による検索結果の絞込要約情報による音声入力支援文書,画像の融合類似検索

・医療情報の要約ドキュメント,フレーズ,文単位の構造的視点の自動分類(XMLメタ情報の生成)

・テキストマイニング感性情報によるマイニングフレーズ,文単位の抽出分析類似診断情報の検索

【登録】

WebサーバWebサービス

ナレッジの登録、更新、

検索/表示、削除

ユーザインターフェース

カスタムアプリケーション

(モデルアプリケーション

診療記録検索システム)

アプリケーションインターフェース

他システム連携機能

医療分野に特化した知的検索サーバモジュール

XML XML XML XML XML

知的検索

キーワード検索

登録

【検索】

複数PCに対する並列負荷分散機能

全文検索機能知的検索連携機能

ネイティブXMLデータベース

認証・データアクセス制限機能等

MML対応汎用検索Webインターフェース

メディカルナレッジポータル構築用アプリケーションサーバ

Webブラウザー クライアント・他システム

・診断マニュアル自動構築

メディカルナレッジポータルサーバ

既存統計分析システム等既存電子カルテシステム等

14Institute of Language UnderstandingInstitute of Language Understanding

有意な拡張とは言い難い程度です言い難い程度です有意性否定有意な拡張とは

嚢胞が集族している集族している集まる嚢胞が

転移巣に合致する合致する合う転移巣に

腸管/腸間膜が集束している集束している集まる腸管/腸間膜が

先端は縦隔に当たっている縦隔に当たっている接触先端は

心膜が若干厚めです厚めです若干厚薄心膜が

腫大とは言いかねます言いかねます大小否定腫大とは

左横隔膜が挙上する挙上する上下左横隔膜が

右精巣のdensityが上昇している上昇している上下右精巣のdensityが

リピオドールが集積する集積する集まるリピオドールが

有意なものか言及しかねる言及しかねる有意性否定有意なものか

病的とはいえないいえない病否定病的とは

心臓を圧迫する圧迫する圧迫心臓を

シェーグレン症候群を合併している合併している合併シェーグレン症候群を

鎖骨レベルまで達する達する至る鎖骨レベルまで

血管狭窄まで至らない至らない至る否定血管狭窄まで

クレアチニン値が上昇する上昇する上下クレアチニン値が

完全閉塞には至っていない至っていない至る否定完全閉塞には

拡張とまでは言えない言えない伸縮否定拡張とまでは

異常とは言い難い言い難い異常正常否定異常とは

所見文感性表現強弱感性分類否定対象

CT所見文の否定表現抽出と分類

医療情報の感性情報分析分類