人とつながる「メディアインテリジェンス」 未来の賢いインタ … ·...

1
“ 明日 ” をつむぐテクノロジー  SPECIAL 人とつながる「メディアインテリジェンス」 「メディアインテリジェンス」というコンセプトのもと、音声や画像を使った賢いユーザーインタ フェースの実現に取り組む東芝ソリューション。音声認識、音声合成、知的対話、画像認識など、 東芝グループが培ってきたメディアの要素技術を中核に、新たな価値やサービスの創出に取り組む。 コンピュータを活用し、人々の生活 を豊かにしたい——そんな想いで東芝 ソリューションが取り組んでいる新 たなコンセプトが「メディアインテリ ジェンス」である。 同社を含む東芝グループが培ってき た音声認識、音声合成、知的対話、画 像認識などのメディア技術を核にし て、人がより自然に振る舞える未来の ヒューマンインタフェースを実現し、 生活やビジネスの革新を図っていこう というのが「メディアインテリジェン ス」が目指す世界だ(図 1)。 モノが人の言動や意図を理解する ことから、「人を想うIoE(Internet of Everything)」ともいえる。 「メディアインテリジェンス」は、人 が使う機器やサービスのほか、人が関 わるあらゆるシーンに適用できるた め、その応用範囲は極めて広い。自動 車、家電、医療や介護、ソーシャル ネットワーク、ゲームやパーソナルロ ボット、サイネージ、観光、コールセ ンター、インダストリアルなど、さま ざまな市場において新たな価値やビジ ネスの創出につなげられる可能性を秘 めている。 未来を志向したコンセプトではある が、既に一部では実用化も始まってお り、「Yahoo!カーナビ」における音声 案内(ヤフー株式会社提供)、自動音 声対話による相続相談サービス(株式 会社東邦銀行提供)、介護従事者向け の「音声つぶやきSNS」、音声書き 起こしクラウドエディタ「ToScribe」、 テレビ番組を音声で指示できる「ざん まいスマートアクセス」、音声認識を 備えたコールセンターソリューション 「T-SQUARE/CT」(以上東芝提供)な どに関連技術が展開されている。 「見る・聞く・話す」を実現する さまざまな要素技術で業界をリード 「メディアインテリジェンス」の中 軸を構成するのが、コンピュータの 「見る・聞く・話す」を実現する各要 素技術だ。 「見る」を実現するのが画像認識技 術である。顔認識、属性認識、人物追 跡、人数カウント、情景文字認識など の高度な機能を実現しており、店舗に おける客の動線把握のほか、セキュリ ティ管理、看板文字の自動認識と自動 翻訳といった応用が可能だ。 「聞 く」は 音 声 認 識 技 術 が 担 う。 最 先端のディープラーニング手法を使っ た音素識別により、話し言葉に強いこ とが特長で、専門辞書のカスタマイズ も容易である。現時点で、会話の概要 やキーワードを把握するには十分な認 識率を実現している。 最後の「話す」には音声合成技術が 使われる。個人の声の特徴を短い音声 データから高速かつ高精度に学習し、 喜びなどの感情口調や注意を喚起する 切迫口調のほか、特定人物の声真似も 自在に設定できる。日本語を含む11 言語に対応している。 これらの各技術を結ぶのが、東芝グ ループが注力している意図理解技術や 知的対話技術である。曖昧な話し言葉 から意味を抽出し、適切な応答を返す ことで、利用者とのインタラクティブ なインタフェースを実現できる。 サービスモデルの一例を図 2 に示す。 ビッグデータ解析を用いて新しい言葉 を日々抽出しながら、大規模な統一辞 書をクラウド上に構築。必要に応じて 専門辞書を設けたうえで、メディア処 理エンジンによってサービスを提供す る流れだ。なお、辞書の整備にはイン ターネットを介して作業を依頼するク ラウドソーシングも活用する。 未来のユーザーインタフェースが 生活や仕事に新たな変化をもたらす コンピュータの「見る・聞く・話す」 を通じて、生活や社会においては楽し さや豊かさを、業務においては効率を 高めてくれる「メディアインテリジェ ンス」。 東芝ソリューションでは要素技術の さらなる研究開発を精力的に進めてい る。例えば、音声データから複数話者 を識別する自動議事録作成システム や、外国人観光客を対象とした新たな サービスの創出につなげられる同時通 訳技術などの実用化を進めている。 音声や画像などのメディア技術を軸 に、クラウドサービス、コンサルテー ション、運用保守サポート、システム 開発、組み込み開発、さらには半導体 開発まで、東芝グループが持つさまざ まな強みの組み合わせから未来に向け たユーザーインタフェースが誕生し、 新たな価値を生み出していく。   ヒューマンインタフェースロボット アプリプチ (ApriPetit™) 【図1】 メディアインテリジェンスが目指す「人を想うIoE」 M2M/IoT IoE Internet of Everything アクション 生活・ビジネス モノの動作 意図理解 人の言動 モノのインターネット(IoT)だけでなく、人の言動や意図を理解する「見る・聞く・話す」サービスで安心・快適な生活・ビジネスを実現 知的対話/翻訳 豊富な知識で文脈に合う対応 音声合成 声に「表情」を 画像認識 どんな人か、どんな状況かまで捉える 音声認識 人と話すように自然な言い方 【図2】 メディアインテリジェンスの全体像 ビッグデータやクラウドソーシングを活用したカスタマイズサービスで、お客様のさまざまなビジネス分野への適用が可能 フィールド作業 大規模知識検索 コミュニケーション コンテンツ制作 モニタリング メディア処理 エンジン オンライン 学習 クラウドサイド大規模データ活用 カスタマイズサービス クラウドソーシング による 入力処理サービス クラウドソーシング による洗練化 Webページなど (必要に応じて) ソリューション適用 並列・高速データ収集 音声 画像 文書 ・言語解析 ・語彙解析 ・概念解析 ・画像解析 ・音声合成用 ・音声認識用 ・機械翻訳用 ・ドメイン別 ・エンジン別 数百万語 数十億文 数十万~百万語 ・顔人物認識用 数十万パターン 抽出 学習 辞書構成 反映/更新 蓄積 統一辞書/ モデル エンジン別 業界別 顧客別 辞書 お客様 メディアインテリジェンスを、高齢者 や子どもの見守り、公共施設・店舗 での案内や監視などに、親しみやす く違和感なく利用していただくため に生まれた。(試作品) お問い合わせ先 〒 212-8585 神奈川県川崎市幸区堀川町 72-34(ラゾーナ川崎東芝ビル) 東芝ソリューション株式会社 経営企画部 広報担当 TEL. 044-331-1100  http://www.toshiba-sol.co.jp/ 未来の賢いインタフェースが 社会を変える、生活を変える

Upload: others

Post on 12-Aug-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 人とつながる「メディアインテリジェンス」 未来の賢いインタ … · 車、家電、医療や介護、ソーシャル ネットワーク、ゲームやパーソナルロ

“明日”をつむぐテクノロジー  S P E C I A L  

人とつながる「メディアインテリジェンス」

「メディアインテリジェンス」というコンセプトのもと、音声や画像を使った賢いユーザーインタフェースの実現に取り組む東芝ソリューション。音声認識、音声合成、知的対話、画像認識など、東芝グループが培ってきたメディアの要素技術を中核に、新たな価値やサービスの創出に取り組む。

 コンピュータを活用し、人々の生活を豊かにしたい——そんな想いで東芝ソリューションが取り組んでいる新たなコンセプトが「メディアインテリジェンス」である。 同社を含む東芝グループが培ってきた音声認識、音声合成、知的対話、画像認識などのメディア技術を核にして、人がより自然に振る舞える未来のヒューマンインタフェースを実現し、生活やビジネスの革新を図っていこうというのが「メディアインテリジェン

ス」が目指す世界だ(図1)。 モノが人の言動や意図を理解することから、「人を想うIoE(Internet of Everything)」ともいえる。 「メディアインテリジェンス」は、人が使う機器やサービスのほか、人が関わるあらゆるシーンに適用できるため、その応用範囲は極めて広い。自動車、家電、医療や介護、ソーシャルネットワーク、ゲームやパーソナルロボット、サイネージ、観光、コールセンター、インダストリアルなど、さま

ざまな市場において新たな価値やビジネスの創出につなげられる可能性を秘めている。 未来を志向したコンセプトではあるが、既に一部では実用化も始まっており、「Yahoo!カーナビ」における音声案内(ヤフー株式会社提供)、自動音声対話による相続相談サービス(株式会社東邦銀行提供)、介護従事者向けの「音声つぶやき SNS」、音声書き起こしクラウドエディタ「ToScribe」、テレビ番組を音声で指示できる「ざんまいスマートアクセス」、音声認識を備えたコールセンターソリューション

「T-SQUARE/CT」(以上東芝提供)などに関連技術が展開されている。

「見る・聞く・話す」を実現するさまざまな要素技術で業界をリード

 「メディアインテリジェンス」の中軸を構成するのが、コンピュータの

「見る・聞く・話す」を実現する各要素技術だ。 「見る」を実現するのが画像認識技術である。顔認識、属性認識、人物追跡、人数カウント、情景文字認識などの高度な機能を実現しており、店舗における客の動線把握のほか、セキュリ

ティ管理、看板文字の自動認識と自動翻訳といった応用が可能だ。 「聞く」は音声認識技術が担う。最先端のディープラーニング手法を使った音素識別により、話し言葉に強いことが特長で、専門辞書のカスタマイズも容易である。現時点で、会話の概要やキーワードを把握するには十分な認識率を実現している。 最後の「話す」には音声合成技術が使われる。個人の声の特徴を短い音声データから高速かつ高精度に学習し、喜びなどの感情口調や注意を喚起する切迫口調のほか、特定人物の声真似も自在に設定できる。日本語を含む11言語に対応している。 これらの各技術を結ぶのが、東芝グループが注力している意図理解技術や

知的対話技術である。曖昧な話し言葉から意味を抽出し、適切な応答を返すことで、利用者とのインタラクティブなインタフェースを実現できる。 サービスモデルの一例を図2に示す。ビッグデータ解析を用いて新しい言葉を日々抽出しながら、大規模な統一辞書をクラウド上に構築。必要に応じて専門辞書を設けたうえで、メディア処理エンジンによってサービスを提供する流れだ。なお、辞書の整備にはインターネットを介して作業を依頼するクラウドソーシングも活用する。

未来のユーザーインタフェースが生活や仕事に新たな変化をもたらす

 コンピュータの「見る・聞く・話す」を通じて、生活や社会においては楽し

さや豊かさを、業務においては効率を高めてくれる「メディアインテリジェンス」。 東芝ソリューションでは要素技術のさらなる研究開発を精力的に進めている。例えば、音声データから複数話者を識別する自動議事録作成システムや、外国人観光客を対象とした新たなサービスの創出につなげられる同時通訳技術などの実用化を進めている。 音声や画像などのメディア技術を軸に、クラウドサービス、コンサルテーション、運用保守サポート、システム開発、組み込み開発、さらには半導体開発まで、東芝グループが持つさまざまな強みの組み合わせから未来に向けたユーザーインタフェースが誕生し、新たな価値を生み出していく。  

ヒューマンインタフェースロボットアプリプチ(ApriPetit™)

【図1】 メディアインテリジェンスが目指す「人を想うIoE」

M2M/IoT

IoEInternet of Everything

アクション

生活・ビジネス

モノの動作

意図理解

人の言動

モノのインターネット(IoT)だけでなく、人の言動や意図を理解する「見る・聞く・話す」サービスで安心・快適な生活・ビジネスを実現

知的対話/翻訳豊富な知識で文脈に合う対応

音声合成声に「表情」を

画像認識どんな人か、どんな状況かまで捉える

音声認識人と話すように自然な言い方

【図2】 メディアインテリジェンスの全体像

ビッグデータやクラウドソーシングを活用したカスタマイズサービスで、お客様のさまざまなビジネス分野への適用が可能

フィールド作業大規模知識検索

コミュニケーションコンテンツ制作モニタリング

メディア処理エンジン

オンライン学習

クラウドサイド大規模データ活用カスタマイズサービス

クラウドソーシングによる

入力処理サービス

クラウドソーシングによる洗練化

Webページなど

(必要に応じて)

ソリューション適用

並列・高速データ収集音声画像文書

・言語解析・語彙解析・概念解析・画像解析

・音声合成用・音声認識用・機械翻訳用

・ドメイン別・エンジン別

数百万語数十億文

数十万~百万語

・顔人物認識用数十万パターン

抽出学習

辞書構成反映/更新

蓄積

統一辞書/モデルエンジン別

業界別顧客別

辞書

お客様

メディアインテリジェンスを、高齢者や子どもの見守り、公共施設・店舗での案内や監視などに、親しみやすく違和感なく利用していただくために生まれた。(試作品)

お問い合わせ先〒 212-8585 神奈川県川崎市幸区堀川町 72-34(ラゾーナ川崎東芝ビル)東芝ソリューション株式会社 経営企画部 広報担当 TEL. 044-331-1100 http://www.toshiba-sol.co.jp/

未来の賢いインタフェースが社会を変える、生活を変える