機械学習の説明責任のための情報可視化技術itolab.is.ocha.ac.jp/~itot/paper/itotaj23.pdf ·...

4
いとう・たかゆき 1990 年早稲田大学理工学部電子通信 学科卒業。1992 年同大学大学院理工 学研究科修士課程修了。同年日本アイ・ ビー・エム株式会社東京基礎研究所研 究員。97 年早稲田大学にて博士(工 学)。2005 年お茶の水女子大学理学 部情報科学科助教授、11 年同大学教 授。17 年まで同大学シミュレーショ ン科学教育研究センター長。19 年か ら同大学文理融合 AI・データサイエン スセンター長。国際会議 IEEE Pacific Visualization Symposium 2018 他 いくつかの国際会議にて実行委員長。 芸術科学会会長 (14 16 年 )、可視化 情報学会/日本ソフトウェア科学会/ 画像電子学会理事を歴任。 伊藤貴之 お茶の水女子大学 理学部 情報科学科 教授 16 文理融合 AI・データサイエンスセ ンター長に就任したこともあり、最 近では機械学習を支援する可視化技 術や、マルチメディアコンテンツを 題材としたデータサイエンスを主眼 において研究活動に従事している。 本章では拙研究室による最近の研究 を紹介する。 多次元データの次元選択と描画 日常生活や専門業務に関するデー タの多くは多次元データである。身 の回りに存在する多次元データから 発見される特徴や規則性は、その 機械学習の説明責任のための情報可視化技術 機械学習を中心とした AI 関連技 術の普及にともなって、その動作に 対する説明責任が問われるという 話が増えている。その一手段とし て、機械学習の動作を人間が理解す る手段を提供することが考えられ る。筆者が長い間にわたって研究 を進めてきた情報可視化と、その 機械学習への応用事例を紹介する。 さらに、お茶の水女子大学伊藤研究 室での研究事例について紹介する。 情報可視化技術 コンピュータによる可視化技術 の黎明期には、医療画像からの 3 次元形状復元、気体の流れの図示、 分子構造の再現など、形状情報や 空間情報を復元する技術が多く研 究開発されてきた。 それに対して、空間情報をもた ないより一般的な情報を対象とし て、可読性の高い形式で情報を画 面表示する技術の総称を情報可視 化という。情報可視化が学術的な 位置を得たのは1995年に IEEE IVInformation Visualization Symposium)という国際会議が創 立した頃からと考えられる。情報可 視化の学術的課題や応用事例につい ては拙書 1をご覧いただきたい。 機械学習への応用 深層学習技術の発達にともなっ て、情報可視化の国際会議でも機械 学習に関係ある発表が急増してい る。コンピュータ可視化の世界最 大の会議である IEEE VIS において も、2018 年と 2019 年には機械学 習の可視化に関する発表セッショ ンが 3 つずつ編成されている。 筆者の主観でこれらの可視化の 研究を分類すると、以下の 4 種類 の研究が学術的に注目されている と考えられる。 分類 1:深層学習の普及以前から議 論されてきた機械学習の典型的 なタスク(例えば分類・判別・ 回帰など)を支援するための可 視化 分類 2:ブラックボックスと呼ばれ やすい深層学習の内部動作を解 明するための可視化 分類 3:深層学習における諸課題を 解決するための可視化。例えば 敵対例に代表されるノイズ誤動 作の解明、訓練データの品質検 証、潜在空間の分析など 分類 4: 機械学習を実用する際の 現実社会での問題を解決するた めの可視化。例えば因果関係の 解明、脆弱性の原因追及、公平 性や多様性の担保など お茶の水女子大学での活動 筆者は2005年にお茶の水女子 大学に赴任して以来、情報可視化 の研究成果を多数発表してきた。 一方で 2019 年に本学に設立された 特集 A I 時代の技術・教育・経営

Upload: others

Post on 02-Aug-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 機械学習の説明責任のための情報可視化技術itolab.is.ocha.ac.jp/~itot/paper/ItotAJ23.pdf · 研究を分類すると、以下の4種類 の研究が学術的に注目されている

いとう・たかゆき1990 年早稲田大学理工学部電子通信学科卒業。1992 年同大学大学院理工学研究科修士課程修了。同年日本アイ・ビー・エム株式会社東京基礎研究所研究員。97 年早稲田大学にて博士(工学)。2005 年お茶の水女子大学理学部情報科学科助教授、11 年同大学教授。17 年まで同大学シミュレーション科学教育研究センター長。19 年から同大学文理融合 AI・データサイエンスセンター長。国際会議 IEEE Pacific Visualization Symposium 2018 他いくつかの国際会議にて実行委員長。芸術科学会会長 (14—16 年 )、可視化情報学会/日本ソフトウェア科学会/画像電子学会理事を歴任。

伊藤貴之 お茶の水女子大学理学部情報科学科 教授

16

文理融合 AI・データサイエンスセンター長に就任したこともあり、最近では機械学習を支援する可視化技術や、マルチメディアコンテンツを題材としたデータサイエンスを主眼において研究活動に従事している。本章では拙研究室による最近の研究を紹介する。多次元データの次元選択と描画

日常生活や専門業務に関するデータの多くは多次元データである。身の回りに存在する多次元データから発見される特徴や規則性は、その

機械学習の説明責任のための情報可視化技術

機械学習を中心とした AI 関連技術の普及にともなって、その動作に対する説明責任が問われるという話が増えている。その一手段として、機械学習の動作を人間が理解する手段を提供することが考えられる。筆者が長い間にわたって研究を進めてきた情報可視化と、その機械学習への応用事例を紹介する。さらに、お茶の水女子大学伊藤研究室での研究事例について紹介する。

情報可視化技術

コンピュータによる可視化技術の黎明期には、医療画像からの 3次元形状復元、気体の流れの図示、分子構造の再現など、形状情報や空間情報を復元する技術が多く研究開発されてきた。

それに対して、空間情報をもたないより一般的な情報を対象として、可読性の高い形式で情報を画面表示する技術の総称を情報可視化という。情報可視化が学術的な位 置 を 得 た の は 1995 年 に IEEE IV(Information Visualization Symposium)という国際会議が創立した頃からと考えられる。情報可視化の学術的課題や応用事例については拙書 1)をご覧いただきたい。

機械学習への応用

深層学習技術の発達にともなって、情報可視化の国際会議でも機械

学習に関係ある発表が急増している。コンピュータ可視化の世界最大の会議である IEEE VIS においても、2018 年と 2019 年には機械学習の可視化に関する発表セッションが 3 つずつ編成されている。

筆者の主観でこれらの可視化の研究を分類すると、以下の 4 種類の研究が学術的に注目されていると考えられる。分類 1:深層学習の普及以前から議

論されてきた機械学習の典型的なタスク(例えば分類・判別・回帰など)を支援するための可視化

分類 2:ブラックボックスと呼ばれやすい深層学習の内部動作を解明するための可視化

分類 3:深層学習における諸課題を解決するための可視化。例えば敵対例に代表されるノイズ誤動作の解明、訓練データの品質検証、潜在空間の分析など

分類 4: 機械学習を実用する際の現実社会での問題を解決するための可視化。例えば因果関係の解明、脆弱性の原因追及、公平性や多様性の担保など

お茶の水女子大学での活動

筆者は 2005 年にお茶の水女子大学に赴任して以来、情報可視化の研究成果を多数発表してきた。一方で 2019 年に本学に設立された

特集 AI 時代の技術・教育・経営

Page 2: 機械学習の説明責任のための情報可視化技術itolab.is.ocha.ac.jp/~itot/paper/ItotAJ23.pdf · 研究を分類すると、以下の4種類 の研究が学術的に注目されている

図 1 アパレル小売店への天気(気温)の影響(客の購買額と購入商品価格)_ 2 つの変数の相関が大きなケース

ような工程にも多次元データの可視化手法が貢献できることが議論されている。

筆者らはこれらの 2 点に着目した多次元データ可視化の一手法を提案している 2)。本手法は以下の 2 つの処理工程から構成される。

1)多次元データ中の任意の 2 変数を 2 軸とする散布図の中から重要ないくつかを選出して表示する

現時点での筆者らの実装では「2変数の相関係数」「散布図を構成する各点の色の分離性」の 2 種類の評価基準から散布図を選出する。

2)散布図に表示される点群を「例外点群」および「例外でない点群の包括領域」の 2 種類であるとして描画する

筆者らは、アパレルの小売店にお

17

データを理解し活用するにあたって重要な知識となる。

一方で、多次元データの全ての次元に興味深い特徴や規則性が見られるとは限らないため、近年では多次元データから可視化する意義の高い次元だけを選択して表示する手法が多く提案されている。

多次元データを活用する場合にはそのモデル化が重要になることもある。多次元データを構成する数値群のなかにどのようなノイズや例外値が含まれているかを理解し、適切なスクリーニング処理によってこれらを除去したのちに、どのようなモデルを適用できるかを検討する処理が必要となる場面が多い。例えば機械学習の訓練データに多次元データを利用する場合に、このような工程が重要な意味を持つことが多い。この

ける各日の来客数や売上と、その各日の気象値との関係のデータを題材にして、可視化を実行した(図 1、図 2)。散布図の点群の 1 点が 1 日に対応する。各散布図の横軸に割り当てる説明変数には、最低気温・最高気温・最大風速・降水量などを含む。各散布図の縦軸に割り当てる目的関数には、来客数、総売上、客 1 人あたり売上、商品 1 個あたり単価などを含む。散布図中の青点は平日の数値、赤点は休日(土曜・日曜・祝日)の数値を示す。

図 1(上)は「2 変数の相関係数」を基準にして選んだ 4 種類の散布図である。横軸には最低気温または最高気温、縦軸には「客 1 人あたり売上」または「商品 1 個あたり単価」が割り当てられている。この結果から、気温が中程度の時期に

NATURE INTERFACE Aug. 2020 no.79

最低気温

最低気温

客一人あたり売上

客一人あたり売上

客一人あたり売上

客一人あたり売上

商品一個あたり価格

商品一個あたり価格

商品一個あたり価格

商品一個あたり価格

最低気温

最低気温

最高気温

最高気温

最高気温

最高気温

1 点が 1 日に対応・:平日  ・:休日(土・日・祝)

「例外点群」および「例外でない点群の包括領域」の 2 種類であるとして描画

Page 3: 機械学習の説明責任のための情報可視化技術itolab.is.ocha.ac.jp/~itot/paper/ItotAJ23.pdf · 研究を分類すると、以下の4種類 の研究が学術的に注目されている

18

「客 1 人あたり売上」や「商品 1 個あたり単価」が高く、気温が高い時期にこれらが低いという明確な相関がみられる。一方でこれらの値には平日と休日の差はみられな

いことがわかる。また、図 2(上)は「散布図を構

成する各点の色の分離性」を基準にして選んだ 8 種類の散布図である。横軸には最低気温、最高気温、最大

風速、降水量、縦軸には来客数または売上高が割り当てられている。この結果から、来客数と売上には平日と休日で大きな差があることがわかる。一方でこれらの値は説明変数と

特集 AI 時代の技術・教育・経営

図 2 アパレル小売店への天気(雨、風など)の影響(来客と売上げ)_色(平日/休日)の分離が明確なケース

最低気温

最低気温

日照時間

日照時間

最大風速

最大風速

最大風速

最大風速

最大風速

最大風速

降水量

降水量

降水量

降水量

降水量

降水量

来客人数

来客人数

来客人数

来客人数

購入人数

購入人数

購入人数

購入人数

総売上高

総売上高

総売上高

総売上高

総売上高

総売上高

総売上高

総売上高

1 点が 1 日に対応・:平日  ・:休日(土・日・祝)

「例外点群」および「例外でない点群の包括領域」の 2 種類であるとして描画

Page 4: 機械学習の説明責任のための情報可視化技術itolab.is.ocha.ac.jp/~itot/paper/ItotAJ23.pdf · 研究を分類すると、以下の4種類 の研究が学術的に注目されている

NATURE INTERFACE Aug. 2020 no.7919

術が有用であると考えられる。筆者らは、複数の作業者による訓

練データ画像群への注釈状況を検証するための可視化ツールを提案している。ここでは、7748 枚の人物画像に対して 8 人の作業者が年齢推定結果を注釈した結果を紹介する。

この可視化結果(図 3)では、作業者が上下に、人物画像が左右に並べられたマトリクス構造となっており、年齢推定結果の平均値によって画像が並べ替えられている。可視化結果の左側は年齢平均値の低い画像群に対応し、右側は年齢平均値の高い画像群に対応する。

ここで上から 2 番目と 3 番目の作業者のうち可視化結果の右側(図3 の緑色の枠)に着目されたい。上から 2 番目の作業者では赤が目立ち、3 番目の作業者では青が目立つ。この枠は年齢推定値が 40歳代~ 60 歳代となる人物に対応する。この世代の顔画像に対して、2 番目の作業者は他の作業者よりも年長者

気味に、3 番目の作業者は年少者気味に推定する傾向がわかる。このような傾向を把握することで、作業者間で年齢推定にどのような不一致が生じているかを理解できる。

本稿では機械学習の説明責任を高めるための情報可視化技術として、お茶の水女子大学での研究事例を紹介した。筆者らの研究室では旧来から大半の研究が大学や企業との共同研究によって遂行されている。今後は機械学習のための可視化においても共同研究や産業応用に力を注ぎ、社会への貢献に努めたい。

● 参考文献

1) 伊藤、『意思決定を助ける情報可視化技術 —ビッグデータ・機械学習・VR / AR への 応 用 』、 コ ロ ナ 社、ISBN-978-4-339-02883-6、2018 年

2) A. Nakabayashi, T. Itoh, “A Technique f o r S e l e c t i o n a n d D r a w i n g o f Scatterplots for Multi-Dimensional Data Visualization,” 23rd International C o n f e r e n c e o n I n f o r m a t i o n Visualisation (IV2019), pp. 62-67、 2019 年

他他のの作作業業者者よよりりもも年年下下にに推推測測他他のの作作業業者者よよりりもも年年上上にに推推測測

年年下下 年年上上

40代代~~60代代のの人人物物にに対対ししててああるる作作業業者者はは全全体体的的にに年年上上にに別別のの作作業業者者はは全全体体的的にに年年下下にに

推推測測ししてていいるる

8人人のの作作業業者者

人人物物画画像像

の相関はあまり見られないことがわかる。

図 1(下)および図 2(下)は、これらの散布図を「例外点群」および「例外でない点群の包括領域」の2 種類であるとして描画した例である。このような描画によって、数値群の概略的傾向と、例外の存在を注目しやすくする。

複数の作業者によって生成する訓練データの可視化

機械学習の品質を左右する要因の一つに訓練データの品質があげられる。訓練データ作成の端的なタスクの一例として画像の注釈(アノテーション)作業があげられる。物体認識システムを構築するには、訓練データとして物体名を注釈とした画像群が必要である。あるいは、人物認識システムを構築するには、訓練データとして人物の年齢や性別を注釈とした画像群が必要である。

このような注釈作業の信頼性を高めるために、複数の作業者を招いて各画像に注釈させることが多い。このような作業において、複数の作業者による注釈の不一致、あるいは同一の作業者による注釈の一貫性のなさが生じることがある。そこで、どのような画像によって注釈の不一致が生じやすいのか、あるいは同一の作業者の注釈がどのようにブレやすいのか、といった点を理解することが重要になる。画像認識のための訓練データには時として数千・数万単位の画像が含まれることがあり、その注釈作業には数十人単位の作業者が参加することも多い。このようなデータの分布を理解するためにも情報可視化技

図 3 複数の作業者による訓練データ画像群への注釈状況を検証するための可視化ツール

■ 他の作業者よりも年下に推測■ 他の作業者よりも年上に推測

40歳代〜60歳代の人物に対してある作業者は全体的に年上に別の作業者は全体的に年下に推測している

年下 年上人物画像

8人の作業者