san diego japan bio forum: ライフサイエンス向けデータ可視化技術の現状
TRANSCRIPT
ライフサイエンス向けデータ可視化技術の現状
Keiichiro Ono 大野圭一朗
UC, San Diego, Department of Medicine SDJBF 4/24/2015
⚠
スライドはこの後すぐに公開します…ので細かいリンク等はメモしなくても大丈夫です.
ちょっと詰め込みすぎましたので
Q.
プログラミング経験の ある方はいらっしゃいますか?
Agenda 今日お話すること
実務者向け可視化技術の現状
実際の可視化技術の紹介
実践するには?
Agenda 今日お話すること
実務者向け可視化技術の現状
実際の可視化技術の紹介
実践するには?
Agenda 今日お話すること
Keiichiro Ono
BackgroundBioinformatics
Computer ScienceWork
ResearchBioinformatics workflow
Visualization pipeline
Data
VisualizationNetworks
Other Biological Data
Integration
Molecular Interactions
Pathways
Annotations
Software Development
CytoscapeNeXO
Cyberinfrastructure
All kinds of small tools
Like
ArtKandinsky
Mondrian
Music
Electronica
TechnoMinimal
Detroit
Jazz
Sci-fiMovie
Novel
Life
US
San DiegoSan Francisco Bay Area
Los Angeles
Orange County
JapanGifu
Tokyo
Keiichiro Ono
BackgroundBioinformatics
Computer ScienceWork
ResearchBioinformatics workflow
Visualization pipeline
Data
VisualizationNetworks
Other Biological Data
Integration
Molecular Interactions
Pathways
Annotations
Software Development
CytoscapeNeXO
Cyberinfrastructure
All kinds of small tools
Like
ArtKandinsky
Mondrian
Music
Electronica
TechnoMinimal
Detroit
Jazz
Sci-fiMovie
Novel
Life
US
San DiegoSan Francisco Bay Area
Los Angeles
Orange County
JapanGifu
Tokyo
Keiichiro Ono
BackgroundBioinformatics
Computer ScienceWork
ResearchBioinformatics workflow
Visualization pipeline
Data
VisualizationNetworks
Other Biological Data
Integration
Molecular Interactions
Pathways
Annotations
Software Development
CytoscapeNeXO
Cyberinfrastructure
All kinds of small tools
Like
ArtKandinsky
Mondrian
Music
Electronica
TechnoMinimal
Detroit
Jazz
Sci-fiMovie
Novel
Life
US
San DiegoSan Francisco Bay Area
Los Angeles
Orange County
JapanGifu
Tokyo
計算機科学 生物学
https://flic.kr/p/5fJ4U4
>gi|10313991|ref|NC_002549.1| Zaire ebolavirus isolate Ebola virus/H.sapiens-tc/COD/1976/Yambuku-Mayinga, complete genome CGGACACACAAAAAGAAAGAAGAATTTTTAGGATCTTTTGTGTGCGAATAACTATGAGGAAGATTAATAA TTTTCCTCTCATTGAAATTTATATCGGAATTTAAATTGAAATTGTTACTGTAATCACACCTGGTTTGTTT CAGAGCCACATCACAAAGATAGAGAACAACCTAGGTCTCCGAAGGGAGCAAGGGCATCAGTGTGCTCAGT TGAAAATCCCTTGTCAACACCTAGGTCTTATCACATCACAAGTTCCACCTCAGACTCTGCAGGGTGATCC AACAACCTTAATAGAAACATTATTGTTAAAGGACAGCATTAGTTCACAGTCAAACAAGCAAGATTGAGAA TTAACCTTGGTTTTGAACTTGAACACTTAGGGGATTGAAGATTCAACAACCCTAAAGCTTGGGGTAAAAC ATTGGAAATAGTTAAAAGACAAATTGCTCGGAATCACAAAATTCCGAGTATGGATTCTCGTCCTCAGAAA ATCTGGATGGCGCCGAGTCTCACTGAATCTGACATGGATTACCACAAGATCTTGACAGCAGGTCTGTCCG TTCAACAGGGGATTGTTCGGCAAAGAGTCATCCCAGTGTATCAAGTAAACAATCTTGAAGAAATTTGCCA ACTTATCATACAGGCCTTTGAAGCAGGTGTTGATTTTCAAGAGAGTGCGGACAGTTTCCTTCTCATGCTT TGTCTTCATCATGCGTACCAGGGAGATTACAAACTTTTCTTGGAAAGTGGCGCAGTCAAGTATTTGGAAG GGCACGGGTTCCGTTTTGAAGTCAAGAAGCGTGATGGAGTGAAGCGCCTTGAGGAATTGCTGCCAGCAGT ATCTAGTGGAAAAAACATTAAGAGAACACTTGCTGCCATGCCGGAAGAGGAGACAACTGAAGCTAATGCC GGTCAGTTTCTCTCCTTTGCAAGTCTATTCCTTCCGAAATTGGTAGTAGGAGAAAAGGCTTGCCTTGAGA AGGTTCAAAGGCAAATTCAAGTACATGCAGAGCAAGGACTGATACAATATCCAACAGCTTGGCAATCAGT AGGACACATGATGGTGATTTTCCGTTTGATGCGAACAAATTTTCTGATCAAATTTCTCCTAATACACCAA GGGATGCACATGGTTGCCGGGCATGATGCCAACGATGCTGTGATTTCAAATTCAGTGGCTCAAGCTCGTT TTTCAGGCTTATTGATTGTCAAAACAGTACTTGATCATATCCTACAAAAGACAGAACGAGGAGTTCGTCT CCATCCTCTTGCAAGGACCGCCAAGGTAAAAAATGAGGTGAACTCCTTTAAGGCTGCACTCAGCTCCCTG GCCAAGCATGGAGAGTATGCTCCTTTCGCCCGACTTTTGAACCTTTCTGGAGTAAATAATCTTGAGCATG GTCTTTTCCCTCAACTATCGGCAATTGCACTCGGAGTCGCCACAGCACACGGGAGTACCCTCGCAGGAGT AAATGTTGGAGAACAGTATCAACAACTCAGAGAGGCTGCCACTGAGGCTGAGAAGCAACTCCAACAATAT GCAGAGTCTCGCGAACTTGACCATCTTGGACTTGATGATCAGGAAAAGAAAATTCTTATGAACTTCCATC AGAAAAAGAACGAAATCAGCTTCCAGCAAACAAACGCTATGGTAACTCTAAGAAAAGAGCGCCTGGCCAA
Software Development >> Research
Keiichiro Ono
BackgroundBioinformatics
Computer ScienceWork
ResearchBioinformatics workflow
Visualization pipeline
Data
VisualizationNetworks
Other Biological Data
Integration
Molecular Interactions
Pathways
Annotations
Software Development
CytoscapeNeXO
Cyberinfrastructure
All kinds of small tools
Like
ArtKandinsky
Mondrian
Music
Electronica
TechnoMinimal
Detroit
Jazz
Sci-fiMovie
Novel
Life
US
San DiegoSan Francisco Bay Area
Los Angeles
Orange County
JapanGifu
Tokyo
Keiichiro Ono
BackgroundBioinformatics
Computer ScienceWork
ResearchBioinformatics workflow
Visualization pipeline
Data
VisualizationNetworks
Other Biological Data
Integration
Molecular Interactions
Pathways
Annotations
Software Development
CytoscapeNeXO
Cyberinfrastructure
All kinds of small tools
Like
ArtKandinsky
Mondrian
Music
Electronica
TechnoMinimal
Detroit
Jazz
Sci-fiMovie
Novel
Life
US
San DiegoSan Francisco Bay Area
Los Angeles
Orange County
JapanGifu
Tokyo
Cytoscape Open Source Platform for Network Analysis and Visualization
Human Interactome (Source: irefindex)
http://nrnb.org/
http://home.ndexbio.org/
実践者向け可視化技術の現状
実践者向け可視化技術の現状
実践者
実践者
- 科学者
- 研究者
- “Data Scientist”
実際にデータを処理 / 可視化し、論文やレポートを書く人々
実践者 ≠ 可視化技術の研究者私自身コンピュータグラフィックスのバックグラウンドはありません
Data Visualization
Biology
Biology
実験手法の革新
Illumina HiSeqX (http://systems.illumina.com/content/dam/illumina-marketing/documents/products/datasheets/datasheet-hiseq-x-ten.pdf)
データ量の爆発配列: DNA / アミノ酸
タンパク質の三次元構造
分子間相互作用
キュレートされたパスウェイ
SNPs(一塩基多型)
文献
Data and Services at EBIwww.ebi.ac.uk/services
解析と可視化への需要
膨大なデータ
Why? なぜ可視化するのか?
–Tamara Munzner
“Visualization is suitable when there is a need to augment human capabilities rather than replace people with
computational decision-making methods.”
Visualization Analysis and Design. A K Peters/CRC Press, 10/2014.
可視化の利用は、(機械学習などの)計算機的手法で人を置き換える場合ではなく、 ヒトの能力を拡張して意思決定を行う必要がある時にこそ適切である。
意思決定のための ヒトの認知能力の拡張
新世代の実験手法により生み出される膨大なデータを整理して理解するために人の認知能力を拡張する
Biology
Data Visualization
Biology
Data Visualization
dx.doi.org/10.2210/rcsb_pdb/mom_2014_10
Costanzo et al. Science. 2010 Jan 22;327(5964):425-31
www.ebi.ac.uk/gwas/
http://www.ebi.ac.uk/fgpt/gwas/#
openworm.org
問題点
紙や静止画で見てもよくわからない…
原因• そもそもデータセットが大きい
• インタラクティブな操作の必要性
• ズームイン・アウト
• パン
• 検索
• これらは紙では不可能
Web-Based Data Visualization
データ発表の場としてのウェブ
• 非常に多元的で多岐にわたる生物学的データセットを紙のみで分かりやすく表現するのは限界がある
• 論文ではスタティックな図で
• サプリメントとしてウェブを使ってインタラクティブな表現としてデータを公開
データ収集 解析 可視化
論文としての発表
Web Appとしての公開
データベースへの登録
論文としての発表
データ収集 解析 可視化
論文としての発表
Web Appとしての公開
データベースへの登録
論文としての発表
NeXOa gene ontology inferred from molecular networks
Dutkowski, Janusz, et al. "A gene ontology inferred from molecular networks." Nature biotechnology 31.1 (2013): 38-45.
Dutkowski, Janusz, et al. "NeXO Web: the NeXO ontology database and visualization platform." Nucleic acids research 42.D1 (2014): D1269-D1274.
紙を超える
• 紙は偉大な発明
• 電気もいらない
• 高い保存性
• 数百年保つ
• 手にとって読める
• PDFも印刷する人が未だに多い
• アーカイブ
• データ・コードの保存
• 技術トレンドの変化
• 例: Adobe Flashの死
• アクセス性
• ウェブが多くを解決したがまだ不完全
デジタルデータの問題
それでもなお挑戦する価値があるアドバンテージ
双方向性
ELSEVIERwww.elsevier.com/about/content-innovation
ここまでのまとめ
- 現代の生物学はData-Drivenなサイエンス
- 大量のデータを解析/可視化するには計算機の力が必要
- 大手ジャーナルも新しい科学出版を模索する中で様々なデータ可視化に関する取り組みを始めている
実際に触れてみる
現代的なデータ可視化環境に触れる
• 難しく考える必要はない
• ポイント:
• 計算機で加工することを念頭に置いたデータ集取
可視化のツール
selection.datavisualization.ch
???
ツールの用途を整理する
可視化技術のレイヤ
データ可視化用ライブラリ D3.js, p5.js, Cytoscape.js
低レベルな描画ライブラリ OpenGL, WebGL, HTML5 Canvas, Java2D
アプリケーション ゲノムブラウザ / パスウェイビューア / チャート生成
可視化技術のレイヤ
データ可視化用ライブラリ D3.js, p5.js, Cytoscape.js
アプリケーション ゲノムブラウザ / パスウェイビューア / チャート生成
可視化技術のレイヤ
アプリケーション ゲノムブラウザ / パスウェイビューア / チャート生成
低 中 高
難易度
低 中 高
必要とされるプログラミングのスキル
カスタマイズ性
Microsoft Excel
Microsoft Excel
多くの生物学者にとって基本的なデータ解析・可視化環境
現在のバージョンではかなり複雑な可視化が可能
プログラマブル - 拡張可能
Microsoft Excel
しかしそこから作られる可視化結果は今ひとつな場合も多い…
何故?
可視化に関する基礎知識の欠如
Diagram of the causes of mortality in the army in the East
by Florence Nightingale
mbostock.github.io/protovis/ex/crimea-rose-full.html
bl.ocks.org/kgryte/raw/5926740
データセットに対して正しい手法を使い分ける
基本的な技法に関する知識はツールが変わっても使える
例: チャートジャンクを避ける
Tufte 1983, 2001. p. 111
例: data/ink 比を最大化する
grammar of graphics: a general scheme for data visualization which breaks up graphs into semantic components such as scales and layers
en.wikipedia.org/wiki/Ggplot2
tableauwww.tableau.com
D3: Data Driven Document
D3: Data Driven Document
基本的にはプログラマ向けのツール
とても低レベル (機械寄りという意味です)
複雑なデータに対して新しい可視化手法を実装するのに便利
勤務先に計算機部隊の居る方向け
プログラマでない方がイチから作るのはなかなか厳しいです…
d3js.org/
Lab Notebookとしての計算機
Jupyterとは何か?
「コンピュータを使った解析と可視化のためのラボノート」
かつてはIPython Notebookと呼ばれていた
→ その名の通りPython専用だった
現在は様々な言語をサポート
オープンソースで無償のソフトウェア
Shen, Helen. "Interactive notebooks: Sharing the code." Nature 515.7525 (2014): 151-152.
Demo (時間があれば…)
科学における再現性向上のために
生物学のためのプログラミング
by Peter Wang @PyData 2014
未来のツールの方向性
plot.ly
複雑な可視化をプログラミングなしで
実践のためにすぐできること…もしくは計算機分野の人々とうまく付き合う方法
生物学・計算機科学・統計学・医学
1. データとレイアウトを分ける
nkbp.jp/1PjP09uデータ解析/可視化の人々に嫌がらせをする方法
可視化技術のレイヤ
マッピング
データ
描画
可視化技術のレイヤ
マッピング
データ
描画
✔
Prepare Data for Machines! データは機械のために準備する
2. データの履歴を管理する
3. 文房具としてのプログラミング
4. 出来ればオープンな技術を使う
Summary まとめ
• 複雑な生物学分野のデータを、計算機を使って可視化する需要は今後
も高まる
• 大手ジャーナルの出版社は新しいウェブでの論文の形を模索している
• そういった表現に適したものを作るための、データ加工と可視化をす
るツールは現在も多数存在する
• 高度な可視化を作成するには計算機の力が必須であり、科学者とソフ
トウェア技術者の協業が重要
参考:プログラマーが効果的な可視化を作成するhttp://qiita.com/keiono/items/9042bf58224ca54bdb45
Thank you!
References
• Tufte, Edward R., and P. R. Graves-Morris. The visual display of quantitative information. Vol. 2. Cheshire, CT: Graphics press, 1983.
• Wilkinson, Leland, et al. The grammar of graphics. Springer Science & Business Media, 2006.
• Shen, Helen. "Interactive notebooks: Sharing the code." Nature 515.7525 (2014): 151-152.
• Tamara Munzner. Visualization Analysis and Design. A K Peters Visualization Series, CRC Press, 2014.
Data Analysis / Visualization Tools
• Cytoscape: http://www.cytoscape.org/
• Cytoscape Tutorial: http://opentutorials.cgl.ucsf.edu/index.php/Portal:Cytoscape3
• Bioconductor: http://www.bioconductor.org/
• Jupyter: http://jupyter.org/
• Content Innovation: http://www.elsevier.com/about/content-innovation
2015 Keiichiro Ono [email protected] Twitter ID: c_z
https://www.flickr.com/photos/zeissmicro/6779276516/in/photolist-bk4yHS-9ArtYT-8LReTd-8LQXrY-8NyBEs-enYpjq-enoJtz-o9oymN-8Q1YMC-7vnfkT-hhEdRg-9As3BV-7CgoAa-gaHyDs-hhErzb-sGZEi-om1U6i-enoJ6r-enoJc2-enoJyk-enoHVV-enYoHJ-9AuXJL-9As31z-bDWpAi-9As2VT-9AuXBC-9As3yF-9AuXFq-9As3ua-9As3qR-9AuXmQ-8qPd5a-brC9Xu-
e6hrBg-8UAa79-4Zh8ea-tCkcU-fxM4Sc-6RXXo5-7Cgdng-2DwDVp-7CgdmK-dPpCu-k9QxQ-bnHQJ2-mE13n-35K3bp-dCJ5Ub-e6o6aA
https://www.flickr.com/photos/nasamarshall/11717956263/in/photolist-iRtA9F-oWv5Tp-ehGe21-n7vna-nVUnJ-8zAW7F-dyM2sc-yyMZn-9VwETJ-Ev9gL-7WZ431-o1ahRu-opV1fV-daHxyK-de124v-9yomNh-9yQ9sq-qgKD5W-5f9hWF-9y5sEm-pJ1ktE-8BFiRP-hKWj3n-dQR1SZ-hjMKwC-buGXJx-iipHgu-hSu56B-dxjECS-7WNoPz-dgFzxW-aZF8SV-cXNxJE-
ig39ti-iDRphG-8nSRdr-pdjbjq-9ENznU-7RkW9g-amX7AG-p15fVq-8DtkKe-onHHNF-4naLdV-eWD9Az-8SbHxL-aUhuvk-8BFiQe-76JJhW-paXCw1
https://www.flickr.com/photos/europeanspaceagency/14156437489/in/photolist-nyXrEr-nRaCfF-np8DEj-nEAWct-nyxcx8-nT7mN4-oaajYV-o6Ufjf-nPrwMk-nFbeTr-nF7NpE-nEUFtu-nCWtNw-nCWnhe-nCVKUU-nV7FWN-nUdrcF-nBDkjh-nRip4m-nygdvS-nygLBc-nSx3gB-nyfMsp-nQFD8N-nyfExb-nwe5DL-nK28q9-nFJeTN-nmypBs-nk1DG9-ndAaTu-nt31wU-
ndzXx4-ndAdnf-ndzXvv-ndzXtg-ndzXsK-nuNVJ7-nuMVJt-nv7yVj-nv5GuT-ndAaGs-ndAdej-ndAaFf-ndzXkk-ndAdds-ndAaDS-ndAaDG-ndzXji-ndzXir
https://www.flickr.com/photos/zeissmicro/8570860619/in/photolist-9vbCYe-63DZir-9ywXj6-9r6UuY-9ksqzw-4cCZYT-xXxXi-61ZXVV-p6emAt-e4nSpc-p6eG9s-9EY425-9vbmhi-9vbmoR-86tyCW-88oNSA-99dmNQ-9TDHo-9nDeK-e4nUfX-dPpjY-iLniN8-95Hcj8-9tUm3H-e4tvyq-9c69Hi-9c9egy-9ma3xL-
e6sRCo-95Leb5-7mCiLg-7pGHGp-99aeQV-e4nUhv-y2x1d-4Ez7Po-dN8ZCa-e4nUiP-4Pyr1T-e4tvBC-e4nUjH-5QZbY9-e6ndN2-92NqxA-92Nqxw-92Nqxy-72Fzyv-83Qzsq-7y5WmL-4dKNBb
https://flic.kr/p/51Veqw
https://flic.kr/p/6A5bjK
Photo Credits