Transcript

NBDC と DBCLS は生命科学のデータベースやサービスにおける国際標準化を促進するため、年1回の国際開発者会議 BioHackathon を主催しています。第8回目となる今年は、長崎を会場として、例年通り1週間の合宿形式で開催する予定です。

バイオサイエンスデータベースセンターは、生命科学DBの統合と活用を推進するJSTのセンターです。このためのガイドラインの策定、ポータルサイトの運用やDBの受け入れ、データベースに関するファンディング等を行っています。

Global Alliance for Genomics & Health第4回NGS現場の会 ポスター P7-44

GA4GH は、2013年に UCSC の David Haussler 氏らの呼びかけによって設立され、2015年7月現在、33ヶ国336組織が加盟しています。

UCSC, EBI, Broad Institute, BGI, Google, Amazon, Illumina などの研究機関や企業をはじめ、国内からもすでに11の組織がメンバーとなっています。

これら4つのワーキンググループが協力しながら、個人ゲノム情報などの NGS データと医療情報をクラウド上で安全に共有し、世界中の研究者が効率的に解析を行える共通基盤を標準化することなどを目標として技術開発や議論が行われています。 応用例の1つとしては、稀少疾患遺伝子の探索において、分散したゲノム情報とクリニカル情報を相互に検索しマッチングする Matchmaker Exchange (MME) などの取り組みが始まっています。

Data working group ファイル形式, メタデータ, ビーコン, リファレンスグラフ, …

Clinical working group クリニカル情報とゲノム情報, 表現型オントロジー, …

Security working group クラウドとソフトウェアにおけるセキュリティRegulatory and Ethics working group インフォームドコンセントやデータ保護など倫理規制

リファレンスゲノムのグラフ2014年に Haussler 氏らのグループが、ゲノム配列をグラフで表現する提案論文 (http://bit.ly/1IB27Ti, http://arxiv.org/abs/1404.5010) を発表しました。”Genotypes from Reference Genome Graphs” には、「いまのリファレンスゲノムは、本質的にはある個人のゲノムを人類の代表としており、情報のロスやバイアスが内在する」「全ての人の遺伝的変異をリファレンスゲノムに組み入れようとすると、生物種のゲノムをグラフで表現するアイデアに至った」と書かれています。

これまでは、リファレンスゲノムのバージョンアップ (hg19→GRCh38など) のたびに、遺伝子やSNPの再マッピングなど、座標系とアノテーションの移行作業には大きな問題がありました。UCSC ゲノムブラウザでのデータ管理経験から、リファレンスゲノムも、個人ゲノムも、変異情報も、あなたの NGS データも、全てグラフとして扱うことで対応を容易にしましょう、という提案のようです。さらに、今後のリファレンスゲノムは定期的なビルドではなく、随時更新できるグラフで提供されるようになる可能性もあります。

概要ライフサイエンス統合データベースセンター (DBCLS) では、生命科学データベースの統合的な活用を促進するための技術開発を行っています。関連して、2013年に発足した Global Alliance for Genomics & Health (GA4GH; http://genomicsandhealth.org/)

では NGS データやゲノム情報を活用する国際的な基盤を構築するため、データ・セキュリティ・クリニカル・倫理規制の4つのワーキンググループで、合意形成と技術開発が進められています。2015年6月にオランダで開催された、第3回 GA4GH ミーティングでの議論を、特にデータワーキンググループの内容を中心にレポートします。

サンプル実装はすでに GitHub でも公開されており、GA4GH では MHC, BRCA1&2 遺伝子領域などを用いて、いくつかのグラフ構築手法の性能比較評価が報告されていました。

ゲノム配列をグラフで表現する時代が来るとしたら、今と何が変わってくるでしょうか?•日本人ゲノムでも何億人ゲノムプロジェクトでも全クマムシゲノムでもどんと来い•リファレンスゲノムのバージョンアップに右往左往しなくてよくなる•様々なアノテーションのトランスファーが容易になり永続化される•バイオインフォマティクス解析ツールがグラフ対応し新しいアルゴリズムが提案される•個人ゲノムの変異の特徴を既存の全データを対照に理解できる•遺伝的変異の進化解析や、シングルセル・がんゲノムの特徴解析が統合的にできる•部分的に異なるストレイン違いなどの微生物ゲノムをまとめて効率よく解析できる•メタゲノム情報も取りこぼしを減らしつつ包括的に扱えるようになる• …

まだまだ技術的な課題は多いかと思いますが、みなさんの NGS データの扱い方が、近い将来ガラッと変わるかもしれませんよ?!

データワーキンググループData working group は4つのうち最も参加メンバーが多い主要グループで、ソフトウェアの技術開発を担当するギークが多く集まっています。このため、プログラムを実装した人が口だけの人より高く評価され、貢献度に応じてリーダーシップが決まるという、オープンソースでは「ふつう」のコミュニティモデルが採用されています。

このグループでは、NGS データのファイル形式である SAM/BAM, CRAM や VCF/BCF などの標準化と実装を管理するとともに、GA4GH ゲノム API の仕様策定とサービスの提供や、アプリケーションの開発などが進められています。また、将来的に必要とされる長期的な技術開発も進められており、その1つが以下に紹介するリファレンスゲノムのグラフです。

ライフサイエンス統合データベースセンターは、NBDCと協力してDB統合の技術開発を進めています。ハッカソンなど、技術交流を促進するイベントの開催、各種サービスとソフトウェアの開発、統合TVや新着論文レビューなどのコンテンツ作成を行っています。

主に、ヒト個人ゲノム情報・動植物・微生物・医薬品・化合物・プロテオーム・糖鎖・パスウェイ・環境などのデータを、主にセマンティック・ウェブを用いて標準化するための議論と技術開発を行いますが、それ以外のテーマも自由に持ち込んでいただいて構いません。

GA4GH からは、リファレンスゲノムのグラフを実装した UCSC のグループの参加も決まりました。長崎大学と連携して、日本人ゲノムや個人ゲノム情報の解析にも役立つよう、協力していきたいと考えています。

http://2015.biohackathon.org

• 9月13日 公開シンポジウム@長崎大学• 9月14~18日 ハッカソン@長崎ルークプラザホテル• 9月19日 論文化ミーティング@長崎大学

例年、海外から 20 名程度、国内から 50 名程度の参加を頂いており、国際的なコラボレーションを集中的に進めるよい機会となっています。 興味を持たれた方はぜひご参加ください。参加費は無料で、現在登録受付中です。

Top Related