生存研シンポジウム tokimatsu forpdf.ppt...
TRANSCRIPT
2012/3/9
1
生命システム情報統合データベースKEGGおよび GenomeNetの活用方法KEGG および GenomeNet の活用方法
第202回生存研シンポジウム「バイオテクノロジーと情報科学の接点」
2012/3/5
京都大学化学研究所京都大学化学研究所バイオインフォマティクスセンター
化学生命科学領域
時松 敏明
URL
• KEGG– 英語
• http://www.kegg.jp/kegg/– 日本語
• http://www.kegg.jp/kegg/kegg_ja.html
• GenomeNet– 英語
• http://www.genome.jp/– 日本語
• http://www.genome.jp/ja/
• GoogleでKEGG, GenomeNet(ゲノムネット)で検索すると、トップヒットで出てきます。
2012/3/9
2
様々な種類のデータを「生命現象の総体」として再構築
KEGG: Kyoto Encyclopedia of Genes and Genomes
機能の階層分類相互参照用データ
KEGG BRITE
高次機能ツールの提供EGassemblerKAASGENIESKegArray
ツールの提供e-zymePathPredSIMCOMPKegArray
研究者の知識をゲノムレベルのデータと結びつける
KegArray
3
KEGG: Kyoto Encyclopedia of Genes and Genomes
http://www.kegg.jp/kegg/ http://www.kegg.jp/kegg/kegg2.html4
2012/3/9
3
KEGG: Kyoto Encyclopedia of Genes and Genomes
システムの知識
ゲノムの知識KEGG GENES
システムの知識KEGG PATHWAYKEGG BRITE KEGG MEDICUS
http://www.kegg.jp/kegg/ 5
化合物の知識KEGG LIGAND
KEGGの高次システム情報データベース
• 基礎科学に関する情報PATHWAY パスウ イマップ– PATHWAY パスウェイマップ
– BRITE 機能階層情報
– MODULE モジュールと機能ユニット
• 応用科学に関する情報(MEDICUS)– DISIEASE ヒトの病気
– DRUG 医薬品情報
– ENVIRON 生薬や健康関連の物質
2012/3/9
4
KEGGのゲノム(配列)情報データベース
• ORTHOLOGY KEGG Orthology (KO)
• GENOMES 生物種ごとのゲノム情報
• GENES 遺伝子カタログ
– マニュアルもしくはKOALAアノテーション
遺伝 カタ グ• DGENES 遺伝子カタログ
– 自動アノテーション
• SSDB GENESの配列類似性
KEGGの化学情報データベース(LIGAND)
• COMPOUND 代謝産物などの低分子
• GLYCAN (タンパク修飾)糖鎖
• REACTION 生化学反応
• RPAIR Reactant pairの化学変換情報
• RCLASS RPAIRによる反応のクラス分類
• ENZYME Enzyme nomenclature (EC番号)– 下4つの統合入り口として REACTIONがある
2012/3/9
5
ゲノムネット
データベース検索システム:DBGET/LinkDBKEGGと国内外の様々なデータベースを統合的に検索するシステム
ゲノムネット医薬品データベース
9http://www.genome.jp/ja/
その他のプロジェクトデータベース
ゲノムネット計算ツール
ホモロジー検索、モチーフ検索マルチプルアライメント
10英語: http://www.genome.jp/
遺伝子機能アノテーション、予測など
化学構造比較、パス予測など
日本語: http://www.genome.jp/ja/
2012/3/9
6
KEGG PATHWAY 生体内(外)の分子間ネットワーク図
• 代謝系
– 12+1カテゴリ (162+3マップ)
– 中間代謝、二次代謝、薬の代像謝、全体像
• 制御系
– 20カテゴリ
– 遺伝制御、環境シグナル、細胞プロセス、生体システム他
• 疾患疾患
– がん、免疫・神経変性・循環器・代謝疾患、感染症
• 薬の開発
– 開発の歴史、標的ベース、構造ベース
http://www.kegg.jp/kegg/pathway.html
11
代謝系Pathway Mapの3つのタイプ(1) Standard Pathway Map
2012/3/9
7
代謝系Pathway Mapの3つのタイプ(2) Global Map
Metabolic pathwaysBiosynthesis of secondary metabolitesMicrobial metabolism in diverse environments
代謝系Pathway Mapの3つのタイプ(3) Overview map
2012/3/9
8
KO, REACTION, COMPOUND, PATHWAY‐ KEGG PATHWAYの構造 ‐
• 生物種ごとのPathwayは遺伝子と化合物の相互ネットワーク
R f P h は KOやR i と化合物の相互ネ トワ ク• Reference Pathwayは、KOやReactionと化合物の相互ネットワーク
• 文献を元に新しいPathwayを作成することにより、新しいKOが定義される
Species pathways
A. thaliana (ath)
O. sativa (osa)
GENES
ath:AT2G30490
osa:4329324osa:4329329osa:4338409
(例: C4H)
P. patens patens (ppp)
Reference pathways
KO (KOと化合物)
REACTION(反応と化合物)
……
……
…..
……
……
…..
……
……
…..
……
……
…..
……
……
…..
KO
REACTION
K00487
R02253
ppp: PHYPADRAFT_140533ppp: PHYPADRAFT_149501…
…
KEGG GENESデータベース( http://www.kegg.jp/kegg/genes.html)
KEGG GENESのサブカテゴリ
配列の種類アノテーションの種類(manual、KOALA、KAAS)
16
登録データの一覧表へのリンク生物種単位、サンプル単位
2012/3/9
9
KEGG Organisms‐ GENES, DGENESに登録されている生物種 ‐
分類 生物種コード 生物種名 データソース
17
生物種のゲノム情報‐種の系統、データソース、アノテーションレベル、文献などの詳細情報 ‐
2012/3/9
10
KO (KEGG Orthology)
• KEGGでは同じ機能を有している
と考えられるオーソログ遺伝子を集め、同一のID(K番号)をつけることでその機能を表現している
• 新規ゲノムが新しくGenesに登録
されるとき、遺伝子をオーソロググループ(KO)に追加することで、
遺伝子の機能アノテーションを行っている
KOのアサイン
• KEGGでは基本的にはSSDBフィールドの情報をもとに 遺伝子にKOの付与(機能アノテをもとに、遺伝子にKOの付与(機能アノテーション)を行う
• KEGGの機能アノテーションはmanual、KOALAKAASの3段階の精度、KAASの3段階の精度
2012/3/9
11
KOのアノテーションレベル• Manual
• KOALAによる自動アノテーションの情報とオーソログ情報を参考にし、それぞれの遺伝子に対して個別に、知識にも基づく機能アノテーションを手作業で行う
– KOALA• GENESに登録される生物種において、SWスコア、ベストヒット、系統分類、
ドメイン情報などをもとにスコアリングを行い、配列に自動で機能アノテーションを行う
– KAAS• SWスコアの計算には非常に時間がかかるため、頻繁にデータ更新があ
りうる や配列数の多い を で機能アノテりうるDGENES, EGENESや配列数の多いMGENESをKOALAで機能アノテーションするのは困難
• BLASTの相同性スコア、ベストヒットの情報をもとにしたアノテーションツール、KAASによって DGENES、EGENES、MGENESに登録されている配列の自動機能アノテーションを行う
KAAS ( http://www.genome.jp/tools/kaas/ )‐自動、機能アノテーションサービス ‐
2012/3/9
12
KAAS‐自動、機能アノテーションサービス ‐
• 入力データ– 大規模シークエンスによっ
Query種Xの網羅的
て得られた特定の種の大量のアミノ酸・ヌクレオチド配列
– ORFの配列をmulti‐FASTA形式で
• 出力結果KOアノテ ション
種Xの網羅的遺伝子配列
・・・
テンプレートGENESKO
PATHWAY– KOアノテーション– KOに基づく遺伝子の階層
分類データ(BRITE)– PATHWAYマップ
PATHWAY
Results種XのPATHWAY
KAAS‐自動、機能アノテーションサービス ‐
• Complete or Draft genome– 入力配列が特定の種の遺伝子で、
ある程度網羅性が期待できると来、ある程度網羅性が期待できると来、BBHを指標により精度の高いアノテーションを行う
• Partial genome– 入力が網羅的でないときには、
Bidirectionalな意味がないので、SBH(片方向ベストヒット)を用いてアノテーションを行う
– 入力が少量の場合、対話式に結果を得ることができる果を得ることができる
• ESTs– 入力データがESTの時に用いる。ヌ
クレオチド配列を全パターン翻訳するため計算量が増える
2012/3/9
13
PATHWAY の検索とマッピング
• キーワード検索
– Entry, Name, Description フィールドとマップ中のオブジェクト(遺伝子、オーソログ、反応、化合物)や注釈を対象とした検索
– 複数キーワードは AND 検索
• オブジェクトマッピング KEGG Mapper
– マップ中のオブジェクトを指定してパスウェイにマッピング
– 複数オブジェクトを指定するとマッチしたものすべてをマッピング
– Search Pathway
• 指定したオブジェクトを赤く色づけ
– Search & Color Pathway
• 指定したオブジェクトを自由に色づけ
http://www.kegg.jp/kegg/pathway.html
– Color Pathway
• 指定したパスウェイにオブジェクトの色データを与えて色づけ、数値を与えることも可能
25
KEGG GENOME
• KEGG 生物種ごとの入り口– GENES/DGENES:ゲノムが決定された生物種
– EGENES:ESTで作成された遺伝
http://www.kegg.jp/kegg/genome.html
子セット
– MGENES:メタゲノムデータ
– Pangenomes:近縁生物種をまとめたもの
– Viruses
–生物種の組み合わせ
26
2012/3/9
14
複数生物種の情報を PATHWAY にマッピング
• 共生関係
• 寄生関係
• ヒトと腸内細菌叢など
• ミヤコグサ– マメ科モデル植物
• Mesorhizobium loti– 共生根粒菌
27
複数生物種の情報を PATHWAY にマッピング
ミヤコグサ 根粒菌 共通28