Download - 39th MTG in NIBIO

Transcript

2014/12/26

第39回統合DBミーティング Integrated MTG in NIBIO

1

本日の予定 •  Sagace

– アクセス解析 – 進捗報告 – メタデータ付与促進ツールについて – 新規追加DBについて

•  医薬基盤研内のデータのRDF化 – 化合物からの副作用データ取得について

•  SPARQLthonの報告

•  分子生物学会のブース展示    – 感想・反省

2

進捗報告 •  メディカルバイオリソースDB, 実験動物研究資源バンク,難病情報センターの最終更新日を取得

•  実験動物研究資源バンクの画像を取得 •  検索中のアニメーションを追加 •  Open TG-GATEs病理写真版で生物種のリンクの追加

3

メタデータ付与促進ツール •  データベース管理者の自発的なメタデータマークアップを支援する仕組みとして作成 – http://sagace.nibio.go.jp/devel/

metadata.html

•  紹介スライド – http://prezi.com/ewunmgczcjcv/

4

新規追加DBについて •  以下のDBを検索対象に追加(開発版)

– 国際基準に基づく小奇形アトラス – 染色体異常をみつけたら、Gene Reviews

– Orphanet – UR-DBMS(琉球大学遺伝性疾患データベース) – ClinicalTrials.gov

5

医薬基盤研内のデータのRDF化 •  SIDER経由で化合物から副作用情報を取得 •  副作用のみを出す場合

6

PREFIX dcterms: <http://purl.org/dc/terms/> PREFIX sider_vocab: <http://bio2rdf.org/sider_vocabulary:> PREFIX bio2rdf: <http://bio2rdf.org/bio2rdf_vocabulary:> select distinct ?side_effect where{ ?drug sider_vocab:generic-name ?generic; sider_vocab:pubchem-compound-id ?pubchem; sider_vocab:side-effect ?side. ?generic dcterms:title "allopurinol"@en . ?pubchem bio2rdf:identifier ?pubchem_id. ?side dcterms:title ?side_effect. } ORDER BY ?side_effect

クエリのイメージ図

7

医薬基盤研内のデータのRDF化 •  SIDER経由で化合物から副作用情報を取得 •  副作用と頻度も出す場合

8

PREFIX dcterms: <http://purl.org/dc/terms/> PREFIX sider_vocab: <http://bio2rdf.org/sider_vocabulary:> SELECT distinct ?side_effect ?frequency_data WHERE { ?drug sider_vocab:generic-name ?generic; sider_vocab:pubchem-compound-id ?pubchem_id. ?drugeffect sider_vocab:drug ?drug; dcterms:title ?drugeffectname; sider_vocab:reported-frequency ?frequency. ?frequency dcterms:title ?frequency_data; sider_vocab:preferred-term ?side. ?side dcterms:title ?side_effect. }

クエリのイメージ図

9

作業概要 •  Bio2RDFのSPARQL Endpointでクエリを作成 •  SIDERのデータを一括ダウンロード,OWLIMにアップロード

•  Open TG-GATEsで扱っている化合物に対してリンクする方法を模索 –  PubChem IDで繋げることに

– 元データにPubChem IDを付与 –  SIDERのRDFに化合物の文字情報(from Open TG-

GATEs)を追加 –  SIDERのRDFの化合物情報を一元化した新しい

predicateを作成。 10

試行錯誤… •  元々のクエリ

11

化合物のリンク付けについて •  170化合物中

– 58化合物は頻度まで取得可能 – 43化合物は副作用情報のみ取得可能

– 他の化合物については,そもそもSIDERに無い可能性が高い

12

アプリケーション •  化合物から副作用情報を取得

– http://10.100.0.34/link/toxico/chemicaliquery.html

•  PHPにて入力からクエリ取得まで作成

13

相談事項 •  疾患名のまとめ方について

–  ICD10とのマッピング→半数程度 – MedDRA

• 慶応義塾大学SFC研究所 or (財)国際医学情報センター(IMIC)でOWLが作成されているらしい

• おそらく有料

– 頻度の表示の仕方

•  ダウンロードフォーマット – csv, json, rdf ?

14

今後の予定 •  遺伝子発現データとの統合

•  (スキーマの修正) •  (RDFのダウンロード機能の追加)

15

分子生物学会 反省・感想

•  分子生物学会全般 •  ブース •  NBDCへの要望等

– 準備,当日,学会後

16

SPARQLthonの報告 •  12月18日(木)@三島

– Open TG-GATEsの化合物データのうち,SIDERに紐付けられ無い化合物の調査 with 時松さん@DBCLS

–  ICD10のRDFの不備の有無を確認(LSDとのマッピングの調査) with 山本さん@DBCLS

17

今後の予定 •  次回 1月23日(金) or 30日(金) •  国内版 BioHackathon

– 2月2日~6日

18


Top Related