Download - 39th MTG in NIBIO
本日の予定 • Sagace
– アクセス解析 – 進捗報告 – メタデータ付与促進ツールについて – 新規追加DBについて
• 医薬基盤研内のデータのRDF化 – 化合物からの副作用データ取得について
• SPARQLthonの報告
• 分子生物学会のブース展示 – 感想・反省
2
進捗報告 • メディカルバイオリソースDB, 実験動物研究資源バンク,難病情報センターの最終更新日を取得
• 実験動物研究資源バンクの画像を取得 • 検索中のアニメーションを追加 • Open TG-GATEs病理写真版で生物種のリンクの追加
3
メタデータ付与促進ツール • データベース管理者の自発的なメタデータマークアップを支援する仕組みとして作成 – http://sagace.nibio.go.jp/devel/
metadata.html
• 紹介スライド – http://prezi.com/ewunmgczcjcv/
4
新規追加DBについて • 以下のDBを検索対象に追加(開発版)
– 国際基準に基づく小奇形アトラス – 染色体異常をみつけたら、Gene Reviews
– Orphanet – UR-DBMS(琉球大学遺伝性疾患データベース) – ClinicalTrials.gov
5
医薬基盤研内のデータのRDF化 • SIDER経由で化合物から副作用情報を取得 • 副作用のみを出す場合
6
PREFIX dcterms: <http://purl.org/dc/terms/> PREFIX sider_vocab: <http://bio2rdf.org/sider_vocabulary:> PREFIX bio2rdf: <http://bio2rdf.org/bio2rdf_vocabulary:> select distinct ?side_effect where{ ?drug sider_vocab:generic-name ?generic; sider_vocab:pubchem-compound-id ?pubchem; sider_vocab:side-effect ?side. ?generic dcterms:title "allopurinol"@en . ?pubchem bio2rdf:identifier ?pubchem_id. ?side dcterms:title ?side_effect. } ORDER BY ?side_effect
医薬基盤研内のデータのRDF化 • SIDER経由で化合物から副作用情報を取得 • 副作用と頻度も出す場合
8
PREFIX dcterms: <http://purl.org/dc/terms/> PREFIX sider_vocab: <http://bio2rdf.org/sider_vocabulary:> SELECT distinct ?side_effect ?frequency_data WHERE { ?drug sider_vocab:generic-name ?generic; sider_vocab:pubchem-compound-id ?pubchem_id. ?drugeffect sider_vocab:drug ?drug; dcterms:title ?drugeffectname; sider_vocab:reported-frequency ?frequency. ?frequency dcterms:title ?frequency_data; sider_vocab:preferred-term ?side. ?side dcterms:title ?side_effect. }
作業概要 • Bio2RDFのSPARQL Endpointでクエリを作成 • SIDERのデータを一括ダウンロード,OWLIMにアップロード
• Open TG-GATEsで扱っている化合物に対してリンクする方法を模索 – PubChem IDで繋げることに
– 元データにPubChem IDを付与 – SIDERのRDFに化合物の文字情報(from Open TG-
GATEs)を追加 – SIDERのRDFの化合物情報を一元化した新しい
predicateを作成。 10
アプリケーション • 化合物から副作用情報を取得
– http://10.100.0.34/link/toxico/chemicaliquery.html
• PHPにて入力からクエリ取得まで作成
13
相談事項 • 疾患名のまとめ方について
– ICD10とのマッピング→半数程度 – MedDRA
• 慶応義塾大学SFC研究所 or (財)国際医学情報センター(IMIC)でOWLが作成されているらしい
• おそらく有料
– 頻度の表示の仕方
• ダウンロードフォーマット – csv, json, rdf ?
14
SPARQLthonの報告 • 12月18日(木)@三島
– Open TG-GATEsの化合物データのうち,SIDERに紐付けられ無い化合物の調査 with 時松さん@DBCLS
– ICD10のRDFの不備の有無を確認(LSDとのマッピングの調査) with 山本さん@DBCLS
17