entrezクイックスタートentrezクイックスタート ncbi...

63
Entrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、 情報抽出システムです。 Entrezではデータベース内の関連するレコードへのリンクや、そのレコードから他のデ ータベースへのリンク情報を提供しています。 このミニコースでは、以下の方法について紹介しています。 1. 様々なデータベースのエントリからの情報抽出方法 2. Limits, Preview/Index, Histotyなどを使った効果的なデータベース探索方法 3. 検索結果の絞込み方法 4. 検索キーワードをハイライトさせる方法 5. 様々なフォーマットでレコードにアクセス、ダウンロード、保存する方法 6. データベース内や他のデータベース内の関連するエントリにアクセスする方法 7. 検索手法や結果を保存する方法 8. バッチ処理により大量のデータを取得する方法 9. 検索結果の自動更新やe-mailで結果を取得するオプションの選択方法 このコースを修了すると、以下のようなことができるようになっているはずです。 1. Entrezを使って、ゲノム配列、タンパク質、そのホモログ、発現タグ、一塩基多型 といったある生物 種に関するあらゆる入手可能なデータを検索し、取得すること 2. ある組織で特異的に発現している遺伝子を検索すること 3. ゲノム解読が完全になされた真核生物間でのホモログ遺伝子を検索すること 4. 集団遺伝学解析、系統解析、変異解析からアライメントされた配列を検索すること 5. アミノ酸に変異を及ぼし、OMIMや構造データベースへのリンクがある、特定染色体上 のSNPsを検索す ること 6. 無料で全文にアクセスが可能な論文を検索すること このミニコースでは、PubMed, PubMed Central, Taxonomy, PopSet, OMIM, Homologene, Unigene, および 一塩基 多型database(dbSNPs)を扱っています。 そのほかのデータベースはGenBankクイックスタートや Entrez Geneクイ ックスタートで扱っています。 課題.1 ■ Step.1-1 PubMed, PMC, TaxonomyおよびPopSet mammoth(マンモス)について全Entrezデータベースに渡った検索を実施してみてください。どのデータベースに mammothという単語に関連したレコードが含まれていますか? PubMedデータベースでmammothというキーワードで 検索される文献に移動してみて下さい。 PMCを通じて全文を無料で手に入れられる論文を確認してください。 "The year of the mammoth"というタイトルの文献にアクセスしてください。この文献から引用されている論文に はどのようなものがありますか?これらの論文の概要をダウンロードしてください。その中でPMCを通じて無料で 手に入れることのできる文献はいくつありますか?いくつかの論文にアクセスしてみてください。 マンモスに関するEntrezへの検索結果に戻ってください。PopSetへのリンクを表示させてください。GreenWoodに よるPopSet ID 1490839のレコードにアクセスしてみてください。様々なフォーマットでアライメントを表示して ください。核酸データベースへのリンクをたどってみてください。このPopSetではアライメントにどの遺伝子が扱 われていますか? Taxonomyリンクを表示させてPopSetのこのエントリでは、どの範囲の生物種をカバーしている のか表示させてください。 TaxonomyのMammuthus primigeniusレコードにアクセスしてください。Entrezデータベースに登録されている配列 の由来となっているマンモスの標本はどこから得られたものでしょう?マンモスの系統はどのようなものでしょ う?細胞生物の3つの大きな分類とはどのようなものでしょう?この3系統のうち、もっとも"Structure"データベ ースにその構造が多く登録されているのはどの系統でしょう? ■ Step.1-2 OMIM, UniGeneおよびHomologene cytochrome c oxidase(チトクロームC酸化酵素)について、まずはそのまま文字を打ち込んで OMIMデータベースで 検索してみてください。続いて"cytochrome c oxidase"と括弧をつけて検索してみてください。どちらの検索結果 がより絞り込まれていますか?染色体4, 6, 19に位置する遺伝子に関連したものだけに絞って結果を取得してくだ さい。 COX7A1(OMIMレコード番号123995)は、染色体上のどこに位置していますか?筋肉および肝臓で発現してい

Upload: others

Post on 03-May-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

Entrezクイックスタート

NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、情報抽出システムです。 Entrezではデータベース内の関連するレコードへのリンクや、そのレコードから他のデータベースへのリンク情報を提供しています。

このミニコースでは、以下の方法について紹介しています。

1. 様々なデータベースのエントリからの情報抽出方法

2. Limits, Preview/Index, Histotyなどを使った効果的なデータベース探索方法

3. 検索結果の絞込み方法

4. 検索キーワードをハイライトさせる方法

5. 様々なフォーマットでレコードにアクセス、ダウンロード、保存する方法

6. データベース内や他のデータベース内の関連するエントリにアクセスする方法

7. 検索手法や結果を保存する方法

8. バッチ処理により大量のデータを取得する方法

9. 検索結果の自動更新やe-mailで結果を取得するオプションの選択方法

このコースを修了すると、以下のようなことができるようになっているはずです。

1. Entrezを使って、ゲノム配列、タンパク質、そのホモログ、発現タグ、一塩基多型 といったある生物種に関するあらゆる入手可能なデータを検索し、取得すること

2. ある組織で特異的に発現している遺伝子を検索すること

3. ゲノム解読が完全になされた真核生物間でのホモログ遺伝子を検索すること

4. 集団遺伝学解析、系統解析、変異解析からアライメントされた配列を検索すること

5. アミノ酸に変異を及ぼし、OMIMや構造データベースへのリンクがある、特定染色体上 のSNPsを検索すること

6. 無料で全文にアクセスが可能な論文を検索すること

このミニコースでは、PubMed, PubMed Central, Taxonomy, PopSet, OMIM, Homologene, Unigene, および 一塩基多型database(dbSNPs)を扱っています。 そのほかのデータベースはGenBankクイックスタートや Entrez Geneクイックスタートで扱っています。

課題.1

■ Step.1-1 PubMed, PMC, TaxonomyおよびPopSet

mammoth(マンモス)について全Entrezデータベースに渡った検索を実施してみてください。どのデータベースにmammothという単語に関連したレコードが含まれていますか? PubMedデータベースでmammothというキーワードで検索される文献に移動してみて下さい。 PMCを通じて全文を無料で手に入れられる論文を確認してください。

"The year of the mammoth"というタイトルの文献にアクセスしてください。この文献から引用されている論文にはどのようなものがありますか?これらの論文の概要をダウンロードしてください。その中でPMCを通じて無料で手に入れることのできる文献はいくつありますか?いくつかの論文にアクセスしてみてください。

マンモスに関するEntrezへの検索結果に戻ってください。PopSetへのリンクを表示させてください。GreenWoodによるPopSet ID 1490839のレコードにアクセスしてみてください。様々なフォーマットでアライメントを表示してください。核酸データベースへのリンクをたどってみてください。このPopSetではアライメントにどの遺伝子が扱われていますか? Taxonomyリンクを表示させてPopSetのこのエントリでは、どの範囲の生物種をカバーしているのか表示させてください。

TaxonomyのMammuthus primigeniusレコードにアクセスしてください。Entrezデータベースに登録されている配列の由来となっているマンモスの標本はどこから得られたものでしょう?マンモスの系統はどのようなものでしょう?細胞生物の3つの大きな分類とはどのようなものでしょう?この3系統のうち、もっとも"Structure"データベースにその構造が多く登録されているのはどの系統でしょう?

■ Step.1-2 OMIM, UniGeneおよびHomologene

cytochrome c oxidase(チトクロームC酸化酵素)について、まずはそのまま文字を打ち込んで OMIMデータベースで検索してみてください。続いて"cytochrome c oxidase"と括弧をつけて検索してみてください。どちらの検索結果がより絞り込まれていますか?染色体4, 6, 19に位置する遺伝子に関連したものだけに絞って結果を取得してください。 COX7A1(OMIMレコード番号123995)は、染色体上のどこに位置していますか?筋肉および肝臓で発現してい

Page 2: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

るアイソフォームについての情報はありますか? COX7A1遺伝子について既知の病気に関する表現型(対立変異)はありますか?

このレコードからUniGeneのリンク先へと移動してください。二つの遺伝子の発現プロファイルを比べてみてください。この発現プロファイルから何が言えますか?

Preview/Indexページへアクセスしてください。100本以上のESTによるエビデンスが認められるUniGeneレコードを探してください。哺乳動物に関しいったいいくつの UniGeneエントリがありますか?この結果を生物種でソートしてください。

Homologeneデータベースにアクセスして、COX遺伝子に関連するレコードを検索してください (Preview/Indexのページから遺伝子名を選択し、cox*と入力して検索してください)。いくつのエントリにヒットしましたか?COX7A1, COX7A2は同じHomologneエントリに含まれていましたか?すべてのCOX遺伝子は同じように進化の過程で保存されていますか?これらの遺伝子の共通祖先遺伝子は何ですか?真核生物界に共通して保存されている COX遺伝子はありましたか(Preview/IndexページからancestorとしてTaxonomy ID 2759を指定してください)?HomologeneのCOX1レコードに含まれる生物種を系統樹上で表示してください。

■ Step.1-3 dbSNP

SNPデータベースへと移動してLimits(検索条件指定のページ)ページへと移動してください。ヒト22番染色体のコード領域中に存在する非同義置換を抜き出すために適切なオプションを設定してください。さらに、OMIMへのリンクがあるエントリに絞り込んでください。これらに関しUIリストを取得し、ダウンロードしてください。 Batch Entrezを使ってダウンロードしたUIリストに関するレコードを取得してください。

課題.2

■ Step.2-1 PubMed, PMC, TaxonomyおよびPopSet

mammoth(マンモス)以外に、一体どのくらいの絶滅した生物種についてのデータがEntrezデータベースを使って取得できるのでしょうか? TaxonomyのPreview/Indexページへと移動して、属性フィールドから絶滅種を選択してみてください。さらにPubMed Central(PMC)へのリンクがついているtaxonomyレコードだけに検索範囲を絞ることも可能です。その場合の検索キーワードは結局"extinct[Properties] AND "taxonomy pmc"[Filter] となります。

Emeus crassusのエントリを選択してください。その配列がEntrezデータベースに登録されている eastern moas specimens の起源は何でしょうか?この生物種の系統は一体なんでしょう? PMCデータベースへのリンクをたどり、giant moasに関する文献にアクセスしてください。もし興味があるならBakerらにより発表された論文の全文にアクセスして、その図や表を見てこの絶滅した鳥の概観を確かめてください。

Taxonomyに戻ってPopSetデータベースへのリンクをたどってください。Lambert DMによって登録されたレコードでは、複数の古い生物種が比較されています。どの遺伝子が配列比較に用いられていますか?PopSetレコードから核酸データベースへとリンクをたどってください。

■ Step.2-2 OMIM, UniGeneおよびHomologene

Perform an unlimited search for records relating to cholesterol transport in the OMIM database. Repeat the query for cholesterol transport as a term. Which search is more restrictive? Limit the retrieved entries only to those with gene location on chromosome 22. How many APOL genes are clustered on chromosome 22? From the APOL1 (OMIM record 603743) link to the UniGene database. Examine the expression profile of the APOL1 gene focusing on the developmental stage.

Perform a search for those UniGene records with the expression restricted to adult 17 years older. Combine the result of the search with the records that you have obtained through the OMIM link. Which members of the APOL gene family have expression restricted to adults? Is the evidence strong for all of them?

Search the HomoloGene database for records relating to APO genes (use truncation and Preview/IndexGene Name). How many records have you retrieved? Are all apolipoprotein genes equally conserved in evolution? What are their common ancestors? Which of these genes are conserved in placental mammals (Eutheria, Taxonomy ID 9347)? Display the taxonomy tree for organisms included in the record containing human APOL6 homolog.

■ Step.2-3 dbSNP

Access the SNP database and select its Limits page. Check the appropriate boxes to allow selection for SNPs at the splice site of human chromosome 22. Retrieve and download the UI List for these records. Use the saved file to retrieve the records with the UI List in Batch Entrez.

解答・解説

Page 3: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

■ 解答1-1

Entrezを用いたキーワード検索

NCBIのトップページ右側にあるメニューからEntrez Home(図中赤四角)を選択することで、

Entrezのトップ画面に移動します。

Page 4: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

続いて、上部のテキストボックスに"mammoth"と入力し、その右横の"GO"ボタンを押すことで mammothをキーワードにした検索を実行します。

すると下図のように複数の検索結果が得られます。

Page 5: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

このページでは各個別のデータベースにmammothをキーワードにして検索した場合のヒットした件数が示されています。例えばProteinでは569件、PubMedでは276件のヒットがあったことがわかります。

PubMedを用いたキーワード検索の概要

赤四角で囲まれたPubMedへのリンクをクリックして文献情報を取得してください。

Page 6: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

このページでは、mammothというキーワードで検索した結果の概要が示されています。中でも18,19番目のヒットに示したように"Free article in PMC"と記載されている文献は、PubMed Central(PMC)を通して全文を無料で手に入れることができます。

Page 7: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

順番に見ていくと、64番目にCooperによる文献"The year of the mammoth"が見つかります。

Page 8: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

これをクリックすると、まずこの文献に関する概要が示され、

Page 9: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

さらに右上にあるfull text in PubMed Centralのロゴをクリックすると全文を入手することができます。

Page 10: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

この文献で引用されている文献を調べるためには文献概要のページの Displayメニューから"Cited Articles"を選択します。

するとまず、引用されている文献の概略が表示されます。

Page 11: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

これらの文献のアブストラクトを表示させるにはDisplayメニューから"Abstract"を選択します。

Page 12: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

すると引用されている文献のアブストラクトが表示されます。

Page 13: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

また、PubMed Centralを通して無料で全文を手に入れることが可能な文献は8件あることも確認できます。Free in PubMed Centralをクリックすると全文にアクセスできます。

PopSetの概要

ブラウザのBackボタンを使ってEntrezによる検索結果まで戻ってください。その中からPopSetへのリンクをクリックしてください。

Page 14: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

PopSetは、集団遺伝学解析、系統解析、あるいは変異解析といった目的で解析される配列群がアライメントされた形で登録されているデータベースで、核酸、アミノ酸配列の双方がプロジェクトという単位で登録されています。

Page 15: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

その中でGreenWoodが登録したPopSet ID 1490839へアクセスしてください。

Page 16: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

このデータでは約110塩基長のデータが170本アライメントされていることが確認できます。アライメント表示は右上の"Viewing Options"をクリックしてメニューを表示させることで様々な形に変えることができます。

続いて、アクセッション番号をクリックして核酸データベースにアクセスしてみてください。

例として一番上のAF312038にアクセスした例です。

Page 17: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

このエントリに記載されている概要を読むことで、これらの配列はゲノムに含まれる ERV様繰り返し配列に含まれる遺伝子Gag-Pol-Envの中のPolに該当することがわかります。

PopSetからのTaxonomy Treeの利用

PopSetのデータに戻り、右上のLinksからTaxonomy Treeを選択してください。

すると、このPopSetに含まれる生物種がツリー状に表示されます。

Page 18: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

このツリーからこのデータセットには、アジアゾウ、アフリカゾウ、マンモス、ケープハイラックス、アフリカマナティーのデータが含まれていることがわかります。

Taxonomy treeからMammuthus primigenius(マンモス)を選択してください。(上図の赤く囲まれた部分をクリック)

Page 19: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

配列の由来となっているマンモスの標本を知るために、この画面の下部 "Show organism modifiers"をクリックして下さい。

Page 20: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

標本が採取された地点が列挙されていることが確認できます。

マンモスの生物系統に関する情報は、画面上部Lineageと書かれた場所に示されています。

このデータは Cellular organismの下階層のEukaryotaの下階層のFungi/Metazoa groupの下階層の...と読んでい

Page 21: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

きます。その中の適当などれかをクリックするとその下階層が展開された形で見ることができます。

例えばElephantidae(ゾウ科)をクリックすると下図のようにゾウ科の下が展開された形で表示されます。

cellular organismのすぐ下の階層がどのように分かれているかを知るために cellular organismをクリックして下さい。

Page 22: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

初期設定では、選択したところから3階層下までの多数が表示されており非常に見にくいため、画面上部でDisplayと書かれた横のlevelsを1に設定して1階層下までのみを表示させてみてください。

Page 23: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

Archaea, Bacteria, Eukaryotaの3つに分かれていることが確認できます。続いて、それぞれに登録されている"Structure"の数を知るために、"Strucure"の箇所のチェックボックスをオンにし、それからDisplayを押して再描画させてください。

Page 24: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

Eukaryotaが28,090件ともっとも多いことがわかります。

■ 解答1-2

OMIMの利用

NCBIトップページ上部にあるOMIMへのリンクをクリックして

Page 25: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

OMIMのトップページへと移動してください。

Page 26: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

まずは、画面上部のテキストボックスに、キーワードとして cytochrome c oxidaseとそのまま打って検索を実行してください。

121件のヒットが見られることがわかります。

Page 27: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

続いて、"cytochrome c oxidase"とダブルクォーテーションマークで囲ってから検索を実行してください。

Page 28: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

95件の結果となりました。このようにダブルクォーテーションマークで囲うと、その文字列の並びも加味した検索が実行されます。

OMIM検索結果の絞込み

次に染色体4,6,19番上の結果だけに絞り込むために、Limitsと書かれたタブをクリックして下さい。

すると、探索範囲のフィールドなど、絞り込み条件をつけられる画面が開きます。

その中から染色体4,6,19をクリックして選択してください。

Page 29: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

その後、GOをクリックして絞り込み検索を実施してみてください。

Page 30: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

13件に絞り込まれたことが確認できます。

COX7A1(OMIM:123995)は二番目に示されており、青四角で囲んだ情報から、染色体19番のq13.12にこの遺伝子が位置していることも確認できます。

このデータの詳細をクリックして調べてみてください。

Page 31: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

COX7A1に関する詳細な情報が表示されます。

赤で囲んだところから、少なくとも肝臓と筋肉組織で発現するアイソフォームが存在することが確認できます。(このOMIM:123995は筋肉組織、OMIM:123996が肝臓に存在するアイソフォーム)

次にDisplay横のプルダウンメニューから"Allelic Variants"を選んでください。

Page 32: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

この遺伝子に関連した既知の病気に関する対立変異、SNPsが登録されていないとこが確認できます。

UniGene情報の見方

元の画面に戻って、左側のリンクが並んだ箇所からUniGeneへと移ってください。(図中赤色で示したリンク)

Page 33: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

この遺伝子に関する様々な情報が書かれている事が確認できます。発現情報は図中赤色で囲まれた EST Profileから見ることができます。

Page 34: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

(訳注:2つの遺伝子の発現プロファイルを比較してくださいとは、おそらくOMIM:123995とそのアイソフォームである OMIM:123996の発現プロファイルを比べてくださいという意味だと考えられます。)OMIM:123995は図より濃い黒であらわされている筋肉組織でよく発現していることがわかります。同様にしてOMIM:123996に該当するUnigeneの発現プロファイルを見ると下図のように肝臓で発現していることがわかります。(但し、それよりも脳下垂体で一番発現している割合が高いことが確認できます。)

Page 35: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

UniGene情報の絞り込み方

Unigeneのトップページへ移動し、図上部のPreview/Indexをクリックしてください。

Page 36: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

100以上のESTが含まれるUniGeneのレコードを探すには、"EST count"フィールドを選択し、横のテキストボックスに" >= 100"と入れて Previewボタンを押してください。

3709件のレコードが含まれることが検索結果として表示されています。この結果をクリックすると3709件の概要が表示されます。

Page 37: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

続いてこれらのレコードのうち動物由来のエントリを調べてみましょう。上部のTAB内にMammalsと書かれているところ(赤四角で囲まれた箇所)を見ると809となっており、 809件が動物由来であることがわかります。

また、"sort by"のプルダウンメニューから"Organism"を選ぶことで、生物種のアルファベット順にデータがソートされます。

HomoloGene情報の見方

左メニューのRelated DatabaseからHomoloGeneを選ぶことで

Page 38: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

HomoloGeneのトップページに移動してください。

Homologeneは真核生物種の遺伝子間におけるホモログ関係を計算機により自動的に抽出し、その結果をまとめたデータベースです。ここでは、Preview/Indexを選び(図中赤四角)、

Page 39: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

続いて探索フィールドからgene nameを選び"cox*"をキーワードに入力して、COX遺伝子に関連したレコードを見ることにします。

41件のレコードにヒットしたことがわかります。結果をクリックしてその概要を見てください。

その中を見ていくとCOX7A1はID:48051, COX7A2はID:36082と別のグループに属していることが確認できます。

Page 40: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

また、これらを見るとID:5017のCOX2遺伝子は菌類や後生動物に共通なのに対しCOX4NBは有袋類のみに共通で、COX1, COX11, COX6B1, COX15 などは真核生物に共通な遺伝子であることが確認できます。

HomoloGene情報の絞込み

真核生物全体に共通な遺伝子がどれかを調べるために、"Ancestor"による絞込み検索を行います。

まず、検索画面に表示されている"cox*"で検索した結果の検索番号をクリックしメニューを表示させ、 ANDを選択し、and検索の準備をします。

次に、プルダウンメニューから"Ancestor"を選択し、真核生物("Eukaryota")のIDである2759(これをTaxonomy IDと呼びます。後述)を"txid2759"のように入力して検索を実施します。

Page 41: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

7件のヒットがあったことが確認できます。結果をクリックしてもう少し詳細を見てみましょう。

COX1, COX2, COX3, COX6B1, COX10, COX11, COX15が真核生物に共通な遺伝子であることが確認できます。

Taxonomy情報の見方

続いて、COX1遺伝子が含まれるHomoloGeneのグループが系統樹で見てどのように広がっているのかを確認しましょう。まず、COX1遺伝子の右に示されたLinksからTaxonomyを選択してください。このメニューはLinksをクリックすることで表示されます。

Page 42: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

するとまず、COX1遺伝子を持つ生物種の一覧が表示されます。

次に、Display横のプルダウンメニューから"Common Tree"を選択します。

Page 43: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

すると下図に示したように系統関係が図示化されて表示されます。一番の"根"に"Eukaryota"が表示され、HomoloGeneに含まれていた生物種が太字で表示されており、その関係を見て取ることができます。

Page 44: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

このようにTaxonomyは、生物種間の系統関係を収めたデータベースになっています。エントリ間の関連性を系統樹で見たりあるいは下位の階層へとたどっていくことで目的の生物種のデータにたどり着いたりすることができます。

例えば、ヒト("Homo Sapiens")に関するエントリは以下のようになっています。(Homo Sapiensをクリック)

Page 45: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

Taxonomy IDと呼ばれる生物種に固有のIDは9606で、Homo Sapiensに関する核酸、アミノ酸配列、構造、SNPなどあらゆるデータの数とそれらデータへのリンクが右側に示されています。Taxonomyを用いることである生物種に関連した配列などをまとめて取得することが可能になります。

また、哺乳類、脊椎動物といった複数生物種の"根"に対してもエントリが存在し、その下位階層に含まれる全エントリを足し合わせた情報が表示されます。上で示した"Eukaryota"に対応するエントリを探すには以下のような手順をとります。

まずTaxonomyデータベースのトップページへ移動します。NCBIの様々なページで示されているTaxonomyあるいはTaxBrowserとかかれたリンクをクリックします。

Page 46: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

続いて上部の検索窓に"Eukaryota"と入力して検索を実行します。

すると、"Eukaryota"が一番上に示されその下位3階層が系統樹の形で表示されます。

Page 47: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

さらに"Eukaryota"をクリックすることで、Eukaryotaについて書かれた詳細なページが表示されます。

Page 48: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

これを見ることで"Eukaryota"のTaxonomy IDが2759であることなどの情報が得られます。

■ 解答1-3

dbSNPs情報の検索

NCBIトップページからEntrez Home→SNPと進んで、SNPに対する検索のページへ移動してください。

Page 49: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、
Page 50: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

さらにLimitsをクリックして条件による絞込みのページへと移動してください。

Page 51: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

その中から赤で示した箇所をクリックしてからGOボタンを押すことで、ヒト22番染色体上のコード領域に存在する非同義置換の中で OMIM情報へのリンクのあるSNPを探索してください。

Page 52: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

17エントリがヒットしたことが確認できます。

Display横のプルダウンメニューより、"UI list"を選択し、

Page 53: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

"send to"から"File"を選択すると

ファイルの保存先などを聞いてきますので、それに適切に答えることで、 17件のUI listをユーザのコンピュータ上に保存することが可能になります。

Batch Entrezを用いたデータのダウンロード方法

最後に保存したUI Listを用いてBatch Entrez経由でデータをダウンロードする方法を学びます。Batch Entrezは主に大量のデータを取得する際に、一つ一つエントリをWWW経由で入力し取得する手間を省き、まとめてダウンロードするために用意されているサービスです。

Batch Entrezのページへ移動します。Batch Entrezのページへの移動には、まずNCBIトップページから右側メニューにあるEntrez Toolsをクリックし、

Page 54: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

さらにその中のBatch Entrezへのリンクをクリックすることで移動できます。

Page 55: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

画面に示されたようにBatch Entrezではどのデータベースに対して、ユーザのどのファイルを利用してデータを取得するのかを指定する必要があります。今回は、まずデータベースでSNPを選択し、

Page 56: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

続いてファイルのアップロード機能を利用して先ほど保存したファイルを指定し、

横のRetrieveボタンをクリックすることで、データを取得します。今回の例では17件のSNP情報が表示されていることが確認できます

Page 57: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

では、先ほど保存したUI Listをテキストエディタで開いてみましょう

UI番号が一行ずつ17件記載されていることがわかります。このように番号がわかっている場合(論文に記載されている場合など) では、ユーザがテキストエディタでこのファイルを用意することで全エントリを取得することも可能になります。

解答・解説2

■ 解答2-1

Taxonomy情報の検索

Taxonomyのトップページへ移動してください。NCBIトップページの右側メニュー"Entrez Home"をクリックして

Page 58: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

次の画面から"Taxonomy"を選択して移動してください。

Page 59: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、
Page 60: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

さらにPreview/Indexをクリックして、絶滅種の探索をしてみましょう。

Page 61: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

そのためには、"Fields"から"Properties"を選択し、extinct(絶滅した)と入力、Previewボタンを押してみてください。

Page 62: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

112件のヒットがあることがわかります。さらにPubMedCentralにリンクがあるエントリだけに絞り込んでみましょう。

まず、先ほどの検索番号をクリックし、AND検索の実施を指定します。

続いて、"Fields"から"Filter"を選んで、taxonomy pmcと入力し、Previewボタンを押してみてください。

"extinct[Properties] AND taxonomy pmc[Filter]"という検索式で検索が実行され、結果79件のヒットがあったことがわかります。

Page 63: EntrezクイックスタートEntrezクイックスタート NCBI Entrezは、30以上もの生物学的な目的で作成されたデータベースに対する統合的なテキストベースの検索、

原文更新日: 2006年4月13日 日本語版更新日: 2007年2月5日

All Rights Reserved, Copyright(C) 1997‐2006 Japan Science and Technology Agency(JST)  

■ 解答2-2

■ 解答2-3