한남대학교 생명시스템과학과 생물정보학 제 6강

Post on 28-Jun-2015

661 Views

Category:

Science

14 Downloads

Preview:

Click to see full reader

DESCRIPTION

한남대학교 생명시스템과학과 생물정보학 제 6강

TRANSCRIPT

생물정보학Bioinformatics

2014 2 학기생명시스템과학과

한남대학교

6 강 2014.10.7

강의 계획서주 수업내용1 주 생물정보학의 개요 및 기본이론2 주차 추석 ( 휴강 )

3 주차 서열 분석의 원리 I

4 주차 서열 분석의 원리 II

5 주차 단백질의 구조및 기능 예측6 주차 지놈 시퀀싱 및 시퀀스 어셈블리7 주차 중간고사8 주차 차세대시퀀싱 (Next Generation Sequencing)

9 주차 유전체 발현분석10주차

개인유전체학 I

11주차

개인유전체학 II

12주차

메타지놈

13주차

최신 연구동향

14주차

기말고사

각종 생물의 지놈 사이즈Triticum sp

(wheat) 17,000Mb

Homo sapiens 3,200Mb

Mus musculus 2,700Mb Danio rerio 1,700Mb

Oryza sativa 430Mb Arabidopsisthaliana

157Mb Drosophilamelanogaster

122Mb

Caenorhabditis elegans 97Mb

Saccharomycescerevisiae

12Mb

Streptomycessp. 9Mb

Escherichia coli

4.6MbHaemophillusinfluenza

1.8Mb

BacteriophageLambda

0.048Mb HIV 0.009Mb

Protopterus aethiopicus 133,000Mb

대체로 진핵생물 , 다세포생물 , 생물의 복잡도에 따라서 지놈 사이즈가 커진다역시 사람은 만물의 영장 ? 그러나 언제나 그렇지만은 않다 .

유전자 갯수는 ?

Homo sapiens

Oryza sativa

Drosophilamelanogaster

Caenorhabditis elegans

Saccharomycescerevisiae

Escherichia coli

BacteriophageLambda

지놈 크기 (Mb)

유전자 갯수

3200 20,687

430 26,837

157 15,682

97 20,470

12 6,275

4.6 4,288

0.048 73

지놈 사이즈의 엄청난 차이에 비해 실제 유전자 갯수의 차이는 미미

유전자의 밀도

진핵생물의 경우 실제 단백질을 암호화하고 있는 영역은 극히 일부에 불과

진핵생물의 대개의 영역은 인트론 , 트랜스포존 등이 차지하고 있음

복사본 ?

- 대개의 고등생물은 2 카피 이상의 동일한 염색체 (= 상동염색체 ) 를 가지고 있음

* Diploid ( 엄마 1 x 아빠 1)

- 식물의 경우에는 다배체 (Polyploidy) 의 유전체를 가지고 있는 경우가 많음

- 박테리아 , 일부 곰팡이류 : haploid

시퀀싱할 수 있는 길이와 지놈 사이즈와의 차이

Sanger Sequencing : 1kb

한번에 시퀀싱할 수 있는 DNA 의 길이는 지놈의 길이에 비해서 매우 짧다 .어떻게 매우 짦은 시퀀스를 가지고 큰 지놈의 시퀀스를 결정할 것인가 ?

Next Generation Sequencing : ~300bp

샷건 시퀀싱 Shotgun Sequencing

Shotgun

Long Genomic DNA

Random Shearing

Sequence Assembly

Generation of Consensus Sequences

Sequence Assembly

DNA Sequencer 에서 유래된 짧은 시퀀스의 공통서열을 찾아서 서로 서열정렬을 수행

ACGCGATTCAGGTTACCACGCGTAGCGCATTACACAGATTAG

ACGCGATTCAGGTTACCACG

GCGATTCAGGTTACCACGCGTAG

TTCAGGTTACCACGCGTAGCGCATT

TAGCGCATTACACAGATTAG

TTACCACGCGTAGCGCATTACACA

CGCGTAGCGCATTACACAGAT

Consensus Sequences (Contig)

Contig : a sets of overlapping DNA segments representing a consensus region of DNA

Overlap-Layout-Consensus (OLC)

Sequence Assembly Algorithm

1. 모든 시퀀스 데이터(Reads) 를 1:1 비교하여 겹치는 것이 있는것을 찾는다

2. 겹치는 시퀀스를 정리하여 순서를 정함

3. Alignment 를 만들고 consensus 시퀀스를 결정

Scaffolding

시퀀스 어셈블리를 통해 생성된 Contig

어떻게 Contig 간의 순서를 찾는가 ?

Contig 1 Contig 2 Contig 3

?

?

?

Mate Pair (Paired End) Sequencing

샷건 시퀀싱 과정으로 다시 돌아가면…

Genomic DNARandom ShearingSize fractionation

Make Library with Size fractionated Sample(i.e. 1kb)Sequencing in Both DirectionsSequence data In both Direction

1-F 1-R 2-F 2-R

3-F 3-R 4-F 4-R

Sequence Assembly

Contig 1 Contig 2 Contig 3

1F 1R

Contig1-Contig2 is Linked with Gap

2F

2R

Contig 3 (Reverse)

Contig2-Contig3 (Rev)Is linked with Gap

Scaffold and Gaps

Contig 1 Contig 2 Contig 3

Scaffold (Supercontig) : Contig 간의 관계가 Mate-pair (or Paired End) 정보등을 통해서파악된 contig 간의 모임

Sequencing gap : Scaffold 내의 Contig 내부에 존재하는 , 길이와 위치를 알고 있는 시퀀스미결정 영역

ATAAAGGAGAGTAGAGAGGAGNNNNNN……..NNNNNNNNATAAAGGAGAGTAGAGAGGAG

Contig 1 Gap Contig 2

Physical Gap : Scaffold 간의 Gap ( 갭의 길이와 위치를 알 수 없다 )

Gaps

Gap 은 왜 생기는가 ?

1. 시퀀싱양의 부족 Genome

• Shotgun Sequencing 은 Random 인 관계로 전체 지놈보다 훨씬 더 많은 양의 DNA 를 시퀀싱하지 않는 한 Cover 되지 않는 영역은 발생한다 .

• 시퀀싱을 점점 더 많이 할 수록 이러한 영역은 줄어든다 . 그러나 ..

• 얼마나 많은 양의 시퀀싱을 해야 하는가 ?

Contig coverage

Coverage : Contig 위치에 몇번 중복으로 시퀀싱을 했나 ?

Lander-Waterman StatisticsG : 시퀀싱하려는 지놈의 길이N : 우리가 시퀀싱한 낱개 시퀀스의 갯수 L : 각각의 시퀀스의 길이 c = nL/G : 커버리지 ( 지놈의 길이에 비해서 몇 배 시퀀스를 더했는가 ?) T: 검출가능한 최소의 시퀀스간 overlapσ = (L-t)/L

Contig 의 갯수 = Ne-cσ Contig 의 길이 = L((ecσ – 1) / c + 1 – σ)

Example

c N #islands #contigs bases not in any read

bases not in contigs

1 1,667 655 614 698 367,806

3 5,000 304 250 121 49,787

5 8,334 78 57 20 6,735

8 13,334 7 5 1 335

Genome size: 1 Mbp Read Length: 600 Detectable overlap: 40

http://www.cbcb.umd.edu/confcour/CMSC828H-materials/Lecture3-Assembly-Intro.ppt

19

Experimental data

X coverage

# ctgs % > 2X avg ctg size (L-W)max ctg

size# ORFs

1 284 54 1,234 (1,138) 3,337 526

3 597 67 1,794 (4,429) 9,589 1,092

5 548 79 2,495 (21,791) 17,977 1,398

8 495 85 3,294 (302,545) 64,307 1,762

complete 1 100 1.26 M 1.26 M 1,329

http://www.cbcb.umd.edu/confcour/CMSC828H-materials/Lecture3-Assembly-Intro.ppt

- 시퀀싱의 양을 늘릴수록 지놈에서 커버하는 영역은 커지고 Contig 의 갯수 (Gap 의 갯수 ) 는 줄어듬

- 그러나 그 개선 효과는 시퀀싱양을 늘리면 늘릴수록 적어진다 .

- 최적의 시퀀싱양과 퀄리티간의 타협이 필요 .

- 실제 상황에서는 ?

요약하면 ..

Gap 이 생기는 이유 (2)

Repeat

생물의 지놈 , 특히 고등생물의 지놈에는 반복서열 (Repeated DNA) 가 많이 존재Human Genome : 약 50% 가 Repeated DNA 로 추산됨 .

Repeat 와 Gap

Repeat CollapseGap Gap

Repeat 에 의한 Misassembly

근본적으로는 Repeat 의 길이보다 단일 Reads 의 길이가 길어야 함 .

Original

Misassembly

Repeat 에 의한 Misassembly, Gap 형성을 막기 위해서는 ..

Gap 이 생기는 이유 (3)

특정 영역의 DNA 는 시퀀싱 자체가 힘들다

- G/C Rich Regions

- Secondary / hairpin Structure..

- Repeated regions (AG, CA, CT, GT, AGG, ACC, CCG, CCT, CTT, GCC, GGA, CCCTTT)

따라서 시퀀싱을 아무리 많이 한다고 해서 Gap 이 없이 완벽한 시퀀스가 나오도록 어셈블리하는 것은 불가능하다 .

Draft Assembly 지놈 초안

샷건 시퀀싱

어셈블러 Assembler

Contig 1 Contig 2 Contig 3

Contig 4 Contig 5 Contig 6Scaffold

#2

Scaffold#1

Contig 7 Contig 8 Contig 9Scaffold

#3

Contig and Scaffold

Genome Assembly 의 데이터를 나타내는 파라메터

http://www.ncbi.nlm.nih.gov/assembly/GCF_000001405.26/

전체 시퀀스 길이 = Contig 길이의 합Scaffold 사이의 갭 = Physical GapScaffold 의 갯수

?

Contig 의 갯수

N50 Contig (Scaffold) Length1. Contig 을 길이순으로 정렬

120kb

150kb

100kb

80kb

40kb

20kb

19kb

5kb

….

Total 600kb

2. 전체 Contig 총합의 절반 ( 예에서는 300kb) 가 되는Contig 의 사이즈

120kb

150kb

100kb

80kb

40kb

20kb

19kb

5kb

….

Total 600kb

370kb

N50 contig 의 size 는 = 100kb

N50 Contig (Scaffold) 의 Size 가 클수록 = assembly 의 퀄리티가 좋음

De Novo assembly

Shotgun Phase

Gap Closing

Scaffolding

Finishing

Draft sequence

Finished Sequence

여태까지 지놈 시퀀스가 알려져 있지 않은 생물의 지놈 시퀀스를 결정하기 위함

Finishing

- Draft Assembly 를 거쳐서 산출된 Scaffold 혹은 Contig 는 완벽하지 않음

- 다수의 Gap, 혹은 misassembly 를 포함하고 있음 .

- 수작업으로 이들을 교정해야 함 .

PCR

Sequencing of Gap

- Gap Closing (Gap Filling)

- 프로젝트의 중요도에 따라서 수행되지 않는 경우도 많음 .

지놈간의 퀄리티 비교Human MousePig Dog

Horse

ALL assemblies are not created equal

- 사람 , 마우스 , 초파리 , 애기장대 (Arabidopsis) 등의 연구가 많이 된 모델생물의 경우 피니싱이완료된 고퀄의 지놈

- 반면 가축 , 작물등과 같이 비교적 연구가 덜 된 생물의 경우에는 드래프트 지놈일 가능성이높음 .

- 따라서 이런 생물의 경우에는 등록된 지놈 시퀀스 자체가 불완전할 가능성이 높음 .

- 자신이 찾는 유전자가 완전한 형태로 등록되지 않았다고 하더라도 , 완벽히 신뢰할 수 없음 .

- 지놈 시퀀싱이 완료되었다면 그 다음은 ? - Sequence Annotation

Sequence Annotation

설명이 없는 위성사진 / 지도는 그닥 쓸모가 없지만지도에 설명이 추가되면 유용하듯이

이러한 단순한 시퀀스로만으로 유용하지 않지만

Gene PredictionsDNA 시퀀스 중에서 단백질을 코딩하는 영역은 어디에 있는가 ?

원핵생물 (Bacteria)

- 유전자의 밀도가 높음- Intron 은 거의 존재하지 않는다- 상대적으로 예측이 쉬움

진핵생물 (Animal, Plant, Fungi..)

- 유전자의 밀도가 낮음 - 대부분은 Intron - 난이도가 더 높다

원핵생물 (Bacteria) 에서의 유전자 예측aatgcatgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatcctgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcgg

aatgcatgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatcctgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcgg

유전암호

시작코돈 : ATG

스톱코돈 : TAA TGA TAG

간단한가 ?

aatgcatgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatcctgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcgg

어떤 ‘ ATG’ 가 시작코돈일까 ?

aatgcatgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatcctgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcgg

DNA 는 ‘양면’ 이 다 사용된다 .

CCGCATGAGCTTAGCATAGCCGCATGCATTAGCATAGCCGCAGCTTAGCATAGTCATCGGATCCCAGCTTGCATAGCCGCATGCATTAGCATAGCCGCATGCATTGTCATCGGATCCCAGCTTAGCATAGCCGCATGCATTCCCAGCTTAGCATAGCCGCATGCATTAGCATATTCCAAGGTAAATCCCAAGACCATTCATTAGCATAGCCGCATGCATTGTCATCGGATCCCAGCTTAGCATTCCAAGGTAAATCCCAAGACCATTCATTAGCATAGCCGAGCTTAGCATAGCCGCATGCATTAGCATAGCCGCAGCTTAGCATAGTCATCGGATCCCAGCTTGCATAGCCGCATGCATTAGCATAGCCGCATGCATTGTCATCGGATCCCAGCTTAGCATAGCCGCATGCATTCCCAGCTTAGCATAGCCGCATGAGCTTAGCATAGCCGCATGCATTAGCATAGCCGCAGCTTAGCATAGTCATCGGATCCCAGCTTGCATAGCCGCATGCATTAGCATAGCCGCATGCATTGTCATCGGATCCCAGCTTAGCATAGCCGCATGCATTCCCAGCTTAGCATAGCCGCATGCATTAGCATATTCCAAGGTAAATCCCAAGACCATTCATTAGCATAGCCGCATGCATTGTCATCGGATCCCAGCTTAGCATTCCAAGGTAAATCCCAAGACCATTCATTAGCATAGCCGCAGGATCCCAGCTTGCATAGCCGCATGCATTAGCATAGCCGCATGCATTGTCATCGGATCCCAGCTTAGCATAGCCGCATGCATTAGCATAGCCGCAGCTTAGCATAGTCATCGGATCCCAGCTTGCATAGCCGCATGCATTAGCATAGCCGCATGCATTGTCATCGGATCCCAGCTTAGCATAGCCGCATGCATTAGCATATTCCAAGGTAAATCCCAAGACCATTCATTAGCATAGCCGCATGCATTGTCATCGGATCCCAGCTTAGCATTCCAAGGTAAATCCCAAGACCATTCATTAGCATAGCCGCATGCATTGTCATCGGATCCCAGCTTAGCATAGTCATCGGATCCCAGCTTGCATAGCCGCATGCATTAGCATAGCCGCATGCATTGTCATCGGATCCCAGCTTAGCATAGCCGCATGCATTAGCATAGCCGCATGCATT

ctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcgg

6 가지 가능성 어디서부터 개시코돈인가 ?+

ORF (Open Reading Frame)

Genomic Sequence

Open reading frame

ATG TGA

• 6 가지 Reading Frame 에서 가능한 모든 ORF 를 추적한 다음 ,

• 가능한 ORF 중에서 어떤 ORF 가 “가장 유전자스러운” 것인지를 선별한다 .

- ORF 의 길이 : 60-100aa 이상 . - Codon Usages : 사용된 Codon 이 해당 생물에서 널리 사용되는 것인가 ?- ATG앞에는 Ribosomal Binding Site (RBS) 가 존재하는가 ?- Promoter 의 존재- Transcription Terminator 의 존재

Codon Usages : 모든 코돈이 평등하게 사용되지 않는다

Human Codon Usage

가장 유사한 종을 선택

진핵생물의 유전자 예측

exon1 exon2 exon3intron1 intron2

transcription

translation

splicing

• 인트론과 엑손의 존재• 일단 인트론과 엑손부터 예측해야함

bix.ucsd.edu/bioalgorithms/presentations/Ch06_GenePred_stat.ppt

인트론은 대개 GT 로 시작되어 AG 로 끝남

5’ 3’Donor site

Position

%

bix.ucsd.edu/bioalgorithms/presentations/Ch06_GenePred_stat.ppt

GENESCAN

exon1 exon2 exon3intron1 intron2

transcriptionPre-mRNA

splicingmRNA AAAAAAAAAAGppp

mRNA 를 시퀀싱하여 Exon 을 파악하는 것이 차라리 더 정확 !

Transcriptiome Sequencing

mRNA/Protein 정보를 알고 있는 상황에서 Exon-Intron 구조를 알려면 ?

BLAST? 이 용도에 더 적합한 Tool 이 있음https://genome.ucsc.edu/cgi-bin/hgBlat?command=start

BLAT on DNA is designed to quickly find sequences of 95% and greater similarity of length 25 bases or more.

25bp 이상 되는 95% 이상 같은 서열을 BLAST 보다 훨씬 더 빨리 찾을 수 있는 서열검색

>sp|Q9D0A3|ARPIN_MOUSE Arpin OS=Mus musculus GN=Arpin PE=1 SV=1MSRIYQDSALRNKAVQSARLPGTWDPATHQGGNGILLEGELVDVSRHSILDAHGRKERYYVLYIQPSCIHRRKFDPKGNEIEPNFSATRKVNTGFLMSSYKVEAKGDTDRLTLEALKSLVNKPQLLELTESLTPDQAVAFWMPESEMEVMELELGTGVRLKTRGDGPFIDSLAKLELGTVTKCNFAGDGKTGASWTDNIMAQKSSERNTAEIREQGDGAEDEEWDD

>gi|146141195|ref|NM_027420.4| Mus musculus RIKEN cDNA 2610034B18 gene (2610034B18Rik), mRNAAGGGCCTCGGCGTGGGGAAAATGAGCCGCATCTACCAGGATAGCGCCCTCCGCAACAAGGCCGTGCAGAGCGCGCGCCTGCCGGGAACCTGGGACCCTGCCACCCACCAAGGGGGAAATGGCATCTTGCTGGAGGGGGAGCTCGTGGATGTATCTCGGCACAGCATCTTGGATGCCCATGGCAGGAAGGAGCGCTACTATGTGCTGTATATCCAGCCCAGCTGTATCCACAGGCGTAAGTTTGACCCCAAGGGAAATGAAATTGAGCCCAACTTCAGTGCCACCAGGAAGGTGAACACAGGCTTCCTCATGTCATCTTACAAGGTGGAGGCCAAGGGCGACACAGACCGGCTCACCCTGGAGGCGCTGAAGAGCCTGGTAAACAAGCCCCAGCTGCTGGAATTGACAGAGAGCCTCACCCCAGACCAGGCGGTGGCATTCTGGATGCCTGAGTCAGAGATGGAGGTCATGGAACTCGAACTGGGGACTGGAGTGCGATTAAAAACTCGGGGTGATGGTCCCTTCATAGATTCCTTAGCCAAACTGGAGCTGGGGACAGTGACCAAGTGTAATTTTGCTGGTGATGGAAAGACGGGAGCTTCCTGGACAGACAATATCATGGCCCAGAAGTCTTCAGAGAGGAACACAGCAGAGATCCGAGAGCAAGGAGACGGGGCAGAGGACGAGGAATGGGATGACTGAGGTGCCTCCTCAACTAGACCAGCATCTGGGATGGTGTCGCTGAGAAGTGGCCACACCAACTTCTGCCTTGGAGAGATCAGGCTGTCAAGCAGAATATCATTGAACACCCTCTGATGAAATCAAACCCAAGACCTCAGTACTCACCAAGGGTCTCCAGGCTATGGCTTTTGTATGTCTGTGGCCCTCATTGGATGCAAGGCTAGCTTTCCTAGATCTATCTCCAGTATTCCTTTCCCTAGGTAGCAGGCATGGACTAGATGAGTCCTCCAAGGTACACAATTGACAAAGGCTCCTTGTCTGAGTCCAGAGGGACTCAGGGGGTAAGAGCGCCGGCTCTTTCCAATCCTGCAGTTTTCTCCTTTTTTTGCTTTCTACCCTGTGCCAGCTTCTTTTTGTGCCTCTGTTCTCCTGTCCCAGTCTTCCTCTGTCTGTTCTTCCCTGTCCCACACCCAAGATACCACTTCATTATTTCTATTCAGCTCTGTGCCTCTGTGGGCTTTCCTGCCTTAGATCTCTGTCTTAGGGCTCTTACTGCTCCAATGAAACCCGACGACCCAAAGCAACTTGGGGAGGGAAGGGTTTATTTCACTCACAGATCCGTAGAACAGTTCATCACCAGTAAAGCAGTGAGAGCAGGAGCTCAAGCAGGGCAGGAACCTGGAGGCAGGAGCAGAGAGCGTGGTGTGCTGCAAACTGGCTCGCTCTGTTTGCTTTCTTCTAGAACCCAGGACCACCAGCCCAGTAATGGCATTACCTAGAATGGGCTGGGCCGGGGTACTCTAGCTTCTGTCAGGTTGACATAAAGCTAGTTATCACACACCTATCTGGCTGCTGTCCTAAAGATGCCATTTTTGGGAAGGCCTTCAGCCTTCCCAGCTGTGTCTAGCCGGTCCACAAGTCTTGACTCATTCCACTGGGCCAACTTTTTATATTTTTAAAATATTTTCTTTTTAATAAATAGTGCTGGTACTTAAACCTAGTGCTCCATGCTTGCTAGGTGAGTGATCCACCACTGTCTACACCAACAAGTCCCAGACCGTATTTTTTGGTATGACTCTTTTTGTTGTTTTGTACTTGGAGAACTTCTTAGGAGTGAGTACTCTTCGGGAAAGAATTCCTCCACACGACTGGGTTCTTGTCTCGTGTTTATGGTCTTCTAGCTGAGTCACAATCCTAGACGAGAACCCCAGTCTTAGTGTGCCCCTGCTCAGCCCTGTGACAAGATCTGGAACGGAAGTCTACACGTCTTGAGTGTGACCATGGCAGGTGTACGCATCCTGCCTGATCCTGGGAAAAAGGGTGAGGGAGGACAGGGATTACTGATCCGACTTCATGGTTCAAACTCAATGACAGATGCTTTCTGTCACCAGTACTGACAATACTGAGTTCTTCCTGATGCTAGTGCTTAAGTTAAGTACTTGGAGTAGTCTGTCACAACAACCCTATGATGTACATAGGATAAATATCCCCATTTTTGATACAT

Exon

Intron

단백질 서열로 지놈 내의 DNA 서열을 직접 검색

DEMO

GeneScanBLAT

Genome Browser

웹 브라우저가 인터넷을 브라우징하는데 필요하듯이

지놈 시퀀스의 내용을 브라우징하는데는 지놈 브라우저가 필요하다https://genome.ucsc.edu/cgi-bin/hgGateway

Genome Browser 에서 볼 수 있는 것

Sequence

Exon-Intron Structure (Gene Model)

Gene Organization ( 관심 유전자 옆에는 어떤 유전자가 있나 ?)

Isoforms

Genome Browser 에서 볼 수 있는 것 (2)

SNP (Single Nucleotide Polymorphism)

Evolutionary Conservation

Many More..

https://genome.ucsc.edu/cgi-bin/hgGateway?hgsid=391202295_JGaFYJcfhzhda8tpxiu05mQAqVqK

UCSC Genome Browser

Demo

top related