Download - 한남대학교 생명시스템과학과 생물정보학 제 6강
생물정보학Bioinformatics
2014 2 학기생명시스템과학과
한남대학교
6 강 2014.10.7
강의 계획서주 수업내용1 주 생물정보학의 개요 및 기본이론2 주차 추석 ( 휴강 )
3 주차 서열 분석의 원리 I
4 주차 서열 분석의 원리 II
5 주차 단백질의 구조및 기능 예측6 주차 지놈 시퀀싱 및 시퀀스 어셈블리7 주차 중간고사8 주차 차세대시퀀싱 (Next Generation Sequencing)
9 주차 유전체 발현분석10주차
개인유전체학 I
11주차
개인유전체학 II
12주차
메타지놈
13주차
최신 연구동향
14주차
기말고사
각종 생물의 지놈 사이즈Triticum sp
(wheat) 17,000Mb
Homo sapiens 3,200Mb
Mus musculus 2,700Mb Danio rerio 1,700Mb
Oryza sativa 430Mb Arabidopsisthaliana
157Mb Drosophilamelanogaster
122Mb
Caenorhabditis elegans 97Mb
Saccharomycescerevisiae
12Mb
Streptomycessp. 9Mb
Escherichia coli
4.6MbHaemophillusinfluenza
1.8Mb
BacteriophageLambda
0.048Mb HIV 0.009Mb
Protopterus aethiopicus 133,000Mb
대체로 진핵생물 , 다세포생물 , 생물의 복잡도에 따라서 지놈 사이즈가 커진다역시 사람은 만물의 영장 ? 그러나 언제나 그렇지만은 않다 .
유전자 갯수는 ?
Homo sapiens
Oryza sativa
Drosophilamelanogaster
Caenorhabditis elegans
Saccharomycescerevisiae
Escherichia coli
BacteriophageLambda
지놈 크기 (Mb)
유전자 갯수
3200 20,687
430 26,837
157 15,682
97 20,470
12 6,275
4.6 4,288
0.048 73
지놈 사이즈의 엄청난 차이에 비해 실제 유전자 갯수의 차이는 미미
유전자의 밀도
진핵생물의 경우 실제 단백질을 암호화하고 있는 영역은 극히 일부에 불과
진핵생물의 대개의 영역은 인트론 , 트랜스포존 등이 차지하고 있음
복사본 ?
- 대개의 고등생물은 2 카피 이상의 동일한 염색체 (= 상동염색체 ) 를 가지고 있음
* Diploid ( 엄마 1 x 아빠 1)
- 식물의 경우에는 다배체 (Polyploidy) 의 유전체를 가지고 있는 경우가 많음
- 박테리아 , 일부 곰팡이류 : haploid
시퀀싱할 수 있는 길이와 지놈 사이즈와의 차이
Sanger Sequencing : 1kb
한번에 시퀀싱할 수 있는 DNA 의 길이는 지놈의 길이에 비해서 매우 짧다 .어떻게 매우 짦은 시퀀스를 가지고 큰 지놈의 시퀀스를 결정할 것인가 ?
Next Generation Sequencing : ~300bp
샷건 시퀀싱 Shotgun Sequencing
Shotgun
Long Genomic DNA
Random Shearing
Sequence Assembly
Generation of Consensus Sequences
Sequence Assembly
DNA Sequencer 에서 유래된 짧은 시퀀스의 공통서열을 찾아서 서로 서열정렬을 수행
ACGCGATTCAGGTTACCACGCGTAGCGCATTACACAGATTAG
ACGCGATTCAGGTTACCACG
GCGATTCAGGTTACCACGCGTAG
TTCAGGTTACCACGCGTAGCGCATT
TAGCGCATTACACAGATTAG
TTACCACGCGTAGCGCATTACACA
CGCGTAGCGCATTACACAGAT
Consensus Sequences (Contig)
Contig : a sets of overlapping DNA segments representing a consensus region of DNA
Overlap-Layout-Consensus (OLC)
Sequence Assembly Algorithm
1. 모든 시퀀스 데이터(Reads) 를 1:1 비교하여 겹치는 것이 있는것을 찾는다
2. 겹치는 시퀀스를 정리하여 순서를 정함
3. Alignment 를 만들고 consensus 시퀀스를 결정
Scaffolding
시퀀스 어셈블리를 통해 생성된 Contig
어떻게 Contig 간의 순서를 찾는가 ?
Contig 1 Contig 2 Contig 3
?
?
?
Mate Pair (Paired End) Sequencing
샷건 시퀀싱 과정으로 다시 돌아가면…
Genomic DNARandom ShearingSize fractionation
Make Library with Size fractionated Sample(i.e. 1kb)Sequencing in Both DirectionsSequence data In both Direction
1-F 1-R 2-F 2-R
3-F 3-R 4-F 4-R
Sequence Assembly
Contig 1 Contig 2 Contig 3
1F 1R
Contig1-Contig2 is Linked with Gap
2F
2R
Contig 3 (Reverse)
Contig2-Contig3 (Rev)Is linked with Gap
Scaffold and Gaps
Contig 1 Contig 2 Contig 3
Scaffold (Supercontig) : Contig 간의 관계가 Mate-pair (or Paired End) 정보등을 통해서파악된 contig 간의 모임
Sequencing gap : Scaffold 내의 Contig 내부에 존재하는 , 길이와 위치를 알고 있는 시퀀스미결정 영역
ATAAAGGAGAGTAGAGAGGAGNNNNNN……..NNNNNNNNATAAAGGAGAGTAGAGAGGAG
Contig 1 Gap Contig 2
Physical Gap : Scaffold 간의 Gap ( 갭의 길이와 위치를 알 수 없다 )
Gaps
Gap 은 왜 생기는가 ?
1. 시퀀싱양의 부족 Genome
• Shotgun Sequencing 은 Random 인 관계로 전체 지놈보다 훨씬 더 많은 양의 DNA 를 시퀀싱하지 않는 한 Cover 되지 않는 영역은 발생한다 .
• 시퀀싱을 점점 더 많이 할 수록 이러한 영역은 줄어든다 . 그러나 ..
• 얼마나 많은 양의 시퀀싱을 해야 하는가 ?
Contig coverage
Coverage : Contig 위치에 몇번 중복으로 시퀀싱을 했나 ?
Lander-Waterman StatisticsG : 시퀀싱하려는 지놈의 길이N : 우리가 시퀀싱한 낱개 시퀀스의 갯수 L : 각각의 시퀀스의 길이 c = nL/G : 커버리지 ( 지놈의 길이에 비해서 몇 배 시퀀스를 더했는가 ?) T: 검출가능한 최소의 시퀀스간 overlapσ = (L-t)/L
Contig 의 갯수 = Ne-cσ Contig 의 길이 = L((ecσ – 1) / c + 1 – σ)
Example
c N #islands #contigs bases not in any read
bases not in contigs
1 1,667 655 614 698 367,806
3 5,000 304 250 121 49,787
5 8,334 78 57 20 6,735
8 13,334 7 5 1 335
Genome size: 1 Mbp Read Length: 600 Detectable overlap: 40
http://www.cbcb.umd.edu/confcour/CMSC828H-materials/Lecture3-Assembly-Intro.ppt
19
Experimental data
X coverage
# ctgs % > 2X avg ctg size (L-W)max ctg
size# ORFs
1 284 54 1,234 (1,138) 3,337 526
3 597 67 1,794 (4,429) 9,589 1,092
5 548 79 2,495 (21,791) 17,977 1,398
8 495 85 3,294 (302,545) 64,307 1,762
complete 1 100 1.26 M 1.26 M 1,329
http://www.cbcb.umd.edu/confcour/CMSC828H-materials/Lecture3-Assembly-Intro.ppt
- 시퀀싱의 양을 늘릴수록 지놈에서 커버하는 영역은 커지고 Contig 의 갯수 (Gap 의 갯수 ) 는 줄어듬
- 그러나 그 개선 효과는 시퀀싱양을 늘리면 늘릴수록 적어진다 .
- 최적의 시퀀싱양과 퀄리티간의 타협이 필요 .
- 실제 상황에서는 ?
요약하면 ..
Gap 이 생기는 이유 (2)
Repeat
생물의 지놈 , 특히 고등생물의 지놈에는 반복서열 (Repeated DNA) 가 많이 존재Human Genome : 약 50% 가 Repeated DNA 로 추산됨 .
Repeat 와 Gap
Repeat CollapseGap Gap
Repeat 에 의한 Misassembly
근본적으로는 Repeat 의 길이보다 단일 Reads 의 길이가 길어야 함 .
Original
Misassembly
Repeat 에 의한 Misassembly, Gap 형성을 막기 위해서는 ..
Gap 이 생기는 이유 (3)
특정 영역의 DNA 는 시퀀싱 자체가 힘들다
- G/C Rich Regions
- Secondary / hairpin Structure..
- Repeated regions (AG, CA, CT, GT, AGG, ACC, CCG, CCT, CTT, GCC, GGA, CCCTTT)
따라서 시퀀싱을 아무리 많이 한다고 해서 Gap 이 없이 완벽한 시퀀스가 나오도록 어셈블리하는 것은 불가능하다 .
Draft Assembly 지놈 초안
샷건 시퀀싱
어셈블러 Assembler
Contig 1 Contig 2 Contig 3
Contig 4 Contig 5 Contig 6Scaffold
#2
Scaffold#1
Contig 7 Contig 8 Contig 9Scaffold
#3
Contig and Scaffold
Genome Assembly 의 데이터를 나타내는 파라메터
http://www.ncbi.nlm.nih.gov/assembly/GCF_000001405.26/
전체 시퀀스 길이 = Contig 길이의 합Scaffold 사이의 갭 = Physical GapScaffold 의 갯수
?
Contig 의 갯수
N50 Contig (Scaffold) Length1. Contig 을 길이순으로 정렬
120kb
150kb
100kb
80kb
40kb
20kb
19kb
5kb
….
Total 600kb
2. 전체 Contig 총합의 절반 ( 예에서는 300kb) 가 되는Contig 의 사이즈
120kb
150kb
100kb
80kb
40kb
20kb
19kb
5kb
….
Total 600kb
370kb
N50 contig 의 size 는 = 100kb
N50 Contig (Scaffold) 의 Size 가 클수록 = assembly 의 퀄리티가 좋음
De Novo assembly
Shotgun Phase
Gap Closing
Scaffolding
Finishing
Draft sequence
Finished Sequence
여태까지 지놈 시퀀스가 알려져 있지 않은 생물의 지놈 시퀀스를 결정하기 위함
Finishing
- Draft Assembly 를 거쳐서 산출된 Scaffold 혹은 Contig 는 완벽하지 않음
- 다수의 Gap, 혹은 misassembly 를 포함하고 있음 .
- 수작업으로 이들을 교정해야 함 .
PCR
Sequencing of Gap
- Gap Closing (Gap Filling)
- 프로젝트의 중요도에 따라서 수행되지 않는 경우도 많음 .
지놈간의 퀄리티 비교Human MousePig Dog
Horse
ALL assemblies are not created equal
- 사람 , 마우스 , 초파리 , 애기장대 (Arabidopsis) 등의 연구가 많이 된 모델생물의 경우 피니싱이완료된 고퀄의 지놈
- 반면 가축 , 작물등과 같이 비교적 연구가 덜 된 생물의 경우에는 드래프트 지놈일 가능성이높음 .
- 따라서 이런 생물의 경우에는 등록된 지놈 시퀀스 자체가 불완전할 가능성이 높음 .
- 자신이 찾는 유전자가 완전한 형태로 등록되지 않았다고 하더라도 , 완벽히 신뢰할 수 없음 .
- 지놈 시퀀싱이 완료되었다면 그 다음은 ? - Sequence Annotation
Sequence Annotation
설명이 없는 위성사진 / 지도는 그닥 쓸모가 없지만지도에 설명이 추가되면 유용하듯이
이러한 단순한 시퀀스로만으로 유용하지 않지만
Gene PredictionsDNA 시퀀스 중에서 단백질을 코딩하는 영역은 어디에 있는가 ?
원핵생물 (Bacteria)
- 유전자의 밀도가 높음- Intron 은 거의 존재하지 않는다- 상대적으로 예측이 쉬움
진핵생물 (Animal, Plant, Fungi..)
- 유전자의 밀도가 낮음 - 대부분은 Intron - 난이도가 더 높다
원핵생물 (Bacteria) 에서의 유전자 예측aatgcatgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatcctgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcgg
aatgcatgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatcctgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcgg
유전암호
시작코돈 : ATG
스톱코돈 : TAA TGA TAG
간단한가 ?
aatgcatgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatcctgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcgg
어떤 ‘ ATG’ 가 시작코돈일까 ?
aatgcatgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatcctgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcgg
DNA 는 ‘양면’ 이 다 사용된다 .
CCGCATGAGCTTAGCATAGCCGCATGCATTAGCATAGCCGCAGCTTAGCATAGTCATCGGATCCCAGCTTGCATAGCCGCATGCATTAGCATAGCCGCATGCATTGTCATCGGATCCCAGCTTAGCATAGCCGCATGCATTCCCAGCTTAGCATAGCCGCATGCATTAGCATATTCCAAGGTAAATCCCAAGACCATTCATTAGCATAGCCGCATGCATTGTCATCGGATCCCAGCTTAGCATTCCAAGGTAAATCCCAAGACCATTCATTAGCATAGCCGAGCTTAGCATAGCCGCATGCATTAGCATAGCCGCAGCTTAGCATAGTCATCGGATCCCAGCTTGCATAGCCGCATGCATTAGCATAGCCGCATGCATTGTCATCGGATCCCAGCTTAGCATAGCCGCATGCATTCCCAGCTTAGCATAGCCGCATGAGCTTAGCATAGCCGCATGCATTAGCATAGCCGCAGCTTAGCATAGTCATCGGATCCCAGCTTGCATAGCCGCATGCATTAGCATAGCCGCATGCATTGTCATCGGATCCCAGCTTAGCATAGCCGCATGCATTCCCAGCTTAGCATAGCCGCATGCATTAGCATATTCCAAGGTAAATCCCAAGACCATTCATTAGCATAGCCGCATGCATTGTCATCGGATCCCAGCTTAGCATTCCAAGGTAAATCCCAAGACCATTCATTAGCATAGCCGCAGGATCCCAGCTTGCATAGCCGCATGCATTAGCATAGCCGCATGCATTGTCATCGGATCCCAGCTTAGCATAGCCGCATGCATTAGCATAGCCGCAGCTTAGCATAGTCATCGGATCCCAGCTTGCATAGCCGCATGCATTAGCATAGCCGCATGCATTGTCATCGGATCCCAGCTTAGCATAGCCGCATGCATTAGCATATTCCAAGGTAAATCCCAAGACCATTCATTAGCATAGCCGCATGCATTGTCATCGGATCCCAGCTTAGCATTCCAAGGTAAATCCCAAGACCATTCATTAGCATAGCCGCATGCATTGTCATCGGATCCCAGCTTAGCATAGTCATCGGATCCCAGCTTGCATAGCCGCATGCATTAGCATAGCCGCATGCATTGTCATCGGATCCCAGCTTAGCATAGCCGCATGCATTAGCATAGCCGCATGCATT
ctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcgg
6 가지 가능성 어디서부터 개시코돈인가 ?+
ORF (Open Reading Frame)
Genomic Sequence
Open reading frame
ATG TGA
• 6 가지 Reading Frame 에서 가능한 모든 ORF 를 추적한 다음 ,
• 가능한 ORF 중에서 어떤 ORF 가 “가장 유전자스러운” 것인지를 선별한다 .
- ORF 의 길이 : 60-100aa 이상 . - Codon Usages : 사용된 Codon 이 해당 생물에서 널리 사용되는 것인가 ?- ATG앞에는 Ribosomal Binding Site (RBS) 가 존재하는가 ?- Promoter 의 존재- Transcription Terminator 의 존재
Codon Usages : 모든 코돈이 평등하게 사용되지 않는다
Human Codon Usage
가장 유사한 종을 선택
진핵생물의 유전자 예측
exon1 exon2 exon3intron1 intron2
transcription
translation
splicing
• 인트론과 엑손의 존재• 일단 인트론과 엑손부터 예측해야함
bix.ucsd.edu/bioalgorithms/presentations/Ch06_GenePred_stat.ppt
인트론은 대개 GT 로 시작되어 AG 로 끝남
5’ 3’Donor site
Position
%
bix.ucsd.edu/bioalgorithms/presentations/Ch06_GenePred_stat.ppt
GENESCAN
exon1 exon2 exon3intron1 intron2
transcriptionPre-mRNA
splicingmRNA AAAAAAAAAAGppp
mRNA 를 시퀀싱하여 Exon 을 파악하는 것이 차라리 더 정확 !
Transcriptiome Sequencing
mRNA/Protein 정보를 알고 있는 상황에서 Exon-Intron 구조를 알려면 ?
BLAST? 이 용도에 더 적합한 Tool 이 있음https://genome.ucsc.edu/cgi-bin/hgBlat?command=start
BLAT on DNA is designed to quickly find sequences of 95% and greater similarity of length 25 bases or more.
25bp 이상 되는 95% 이상 같은 서열을 BLAST 보다 훨씬 더 빨리 찾을 수 있는 서열검색
>sp|Q9D0A3|ARPIN_MOUSE Arpin OS=Mus musculus GN=Arpin PE=1 SV=1MSRIYQDSALRNKAVQSARLPGTWDPATHQGGNGILLEGELVDVSRHSILDAHGRKERYYVLYIQPSCIHRRKFDPKGNEIEPNFSATRKVNTGFLMSSYKVEAKGDTDRLTLEALKSLVNKPQLLELTESLTPDQAVAFWMPESEMEVMELELGTGVRLKTRGDGPFIDSLAKLELGTVTKCNFAGDGKTGASWTDNIMAQKSSERNTAEIREQGDGAEDEEWDD
>gi|146141195|ref|NM_027420.4| Mus musculus RIKEN cDNA 2610034B18 gene (2610034B18Rik), mRNAAGGGCCTCGGCGTGGGGAAAATGAGCCGCATCTACCAGGATAGCGCCCTCCGCAACAAGGCCGTGCAGAGCGCGCGCCTGCCGGGAACCTGGGACCCTGCCACCCACCAAGGGGGAAATGGCATCTTGCTGGAGGGGGAGCTCGTGGATGTATCTCGGCACAGCATCTTGGATGCCCATGGCAGGAAGGAGCGCTACTATGTGCTGTATATCCAGCCCAGCTGTATCCACAGGCGTAAGTTTGACCCCAAGGGAAATGAAATTGAGCCCAACTTCAGTGCCACCAGGAAGGTGAACACAGGCTTCCTCATGTCATCTTACAAGGTGGAGGCCAAGGGCGACACAGACCGGCTCACCCTGGAGGCGCTGAAGAGCCTGGTAAACAAGCCCCAGCTGCTGGAATTGACAGAGAGCCTCACCCCAGACCAGGCGGTGGCATTCTGGATGCCTGAGTCAGAGATGGAGGTCATGGAACTCGAACTGGGGACTGGAGTGCGATTAAAAACTCGGGGTGATGGTCCCTTCATAGATTCCTTAGCCAAACTGGAGCTGGGGACAGTGACCAAGTGTAATTTTGCTGGTGATGGAAAGACGGGAGCTTCCTGGACAGACAATATCATGGCCCAGAAGTCTTCAGAGAGGAACACAGCAGAGATCCGAGAGCAAGGAGACGGGGCAGAGGACGAGGAATGGGATGACTGAGGTGCCTCCTCAACTAGACCAGCATCTGGGATGGTGTCGCTGAGAAGTGGCCACACCAACTTCTGCCTTGGAGAGATCAGGCTGTCAAGCAGAATATCATTGAACACCCTCTGATGAAATCAAACCCAAGACCTCAGTACTCACCAAGGGTCTCCAGGCTATGGCTTTTGTATGTCTGTGGCCCTCATTGGATGCAAGGCTAGCTTTCCTAGATCTATCTCCAGTATTCCTTTCCCTAGGTAGCAGGCATGGACTAGATGAGTCCTCCAAGGTACACAATTGACAAAGGCTCCTTGTCTGAGTCCAGAGGGACTCAGGGGGTAAGAGCGCCGGCTCTTTCCAATCCTGCAGTTTTCTCCTTTTTTTGCTTTCTACCCTGTGCCAGCTTCTTTTTGTGCCTCTGTTCTCCTGTCCCAGTCTTCCTCTGTCTGTTCTTCCCTGTCCCACACCCAAGATACCACTTCATTATTTCTATTCAGCTCTGTGCCTCTGTGGGCTTTCCTGCCTTAGATCTCTGTCTTAGGGCTCTTACTGCTCCAATGAAACCCGACGACCCAAAGCAACTTGGGGAGGGAAGGGTTTATTTCACTCACAGATCCGTAGAACAGTTCATCACCAGTAAAGCAGTGAGAGCAGGAGCTCAAGCAGGGCAGGAACCTGGAGGCAGGAGCAGAGAGCGTGGTGTGCTGCAAACTGGCTCGCTCTGTTTGCTTTCTTCTAGAACCCAGGACCACCAGCCCAGTAATGGCATTACCTAGAATGGGCTGGGCCGGGGTACTCTAGCTTCTGTCAGGTTGACATAAAGCTAGTTATCACACACCTATCTGGCTGCTGTCCTAAAGATGCCATTTTTGGGAAGGCCTTCAGCCTTCCCAGCTGTGTCTAGCCGGTCCACAAGTCTTGACTCATTCCACTGGGCCAACTTTTTATATTTTTAAAATATTTTCTTTTTAATAAATAGTGCTGGTACTTAAACCTAGTGCTCCATGCTTGCTAGGTGAGTGATCCACCACTGTCTACACCAACAAGTCCCAGACCGTATTTTTTGGTATGACTCTTTTTGTTGTTTTGTACTTGGAGAACTTCTTAGGAGTGAGTACTCTTCGGGAAAGAATTCCTCCACACGACTGGGTTCTTGTCTCGTGTTTATGGTCTTCTAGCTGAGTCACAATCCTAGACGAGAACCCCAGTCTTAGTGTGCCCCTGCTCAGCCCTGTGACAAGATCTGGAACGGAAGTCTACACGTCTTGAGTGTGACCATGGCAGGTGTACGCATCCTGCCTGATCCTGGGAAAAAGGGTGAGGGAGGACAGGGATTACTGATCCGACTTCATGGTTCAAACTCAATGACAGATGCTTTCTGTCACCAGTACTGACAATACTGAGTTCTTCCTGATGCTAGTGCTTAAGTTAAGTACTTGGAGTAGTCTGTCACAACAACCCTATGATGTACATAGGATAAATATCCCCATTTTTGATACAT
Exon
Intron
단백질 서열로 지놈 내의 DNA 서열을 직접 검색
DEMO
GeneScanBLAT
Genome Browser
웹 브라우저가 인터넷을 브라우징하는데 필요하듯이
지놈 시퀀스의 내용을 브라우징하는데는 지놈 브라우저가 필요하다https://genome.ucsc.edu/cgi-bin/hgGateway
Genome Browser 에서 볼 수 있는 것
Sequence
Exon-Intron Structure (Gene Model)
Gene Organization ( 관심 유전자 옆에는 어떤 유전자가 있나 ?)
Isoforms
Genome Browser 에서 볼 수 있는 것 (2)
SNP (Single Nucleotide Polymorphism)
Evolutionary Conservation
Many More..
https://genome.ucsc.edu/cgi-bin/hgGateway?hgsid=391202295_JGaFYJcfhzhda8tpxiu05mQAqVqK
UCSC Genome Browser
Demo