giỚi thiỆu vỀ ngÔn ngỮ python - fairfair.conf.vn/~lang/lecture/bioinf/introbioinf06.pdf ·...

20
1 TIN SINH HỌC ĐẠI CƯƠNG (Introduction to Bioinformatics) PGS.TS. Trần Văn Lăng Email: [email protected] A.Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 1 NGÔN NGỮ PYTHON TRONG SINH TIN HỌC Chương 5 : A.Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 2 2 NỘI DUNG Giới thiệu về Ngôn ngữ Python Sử dung Python cho một số thao tác thông dụng A.Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 3 3 GIỚI THIỆU VỀ NGÔN NGỮ PYTHON A.Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 4 4

Upload: others

Post on 20-Aug-2020

6 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: GIỚI THIỆU VỀ NGÔN NGỮ PYTHON - FAIRfair.conf.vn/~lang/lecture/bioinf/IntroBioinf06.pdf · 4 A.Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 13 13 •Để

1

TIN SINH HỌC ĐẠI CƯƠNG(Introduction to Bioinformatics)

PGSTS Trần Văn LăngEmail langtvvastvn

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY

1

NGOcircN NGỮ PYTHON TRONG SINH TIN HỌC

Chương 5

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 2

2

NỘI DUNG

bull Giới thiệu về Ngocircn ngữ Pythonbull Sử dung Python cho một số thao taacutec thocircng dụng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 3

3

GIỚI THIỆU VỀ NGOcircN NGỮ PYTHON

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 4

4

2

bull Python lagrave ngocircn ngữ lập trigravenh hướng đối tượng lagrave một ngocircn ngữ thocircng dịch

bull Source code của Python matilde nguồn mở do tổ chức phi lợi nhuận Python Software Foundation quản lyacute

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 5

5

bull Python được phaacutet triển bởi Guido Van Rossum vagraveo cuối những năm 80 vagrave đầu những năm 90 tại Viện toaacuten - tin ở Hagrave Lan

bull Python kế thừa từ nhiều ngocircn ngữ như ABC Module-3 C C++ Unix Shell hellip

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 6

6

bull Ngocircn ngữ Python được cập nhật khaacute thường xuyecircn để thecircm caacutec tiacutenh năng vagrave hỗ trợ mới Phiecircn bản mới nhất lagrave Python 364

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 7

7

bull Download trực tiếp từ httpswwwpythonorgdownloads

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 8

8

3

SỬ DỤNG PYTHON TRONG ỨNG DỤNG SINH HỌC PHAcircN TỬ

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 9

9

Viacute dụ về trigravenh tự DNA

bull Viacute dụ 01 Cho biết chiều dagravei của một trigravenh tự DNA bất kỳ

bull Viacute dụ 02 Cho một trigravenh tự DNA cho biết coacute bao nhiecircu Adenine bao nhiecircu Cytosine Guanine vagrave Thymine

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 10

10

Viacute dụ 01

bull Sau khi khởi động Python thực thi trực tiếp bằng caacutec cacircu lệnhndashDNASeq = raw_input( Cho mot trinh tu DNA )ndashprint Trinh tu DNA nay co chieu dai la

len(DNASeq) bases

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 11

11

Kiểu dữ liệu String

bull Để nhập dữ liệu trong Python coacute thể dugraveng hagravem raw_input() hoặc cũng coacute thể dugraveng hagravem input()

bull Tuy nhiecircn khi dugraveng input() phải nhập đuacuteng quy định dạng chuỗi kyacute tự - phải coacute cặp dấu nhaacutey đơn hoặc keacutep chứa chuỗi kyacute tự đoacute

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 12

12

4

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 13

13

bull Để biết chiều dagravei của một trigravenh tự dugraveng hagravem len()

bull Như becircn cạnh với trigravenh tự DNASeq vagrave DNA đatilde nhập vagraveo chiều dagravei lagrave 25 vagrave 8 tương ứng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 14

14

Viacute dụ 02

bull Để biết bao nhiecircu loại base trong một trigravenh tự dugraveng hagravem count()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 15

15

bull Ở đacircy dugraveng hagravem count() để đếm bull Hagravem nagravey sử dụng bằng caacutech chỉ tecircn của đối

tượng ở phiacutea trước cograven kyacute tự cần đếm được viết trong danh saacutech đối số của hagravem

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 16

16

5

bull Trường hợp trigravenh tự nhập vagraveo vừa coacute chữ hoa vừa coacute chữ thường phải chuyển đổi để trở thagravenh thống nhất trước khi đếm bằng hagravem upper() hoặc lower() để chuyển thagravenh chữ hoa hoặc chữ thường

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 17

17

bull Khi đoacute coacute thể đếm số base Adenine trong trigravenh tự DNA2 bằng DNA2upper()count(A)

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 18

18

Viacute dụ 03

bull Viacute dụ 03 Tiacutenh tỷ lệ phần trăm của GC Content trong một trigravenh tự DNA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 19

19

Về chuỗi kyacute tự

bull Với chuỗi kyacute tự S phần tử đầu tiecircn lagrave S[0] hoặc S[-len(S)] phần tử cuối cugraveng lagrave S[len(S)-1] hoặc S[-1]

bull Thiacute dụ vị triacute chuỗi S như sauT V L A N G

0 1 2 3 4 5

-6 -5 -4 -3 -2 -1

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 20

20

6

bull Một chuỗi con trong S được truy cập bằng S[xystride] ndashtrong đoacute x lagrave vị triacute bắt đầu y lagrave vị triacute gần kề vagrave stride

lagrave bước dagravei (default lagrave 1)ndashThiacute dụ chuỗi con gồm 4 kyacute tự bắt đầu từ kyacute tự thứ III

của S S[261] hoặc S[26] lagrave LANG

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 21

21

ndashChuỗi con từ kyacute tự thứ II cho đến hết chuỗi S[1] S[1] S[11] S[1len(S)] S[1len(S)1] lagrave VLANG

ndashVới T = 123456789 T[-7-3] lagrave 3456 (cũng lagrave T[26] T[-7-31] T[261])

bull Khi stride coacute giaacute trị acircm thứ tự theo chiều ngược lạindashThiacute dụ T[-1] lagrave 987654321 T[-4-8-1] lagrave 6543

(cũng lagrave T[51-1]

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 22

22

bull Lưu yacute ndashstride lagrave số dương thigrave phải coacute x lt y (nếu khocircng sẽ lagrave

chuỗi rỗng)ndashstride lagrave số acircm thigrave phải coacute x gt y (nếu khocircng sẽ lagrave

chuỗi rỗng)

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 23

23

Viacute dụ 04

bull Viacute dụ 04 Tigravem trigravenh tự đảo ngược (Reverse Sequence) của trigravenh tự DNA cho trước

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 24

24

7

bull Viacute dụ 05 Tigravem trigravenh tự bổ sung đảo ngược (Reverse Complement Sequence) của một trigravenh tự DNA trong cặp trigravenh tự DNA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 25

25

bull DNA lagrave một cặp trigravenh tự trong đoacute trigravenh tự thứ nhất (kyacute hiệu 3 ndash 5) vagrave trigravenh tự thứ hai (kyacute hiệu 5 ndash 3) gọi lagrave trigravenh tự bổ sung (Complement Sequence) Chuacuteng liecircn kết với nhau theo nguyecircn tắc A với T C với G

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 26

26

bull Lần lượt thay A bởi kyacute hiệu trung gian x sau đoacute thay T bởi A rồi tiếp tục chuyển x thagravenh T

bull Tương tự như vậy với G vagrave C coacute được trigravenh tự bổ sung

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 27

27

bull Sau đoacute tigravem trigravenh tự bổ sung đảo ngược (Reverse Complement Sequence) bằng caacutech đảo ngược trigravenh tự bổ sung

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 28

28

8

bull Viacute dụ 06 Phiecircn matilde trigravenh tự DNA sang trigravenh tự RNA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 29

29

Viacute dụ 06

bull Trigravenh tự RNA coacute được bằng caacutech thay Thymine trong trigravenh tự DNA bằng Uracile

bull Trong Python dugraveng hagravem replace()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 30

30

bull Cũng coacute thể lấy trigravenh tự bổ sung (5 ndash 3) để thay Thymine bằng Uracile

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 31

31

bull Viacute dụ 07 Tigravem vị triacute của start codon vagrave stop condon trong một trigravenh tự RNAndashBiết rằng start condon lagrave AUGndashStop codon lagrave UAA hoặc UAG hoặc UGA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 32

32

9

Viacute dụ 07

bull Trecircn cơ sở Viacute dụ 07 coacute thể mở rộng để coacute Viacute dụ 08 Chỉ ra trigravenh tự RNA trong đoạn từ start đến stop condon

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 33

33

Viacute dụ 08

gtgtgt Gen = TGCTTATCCGGGCAGAACTAAGCCAGCCTGGCGCTCTCCTAGGGGACGACCAGATTTATAATGTAATCGTTACAGCACACGCTTTCGTAATAATTTTCTTTATAGTAATGCCAATTATGATTGGAGGGTTTGGAAACTGACTAATCCCCCTAATGATCGGCGCCCCCGATATGGCCTTCCCTCGAATAAATAACATAAGCTTTTGACTCCTACCTCCTTCGTTCCTTCTTCTCTTAGCGTCTTCTGGCGTAGAAGCAGGGGCCGGAACTGGATGAACCGTCTATCCTCCTCTAGCCAGCAACCTAGCACATGCCGGAGCATCAGTTGACCTTACAATTTTCTCCCTTCACCTGGCAGGTGTCTCCTCAATTTTAGGTGCTATTAACTTCATTACTACTATTATTAACATGAAACCTCCCGCAATTTCCCAGTACCAAACCCCACTCTTCGTATGGGCTGTTCTTATTACTGCCGTTCTCCTGCTTCTATCCCTGCCAGTTCTCGCTGCCGGAATTACCATGCTTTTAACAGATCGAAACTTAAACACTTCTTTCTTCGACCCAGCAGGAGGAGGGGATCCTATTCTATACCAGCACCTgtgtgt mRNA = Genreplace(TU)gtgtgt mRNA[mRNAfind(AUG)mRNAfind(UGA)]AUGUAAUCGUUACAGCACACGCUUUCGUAAUAAUUUUCUUUAUAGUAAUGCCAAUUA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 34

34

Lệnh lặp for kiểu list vagrave dictionary

bull Lệnh lặp for dugraveng với pheacutep toaacuten in

bull Viacute dụ

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 35

35

bull Kiểu dữ liệu list được khai baacuteo bằng cặp dấu []bull Viacute dụ chuyển một trigravenh tự RNA thagravenh một list

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 36

36

10

bull Coacute thể chuyển đổi một list thagravenh một string (chuỗi) bằng hagravem join() Chẳng hạn để thecircm kyacute tự gap (dấu -) vagraveo

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 37

37

bull Kiểu Dictionary được tạo trong cặp với dạng keys values

bull Viacute dụ Tigravem trigravenh tự bổ sung của trigravenh tự 5-3

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 38

38

Hagravem range()

bull Cấu truacutecrange( [start] stop [ step] )

bull Trong đoacutendashstart giaacute trị bắt đầu default lagrave 0ndashstop giaacute trị kết thuacutec (nhỏ hơn giaacute trị nagravey)ndashstep bước nhảy default lagrave 1

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 39

39

bull Viacute dụ Tiacutenh bigravenh phương của caacutec số từ [04]

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 40

40

11

bull Viacute dụ Tiacutenh bigravenh phương của caacutec số 2 4 6 8

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 41

41

Tổ chức chương trigravenh

bull Trong Python coacute thể thực thi caacutec cacircu lệnh một caacutech trực tiếp như trecircn

bull Tuy nhiecircn khi coacute nhiều cacircu lệnh cần soạn thảo trước chuacuteng ta coacute thể lưu trữ vagraveo trong một tập tin Python (coacute phần mở rộng lagrave py) để gọi thực hiện một lần bang cacircu lệnh sau tại dấu nhắc của hệ điều hagravenh

python examplepy

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 42

42

bull Viacute dụ chương trigravenh tigravem trigravenh tự bổ sung đảo ngược coacute tecircn DNA35py thực hiện như sau

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 43

43

bull Trong đoacute tập tin DNA35py coacute nội dung lagrave

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 44

44

12

bull Để tập tin DNA35py coacute thể thi hagravenh được magrave khocircng cần gọi đến Python phải thecircm dograveng sau đacircy vagraveo đầu tập tin

usrbinpythonbull Trong đoacute usrbin lagrave folder chứa pythonbull Sau đoacute them thuộc tiacutenh thi hagravenh (execute) cho

tập tin nagravey bang dograveng lệnhchmod +x DNA35py

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 45

45

bull Nội dung tập tin mới lagrave

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 46

46

bull Caacutec cacircu lệnh thi hagravenh sau khi đatilde change mode bang lệnh

chmod +x DNA35py

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 47

47

bull Viacute dụ 09 Dịch matilde trigravenh tự RNA sang trigravenh tự protein

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 48

48

13

Viacute dụ 09

bull Để giải quyết vấn đề nagravey cần 2 bước chiacutenhndashBước 1 taacutech thagravenh caacutec codon riecircngndashBước 2 tra tự điển để dịch matilde

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 49

49

bull Bước 1 Với một trigravenh tự RNA coacute được taacutech thagravenh caacutec codon tương ứng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 50

50

bull Bước 2 Tạo tự điển caacutec amino acid

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 51

51

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 52

52

14

bull Chương trigravenh coacute dạng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 53

53

Tổ chức chương trigravenh

bull Cấu truacutec của một chương trigravenh Python cũng coacute thể bao gồm nhiềundashchương trigravenh con ndashfile liecircn kết với nhau

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 54

54

Chương trigravenh con

bull Chương trigravenh con (Function) lagrave một khối caacutec cacircu lệnh được gom lại với một tecircn gọi thocircng qua từ khoacutea def

bull Chẳng hạn chương trigravenh con xuất ra trigravenh tự RNA từ trigravenh tự DNA cho trước

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 55

55

bull Khi gọi chương trigravenh con sử dụng tecircn của chương trigravenh con kegravem theo danh saacutech tham số

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 56

56

15

Một chương trigravenh gồm nhiều file

bull Caacutec file liecircn kết với nhau qua từ khoacutea import cugraveng với tecircn file tương ứng

bull Viacute dụ Chương trigravenh con ToRNA() được viết trong file coacute tecircn Functionpy

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 57

57

bull Để gọi sử dung từ một file khaacutec (chẳng hạn Usingpy) Phải import như lagrave sự liecircn kết vagrave gọi hagravem phải chỉ định thecircm tecircn file chứa hagravem

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 58

58

bull Trong việc tigravem trigravenh tự bổ sung coacute thể viết

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 59

59

bull Sau đoacute gọi hagravem bằng caacutech

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 60

60

16

Kiểu File trong Python

bull Khi dữ liệu nhiều coacute thể tổ chức để lưu trữ trong một gập tin

bull Sau đoacute lấy dữ liệu ra bằng hagravem readline() readlines() hoặc để ghi lecircn bằng hagravem writeline() writelines()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 61

61

bull Viacute dụ 10 Sao cheacutep nội dung tập tin Usingpy thagravenh tập tin Usingsave

open(Usingsavew)writelines(open(Usingpyr)

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 62

62

bull Viacute dụ 11 Lấy dữ liệu về Nucleotide từ NCBI dưới dạng file FASTA Sau đoacute lắp gheacutep caacutec dograveng Nucleotide coacute trong file nagravey để tạo ra trigravenh tự DNA tương ứng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 63

63

bull Cần tigravem trecircn NCBI về Nucleotide của H5N1 Vietnam

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 64

64

17

bull Sau khi chọn Search coacute kết quả

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 65

65

bull Chọn Send to để lấy kết quả thứ I vagrave Create File FASTA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 66

66

bull Khi đoacute trecircn đĩa coacute tập tin sequencefastatxt với nội dung Trong đoacutendashDograveng thứ I mocirc tả tecircn của dữ lieundashCaacutec dograveng cograven lại trigravenh tự DNA thagravenh caacutec dograveng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 67

67

bull Tạo một dograveng lagrave trigravenh tự DNA từ file dạng fasta nagravey

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 68

68

18

bull Kết quả trigravenh tự DNA được tạo ra

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 69

69

Hoặc cần lưu lại trigravenh tự nagravey trong tập tin coacute tecircn lấy từ dataname

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 70

70

bull Viacute dụ 12 Bắt cặp 2 trigravenh tự bằng thuật toaacuten Needleman ndash Wunsch

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 71

71

Viacute dụ 12

bull Coacute ba hagravem (chương trigravenh con)ndashSigma tiacutenh giaacute trị σij

ndashAlignment tigravem vết vagrave bắt cặpndashScore tiacutenh điểm

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 72

72

19

bull Hagravem sigma()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 73

73

bull Hagravem alignment()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 74

74

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 75

75

bull Hagravem score()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 76

File NeedlmanWunschGappy

76

20

bull Viacute dụ 13 Bắt cặp cục bộ bởi thuật toaacuten SmithndashWaterman

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 77

77

Page 2: GIỚI THIỆU VỀ NGÔN NGỮ PYTHON - FAIRfair.conf.vn/~lang/lecture/bioinf/IntroBioinf06.pdf · 4 A.Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 13 13 •Để

2

bull Python lagrave ngocircn ngữ lập trigravenh hướng đối tượng lagrave một ngocircn ngữ thocircng dịch

bull Source code của Python matilde nguồn mở do tổ chức phi lợi nhuận Python Software Foundation quản lyacute

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 5

5

bull Python được phaacutet triển bởi Guido Van Rossum vagraveo cuối những năm 80 vagrave đầu những năm 90 tại Viện toaacuten - tin ở Hagrave Lan

bull Python kế thừa từ nhiều ngocircn ngữ như ABC Module-3 C C++ Unix Shell hellip

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 6

6

bull Ngocircn ngữ Python được cập nhật khaacute thường xuyecircn để thecircm caacutec tiacutenh năng vagrave hỗ trợ mới Phiecircn bản mới nhất lagrave Python 364

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 7

7

bull Download trực tiếp từ httpswwwpythonorgdownloads

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 8

8

3

SỬ DỤNG PYTHON TRONG ỨNG DỤNG SINH HỌC PHAcircN TỬ

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 9

9

Viacute dụ về trigravenh tự DNA

bull Viacute dụ 01 Cho biết chiều dagravei của một trigravenh tự DNA bất kỳ

bull Viacute dụ 02 Cho một trigravenh tự DNA cho biết coacute bao nhiecircu Adenine bao nhiecircu Cytosine Guanine vagrave Thymine

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 10

10

Viacute dụ 01

bull Sau khi khởi động Python thực thi trực tiếp bằng caacutec cacircu lệnhndashDNASeq = raw_input( Cho mot trinh tu DNA )ndashprint Trinh tu DNA nay co chieu dai la

len(DNASeq) bases

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 11

11

Kiểu dữ liệu String

bull Để nhập dữ liệu trong Python coacute thể dugraveng hagravem raw_input() hoặc cũng coacute thể dugraveng hagravem input()

bull Tuy nhiecircn khi dugraveng input() phải nhập đuacuteng quy định dạng chuỗi kyacute tự - phải coacute cặp dấu nhaacutey đơn hoặc keacutep chứa chuỗi kyacute tự đoacute

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 12

12

4

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 13

13

bull Để biết chiều dagravei của một trigravenh tự dugraveng hagravem len()

bull Như becircn cạnh với trigravenh tự DNASeq vagrave DNA đatilde nhập vagraveo chiều dagravei lagrave 25 vagrave 8 tương ứng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 14

14

Viacute dụ 02

bull Để biết bao nhiecircu loại base trong một trigravenh tự dugraveng hagravem count()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 15

15

bull Ở đacircy dugraveng hagravem count() để đếm bull Hagravem nagravey sử dụng bằng caacutech chỉ tecircn của đối

tượng ở phiacutea trước cograven kyacute tự cần đếm được viết trong danh saacutech đối số của hagravem

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 16

16

5

bull Trường hợp trigravenh tự nhập vagraveo vừa coacute chữ hoa vừa coacute chữ thường phải chuyển đổi để trở thagravenh thống nhất trước khi đếm bằng hagravem upper() hoặc lower() để chuyển thagravenh chữ hoa hoặc chữ thường

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 17

17

bull Khi đoacute coacute thể đếm số base Adenine trong trigravenh tự DNA2 bằng DNA2upper()count(A)

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 18

18

Viacute dụ 03

bull Viacute dụ 03 Tiacutenh tỷ lệ phần trăm của GC Content trong một trigravenh tự DNA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 19

19

Về chuỗi kyacute tự

bull Với chuỗi kyacute tự S phần tử đầu tiecircn lagrave S[0] hoặc S[-len(S)] phần tử cuối cugraveng lagrave S[len(S)-1] hoặc S[-1]

bull Thiacute dụ vị triacute chuỗi S như sauT V L A N G

0 1 2 3 4 5

-6 -5 -4 -3 -2 -1

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 20

20

6

bull Một chuỗi con trong S được truy cập bằng S[xystride] ndashtrong đoacute x lagrave vị triacute bắt đầu y lagrave vị triacute gần kề vagrave stride

lagrave bước dagravei (default lagrave 1)ndashThiacute dụ chuỗi con gồm 4 kyacute tự bắt đầu từ kyacute tự thứ III

của S S[261] hoặc S[26] lagrave LANG

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 21

21

ndashChuỗi con từ kyacute tự thứ II cho đến hết chuỗi S[1] S[1] S[11] S[1len(S)] S[1len(S)1] lagrave VLANG

ndashVới T = 123456789 T[-7-3] lagrave 3456 (cũng lagrave T[26] T[-7-31] T[261])

bull Khi stride coacute giaacute trị acircm thứ tự theo chiều ngược lạindashThiacute dụ T[-1] lagrave 987654321 T[-4-8-1] lagrave 6543

(cũng lagrave T[51-1]

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 22

22

bull Lưu yacute ndashstride lagrave số dương thigrave phải coacute x lt y (nếu khocircng sẽ lagrave

chuỗi rỗng)ndashstride lagrave số acircm thigrave phải coacute x gt y (nếu khocircng sẽ lagrave

chuỗi rỗng)

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 23

23

Viacute dụ 04

bull Viacute dụ 04 Tigravem trigravenh tự đảo ngược (Reverse Sequence) của trigravenh tự DNA cho trước

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 24

24

7

bull Viacute dụ 05 Tigravem trigravenh tự bổ sung đảo ngược (Reverse Complement Sequence) của một trigravenh tự DNA trong cặp trigravenh tự DNA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 25

25

bull DNA lagrave một cặp trigravenh tự trong đoacute trigravenh tự thứ nhất (kyacute hiệu 3 ndash 5) vagrave trigravenh tự thứ hai (kyacute hiệu 5 ndash 3) gọi lagrave trigravenh tự bổ sung (Complement Sequence) Chuacuteng liecircn kết với nhau theo nguyecircn tắc A với T C với G

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 26

26

bull Lần lượt thay A bởi kyacute hiệu trung gian x sau đoacute thay T bởi A rồi tiếp tục chuyển x thagravenh T

bull Tương tự như vậy với G vagrave C coacute được trigravenh tự bổ sung

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 27

27

bull Sau đoacute tigravem trigravenh tự bổ sung đảo ngược (Reverse Complement Sequence) bằng caacutech đảo ngược trigravenh tự bổ sung

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 28

28

8

bull Viacute dụ 06 Phiecircn matilde trigravenh tự DNA sang trigravenh tự RNA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 29

29

Viacute dụ 06

bull Trigravenh tự RNA coacute được bằng caacutech thay Thymine trong trigravenh tự DNA bằng Uracile

bull Trong Python dugraveng hagravem replace()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 30

30

bull Cũng coacute thể lấy trigravenh tự bổ sung (5 ndash 3) để thay Thymine bằng Uracile

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 31

31

bull Viacute dụ 07 Tigravem vị triacute của start codon vagrave stop condon trong một trigravenh tự RNAndashBiết rằng start condon lagrave AUGndashStop codon lagrave UAA hoặc UAG hoặc UGA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 32

32

9

Viacute dụ 07

bull Trecircn cơ sở Viacute dụ 07 coacute thể mở rộng để coacute Viacute dụ 08 Chỉ ra trigravenh tự RNA trong đoạn từ start đến stop condon

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 33

33

Viacute dụ 08

gtgtgt Gen = TGCTTATCCGGGCAGAACTAAGCCAGCCTGGCGCTCTCCTAGGGGACGACCAGATTTATAATGTAATCGTTACAGCACACGCTTTCGTAATAATTTTCTTTATAGTAATGCCAATTATGATTGGAGGGTTTGGAAACTGACTAATCCCCCTAATGATCGGCGCCCCCGATATGGCCTTCCCTCGAATAAATAACATAAGCTTTTGACTCCTACCTCCTTCGTTCCTTCTTCTCTTAGCGTCTTCTGGCGTAGAAGCAGGGGCCGGAACTGGATGAACCGTCTATCCTCCTCTAGCCAGCAACCTAGCACATGCCGGAGCATCAGTTGACCTTACAATTTTCTCCCTTCACCTGGCAGGTGTCTCCTCAATTTTAGGTGCTATTAACTTCATTACTACTATTATTAACATGAAACCTCCCGCAATTTCCCAGTACCAAACCCCACTCTTCGTATGGGCTGTTCTTATTACTGCCGTTCTCCTGCTTCTATCCCTGCCAGTTCTCGCTGCCGGAATTACCATGCTTTTAACAGATCGAAACTTAAACACTTCTTTCTTCGACCCAGCAGGAGGAGGGGATCCTATTCTATACCAGCACCTgtgtgt mRNA = Genreplace(TU)gtgtgt mRNA[mRNAfind(AUG)mRNAfind(UGA)]AUGUAAUCGUUACAGCACACGCUUUCGUAAUAAUUUUCUUUAUAGUAAUGCCAAUUA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 34

34

Lệnh lặp for kiểu list vagrave dictionary

bull Lệnh lặp for dugraveng với pheacutep toaacuten in

bull Viacute dụ

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 35

35

bull Kiểu dữ liệu list được khai baacuteo bằng cặp dấu []bull Viacute dụ chuyển một trigravenh tự RNA thagravenh một list

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 36

36

10

bull Coacute thể chuyển đổi một list thagravenh một string (chuỗi) bằng hagravem join() Chẳng hạn để thecircm kyacute tự gap (dấu -) vagraveo

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 37

37

bull Kiểu Dictionary được tạo trong cặp với dạng keys values

bull Viacute dụ Tigravem trigravenh tự bổ sung của trigravenh tự 5-3

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 38

38

Hagravem range()

bull Cấu truacutecrange( [start] stop [ step] )

bull Trong đoacutendashstart giaacute trị bắt đầu default lagrave 0ndashstop giaacute trị kết thuacutec (nhỏ hơn giaacute trị nagravey)ndashstep bước nhảy default lagrave 1

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 39

39

bull Viacute dụ Tiacutenh bigravenh phương của caacutec số từ [04]

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 40

40

11

bull Viacute dụ Tiacutenh bigravenh phương của caacutec số 2 4 6 8

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 41

41

Tổ chức chương trigravenh

bull Trong Python coacute thể thực thi caacutec cacircu lệnh một caacutech trực tiếp như trecircn

bull Tuy nhiecircn khi coacute nhiều cacircu lệnh cần soạn thảo trước chuacuteng ta coacute thể lưu trữ vagraveo trong một tập tin Python (coacute phần mở rộng lagrave py) để gọi thực hiện một lần bang cacircu lệnh sau tại dấu nhắc của hệ điều hagravenh

python examplepy

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 42

42

bull Viacute dụ chương trigravenh tigravem trigravenh tự bổ sung đảo ngược coacute tecircn DNA35py thực hiện như sau

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 43

43

bull Trong đoacute tập tin DNA35py coacute nội dung lagrave

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 44

44

12

bull Để tập tin DNA35py coacute thể thi hagravenh được magrave khocircng cần gọi đến Python phải thecircm dograveng sau đacircy vagraveo đầu tập tin

usrbinpythonbull Trong đoacute usrbin lagrave folder chứa pythonbull Sau đoacute them thuộc tiacutenh thi hagravenh (execute) cho

tập tin nagravey bang dograveng lệnhchmod +x DNA35py

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 45

45

bull Nội dung tập tin mới lagrave

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 46

46

bull Caacutec cacircu lệnh thi hagravenh sau khi đatilde change mode bang lệnh

chmod +x DNA35py

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 47

47

bull Viacute dụ 09 Dịch matilde trigravenh tự RNA sang trigravenh tự protein

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 48

48

13

Viacute dụ 09

bull Để giải quyết vấn đề nagravey cần 2 bước chiacutenhndashBước 1 taacutech thagravenh caacutec codon riecircngndashBước 2 tra tự điển để dịch matilde

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 49

49

bull Bước 1 Với một trigravenh tự RNA coacute được taacutech thagravenh caacutec codon tương ứng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 50

50

bull Bước 2 Tạo tự điển caacutec amino acid

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 51

51

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 52

52

14

bull Chương trigravenh coacute dạng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 53

53

Tổ chức chương trigravenh

bull Cấu truacutec của một chương trigravenh Python cũng coacute thể bao gồm nhiềundashchương trigravenh con ndashfile liecircn kết với nhau

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 54

54

Chương trigravenh con

bull Chương trigravenh con (Function) lagrave một khối caacutec cacircu lệnh được gom lại với một tecircn gọi thocircng qua từ khoacutea def

bull Chẳng hạn chương trigravenh con xuất ra trigravenh tự RNA từ trigravenh tự DNA cho trước

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 55

55

bull Khi gọi chương trigravenh con sử dụng tecircn của chương trigravenh con kegravem theo danh saacutech tham số

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 56

56

15

Một chương trigravenh gồm nhiều file

bull Caacutec file liecircn kết với nhau qua từ khoacutea import cugraveng với tecircn file tương ứng

bull Viacute dụ Chương trigravenh con ToRNA() được viết trong file coacute tecircn Functionpy

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 57

57

bull Để gọi sử dung từ một file khaacutec (chẳng hạn Usingpy) Phải import như lagrave sự liecircn kết vagrave gọi hagravem phải chỉ định thecircm tecircn file chứa hagravem

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 58

58

bull Trong việc tigravem trigravenh tự bổ sung coacute thể viết

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 59

59

bull Sau đoacute gọi hagravem bằng caacutech

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 60

60

16

Kiểu File trong Python

bull Khi dữ liệu nhiều coacute thể tổ chức để lưu trữ trong một gập tin

bull Sau đoacute lấy dữ liệu ra bằng hagravem readline() readlines() hoặc để ghi lecircn bằng hagravem writeline() writelines()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 61

61

bull Viacute dụ 10 Sao cheacutep nội dung tập tin Usingpy thagravenh tập tin Usingsave

open(Usingsavew)writelines(open(Usingpyr)

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 62

62

bull Viacute dụ 11 Lấy dữ liệu về Nucleotide từ NCBI dưới dạng file FASTA Sau đoacute lắp gheacutep caacutec dograveng Nucleotide coacute trong file nagravey để tạo ra trigravenh tự DNA tương ứng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 63

63

bull Cần tigravem trecircn NCBI về Nucleotide của H5N1 Vietnam

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 64

64

17

bull Sau khi chọn Search coacute kết quả

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 65

65

bull Chọn Send to để lấy kết quả thứ I vagrave Create File FASTA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 66

66

bull Khi đoacute trecircn đĩa coacute tập tin sequencefastatxt với nội dung Trong đoacutendashDograveng thứ I mocirc tả tecircn của dữ lieundashCaacutec dograveng cograven lại trigravenh tự DNA thagravenh caacutec dograveng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 67

67

bull Tạo một dograveng lagrave trigravenh tự DNA từ file dạng fasta nagravey

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 68

68

18

bull Kết quả trigravenh tự DNA được tạo ra

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 69

69

Hoặc cần lưu lại trigravenh tự nagravey trong tập tin coacute tecircn lấy từ dataname

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 70

70

bull Viacute dụ 12 Bắt cặp 2 trigravenh tự bằng thuật toaacuten Needleman ndash Wunsch

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 71

71

Viacute dụ 12

bull Coacute ba hagravem (chương trigravenh con)ndashSigma tiacutenh giaacute trị σij

ndashAlignment tigravem vết vagrave bắt cặpndashScore tiacutenh điểm

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 72

72

19

bull Hagravem sigma()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 73

73

bull Hagravem alignment()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 74

74

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 75

75

bull Hagravem score()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 76

File NeedlmanWunschGappy

76

20

bull Viacute dụ 13 Bắt cặp cục bộ bởi thuật toaacuten SmithndashWaterman

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 77

77

Page 3: GIỚI THIỆU VỀ NGÔN NGỮ PYTHON - FAIRfair.conf.vn/~lang/lecture/bioinf/IntroBioinf06.pdf · 4 A.Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 13 13 •Để

3

SỬ DỤNG PYTHON TRONG ỨNG DỤNG SINH HỌC PHAcircN TỬ

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 9

9

Viacute dụ về trigravenh tự DNA

bull Viacute dụ 01 Cho biết chiều dagravei của một trigravenh tự DNA bất kỳ

bull Viacute dụ 02 Cho một trigravenh tự DNA cho biết coacute bao nhiecircu Adenine bao nhiecircu Cytosine Guanine vagrave Thymine

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 10

10

Viacute dụ 01

bull Sau khi khởi động Python thực thi trực tiếp bằng caacutec cacircu lệnhndashDNASeq = raw_input( Cho mot trinh tu DNA )ndashprint Trinh tu DNA nay co chieu dai la

len(DNASeq) bases

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 11

11

Kiểu dữ liệu String

bull Để nhập dữ liệu trong Python coacute thể dugraveng hagravem raw_input() hoặc cũng coacute thể dugraveng hagravem input()

bull Tuy nhiecircn khi dugraveng input() phải nhập đuacuteng quy định dạng chuỗi kyacute tự - phải coacute cặp dấu nhaacutey đơn hoặc keacutep chứa chuỗi kyacute tự đoacute

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 12

12

4

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 13

13

bull Để biết chiều dagravei của một trigravenh tự dugraveng hagravem len()

bull Như becircn cạnh với trigravenh tự DNASeq vagrave DNA đatilde nhập vagraveo chiều dagravei lagrave 25 vagrave 8 tương ứng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 14

14

Viacute dụ 02

bull Để biết bao nhiecircu loại base trong một trigravenh tự dugraveng hagravem count()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 15

15

bull Ở đacircy dugraveng hagravem count() để đếm bull Hagravem nagravey sử dụng bằng caacutech chỉ tecircn của đối

tượng ở phiacutea trước cograven kyacute tự cần đếm được viết trong danh saacutech đối số của hagravem

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 16

16

5

bull Trường hợp trigravenh tự nhập vagraveo vừa coacute chữ hoa vừa coacute chữ thường phải chuyển đổi để trở thagravenh thống nhất trước khi đếm bằng hagravem upper() hoặc lower() để chuyển thagravenh chữ hoa hoặc chữ thường

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 17

17

bull Khi đoacute coacute thể đếm số base Adenine trong trigravenh tự DNA2 bằng DNA2upper()count(A)

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 18

18

Viacute dụ 03

bull Viacute dụ 03 Tiacutenh tỷ lệ phần trăm của GC Content trong một trigravenh tự DNA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 19

19

Về chuỗi kyacute tự

bull Với chuỗi kyacute tự S phần tử đầu tiecircn lagrave S[0] hoặc S[-len(S)] phần tử cuối cugraveng lagrave S[len(S)-1] hoặc S[-1]

bull Thiacute dụ vị triacute chuỗi S như sauT V L A N G

0 1 2 3 4 5

-6 -5 -4 -3 -2 -1

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 20

20

6

bull Một chuỗi con trong S được truy cập bằng S[xystride] ndashtrong đoacute x lagrave vị triacute bắt đầu y lagrave vị triacute gần kề vagrave stride

lagrave bước dagravei (default lagrave 1)ndashThiacute dụ chuỗi con gồm 4 kyacute tự bắt đầu từ kyacute tự thứ III

của S S[261] hoặc S[26] lagrave LANG

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 21

21

ndashChuỗi con từ kyacute tự thứ II cho đến hết chuỗi S[1] S[1] S[11] S[1len(S)] S[1len(S)1] lagrave VLANG

ndashVới T = 123456789 T[-7-3] lagrave 3456 (cũng lagrave T[26] T[-7-31] T[261])

bull Khi stride coacute giaacute trị acircm thứ tự theo chiều ngược lạindashThiacute dụ T[-1] lagrave 987654321 T[-4-8-1] lagrave 6543

(cũng lagrave T[51-1]

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 22

22

bull Lưu yacute ndashstride lagrave số dương thigrave phải coacute x lt y (nếu khocircng sẽ lagrave

chuỗi rỗng)ndashstride lagrave số acircm thigrave phải coacute x gt y (nếu khocircng sẽ lagrave

chuỗi rỗng)

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 23

23

Viacute dụ 04

bull Viacute dụ 04 Tigravem trigravenh tự đảo ngược (Reverse Sequence) của trigravenh tự DNA cho trước

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 24

24

7

bull Viacute dụ 05 Tigravem trigravenh tự bổ sung đảo ngược (Reverse Complement Sequence) của một trigravenh tự DNA trong cặp trigravenh tự DNA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 25

25

bull DNA lagrave một cặp trigravenh tự trong đoacute trigravenh tự thứ nhất (kyacute hiệu 3 ndash 5) vagrave trigravenh tự thứ hai (kyacute hiệu 5 ndash 3) gọi lagrave trigravenh tự bổ sung (Complement Sequence) Chuacuteng liecircn kết với nhau theo nguyecircn tắc A với T C với G

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 26

26

bull Lần lượt thay A bởi kyacute hiệu trung gian x sau đoacute thay T bởi A rồi tiếp tục chuyển x thagravenh T

bull Tương tự như vậy với G vagrave C coacute được trigravenh tự bổ sung

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 27

27

bull Sau đoacute tigravem trigravenh tự bổ sung đảo ngược (Reverse Complement Sequence) bằng caacutech đảo ngược trigravenh tự bổ sung

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 28

28

8

bull Viacute dụ 06 Phiecircn matilde trigravenh tự DNA sang trigravenh tự RNA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 29

29

Viacute dụ 06

bull Trigravenh tự RNA coacute được bằng caacutech thay Thymine trong trigravenh tự DNA bằng Uracile

bull Trong Python dugraveng hagravem replace()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 30

30

bull Cũng coacute thể lấy trigravenh tự bổ sung (5 ndash 3) để thay Thymine bằng Uracile

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 31

31

bull Viacute dụ 07 Tigravem vị triacute của start codon vagrave stop condon trong một trigravenh tự RNAndashBiết rằng start condon lagrave AUGndashStop codon lagrave UAA hoặc UAG hoặc UGA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 32

32

9

Viacute dụ 07

bull Trecircn cơ sở Viacute dụ 07 coacute thể mở rộng để coacute Viacute dụ 08 Chỉ ra trigravenh tự RNA trong đoạn từ start đến stop condon

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 33

33

Viacute dụ 08

gtgtgt Gen = TGCTTATCCGGGCAGAACTAAGCCAGCCTGGCGCTCTCCTAGGGGACGACCAGATTTATAATGTAATCGTTACAGCACACGCTTTCGTAATAATTTTCTTTATAGTAATGCCAATTATGATTGGAGGGTTTGGAAACTGACTAATCCCCCTAATGATCGGCGCCCCCGATATGGCCTTCCCTCGAATAAATAACATAAGCTTTTGACTCCTACCTCCTTCGTTCCTTCTTCTCTTAGCGTCTTCTGGCGTAGAAGCAGGGGCCGGAACTGGATGAACCGTCTATCCTCCTCTAGCCAGCAACCTAGCACATGCCGGAGCATCAGTTGACCTTACAATTTTCTCCCTTCACCTGGCAGGTGTCTCCTCAATTTTAGGTGCTATTAACTTCATTACTACTATTATTAACATGAAACCTCCCGCAATTTCCCAGTACCAAACCCCACTCTTCGTATGGGCTGTTCTTATTACTGCCGTTCTCCTGCTTCTATCCCTGCCAGTTCTCGCTGCCGGAATTACCATGCTTTTAACAGATCGAAACTTAAACACTTCTTTCTTCGACCCAGCAGGAGGAGGGGATCCTATTCTATACCAGCACCTgtgtgt mRNA = Genreplace(TU)gtgtgt mRNA[mRNAfind(AUG)mRNAfind(UGA)]AUGUAAUCGUUACAGCACACGCUUUCGUAAUAAUUUUCUUUAUAGUAAUGCCAAUUA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 34

34

Lệnh lặp for kiểu list vagrave dictionary

bull Lệnh lặp for dugraveng với pheacutep toaacuten in

bull Viacute dụ

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 35

35

bull Kiểu dữ liệu list được khai baacuteo bằng cặp dấu []bull Viacute dụ chuyển một trigravenh tự RNA thagravenh một list

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 36

36

10

bull Coacute thể chuyển đổi một list thagravenh một string (chuỗi) bằng hagravem join() Chẳng hạn để thecircm kyacute tự gap (dấu -) vagraveo

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 37

37

bull Kiểu Dictionary được tạo trong cặp với dạng keys values

bull Viacute dụ Tigravem trigravenh tự bổ sung của trigravenh tự 5-3

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 38

38

Hagravem range()

bull Cấu truacutecrange( [start] stop [ step] )

bull Trong đoacutendashstart giaacute trị bắt đầu default lagrave 0ndashstop giaacute trị kết thuacutec (nhỏ hơn giaacute trị nagravey)ndashstep bước nhảy default lagrave 1

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 39

39

bull Viacute dụ Tiacutenh bigravenh phương của caacutec số từ [04]

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 40

40

11

bull Viacute dụ Tiacutenh bigravenh phương của caacutec số 2 4 6 8

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 41

41

Tổ chức chương trigravenh

bull Trong Python coacute thể thực thi caacutec cacircu lệnh một caacutech trực tiếp như trecircn

bull Tuy nhiecircn khi coacute nhiều cacircu lệnh cần soạn thảo trước chuacuteng ta coacute thể lưu trữ vagraveo trong một tập tin Python (coacute phần mở rộng lagrave py) để gọi thực hiện một lần bang cacircu lệnh sau tại dấu nhắc của hệ điều hagravenh

python examplepy

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 42

42

bull Viacute dụ chương trigravenh tigravem trigravenh tự bổ sung đảo ngược coacute tecircn DNA35py thực hiện như sau

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 43

43

bull Trong đoacute tập tin DNA35py coacute nội dung lagrave

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 44

44

12

bull Để tập tin DNA35py coacute thể thi hagravenh được magrave khocircng cần gọi đến Python phải thecircm dograveng sau đacircy vagraveo đầu tập tin

usrbinpythonbull Trong đoacute usrbin lagrave folder chứa pythonbull Sau đoacute them thuộc tiacutenh thi hagravenh (execute) cho

tập tin nagravey bang dograveng lệnhchmod +x DNA35py

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 45

45

bull Nội dung tập tin mới lagrave

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 46

46

bull Caacutec cacircu lệnh thi hagravenh sau khi đatilde change mode bang lệnh

chmod +x DNA35py

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 47

47

bull Viacute dụ 09 Dịch matilde trigravenh tự RNA sang trigravenh tự protein

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 48

48

13

Viacute dụ 09

bull Để giải quyết vấn đề nagravey cần 2 bước chiacutenhndashBước 1 taacutech thagravenh caacutec codon riecircngndashBước 2 tra tự điển để dịch matilde

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 49

49

bull Bước 1 Với một trigravenh tự RNA coacute được taacutech thagravenh caacutec codon tương ứng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 50

50

bull Bước 2 Tạo tự điển caacutec amino acid

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 51

51

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 52

52

14

bull Chương trigravenh coacute dạng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 53

53

Tổ chức chương trigravenh

bull Cấu truacutec của một chương trigravenh Python cũng coacute thể bao gồm nhiềundashchương trigravenh con ndashfile liecircn kết với nhau

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 54

54

Chương trigravenh con

bull Chương trigravenh con (Function) lagrave một khối caacutec cacircu lệnh được gom lại với một tecircn gọi thocircng qua từ khoacutea def

bull Chẳng hạn chương trigravenh con xuất ra trigravenh tự RNA từ trigravenh tự DNA cho trước

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 55

55

bull Khi gọi chương trigravenh con sử dụng tecircn của chương trigravenh con kegravem theo danh saacutech tham số

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 56

56

15

Một chương trigravenh gồm nhiều file

bull Caacutec file liecircn kết với nhau qua từ khoacutea import cugraveng với tecircn file tương ứng

bull Viacute dụ Chương trigravenh con ToRNA() được viết trong file coacute tecircn Functionpy

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 57

57

bull Để gọi sử dung từ một file khaacutec (chẳng hạn Usingpy) Phải import như lagrave sự liecircn kết vagrave gọi hagravem phải chỉ định thecircm tecircn file chứa hagravem

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 58

58

bull Trong việc tigravem trigravenh tự bổ sung coacute thể viết

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 59

59

bull Sau đoacute gọi hagravem bằng caacutech

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 60

60

16

Kiểu File trong Python

bull Khi dữ liệu nhiều coacute thể tổ chức để lưu trữ trong một gập tin

bull Sau đoacute lấy dữ liệu ra bằng hagravem readline() readlines() hoặc để ghi lecircn bằng hagravem writeline() writelines()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 61

61

bull Viacute dụ 10 Sao cheacutep nội dung tập tin Usingpy thagravenh tập tin Usingsave

open(Usingsavew)writelines(open(Usingpyr)

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 62

62

bull Viacute dụ 11 Lấy dữ liệu về Nucleotide từ NCBI dưới dạng file FASTA Sau đoacute lắp gheacutep caacutec dograveng Nucleotide coacute trong file nagravey để tạo ra trigravenh tự DNA tương ứng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 63

63

bull Cần tigravem trecircn NCBI về Nucleotide của H5N1 Vietnam

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 64

64

17

bull Sau khi chọn Search coacute kết quả

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 65

65

bull Chọn Send to để lấy kết quả thứ I vagrave Create File FASTA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 66

66

bull Khi đoacute trecircn đĩa coacute tập tin sequencefastatxt với nội dung Trong đoacutendashDograveng thứ I mocirc tả tecircn của dữ lieundashCaacutec dograveng cograven lại trigravenh tự DNA thagravenh caacutec dograveng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 67

67

bull Tạo một dograveng lagrave trigravenh tự DNA từ file dạng fasta nagravey

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 68

68

18

bull Kết quả trigravenh tự DNA được tạo ra

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 69

69

Hoặc cần lưu lại trigravenh tự nagravey trong tập tin coacute tecircn lấy từ dataname

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 70

70

bull Viacute dụ 12 Bắt cặp 2 trigravenh tự bằng thuật toaacuten Needleman ndash Wunsch

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 71

71

Viacute dụ 12

bull Coacute ba hagravem (chương trigravenh con)ndashSigma tiacutenh giaacute trị σij

ndashAlignment tigravem vết vagrave bắt cặpndashScore tiacutenh điểm

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 72

72

19

bull Hagravem sigma()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 73

73

bull Hagravem alignment()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 74

74

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 75

75

bull Hagravem score()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 76

File NeedlmanWunschGappy

76

20

bull Viacute dụ 13 Bắt cặp cục bộ bởi thuật toaacuten SmithndashWaterman

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 77

77

Page 4: GIỚI THIỆU VỀ NGÔN NGỮ PYTHON - FAIRfair.conf.vn/~lang/lecture/bioinf/IntroBioinf06.pdf · 4 A.Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 13 13 •Để

4

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 13

13

bull Để biết chiều dagravei của một trigravenh tự dugraveng hagravem len()

bull Như becircn cạnh với trigravenh tự DNASeq vagrave DNA đatilde nhập vagraveo chiều dagravei lagrave 25 vagrave 8 tương ứng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 14

14

Viacute dụ 02

bull Để biết bao nhiecircu loại base trong một trigravenh tự dugraveng hagravem count()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 15

15

bull Ở đacircy dugraveng hagravem count() để đếm bull Hagravem nagravey sử dụng bằng caacutech chỉ tecircn của đối

tượng ở phiacutea trước cograven kyacute tự cần đếm được viết trong danh saacutech đối số của hagravem

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 16

16

5

bull Trường hợp trigravenh tự nhập vagraveo vừa coacute chữ hoa vừa coacute chữ thường phải chuyển đổi để trở thagravenh thống nhất trước khi đếm bằng hagravem upper() hoặc lower() để chuyển thagravenh chữ hoa hoặc chữ thường

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 17

17

bull Khi đoacute coacute thể đếm số base Adenine trong trigravenh tự DNA2 bằng DNA2upper()count(A)

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 18

18

Viacute dụ 03

bull Viacute dụ 03 Tiacutenh tỷ lệ phần trăm của GC Content trong một trigravenh tự DNA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 19

19

Về chuỗi kyacute tự

bull Với chuỗi kyacute tự S phần tử đầu tiecircn lagrave S[0] hoặc S[-len(S)] phần tử cuối cugraveng lagrave S[len(S)-1] hoặc S[-1]

bull Thiacute dụ vị triacute chuỗi S như sauT V L A N G

0 1 2 3 4 5

-6 -5 -4 -3 -2 -1

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 20

20

6

bull Một chuỗi con trong S được truy cập bằng S[xystride] ndashtrong đoacute x lagrave vị triacute bắt đầu y lagrave vị triacute gần kề vagrave stride

lagrave bước dagravei (default lagrave 1)ndashThiacute dụ chuỗi con gồm 4 kyacute tự bắt đầu từ kyacute tự thứ III

của S S[261] hoặc S[26] lagrave LANG

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 21

21

ndashChuỗi con từ kyacute tự thứ II cho đến hết chuỗi S[1] S[1] S[11] S[1len(S)] S[1len(S)1] lagrave VLANG

ndashVới T = 123456789 T[-7-3] lagrave 3456 (cũng lagrave T[26] T[-7-31] T[261])

bull Khi stride coacute giaacute trị acircm thứ tự theo chiều ngược lạindashThiacute dụ T[-1] lagrave 987654321 T[-4-8-1] lagrave 6543

(cũng lagrave T[51-1]

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 22

22

bull Lưu yacute ndashstride lagrave số dương thigrave phải coacute x lt y (nếu khocircng sẽ lagrave

chuỗi rỗng)ndashstride lagrave số acircm thigrave phải coacute x gt y (nếu khocircng sẽ lagrave

chuỗi rỗng)

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 23

23

Viacute dụ 04

bull Viacute dụ 04 Tigravem trigravenh tự đảo ngược (Reverse Sequence) của trigravenh tự DNA cho trước

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 24

24

7

bull Viacute dụ 05 Tigravem trigravenh tự bổ sung đảo ngược (Reverse Complement Sequence) của một trigravenh tự DNA trong cặp trigravenh tự DNA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 25

25

bull DNA lagrave một cặp trigravenh tự trong đoacute trigravenh tự thứ nhất (kyacute hiệu 3 ndash 5) vagrave trigravenh tự thứ hai (kyacute hiệu 5 ndash 3) gọi lagrave trigravenh tự bổ sung (Complement Sequence) Chuacuteng liecircn kết với nhau theo nguyecircn tắc A với T C với G

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 26

26

bull Lần lượt thay A bởi kyacute hiệu trung gian x sau đoacute thay T bởi A rồi tiếp tục chuyển x thagravenh T

bull Tương tự như vậy với G vagrave C coacute được trigravenh tự bổ sung

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 27

27

bull Sau đoacute tigravem trigravenh tự bổ sung đảo ngược (Reverse Complement Sequence) bằng caacutech đảo ngược trigravenh tự bổ sung

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 28

28

8

bull Viacute dụ 06 Phiecircn matilde trigravenh tự DNA sang trigravenh tự RNA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 29

29

Viacute dụ 06

bull Trigravenh tự RNA coacute được bằng caacutech thay Thymine trong trigravenh tự DNA bằng Uracile

bull Trong Python dugraveng hagravem replace()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 30

30

bull Cũng coacute thể lấy trigravenh tự bổ sung (5 ndash 3) để thay Thymine bằng Uracile

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 31

31

bull Viacute dụ 07 Tigravem vị triacute của start codon vagrave stop condon trong một trigravenh tự RNAndashBiết rằng start condon lagrave AUGndashStop codon lagrave UAA hoặc UAG hoặc UGA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 32

32

9

Viacute dụ 07

bull Trecircn cơ sở Viacute dụ 07 coacute thể mở rộng để coacute Viacute dụ 08 Chỉ ra trigravenh tự RNA trong đoạn từ start đến stop condon

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 33

33

Viacute dụ 08

gtgtgt Gen = TGCTTATCCGGGCAGAACTAAGCCAGCCTGGCGCTCTCCTAGGGGACGACCAGATTTATAATGTAATCGTTACAGCACACGCTTTCGTAATAATTTTCTTTATAGTAATGCCAATTATGATTGGAGGGTTTGGAAACTGACTAATCCCCCTAATGATCGGCGCCCCCGATATGGCCTTCCCTCGAATAAATAACATAAGCTTTTGACTCCTACCTCCTTCGTTCCTTCTTCTCTTAGCGTCTTCTGGCGTAGAAGCAGGGGCCGGAACTGGATGAACCGTCTATCCTCCTCTAGCCAGCAACCTAGCACATGCCGGAGCATCAGTTGACCTTACAATTTTCTCCCTTCACCTGGCAGGTGTCTCCTCAATTTTAGGTGCTATTAACTTCATTACTACTATTATTAACATGAAACCTCCCGCAATTTCCCAGTACCAAACCCCACTCTTCGTATGGGCTGTTCTTATTACTGCCGTTCTCCTGCTTCTATCCCTGCCAGTTCTCGCTGCCGGAATTACCATGCTTTTAACAGATCGAAACTTAAACACTTCTTTCTTCGACCCAGCAGGAGGAGGGGATCCTATTCTATACCAGCACCTgtgtgt mRNA = Genreplace(TU)gtgtgt mRNA[mRNAfind(AUG)mRNAfind(UGA)]AUGUAAUCGUUACAGCACACGCUUUCGUAAUAAUUUUCUUUAUAGUAAUGCCAAUUA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 34

34

Lệnh lặp for kiểu list vagrave dictionary

bull Lệnh lặp for dugraveng với pheacutep toaacuten in

bull Viacute dụ

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 35

35

bull Kiểu dữ liệu list được khai baacuteo bằng cặp dấu []bull Viacute dụ chuyển một trigravenh tự RNA thagravenh một list

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 36

36

10

bull Coacute thể chuyển đổi một list thagravenh một string (chuỗi) bằng hagravem join() Chẳng hạn để thecircm kyacute tự gap (dấu -) vagraveo

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 37

37

bull Kiểu Dictionary được tạo trong cặp với dạng keys values

bull Viacute dụ Tigravem trigravenh tự bổ sung của trigravenh tự 5-3

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 38

38

Hagravem range()

bull Cấu truacutecrange( [start] stop [ step] )

bull Trong đoacutendashstart giaacute trị bắt đầu default lagrave 0ndashstop giaacute trị kết thuacutec (nhỏ hơn giaacute trị nagravey)ndashstep bước nhảy default lagrave 1

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 39

39

bull Viacute dụ Tiacutenh bigravenh phương của caacutec số từ [04]

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 40

40

11

bull Viacute dụ Tiacutenh bigravenh phương của caacutec số 2 4 6 8

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 41

41

Tổ chức chương trigravenh

bull Trong Python coacute thể thực thi caacutec cacircu lệnh một caacutech trực tiếp như trecircn

bull Tuy nhiecircn khi coacute nhiều cacircu lệnh cần soạn thảo trước chuacuteng ta coacute thể lưu trữ vagraveo trong một tập tin Python (coacute phần mở rộng lagrave py) để gọi thực hiện một lần bang cacircu lệnh sau tại dấu nhắc của hệ điều hagravenh

python examplepy

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 42

42

bull Viacute dụ chương trigravenh tigravem trigravenh tự bổ sung đảo ngược coacute tecircn DNA35py thực hiện như sau

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 43

43

bull Trong đoacute tập tin DNA35py coacute nội dung lagrave

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 44

44

12

bull Để tập tin DNA35py coacute thể thi hagravenh được magrave khocircng cần gọi đến Python phải thecircm dograveng sau đacircy vagraveo đầu tập tin

usrbinpythonbull Trong đoacute usrbin lagrave folder chứa pythonbull Sau đoacute them thuộc tiacutenh thi hagravenh (execute) cho

tập tin nagravey bang dograveng lệnhchmod +x DNA35py

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 45

45

bull Nội dung tập tin mới lagrave

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 46

46

bull Caacutec cacircu lệnh thi hagravenh sau khi đatilde change mode bang lệnh

chmod +x DNA35py

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 47

47

bull Viacute dụ 09 Dịch matilde trigravenh tự RNA sang trigravenh tự protein

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 48

48

13

Viacute dụ 09

bull Để giải quyết vấn đề nagravey cần 2 bước chiacutenhndashBước 1 taacutech thagravenh caacutec codon riecircngndashBước 2 tra tự điển để dịch matilde

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 49

49

bull Bước 1 Với một trigravenh tự RNA coacute được taacutech thagravenh caacutec codon tương ứng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 50

50

bull Bước 2 Tạo tự điển caacutec amino acid

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 51

51

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 52

52

14

bull Chương trigravenh coacute dạng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 53

53

Tổ chức chương trigravenh

bull Cấu truacutec của một chương trigravenh Python cũng coacute thể bao gồm nhiềundashchương trigravenh con ndashfile liecircn kết với nhau

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 54

54

Chương trigravenh con

bull Chương trigravenh con (Function) lagrave một khối caacutec cacircu lệnh được gom lại với một tecircn gọi thocircng qua từ khoacutea def

bull Chẳng hạn chương trigravenh con xuất ra trigravenh tự RNA từ trigravenh tự DNA cho trước

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 55

55

bull Khi gọi chương trigravenh con sử dụng tecircn của chương trigravenh con kegravem theo danh saacutech tham số

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 56

56

15

Một chương trigravenh gồm nhiều file

bull Caacutec file liecircn kết với nhau qua từ khoacutea import cugraveng với tecircn file tương ứng

bull Viacute dụ Chương trigravenh con ToRNA() được viết trong file coacute tecircn Functionpy

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 57

57

bull Để gọi sử dung từ một file khaacutec (chẳng hạn Usingpy) Phải import như lagrave sự liecircn kết vagrave gọi hagravem phải chỉ định thecircm tecircn file chứa hagravem

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 58

58

bull Trong việc tigravem trigravenh tự bổ sung coacute thể viết

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 59

59

bull Sau đoacute gọi hagravem bằng caacutech

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 60

60

16

Kiểu File trong Python

bull Khi dữ liệu nhiều coacute thể tổ chức để lưu trữ trong một gập tin

bull Sau đoacute lấy dữ liệu ra bằng hagravem readline() readlines() hoặc để ghi lecircn bằng hagravem writeline() writelines()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 61

61

bull Viacute dụ 10 Sao cheacutep nội dung tập tin Usingpy thagravenh tập tin Usingsave

open(Usingsavew)writelines(open(Usingpyr)

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 62

62

bull Viacute dụ 11 Lấy dữ liệu về Nucleotide từ NCBI dưới dạng file FASTA Sau đoacute lắp gheacutep caacutec dograveng Nucleotide coacute trong file nagravey để tạo ra trigravenh tự DNA tương ứng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 63

63

bull Cần tigravem trecircn NCBI về Nucleotide của H5N1 Vietnam

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 64

64

17

bull Sau khi chọn Search coacute kết quả

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 65

65

bull Chọn Send to để lấy kết quả thứ I vagrave Create File FASTA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 66

66

bull Khi đoacute trecircn đĩa coacute tập tin sequencefastatxt với nội dung Trong đoacutendashDograveng thứ I mocirc tả tecircn của dữ lieundashCaacutec dograveng cograven lại trigravenh tự DNA thagravenh caacutec dograveng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 67

67

bull Tạo một dograveng lagrave trigravenh tự DNA từ file dạng fasta nagravey

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 68

68

18

bull Kết quả trigravenh tự DNA được tạo ra

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 69

69

Hoặc cần lưu lại trigravenh tự nagravey trong tập tin coacute tecircn lấy từ dataname

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 70

70

bull Viacute dụ 12 Bắt cặp 2 trigravenh tự bằng thuật toaacuten Needleman ndash Wunsch

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 71

71

Viacute dụ 12

bull Coacute ba hagravem (chương trigravenh con)ndashSigma tiacutenh giaacute trị σij

ndashAlignment tigravem vết vagrave bắt cặpndashScore tiacutenh điểm

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 72

72

19

bull Hagravem sigma()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 73

73

bull Hagravem alignment()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 74

74

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 75

75

bull Hagravem score()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 76

File NeedlmanWunschGappy

76

20

bull Viacute dụ 13 Bắt cặp cục bộ bởi thuật toaacuten SmithndashWaterman

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 77

77

Page 5: GIỚI THIỆU VỀ NGÔN NGỮ PYTHON - FAIRfair.conf.vn/~lang/lecture/bioinf/IntroBioinf06.pdf · 4 A.Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 13 13 •Để

5

bull Trường hợp trigravenh tự nhập vagraveo vừa coacute chữ hoa vừa coacute chữ thường phải chuyển đổi để trở thagravenh thống nhất trước khi đếm bằng hagravem upper() hoặc lower() để chuyển thagravenh chữ hoa hoặc chữ thường

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 17

17

bull Khi đoacute coacute thể đếm số base Adenine trong trigravenh tự DNA2 bằng DNA2upper()count(A)

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 18

18

Viacute dụ 03

bull Viacute dụ 03 Tiacutenh tỷ lệ phần trăm của GC Content trong một trigravenh tự DNA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 19

19

Về chuỗi kyacute tự

bull Với chuỗi kyacute tự S phần tử đầu tiecircn lagrave S[0] hoặc S[-len(S)] phần tử cuối cugraveng lagrave S[len(S)-1] hoặc S[-1]

bull Thiacute dụ vị triacute chuỗi S như sauT V L A N G

0 1 2 3 4 5

-6 -5 -4 -3 -2 -1

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 20

20

6

bull Một chuỗi con trong S được truy cập bằng S[xystride] ndashtrong đoacute x lagrave vị triacute bắt đầu y lagrave vị triacute gần kề vagrave stride

lagrave bước dagravei (default lagrave 1)ndashThiacute dụ chuỗi con gồm 4 kyacute tự bắt đầu từ kyacute tự thứ III

của S S[261] hoặc S[26] lagrave LANG

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 21

21

ndashChuỗi con từ kyacute tự thứ II cho đến hết chuỗi S[1] S[1] S[11] S[1len(S)] S[1len(S)1] lagrave VLANG

ndashVới T = 123456789 T[-7-3] lagrave 3456 (cũng lagrave T[26] T[-7-31] T[261])

bull Khi stride coacute giaacute trị acircm thứ tự theo chiều ngược lạindashThiacute dụ T[-1] lagrave 987654321 T[-4-8-1] lagrave 6543

(cũng lagrave T[51-1]

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 22

22

bull Lưu yacute ndashstride lagrave số dương thigrave phải coacute x lt y (nếu khocircng sẽ lagrave

chuỗi rỗng)ndashstride lagrave số acircm thigrave phải coacute x gt y (nếu khocircng sẽ lagrave

chuỗi rỗng)

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 23

23

Viacute dụ 04

bull Viacute dụ 04 Tigravem trigravenh tự đảo ngược (Reverse Sequence) của trigravenh tự DNA cho trước

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 24

24

7

bull Viacute dụ 05 Tigravem trigravenh tự bổ sung đảo ngược (Reverse Complement Sequence) của một trigravenh tự DNA trong cặp trigravenh tự DNA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 25

25

bull DNA lagrave một cặp trigravenh tự trong đoacute trigravenh tự thứ nhất (kyacute hiệu 3 ndash 5) vagrave trigravenh tự thứ hai (kyacute hiệu 5 ndash 3) gọi lagrave trigravenh tự bổ sung (Complement Sequence) Chuacuteng liecircn kết với nhau theo nguyecircn tắc A với T C với G

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 26

26

bull Lần lượt thay A bởi kyacute hiệu trung gian x sau đoacute thay T bởi A rồi tiếp tục chuyển x thagravenh T

bull Tương tự như vậy với G vagrave C coacute được trigravenh tự bổ sung

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 27

27

bull Sau đoacute tigravem trigravenh tự bổ sung đảo ngược (Reverse Complement Sequence) bằng caacutech đảo ngược trigravenh tự bổ sung

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 28

28

8

bull Viacute dụ 06 Phiecircn matilde trigravenh tự DNA sang trigravenh tự RNA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 29

29

Viacute dụ 06

bull Trigravenh tự RNA coacute được bằng caacutech thay Thymine trong trigravenh tự DNA bằng Uracile

bull Trong Python dugraveng hagravem replace()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 30

30

bull Cũng coacute thể lấy trigravenh tự bổ sung (5 ndash 3) để thay Thymine bằng Uracile

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 31

31

bull Viacute dụ 07 Tigravem vị triacute của start codon vagrave stop condon trong một trigravenh tự RNAndashBiết rằng start condon lagrave AUGndashStop codon lagrave UAA hoặc UAG hoặc UGA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 32

32

9

Viacute dụ 07

bull Trecircn cơ sở Viacute dụ 07 coacute thể mở rộng để coacute Viacute dụ 08 Chỉ ra trigravenh tự RNA trong đoạn từ start đến stop condon

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 33

33

Viacute dụ 08

gtgtgt Gen = TGCTTATCCGGGCAGAACTAAGCCAGCCTGGCGCTCTCCTAGGGGACGACCAGATTTATAATGTAATCGTTACAGCACACGCTTTCGTAATAATTTTCTTTATAGTAATGCCAATTATGATTGGAGGGTTTGGAAACTGACTAATCCCCCTAATGATCGGCGCCCCCGATATGGCCTTCCCTCGAATAAATAACATAAGCTTTTGACTCCTACCTCCTTCGTTCCTTCTTCTCTTAGCGTCTTCTGGCGTAGAAGCAGGGGCCGGAACTGGATGAACCGTCTATCCTCCTCTAGCCAGCAACCTAGCACATGCCGGAGCATCAGTTGACCTTACAATTTTCTCCCTTCACCTGGCAGGTGTCTCCTCAATTTTAGGTGCTATTAACTTCATTACTACTATTATTAACATGAAACCTCCCGCAATTTCCCAGTACCAAACCCCACTCTTCGTATGGGCTGTTCTTATTACTGCCGTTCTCCTGCTTCTATCCCTGCCAGTTCTCGCTGCCGGAATTACCATGCTTTTAACAGATCGAAACTTAAACACTTCTTTCTTCGACCCAGCAGGAGGAGGGGATCCTATTCTATACCAGCACCTgtgtgt mRNA = Genreplace(TU)gtgtgt mRNA[mRNAfind(AUG)mRNAfind(UGA)]AUGUAAUCGUUACAGCACACGCUUUCGUAAUAAUUUUCUUUAUAGUAAUGCCAAUUA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 34

34

Lệnh lặp for kiểu list vagrave dictionary

bull Lệnh lặp for dugraveng với pheacutep toaacuten in

bull Viacute dụ

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 35

35

bull Kiểu dữ liệu list được khai baacuteo bằng cặp dấu []bull Viacute dụ chuyển một trigravenh tự RNA thagravenh một list

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 36

36

10

bull Coacute thể chuyển đổi một list thagravenh một string (chuỗi) bằng hagravem join() Chẳng hạn để thecircm kyacute tự gap (dấu -) vagraveo

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 37

37

bull Kiểu Dictionary được tạo trong cặp với dạng keys values

bull Viacute dụ Tigravem trigravenh tự bổ sung của trigravenh tự 5-3

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 38

38

Hagravem range()

bull Cấu truacutecrange( [start] stop [ step] )

bull Trong đoacutendashstart giaacute trị bắt đầu default lagrave 0ndashstop giaacute trị kết thuacutec (nhỏ hơn giaacute trị nagravey)ndashstep bước nhảy default lagrave 1

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 39

39

bull Viacute dụ Tiacutenh bigravenh phương của caacutec số từ [04]

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 40

40

11

bull Viacute dụ Tiacutenh bigravenh phương của caacutec số 2 4 6 8

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 41

41

Tổ chức chương trigravenh

bull Trong Python coacute thể thực thi caacutec cacircu lệnh một caacutech trực tiếp như trecircn

bull Tuy nhiecircn khi coacute nhiều cacircu lệnh cần soạn thảo trước chuacuteng ta coacute thể lưu trữ vagraveo trong một tập tin Python (coacute phần mở rộng lagrave py) để gọi thực hiện một lần bang cacircu lệnh sau tại dấu nhắc của hệ điều hagravenh

python examplepy

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 42

42

bull Viacute dụ chương trigravenh tigravem trigravenh tự bổ sung đảo ngược coacute tecircn DNA35py thực hiện như sau

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 43

43

bull Trong đoacute tập tin DNA35py coacute nội dung lagrave

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 44

44

12

bull Để tập tin DNA35py coacute thể thi hagravenh được magrave khocircng cần gọi đến Python phải thecircm dograveng sau đacircy vagraveo đầu tập tin

usrbinpythonbull Trong đoacute usrbin lagrave folder chứa pythonbull Sau đoacute them thuộc tiacutenh thi hagravenh (execute) cho

tập tin nagravey bang dograveng lệnhchmod +x DNA35py

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 45

45

bull Nội dung tập tin mới lagrave

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 46

46

bull Caacutec cacircu lệnh thi hagravenh sau khi đatilde change mode bang lệnh

chmod +x DNA35py

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 47

47

bull Viacute dụ 09 Dịch matilde trigravenh tự RNA sang trigravenh tự protein

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 48

48

13

Viacute dụ 09

bull Để giải quyết vấn đề nagravey cần 2 bước chiacutenhndashBước 1 taacutech thagravenh caacutec codon riecircngndashBước 2 tra tự điển để dịch matilde

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 49

49

bull Bước 1 Với một trigravenh tự RNA coacute được taacutech thagravenh caacutec codon tương ứng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 50

50

bull Bước 2 Tạo tự điển caacutec amino acid

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 51

51

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 52

52

14

bull Chương trigravenh coacute dạng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 53

53

Tổ chức chương trigravenh

bull Cấu truacutec của một chương trigravenh Python cũng coacute thể bao gồm nhiềundashchương trigravenh con ndashfile liecircn kết với nhau

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 54

54

Chương trigravenh con

bull Chương trigravenh con (Function) lagrave một khối caacutec cacircu lệnh được gom lại với một tecircn gọi thocircng qua từ khoacutea def

bull Chẳng hạn chương trigravenh con xuất ra trigravenh tự RNA từ trigravenh tự DNA cho trước

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 55

55

bull Khi gọi chương trigravenh con sử dụng tecircn của chương trigravenh con kegravem theo danh saacutech tham số

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 56

56

15

Một chương trigravenh gồm nhiều file

bull Caacutec file liecircn kết với nhau qua từ khoacutea import cugraveng với tecircn file tương ứng

bull Viacute dụ Chương trigravenh con ToRNA() được viết trong file coacute tecircn Functionpy

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 57

57

bull Để gọi sử dung từ một file khaacutec (chẳng hạn Usingpy) Phải import như lagrave sự liecircn kết vagrave gọi hagravem phải chỉ định thecircm tecircn file chứa hagravem

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 58

58

bull Trong việc tigravem trigravenh tự bổ sung coacute thể viết

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 59

59

bull Sau đoacute gọi hagravem bằng caacutech

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 60

60

16

Kiểu File trong Python

bull Khi dữ liệu nhiều coacute thể tổ chức để lưu trữ trong một gập tin

bull Sau đoacute lấy dữ liệu ra bằng hagravem readline() readlines() hoặc để ghi lecircn bằng hagravem writeline() writelines()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 61

61

bull Viacute dụ 10 Sao cheacutep nội dung tập tin Usingpy thagravenh tập tin Usingsave

open(Usingsavew)writelines(open(Usingpyr)

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 62

62

bull Viacute dụ 11 Lấy dữ liệu về Nucleotide từ NCBI dưới dạng file FASTA Sau đoacute lắp gheacutep caacutec dograveng Nucleotide coacute trong file nagravey để tạo ra trigravenh tự DNA tương ứng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 63

63

bull Cần tigravem trecircn NCBI về Nucleotide của H5N1 Vietnam

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 64

64

17

bull Sau khi chọn Search coacute kết quả

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 65

65

bull Chọn Send to để lấy kết quả thứ I vagrave Create File FASTA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 66

66

bull Khi đoacute trecircn đĩa coacute tập tin sequencefastatxt với nội dung Trong đoacutendashDograveng thứ I mocirc tả tecircn của dữ lieundashCaacutec dograveng cograven lại trigravenh tự DNA thagravenh caacutec dograveng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 67

67

bull Tạo một dograveng lagrave trigravenh tự DNA từ file dạng fasta nagravey

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 68

68

18

bull Kết quả trigravenh tự DNA được tạo ra

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 69

69

Hoặc cần lưu lại trigravenh tự nagravey trong tập tin coacute tecircn lấy từ dataname

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 70

70

bull Viacute dụ 12 Bắt cặp 2 trigravenh tự bằng thuật toaacuten Needleman ndash Wunsch

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 71

71

Viacute dụ 12

bull Coacute ba hagravem (chương trigravenh con)ndashSigma tiacutenh giaacute trị σij

ndashAlignment tigravem vết vagrave bắt cặpndashScore tiacutenh điểm

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 72

72

19

bull Hagravem sigma()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 73

73

bull Hagravem alignment()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 74

74

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 75

75

bull Hagravem score()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 76

File NeedlmanWunschGappy

76

20

bull Viacute dụ 13 Bắt cặp cục bộ bởi thuật toaacuten SmithndashWaterman

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 77

77

Page 6: GIỚI THIỆU VỀ NGÔN NGỮ PYTHON - FAIRfair.conf.vn/~lang/lecture/bioinf/IntroBioinf06.pdf · 4 A.Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 13 13 •Để

6

bull Một chuỗi con trong S được truy cập bằng S[xystride] ndashtrong đoacute x lagrave vị triacute bắt đầu y lagrave vị triacute gần kề vagrave stride

lagrave bước dagravei (default lagrave 1)ndashThiacute dụ chuỗi con gồm 4 kyacute tự bắt đầu từ kyacute tự thứ III

của S S[261] hoặc S[26] lagrave LANG

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 21

21

ndashChuỗi con từ kyacute tự thứ II cho đến hết chuỗi S[1] S[1] S[11] S[1len(S)] S[1len(S)1] lagrave VLANG

ndashVới T = 123456789 T[-7-3] lagrave 3456 (cũng lagrave T[26] T[-7-31] T[261])

bull Khi stride coacute giaacute trị acircm thứ tự theo chiều ngược lạindashThiacute dụ T[-1] lagrave 987654321 T[-4-8-1] lagrave 6543

(cũng lagrave T[51-1]

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 22

22

bull Lưu yacute ndashstride lagrave số dương thigrave phải coacute x lt y (nếu khocircng sẽ lagrave

chuỗi rỗng)ndashstride lagrave số acircm thigrave phải coacute x gt y (nếu khocircng sẽ lagrave

chuỗi rỗng)

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 23

23

Viacute dụ 04

bull Viacute dụ 04 Tigravem trigravenh tự đảo ngược (Reverse Sequence) của trigravenh tự DNA cho trước

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 24

24

7

bull Viacute dụ 05 Tigravem trigravenh tự bổ sung đảo ngược (Reverse Complement Sequence) của một trigravenh tự DNA trong cặp trigravenh tự DNA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 25

25

bull DNA lagrave một cặp trigravenh tự trong đoacute trigravenh tự thứ nhất (kyacute hiệu 3 ndash 5) vagrave trigravenh tự thứ hai (kyacute hiệu 5 ndash 3) gọi lagrave trigravenh tự bổ sung (Complement Sequence) Chuacuteng liecircn kết với nhau theo nguyecircn tắc A với T C với G

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 26

26

bull Lần lượt thay A bởi kyacute hiệu trung gian x sau đoacute thay T bởi A rồi tiếp tục chuyển x thagravenh T

bull Tương tự như vậy với G vagrave C coacute được trigravenh tự bổ sung

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 27

27

bull Sau đoacute tigravem trigravenh tự bổ sung đảo ngược (Reverse Complement Sequence) bằng caacutech đảo ngược trigravenh tự bổ sung

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 28

28

8

bull Viacute dụ 06 Phiecircn matilde trigravenh tự DNA sang trigravenh tự RNA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 29

29

Viacute dụ 06

bull Trigravenh tự RNA coacute được bằng caacutech thay Thymine trong trigravenh tự DNA bằng Uracile

bull Trong Python dugraveng hagravem replace()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 30

30

bull Cũng coacute thể lấy trigravenh tự bổ sung (5 ndash 3) để thay Thymine bằng Uracile

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 31

31

bull Viacute dụ 07 Tigravem vị triacute của start codon vagrave stop condon trong một trigravenh tự RNAndashBiết rằng start condon lagrave AUGndashStop codon lagrave UAA hoặc UAG hoặc UGA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 32

32

9

Viacute dụ 07

bull Trecircn cơ sở Viacute dụ 07 coacute thể mở rộng để coacute Viacute dụ 08 Chỉ ra trigravenh tự RNA trong đoạn từ start đến stop condon

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 33

33

Viacute dụ 08

gtgtgt Gen = TGCTTATCCGGGCAGAACTAAGCCAGCCTGGCGCTCTCCTAGGGGACGACCAGATTTATAATGTAATCGTTACAGCACACGCTTTCGTAATAATTTTCTTTATAGTAATGCCAATTATGATTGGAGGGTTTGGAAACTGACTAATCCCCCTAATGATCGGCGCCCCCGATATGGCCTTCCCTCGAATAAATAACATAAGCTTTTGACTCCTACCTCCTTCGTTCCTTCTTCTCTTAGCGTCTTCTGGCGTAGAAGCAGGGGCCGGAACTGGATGAACCGTCTATCCTCCTCTAGCCAGCAACCTAGCACATGCCGGAGCATCAGTTGACCTTACAATTTTCTCCCTTCACCTGGCAGGTGTCTCCTCAATTTTAGGTGCTATTAACTTCATTACTACTATTATTAACATGAAACCTCCCGCAATTTCCCAGTACCAAACCCCACTCTTCGTATGGGCTGTTCTTATTACTGCCGTTCTCCTGCTTCTATCCCTGCCAGTTCTCGCTGCCGGAATTACCATGCTTTTAACAGATCGAAACTTAAACACTTCTTTCTTCGACCCAGCAGGAGGAGGGGATCCTATTCTATACCAGCACCTgtgtgt mRNA = Genreplace(TU)gtgtgt mRNA[mRNAfind(AUG)mRNAfind(UGA)]AUGUAAUCGUUACAGCACACGCUUUCGUAAUAAUUUUCUUUAUAGUAAUGCCAAUUA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 34

34

Lệnh lặp for kiểu list vagrave dictionary

bull Lệnh lặp for dugraveng với pheacutep toaacuten in

bull Viacute dụ

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 35

35

bull Kiểu dữ liệu list được khai baacuteo bằng cặp dấu []bull Viacute dụ chuyển một trigravenh tự RNA thagravenh một list

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 36

36

10

bull Coacute thể chuyển đổi một list thagravenh một string (chuỗi) bằng hagravem join() Chẳng hạn để thecircm kyacute tự gap (dấu -) vagraveo

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 37

37

bull Kiểu Dictionary được tạo trong cặp với dạng keys values

bull Viacute dụ Tigravem trigravenh tự bổ sung của trigravenh tự 5-3

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 38

38

Hagravem range()

bull Cấu truacutecrange( [start] stop [ step] )

bull Trong đoacutendashstart giaacute trị bắt đầu default lagrave 0ndashstop giaacute trị kết thuacutec (nhỏ hơn giaacute trị nagravey)ndashstep bước nhảy default lagrave 1

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 39

39

bull Viacute dụ Tiacutenh bigravenh phương của caacutec số từ [04]

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 40

40

11

bull Viacute dụ Tiacutenh bigravenh phương của caacutec số 2 4 6 8

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 41

41

Tổ chức chương trigravenh

bull Trong Python coacute thể thực thi caacutec cacircu lệnh một caacutech trực tiếp như trecircn

bull Tuy nhiecircn khi coacute nhiều cacircu lệnh cần soạn thảo trước chuacuteng ta coacute thể lưu trữ vagraveo trong một tập tin Python (coacute phần mở rộng lagrave py) để gọi thực hiện một lần bang cacircu lệnh sau tại dấu nhắc của hệ điều hagravenh

python examplepy

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 42

42

bull Viacute dụ chương trigravenh tigravem trigravenh tự bổ sung đảo ngược coacute tecircn DNA35py thực hiện như sau

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 43

43

bull Trong đoacute tập tin DNA35py coacute nội dung lagrave

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 44

44

12

bull Để tập tin DNA35py coacute thể thi hagravenh được magrave khocircng cần gọi đến Python phải thecircm dograveng sau đacircy vagraveo đầu tập tin

usrbinpythonbull Trong đoacute usrbin lagrave folder chứa pythonbull Sau đoacute them thuộc tiacutenh thi hagravenh (execute) cho

tập tin nagravey bang dograveng lệnhchmod +x DNA35py

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 45

45

bull Nội dung tập tin mới lagrave

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 46

46

bull Caacutec cacircu lệnh thi hagravenh sau khi đatilde change mode bang lệnh

chmod +x DNA35py

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 47

47

bull Viacute dụ 09 Dịch matilde trigravenh tự RNA sang trigravenh tự protein

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 48

48

13

Viacute dụ 09

bull Để giải quyết vấn đề nagravey cần 2 bước chiacutenhndashBước 1 taacutech thagravenh caacutec codon riecircngndashBước 2 tra tự điển để dịch matilde

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 49

49

bull Bước 1 Với một trigravenh tự RNA coacute được taacutech thagravenh caacutec codon tương ứng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 50

50

bull Bước 2 Tạo tự điển caacutec amino acid

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 51

51

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 52

52

14

bull Chương trigravenh coacute dạng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 53

53

Tổ chức chương trigravenh

bull Cấu truacutec của một chương trigravenh Python cũng coacute thể bao gồm nhiềundashchương trigravenh con ndashfile liecircn kết với nhau

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 54

54

Chương trigravenh con

bull Chương trigravenh con (Function) lagrave một khối caacutec cacircu lệnh được gom lại với một tecircn gọi thocircng qua từ khoacutea def

bull Chẳng hạn chương trigravenh con xuất ra trigravenh tự RNA từ trigravenh tự DNA cho trước

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 55

55

bull Khi gọi chương trigravenh con sử dụng tecircn của chương trigravenh con kegravem theo danh saacutech tham số

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 56

56

15

Một chương trigravenh gồm nhiều file

bull Caacutec file liecircn kết với nhau qua từ khoacutea import cugraveng với tecircn file tương ứng

bull Viacute dụ Chương trigravenh con ToRNA() được viết trong file coacute tecircn Functionpy

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 57

57

bull Để gọi sử dung từ một file khaacutec (chẳng hạn Usingpy) Phải import như lagrave sự liecircn kết vagrave gọi hagravem phải chỉ định thecircm tecircn file chứa hagravem

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 58

58

bull Trong việc tigravem trigravenh tự bổ sung coacute thể viết

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 59

59

bull Sau đoacute gọi hagravem bằng caacutech

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 60

60

16

Kiểu File trong Python

bull Khi dữ liệu nhiều coacute thể tổ chức để lưu trữ trong một gập tin

bull Sau đoacute lấy dữ liệu ra bằng hagravem readline() readlines() hoặc để ghi lecircn bằng hagravem writeline() writelines()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 61

61

bull Viacute dụ 10 Sao cheacutep nội dung tập tin Usingpy thagravenh tập tin Usingsave

open(Usingsavew)writelines(open(Usingpyr)

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 62

62

bull Viacute dụ 11 Lấy dữ liệu về Nucleotide từ NCBI dưới dạng file FASTA Sau đoacute lắp gheacutep caacutec dograveng Nucleotide coacute trong file nagravey để tạo ra trigravenh tự DNA tương ứng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 63

63

bull Cần tigravem trecircn NCBI về Nucleotide của H5N1 Vietnam

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 64

64

17

bull Sau khi chọn Search coacute kết quả

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 65

65

bull Chọn Send to để lấy kết quả thứ I vagrave Create File FASTA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 66

66

bull Khi đoacute trecircn đĩa coacute tập tin sequencefastatxt với nội dung Trong đoacutendashDograveng thứ I mocirc tả tecircn của dữ lieundashCaacutec dograveng cograven lại trigravenh tự DNA thagravenh caacutec dograveng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 67

67

bull Tạo một dograveng lagrave trigravenh tự DNA từ file dạng fasta nagravey

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 68

68

18

bull Kết quả trigravenh tự DNA được tạo ra

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 69

69

Hoặc cần lưu lại trigravenh tự nagravey trong tập tin coacute tecircn lấy từ dataname

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 70

70

bull Viacute dụ 12 Bắt cặp 2 trigravenh tự bằng thuật toaacuten Needleman ndash Wunsch

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 71

71

Viacute dụ 12

bull Coacute ba hagravem (chương trigravenh con)ndashSigma tiacutenh giaacute trị σij

ndashAlignment tigravem vết vagrave bắt cặpndashScore tiacutenh điểm

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 72

72

19

bull Hagravem sigma()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 73

73

bull Hagravem alignment()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 74

74

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 75

75

bull Hagravem score()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 76

File NeedlmanWunschGappy

76

20

bull Viacute dụ 13 Bắt cặp cục bộ bởi thuật toaacuten SmithndashWaterman

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 77

77

Page 7: GIỚI THIỆU VỀ NGÔN NGỮ PYTHON - FAIRfair.conf.vn/~lang/lecture/bioinf/IntroBioinf06.pdf · 4 A.Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 13 13 •Để

7

bull Viacute dụ 05 Tigravem trigravenh tự bổ sung đảo ngược (Reverse Complement Sequence) của một trigravenh tự DNA trong cặp trigravenh tự DNA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 25

25

bull DNA lagrave một cặp trigravenh tự trong đoacute trigravenh tự thứ nhất (kyacute hiệu 3 ndash 5) vagrave trigravenh tự thứ hai (kyacute hiệu 5 ndash 3) gọi lagrave trigravenh tự bổ sung (Complement Sequence) Chuacuteng liecircn kết với nhau theo nguyecircn tắc A với T C với G

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 26

26

bull Lần lượt thay A bởi kyacute hiệu trung gian x sau đoacute thay T bởi A rồi tiếp tục chuyển x thagravenh T

bull Tương tự như vậy với G vagrave C coacute được trigravenh tự bổ sung

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 27

27

bull Sau đoacute tigravem trigravenh tự bổ sung đảo ngược (Reverse Complement Sequence) bằng caacutech đảo ngược trigravenh tự bổ sung

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 28

28

8

bull Viacute dụ 06 Phiecircn matilde trigravenh tự DNA sang trigravenh tự RNA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 29

29

Viacute dụ 06

bull Trigravenh tự RNA coacute được bằng caacutech thay Thymine trong trigravenh tự DNA bằng Uracile

bull Trong Python dugraveng hagravem replace()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 30

30

bull Cũng coacute thể lấy trigravenh tự bổ sung (5 ndash 3) để thay Thymine bằng Uracile

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 31

31

bull Viacute dụ 07 Tigravem vị triacute của start codon vagrave stop condon trong một trigravenh tự RNAndashBiết rằng start condon lagrave AUGndashStop codon lagrave UAA hoặc UAG hoặc UGA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 32

32

9

Viacute dụ 07

bull Trecircn cơ sở Viacute dụ 07 coacute thể mở rộng để coacute Viacute dụ 08 Chỉ ra trigravenh tự RNA trong đoạn từ start đến stop condon

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 33

33

Viacute dụ 08

gtgtgt Gen = TGCTTATCCGGGCAGAACTAAGCCAGCCTGGCGCTCTCCTAGGGGACGACCAGATTTATAATGTAATCGTTACAGCACACGCTTTCGTAATAATTTTCTTTATAGTAATGCCAATTATGATTGGAGGGTTTGGAAACTGACTAATCCCCCTAATGATCGGCGCCCCCGATATGGCCTTCCCTCGAATAAATAACATAAGCTTTTGACTCCTACCTCCTTCGTTCCTTCTTCTCTTAGCGTCTTCTGGCGTAGAAGCAGGGGCCGGAACTGGATGAACCGTCTATCCTCCTCTAGCCAGCAACCTAGCACATGCCGGAGCATCAGTTGACCTTACAATTTTCTCCCTTCACCTGGCAGGTGTCTCCTCAATTTTAGGTGCTATTAACTTCATTACTACTATTATTAACATGAAACCTCCCGCAATTTCCCAGTACCAAACCCCACTCTTCGTATGGGCTGTTCTTATTACTGCCGTTCTCCTGCTTCTATCCCTGCCAGTTCTCGCTGCCGGAATTACCATGCTTTTAACAGATCGAAACTTAAACACTTCTTTCTTCGACCCAGCAGGAGGAGGGGATCCTATTCTATACCAGCACCTgtgtgt mRNA = Genreplace(TU)gtgtgt mRNA[mRNAfind(AUG)mRNAfind(UGA)]AUGUAAUCGUUACAGCACACGCUUUCGUAAUAAUUUUCUUUAUAGUAAUGCCAAUUA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 34

34

Lệnh lặp for kiểu list vagrave dictionary

bull Lệnh lặp for dugraveng với pheacutep toaacuten in

bull Viacute dụ

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 35

35

bull Kiểu dữ liệu list được khai baacuteo bằng cặp dấu []bull Viacute dụ chuyển một trigravenh tự RNA thagravenh một list

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 36

36

10

bull Coacute thể chuyển đổi một list thagravenh một string (chuỗi) bằng hagravem join() Chẳng hạn để thecircm kyacute tự gap (dấu -) vagraveo

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 37

37

bull Kiểu Dictionary được tạo trong cặp với dạng keys values

bull Viacute dụ Tigravem trigravenh tự bổ sung của trigravenh tự 5-3

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 38

38

Hagravem range()

bull Cấu truacutecrange( [start] stop [ step] )

bull Trong đoacutendashstart giaacute trị bắt đầu default lagrave 0ndashstop giaacute trị kết thuacutec (nhỏ hơn giaacute trị nagravey)ndashstep bước nhảy default lagrave 1

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 39

39

bull Viacute dụ Tiacutenh bigravenh phương của caacutec số từ [04]

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 40

40

11

bull Viacute dụ Tiacutenh bigravenh phương của caacutec số 2 4 6 8

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 41

41

Tổ chức chương trigravenh

bull Trong Python coacute thể thực thi caacutec cacircu lệnh một caacutech trực tiếp như trecircn

bull Tuy nhiecircn khi coacute nhiều cacircu lệnh cần soạn thảo trước chuacuteng ta coacute thể lưu trữ vagraveo trong một tập tin Python (coacute phần mở rộng lagrave py) để gọi thực hiện một lần bang cacircu lệnh sau tại dấu nhắc của hệ điều hagravenh

python examplepy

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 42

42

bull Viacute dụ chương trigravenh tigravem trigravenh tự bổ sung đảo ngược coacute tecircn DNA35py thực hiện như sau

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 43

43

bull Trong đoacute tập tin DNA35py coacute nội dung lagrave

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 44

44

12

bull Để tập tin DNA35py coacute thể thi hagravenh được magrave khocircng cần gọi đến Python phải thecircm dograveng sau đacircy vagraveo đầu tập tin

usrbinpythonbull Trong đoacute usrbin lagrave folder chứa pythonbull Sau đoacute them thuộc tiacutenh thi hagravenh (execute) cho

tập tin nagravey bang dograveng lệnhchmod +x DNA35py

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 45

45

bull Nội dung tập tin mới lagrave

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 46

46

bull Caacutec cacircu lệnh thi hagravenh sau khi đatilde change mode bang lệnh

chmod +x DNA35py

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 47

47

bull Viacute dụ 09 Dịch matilde trigravenh tự RNA sang trigravenh tự protein

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 48

48

13

Viacute dụ 09

bull Để giải quyết vấn đề nagravey cần 2 bước chiacutenhndashBước 1 taacutech thagravenh caacutec codon riecircngndashBước 2 tra tự điển để dịch matilde

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 49

49

bull Bước 1 Với một trigravenh tự RNA coacute được taacutech thagravenh caacutec codon tương ứng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 50

50

bull Bước 2 Tạo tự điển caacutec amino acid

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 51

51

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 52

52

14

bull Chương trigravenh coacute dạng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 53

53

Tổ chức chương trigravenh

bull Cấu truacutec của một chương trigravenh Python cũng coacute thể bao gồm nhiềundashchương trigravenh con ndashfile liecircn kết với nhau

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 54

54

Chương trigravenh con

bull Chương trigravenh con (Function) lagrave một khối caacutec cacircu lệnh được gom lại với một tecircn gọi thocircng qua từ khoacutea def

bull Chẳng hạn chương trigravenh con xuất ra trigravenh tự RNA từ trigravenh tự DNA cho trước

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 55

55

bull Khi gọi chương trigravenh con sử dụng tecircn của chương trigravenh con kegravem theo danh saacutech tham số

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 56

56

15

Một chương trigravenh gồm nhiều file

bull Caacutec file liecircn kết với nhau qua từ khoacutea import cugraveng với tecircn file tương ứng

bull Viacute dụ Chương trigravenh con ToRNA() được viết trong file coacute tecircn Functionpy

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 57

57

bull Để gọi sử dung từ một file khaacutec (chẳng hạn Usingpy) Phải import như lagrave sự liecircn kết vagrave gọi hagravem phải chỉ định thecircm tecircn file chứa hagravem

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 58

58

bull Trong việc tigravem trigravenh tự bổ sung coacute thể viết

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 59

59

bull Sau đoacute gọi hagravem bằng caacutech

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 60

60

16

Kiểu File trong Python

bull Khi dữ liệu nhiều coacute thể tổ chức để lưu trữ trong một gập tin

bull Sau đoacute lấy dữ liệu ra bằng hagravem readline() readlines() hoặc để ghi lecircn bằng hagravem writeline() writelines()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 61

61

bull Viacute dụ 10 Sao cheacutep nội dung tập tin Usingpy thagravenh tập tin Usingsave

open(Usingsavew)writelines(open(Usingpyr)

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 62

62

bull Viacute dụ 11 Lấy dữ liệu về Nucleotide từ NCBI dưới dạng file FASTA Sau đoacute lắp gheacutep caacutec dograveng Nucleotide coacute trong file nagravey để tạo ra trigravenh tự DNA tương ứng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 63

63

bull Cần tigravem trecircn NCBI về Nucleotide của H5N1 Vietnam

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 64

64

17

bull Sau khi chọn Search coacute kết quả

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 65

65

bull Chọn Send to để lấy kết quả thứ I vagrave Create File FASTA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 66

66

bull Khi đoacute trecircn đĩa coacute tập tin sequencefastatxt với nội dung Trong đoacutendashDograveng thứ I mocirc tả tecircn của dữ lieundashCaacutec dograveng cograven lại trigravenh tự DNA thagravenh caacutec dograveng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 67

67

bull Tạo một dograveng lagrave trigravenh tự DNA từ file dạng fasta nagravey

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 68

68

18

bull Kết quả trigravenh tự DNA được tạo ra

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 69

69

Hoặc cần lưu lại trigravenh tự nagravey trong tập tin coacute tecircn lấy từ dataname

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 70

70

bull Viacute dụ 12 Bắt cặp 2 trigravenh tự bằng thuật toaacuten Needleman ndash Wunsch

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 71

71

Viacute dụ 12

bull Coacute ba hagravem (chương trigravenh con)ndashSigma tiacutenh giaacute trị σij

ndashAlignment tigravem vết vagrave bắt cặpndashScore tiacutenh điểm

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 72

72

19

bull Hagravem sigma()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 73

73

bull Hagravem alignment()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 74

74

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 75

75

bull Hagravem score()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 76

File NeedlmanWunschGappy

76

20

bull Viacute dụ 13 Bắt cặp cục bộ bởi thuật toaacuten SmithndashWaterman

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 77

77

Page 8: GIỚI THIỆU VỀ NGÔN NGỮ PYTHON - FAIRfair.conf.vn/~lang/lecture/bioinf/IntroBioinf06.pdf · 4 A.Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 13 13 •Để

8

bull Viacute dụ 06 Phiecircn matilde trigravenh tự DNA sang trigravenh tự RNA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 29

29

Viacute dụ 06

bull Trigravenh tự RNA coacute được bằng caacutech thay Thymine trong trigravenh tự DNA bằng Uracile

bull Trong Python dugraveng hagravem replace()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 30

30

bull Cũng coacute thể lấy trigravenh tự bổ sung (5 ndash 3) để thay Thymine bằng Uracile

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 31

31

bull Viacute dụ 07 Tigravem vị triacute của start codon vagrave stop condon trong một trigravenh tự RNAndashBiết rằng start condon lagrave AUGndashStop codon lagrave UAA hoặc UAG hoặc UGA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 32

32

9

Viacute dụ 07

bull Trecircn cơ sở Viacute dụ 07 coacute thể mở rộng để coacute Viacute dụ 08 Chỉ ra trigravenh tự RNA trong đoạn từ start đến stop condon

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 33

33

Viacute dụ 08

gtgtgt Gen = TGCTTATCCGGGCAGAACTAAGCCAGCCTGGCGCTCTCCTAGGGGACGACCAGATTTATAATGTAATCGTTACAGCACACGCTTTCGTAATAATTTTCTTTATAGTAATGCCAATTATGATTGGAGGGTTTGGAAACTGACTAATCCCCCTAATGATCGGCGCCCCCGATATGGCCTTCCCTCGAATAAATAACATAAGCTTTTGACTCCTACCTCCTTCGTTCCTTCTTCTCTTAGCGTCTTCTGGCGTAGAAGCAGGGGCCGGAACTGGATGAACCGTCTATCCTCCTCTAGCCAGCAACCTAGCACATGCCGGAGCATCAGTTGACCTTACAATTTTCTCCCTTCACCTGGCAGGTGTCTCCTCAATTTTAGGTGCTATTAACTTCATTACTACTATTATTAACATGAAACCTCCCGCAATTTCCCAGTACCAAACCCCACTCTTCGTATGGGCTGTTCTTATTACTGCCGTTCTCCTGCTTCTATCCCTGCCAGTTCTCGCTGCCGGAATTACCATGCTTTTAACAGATCGAAACTTAAACACTTCTTTCTTCGACCCAGCAGGAGGAGGGGATCCTATTCTATACCAGCACCTgtgtgt mRNA = Genreplace(TU)gtgtgt mRNA[mRNAfind(AUG)mRNAfind(UGA)]AUGUAAUCGUUACAGCACACGCUUUCGUAAUAAUUUUCUUUAUAGUAAUGCCAAUUA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 34

34

Lệnh lặp for kiểu list vagrave dictionary

bull Lệnh lặp for dugraveng với pheacutep toaacuten in

bull Viacute dụ

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 35

35

bull Kiểu dữ liệu list được khai baacuteo bằng cặp dấu []bull Viacute dụ chuyển một trigravenh tự RNA thagravenh một list

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 36

36

10

bull Coacute thể chuyển đổi một list thagravenh một string (chuỗi) bằng hagravem join() Chẳng hạn để thecircm kyacute tự gap (dấu -) vagraveo

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 37

37

bull Kiểu Dictionary được tạo trong cặp với dạng keys values

bull Viacute dụ Tigravem trigravenh tự bổ sung của trigravenh tự 5-3

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 38

38

Hagravem range()

bull Cấu truacutecrange( [start] stop [ step] )

bull Trong đoacutendashstart giaacute trị bắt đầu default lagrave 0ndashstop giaacute trị kết thuacutec (nhỏ hơn giaacute trị nagravey)ndashstep bước nhảy default lagrave 1

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 39

39

bull Viacute dụ Tiacutenh bigravenh phương của caacutec số từ [04]

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 40

40

11

bull Viacute dụ Tiacutenh bigravenh phương của caacutec số 2 4 6 8

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 41

41

Tổ chức chương trigravenh

bull Trong Python coacute thể thực thi caacutec cacircu lệnh một caacutech trực tiếp như trecircn

bull Tuy nhiecircn khi coacute nhiều cacircu lệnh cần soạn thảo trước chuacuteng ta coacute thể lưu trữ vagraveo trong một tập tin Python (coacute phần mở rộng lagrave py) để gọi thực hiện một lần bang cacircu lệnh sau tại dấu nhắc của hệ điều hagravenh

python examplepy

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 42

42

bull Viacute dụ chương trigravenh tigravem trigravenh tự bổ sung đảo ngược coacute tecircn DNA35py thực hiện như sau

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 43

43

bull Trong đoacute tập tin DNA35py coacute nội dung lagrave

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 44

44

12

bull Để tập tin DNA35py coacute thể thi hagravenh được magrave khocircng cần gọi đến Python phải thecircm dograveng sau đacircy vagraveo đầu tập tin

usrbinpythonbull Trong đoacute usrbin lagrave folder chứa pythonbull Sau đoacute them thuộc tiacutenh thi hagravenh (execute) cho

tập tin nagravey bang dograveng lệnhchmod +x DNA35py

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 45

45

bull Nội dung tập tin mới lagrave

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 46

46

bull Caacutec cacircu lệnh thi hagravenh sau khi đatilde change mode bang lệnh

chmod +x DNA35py

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 47

47

bull Viacute dụ 09 Dịch matilde trigravenh tự RNA sang trigravenh tự protein

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 48

48

13

Viacute dụ 09

bull Để giải quyết vấn đề nagravey cần 2 bước chiacutenhndashBước 1 taacutech thagravenh caacutec codon riecircngndashBước 2 tra tự điển để dịch matilde

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 49

49

bull Bước 1 Với một trigravenh tự RNA coacute được taacutech thagravenh caacutec codon tương ứng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 50

50

bull Bước 2 Tạo tự điển caacutec amino acid

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 51

51

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 52

52

14

bull Chương trigravenh coacute dạng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 53

53

Tổ chức chương trigravenh

bull Cấu truacutec của một chương trigravenh Python cũng coacute thể bao gồm nhiềundashchương trigravenh con ndashfile liecircn kết với nhau

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 54

54

Chương trigravenh con

bull Chương trigravenh con (Function) lagrave một khối caacutec cacircu lệnh được gom lại với một tecircn gọi thocircng qua từ khoacutea def

bull Chẳng hạn chương trigravenh con xuất ra trigravenh tự RNA từ trigravenh tự DNA cho trước

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 55

55

bull Khi gọi chương trigravenh con sử dụng tecircn của chương trigravenh con kegravem theo danh saacutech tham số

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 56

56

15

Một chương trigravenh gồm nhiều file

bull Caacutec file liecircn kết với nhau qua từ khoacutea import cugraveng với tecircn file tương ứng

bull Viacute dụ Chương trigravenh con ToRNA() được viết trong file coacute tecircn Functionpy

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 57

57

bull Để gọi sử dung từ một file khaacutec (chẳng hạn Usingpy) Phải import như lagrave sự liecircn kết vagrave gọi hagravem phải chỉ định thecircm tecircn file chứa hagravem

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 58

58

bull Trong việc tigravem trigravenh tự bổ sung coacute thể viết

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 59

59

bull Sau đoacute gọi hagravem bằng caacutech

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 60

60

16

Kiểu File trong Python

bull Khi dữ liệu nhiều coacute thể tổ chức để lưu trữ trong một gập tin

bull Sau đoacute lấy dữ liệu ra bằng hagravem readline() readlines() hoặc để ghi lecircn bằng hagravem writeline() writelines()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 61

61

bull Viacute dụ 10 Sao cheacutep nội dung tập tin Usingpy thagravenh tập tin Usingsave

open(Usingsavew)writelines(open(Usingpyr)

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 62

62

bull Viacute dụ 11 Lấy dữ liệu về Nucleotide từ NCBI dưới dạng file FASTA Sau đoacute lắp gheacutep caacutec dograveng Nucleotide coacute trong file nagravey để tạo ra trigravenh tự DNA tương ứng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 63

63

bull Cần tigravem trecircn NCBI về Nucleotide của H5N1 Vietnam

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 64

64

17

bull Sau khi chọn Search coacute kết quả

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 65

65

bull Chọn Send to để lấy kết quả thứ I vagrave Create File FASTA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 66

66

bull Khi đoacute trecircn đĩa coacute tập tin sequencefastatxt với nội dung Trong đoacutendashDograveng thứ I mocirc tả tecircn của dữ lieundashCaacutec dograveng cograven lại trigravenh tự DNA thagravenh caacutec dograveng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 67

67

bull Tạo một dograveng lagrave trigravenh tự DNA từ file dạng fasta nagravey

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 68

68

18

bull Kết quả trigravenh tự DNA được tạo ra

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 69

69

Hoặc cần lưu lại trigravenh tự nagravey trong tập tin coacute tecircn lấy từ dataname

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 70

70

bull Viacute dụ 12 Bắt cặp 2 trigravenh tự bằng thuật toaacuten Needleman ndash Wunsch

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 71

71

Viacute dụ 12

bull Coacute ba hagravem (chương trigravenh con)ndashSigma tiacutenh giaacute trị σij

ndashAlignment tigravem vết vagrave bắt cặpndashScore tiacutenh điểm

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 72

72

19

bull Hagravem sigma()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 73

73

bull Hagravem alignment()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 74

74

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 75

75

bull Hagravem score()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 76

File NeedlmanWunschGappy

76

20

bull Viacute dụ 13 Bắt cặp cục bộ bởi thuật toaacuten SmithndashWaterman

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 77

77

Page 9: GIỚI THIỆU VỀ NGÔN NGỮ PYTHON - FAIRfair.conf.vn/~lang/lecture/bioinf/IntroBioinf06.pdf · 4 A.Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 13 13 •Để

9

Viacute dụ 07

bull Trecircn cơ sở Viacute dụ 07 coacute thể mở rộng để coacute Viacute dụ 08 Chỉ ra trigravenh tự RNA trong đoạn từ start đến stop condon

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 33

33

Viacute dụ 08

gtgtgt Gen = TGCTTATCCGGGCAGAACTAAGCCAGCCTGGCGCTCTCCTAGGGGACGACCAGATTTATAATGTAATCGTTACAGCACACGCTTTCGTAATAATTTTCTTTATAGTAATGCCAATTATGATTGGAGGGTTTGGAAACTGACTAATCCCCCTAATGATCGGCGCCCCCGATATGGCCTTCCCTCGAATAAATAACATAAGCTTTTGACTCCTACCTCCTTCGTTCCTTCTTCTCTTAGCGTCTTCTGGCGTAGAAGCAGGGGCCGGAACTGGATGAACCGTCTATCCTCCTCTAGCCAGCAACCTAGCACATGCCGGAGCATCAGTTGACCTTACAATTTTCTCCCTTCACCTGGCAGGTGTCTCCTCAATTTTAGGTGCTATTAACTTCATTACTACTATTATTAACATGAAACCTCCCGCAATTTCCCAGTACCAAACCCCACTCTTCGTATGGGCTGTTCTTATTACTGCCGTTCTCCTGCTTCTATCCCTGCCAGTTCTCGCTGCCGGAATTACCATGCTTTTAACAGATCGAAACTTAAACACTTCTTTCTTCGACCCAGCAGGAGGAGGGGATCCTATTCTATACCAGCACCTgtgtgt mRNA = Genreplace(TU)gtgtgt mRNA[mRNAfind(AUG)mRNAfind(UGA)]AUGUAAUCGUUACAGCACACGCUUUCGUAAUAAUUUUCUUUAUAGUAAUGCCAAUUA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 34

34

Lệnh lặp for kiểu list vagrave dictionary

bull Lệnh lặp for dugraveng với pheacutep toaacuten in

bull Viacute dụ

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 35

35

bull Kiểu dữ liệu list được khai baacuteo bằng cặp dấu []bull Viacute dụ chuyển một trigravenh tự RNA thagravenh một list

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 36

36

10

bull Coacute thể chuyển đổi một list thagravenh một string (chuỗi) bằng hagravem join() Chẳng hạn để thecircm kyacute tự gap (dấu -) vagraveo

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 37

37

bull Kiểu Dictionary được tạo trong cặp với dạng keys values

bull Viacute dụ Tigravem trigravenh tự bổ sung của trigravenh tự 5-3

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 38

38

Hagravem range()

bull Cấu truacutecrange( [start] stop [ step] )

bull Trong đoacutendashstart giaacute trị bắt đầu default lagrave 0ndashstop giaacute trị kết thuacutec (nhỏ hơn giaacute trị nagravey)ndashstep bước nhảy default lagrave 1

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 39

39

bull Viacute dụ Tiacutenh bigravenh phương của caacutec số từ [04]

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 40

40

11

bull Viacute dụ Tiacutenh bigravenh phương của caacutec số 2 4 6 8

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 41

41

Tổ chức chương trigravenh

bull Trong Python coacute thể thực thi caacutec cacircu lệnh một caacutech trực tiếp như trecircn

bull Tuy nhiecircn khi coacute nhiều cacircu lệnh cần soạn thảo trước chuacuteng ta coacute thể lưu trữ vagraveo trong một tập tin Python (coacute phần mở rộng lagrave py) để gọi thực hiện một lần bang cacircu lệnh sau tại dấu nhắc của hệ điều hagravenh

python examplepy

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 42

42

bull Viacute dụ chương trigravenh tigravem trigravenh tự bổ sung đảo ngược coacute tecircn DNA35py thực hiện như sau

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 43

43

bull Trong đoacute tập tin DNA35py coacute nội dung lagrave

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 44

44

12

bull Để tập tin DNA35py coacute thể thi hagravenh được magrave khocircng cần gọi đến Python phải thecircm dograveng sau đacircy vagraveo đầu tập tin

usrbinpythonbull Trong đoacute usrbin lagrave folder chứa pythonbull Sau đoacute them thuộc tiacutenh thi hagravenh (execute) cho

tập tin nagravey bang dograveng lệnhchmod +x DNA35py

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 45

45

bull Nội dung tập tin mới lagrave

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 46

46

bull Caacutec cacircu lệnh thi hagravenh sau khi đatilde change mode bang lệnh

chmod +x DNA35py

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 47

47

bull Viacute dụ 09 Dịch matilde trigravenh tự RNA sang trigravenh tự protein

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 48

48

13

Viacute dụ 09

bull Để giải quyết vấn đề nagravey cần 2 bước chiacutenhndashBước 1 taacutech thagravenh caacutec codon riecircngndashBước 2 tra tự điển để dịch matilde

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 49

49

bull Bước 1 Với một trigravenh tự RNA coacute được taacutech thagravenh caacutec codon tương ứng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 50

50

bull Bước 2 Tạo tự điển caacutec amino acid

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 51

51

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 52

52

14

bull Chương trigravenh coacute dạng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 53

53

Tổ chức chương trigravenh

bull Cấu truacutec của một chương trigravenh Python cũng coacute thể bao gồm nhiềundashchương trigravenh con ndashfile liecircn kết với nhau

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 54

54

Chương trigravenh con

bull Chương trigravenh con (Function) lagrave một khối caacutec cacircu lệnh được gom lại với một tecircn gọi thocircng qua từ khoacutea def

bull Chẳng hạn chương trigravenh con xuất ra trigravenh tự RNA từ trigravenh tự DNA cho trước

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 55

55

bull Khi gọi chương trigravenh con sử dụng tecircn của chương trigravenh con kegravem theo danh saacutech tham số

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 56

56

15

Một chương trigravenh gồm nhiều file

bull Caacutec file liecircn kết với nhau qua từ khoacutea import cugraveng với tecircn file tương ứng

bull Viacute dụ Chương trigravenh con ToRNA() được viết trong file coacute tecircn Functionpy

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 57

57

bull Để gọi sử dung từ một file khaacutec (chẳng hạn Usingpy) Phải import như lagrave sự liecircn kết vagrave gọi hagravem phải chỉ định thecircm tecircn file chứa hagravem

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 58

58

bull Trong việc tigravem trigravenh tự bổ sung coacute thể viết

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 59

59

bull Sau đoacute gọi hagravem bằng caacutech

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 60

60

16

Kiểu File trong Python

bull Khi dữ liệu nhiều coacute thể tổ chức để lưu trữ trong một gập tin

bull Sau đoacute lấy dữ liệu ra bằng hagravem readline() readlines() hoặc để ghi lecircn bằng hagravem writeline() writelines()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 61

61

bull Viacute dụ 10 Sao cheacutep nội dung tập tin Usingpy thagravenh tập tin Usingsave

open(Usingsavew)writelines(open(Usingpyr)

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 62

62

bull Viacute dụ 11 Lấy dữ liệu về Nucleotide từ NCBI dưới dạng file FASTA Sau đoacute lắp gheacutep caacutec dograveng Nucleotide coacute trong file nagravey để tạo ra trigravenh tự DNA tương ứng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 63

63

bull Cần tigravem trecircn NCBI về Nucleotide của H5N1 Vietnam

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 64

64

17

bull Sau khi chọn Search coacute kết quả

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 65

65

bull Chọn Send to để lấy kết quả thứ I vagrave Create File FASTA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 66

66

bull Khi đoacute trecircn đĩa coacute tập tin sequencefastatxt với nội dung Trong đoacutendashDograveng thứ I mocirc tả tecircn của dữ lieundashCaacutec dograveng cograven lại trigravenh tự DNA thagravenh caacutec dograveng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 67

67

bull Tạo một dograveng lagrave trigravenh tự DNA từ file dạng fasta nagravey

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 68

68

18

bull Kết quả trigravenh tự DNA được tạo ra

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 69

69

Hoặc cần lưu lại trigravenh tự nagravey trong tập tin coacute tecircn lấy từ dataname

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 70

70

bull Viacute dụ 12 Bắt cặp 2 trigravenh tự bằng thuật toaacuten Needleman ndash Wunsch

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 71

71

Viacute dụ 12

bull Coacute ba hagravem (chương trigravenh con)ndashSigma tiacutenh giaacute trị σij

ndashAlignment tigravem vết vagrave bắt cặpndashScore tiacutenh điểm

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 72

72

19

bull Hagravem sigma()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 73

73

bull Hagravem alignment()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 74

74

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 75

75

bull Hagravem score()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 76

File NeedlmanWunschGappy

76

20

bull Viacute dụ 13 Bắt cặp cục bộ bởi thuật toaacuten SmithndashWaterman

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 77

77

Page 10: GIỚI THIỆU VỀ NGÔN NGỮ PYTHON - FAIRfair.conf.vn/~lang/lecture/bioinf/IntroBioinf06.pdf · 4 A.Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 13 13 •Để

10

bull Coacute thể chuyển đổi một list thagravenh một string (chuỗi) bằng hagravem join() Chẳng hạn để thecircm kyacute tự gap (dấu -) vagraveo

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 37

37

bull Kiểu Dictionary được tạo trong cặp với dạng keys values

bull Viacute dụ Tigravem trigravenh tự bổ sung của trigravenh tự 5-3

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 38

38

Hagravem range()

bull Cấu truacutecrange( [start] stop [ step] )

bull Trong đoacutendashstart giaacute trị bắt đầu default lagrave 0ndashstop giaacute trị kết thuacutec (nhỏ hơn giaacute trị nagravey)ndashstep bước nhảy default lagrave 1

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 39

39

bull Viacute dụ Tiacutenh bigravenh phương của caacutec số từ [04]

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 40

40

11

bull Viacute dụ Tiacutenh bigravenh phương của caacutec số 2 4 6 8

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 41

41

Tổ chức chương trigravenh

bull Trong Python coacute thể thực thi caacutec cacircu lệnh một caacutech trực tiếp như trecircn

bull Tuy nhiecircn khi coacute nhiều cacircu lệnh cần soạn thảo trước chuacuteng ta coacute thể lưu trữ vagraveo trong một tập tin Python (coacute phần mở rộng lagrave py) để gọi thực hiện một lần bang cacircu lệnh sau tại dấu nhắc của hệ điều hagravenh

python examplepy

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 42

42

bull Viacute dụ chương trigravenh tigravem trigravenh tự bổ sung đảo ngược coacute tecircn DNA35py thực hiện như sau

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 43

43

bull Trong đoacute tập tin DNA35py coacute nội dung lagrave

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 44

44

12

bull Để tập tin DNA35py coacute thể thi hagravenh được magrave khocircng cần gọi đến Python phải thecircm dograveng sau đacircy vagraveo đầu tập tin

usrbinpythonbull Trong đoacute usrbin lagrave folder chứa pythonbull Sau đoacute them thuộc tiacutenh thi hagravenh (execute) cho

tập tin nagravey bang dograveng lệnhchmod +x DNA35py

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 45

45

bull Nội dung tập tin mới lagrave

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 46

46

bull Caacutec cacircu lệnh thi hagravenh sau khi đatilde change mode bang lệnh

chmod +x DNA35py

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 47

47

bull Viacute dụ 09 Dịch matilde trigravenh tự RNA sang trigravenh tự protein

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 48

48

13

Viacute dụ 09

bull Để giải quyết vấn đề nagravey cần 2 bước chiacutenhndashBước 1 taacutech thagravenh caacutec codon riecircngndashBước 2 tra tự điển để dịch matilde

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 49

49

bull Bước 1 Với một trigravenh tự RNA coacute được taacutech thagravenh caacutec codon tương ứng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 50

50

bull Bước 2 Tạo tự điển caacutec amino acid

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 51

51

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 52

52

14

bull Chương trigravenh coacute dạng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 53

53

Tổ chức chương trigravenh

bull Cấu truacutec của một chương trigravenh Python cũng coacute thể bao gồm nhiềundashchương trigravenh con ndashfile liecircn kết với nhau

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 54

54

Chương trigravenh con

bull Chương trigravenh con (Function) lagrave một khối caacutec cacircu lệnh được gom lại với một tecircn gọi thocircng qua từ khoacutea def

bull Chẳng hạn chương trigravenh con xuất ra trigravenh tự RNA từ trigravenh tự DNA cho trước

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 55

55

bull Khi gọi chương trigravenh con sử dụng tecircn của chương trigravenh con kegravem theo danh saacutech tham số

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 56

56

15

Một chương trigravenh gồm nhiều file

bull Caacutec file liecircn kết với nhau qua từ khoacutea import cugraveng với tecircn file tương ứng

bull Viacute dụ Chương trigravenh con ToRNA() được viết trong file coacute tecircn Functionpy

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 57

57

bull Để gọi sử dung từ một file khaacutec (chẳng hạn Usingpy) Phải import như lagrave sự liecircn kết vagrave gọi hagravem phải chỉ định thecircm tecircn file chứa hagravem

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 58

58

bull Trong việc tigravem trigravenh tự bổ sung coacute thể viết

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 59

59

bull Sau đoacute gọi hagravem bằng caacutech

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 60

60

16

Kiểu File trong Python

bull Khi dữ liệu nhiều coacute thể tổ chức để lưu trữ trong một gập tin

bull Sau đoacute lấy dữ liệu ra bằng hagravem readline() readlines() hoặc để ghi lecircn bằng hagravem writeline() writelines()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 61

61

bull Viacute dụ 10 Sao cheacutep nội dung tập tin Usingpy thagravenh tập tin Usingsave

open(Usingsavew)writelines(open(Usingpyr)

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 62

62

bull Viacute dụ 11 Lấy dữ liệu về Nucleotide từ NCBI dưới dạng file FASTA Sau đoacute lắp gheacutep caacutec dograveng Nucleotide coacute trong file nagravey để tạo ra trigravenh tự DNA tương ứng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 63

63

bull Cần tigravem trecircn NCBI về Nucleotide của H5N1 Vietnam

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 64

64

17

bull Sau khi chọn Search coacute kết quả

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 65

65

bull Chọn Send to để lấy kết quả thứ I vagrave Create File FASTA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 66

66

bull Khi đoacute trecircn đĩa coacute tập tin sequencefastatxt với nội dung Trong đoacutendashDograveng thứ I mocirc tả tecircn của dữ lieundashCaacutec dograveng cograven lại trigravenh tự DNA thagravenh caacutec dograveng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 67

67

bull Tạo một dograveng lagrave trigravenh tự DNA từ file dạng fasta nagravey

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 68

68

18

bull Kết quả trigravenh tự DNA được tạo ra

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 69

69

Hoặc cần lưu lại trigravenh tự nagravey trong tập tin coacute tecircn lấy từ dataname

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 70

70

bull Viacute dụ 12 Bắt cặp 2 trigravenh tự bằng thuật toaacuten Needleman ndash Wunsch

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 71

71

Viacute dụ 12

bull Coacute ba hagravem (chương trigravenh con)ndashSigma tiacutenh giaacute trị σij

ndashAlignment tigravem vết vagrave bắt cặpndashScore tiacutenh điểm

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 72

72

19

bull Hagravem sigma()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 73

73

bull Hagravem alignment()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 74

74

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 75

75

bull Hagravem score()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 76

File NeedlmanWunschGappy

76

20

bull Viacute dụ 13 Bắt cặp cục bộ bởi thuật toaacuten SmithndashWaterman

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 77

77

Page 11: GIỚI THIỆU VỀ NGÔN NGỮ PYTHON - FAIRfair.conf.vn/~lang/lecture/bioinf/IntroBioinf06.pdf · 4 A.Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 13 13 •Để

11

bull Viacute dụ Tiacutenh bigravenh phương của caacutec số 2 4 6 8

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 41

41

Tổ chức chương trigravenh

bull Trong Python coacute thể thực thi caacutec cacircu lệnh một caacutech trực tiếp như trecircn

bull Tuy nhiecircn khi coacute nhiều cacircu lệnh cần soạn thảo trước chuacuteng ta coacute thể lưu trữ vagraveo trong một tập tin Python (coacute phần mở rộng lagrave py) để gọi thực hiện một lần bang cacircu lệnh sau tại dấu nhắc của hệ điều hagravenh

python examplepy

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 42

42

bull Viacute dụ chương trigravenh tigravem trigravenh tự bổ sung đảo ngược coacute tecircn DNA35py thực hiện như sau

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 43

43

bull Trong đoacute tập tin DNA35py coacute nội dung lagrave

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 44

44

12

bull Để tập tin DNA35py coacute thể thi hagravenh được magrave khocircng cần gọi đến Python phải thecircm dograveng sau đacircy vagraveo đầu tập tin

usrbinpythonbull Trong đoacute usrbin lagrave folder chứa pythonbull Sau đoacute them thuộc tiacutenh thi hagravenh (execute) cho

tập tin nagravey bang dograveng lệnhchmod +x DNA35py

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 45

45

bull Nội dung tập tin mới lagrave

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 46

46

bull Caacutec cacircu lệnh thi hagravenh sau khi đatilde change mode bang lệnh

chmod +x DNA35py

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 47

47

bull Viacute dụ 09 Dịch matilde trigravenh tự RNA sang trigravenh tự protein

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 48

48

13

Viacute dụ 09

bull Để giải quyết vấn đề nagravey cần 2 bước chiacutenhndashBước 1 taacutech thagravenh caacutec codon riecircngndashBước 2 tra tự điển để dịch matilde

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 49

49

bull Bước 1 Với một trigravenh tự RNA coacute được taacutech thagravenh caacutec codon tương ứng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 50

50

bull Bước 2 Tạo tự điển caacutec amino acid

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 51

51

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 52

52

14

bull Chương trigravenh coacute dạng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 53

53

Tổ chức chương trigravenh

bull Cấu truacutec của một chương trigravenh Python cũng coacute thể bao gồm nhiềundashchương trigravenh con ndashfile liecircn kết với nhau

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 54

54

Chương trigravenh con

bull Chương trigravenh con (Function) lagrave một khối caacutec cacircu lệnh được gom lại với một tecircn gọi thocircng qua từ khoacutea def

bull Chẳng hạn chương trigravenh con xuất ra trigravenh tự RNA từ trigravenh tự DNA cho trước

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 55

55

bull Khi gọi chương trigravenh con sử dụng tecircn của chương trigravenh con kegravem theo danh saacutech tham số

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 56

56

15

Một chương trigravenh gồm nhiều file

bull Caacutec file liecircn kết với nhau qua từ khoacutea import cugraveng với tecircn file tương ứng

bull Viacute dụ Chương trigravenh con ToRNA() được viết trong file coacute tecircn Functionpy

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 57

57

bull Để gọi sử dung từ một file khaacutec (chẳng hạn Usingpy) Phải import như lagrave sự liecircn kết vagrave gọi hagravem phải chỉ định thecircm tecircn file chứa hagravem

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 58

58

bull Trong việc tigravem trigravenh tự bổ sung coacute thể viết

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 59

59

bull Sau đoacute gọi hagravem bằng caacutech

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 60

60

16

Kiểu File trong Python

bull Khi dữ liệu nhiều coacute thể tổ chức để lưu trữ trong một gập tin

bull Sau đoacute lấy dữ liệu ra bằng hagravem readline() readlines() hoặc để ghi lecircn bằng hagravem writeline() writelines()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 61

61

bull Viacute dụ 10 Sao cheacutep nội dung tập tin Usingpy thagravenh tập tin Usingsave

open(Usingsavew)writelines(open(Usingpyr)

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 62

62

bull Viacute dụ 11 Lấy dữ liệu về Nucleotide từ NCBI dưới dạng file FASTA Sau đoacute lắp gheacutep caacutec dograveng Nucleotide coacute trong file nagravey để tạo ra trigravenh tự DNA tương ứng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 63

63

bull Cần tigravem trecircn NCBI về Nucleotide của H5N1 Vietnam

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 64

64

17

bull Sau khi chọn Search coacute kết quả

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 65

65

bull Chọn Send to để lấy kết quả thứ I vagrave Create File FASTA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 66

66

bull Khi đoacute trecircn đĩa coacute tập tin sequencefastatxt với nội dung Trong đoacutendashDograveng thứ I mocirc tả tecircn của dữ lieundashCaacutec dograveng cograven lại trigravenh tự DNA thagravenh caacutec dograveng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 67

67

bull Tạo một dograveng lagrave trigravenh tự DNA từ file dạng fasta nagravey

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 68

68

18

bull Kết quả trigravenh tự DNA được tạo ra

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 69

69

Hoặc cần lưu lại trigravenh tự nagravey trong tập tin coacute tecircn lấy từ dataname

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 70

70

bull Viacute dụ 12 Bắt cặp 2 trigravenh tự bằng thuật toaacuten Needleman ndash Wunsch

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 71

71

Viacute dụ 12

bull Coacute ba hagravem (chương trigravenh con)ndashSigma tiacutenh giaacute trị σij

ndashAlignment tigravem vết vagrave bắt cặpndashScore tiacutenh điểm

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 72

72

19

bull Hagravem sigma()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 73

73

bull Hagravem alignment()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 74

74

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 75

75

bull Hagravem score()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 76

File NeedlmanWunschGappy

76

20

bull Viacute dụ 13 Bắt cặp cục bộ bởi thuật toaacuten SmithndashWaterman

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 77

77

Page 12: GIỚI THIỆU VỀ NGÔN NGỮ PYTHON - FAIRfair.conf.vn/~lang/lecture/bioinf/IntroBioinf06.pdf · 4 A.Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 13 13 •Để

12

bull Để tập tin DNA35py coacute thể thi hagravenh được magrave khocircng cần gọi đến Python phải thecircm dograveng sau đacircy vagraveo đầu tập tin

usrbinpythonbull Trong đoacute usrbin lagrave folder chứa pythonbull Sau đoacute them thuộc tiacutenh thi hagravenh (execute) cho

tập tin nagravey bang dograveng lệnhchmod +x DNA35py

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 45

45

bull Nội dung tập tin mới lagrave

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 46

46

bull Caacutec cacircu lệnh thi hagravenh sau khi đatilde change mode bang lệnh

chmod +x DNA35py

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 47

47

bull Viacute dụ 09 Dịch matilde trigravenh tự RNA sang trigravenh tự protein

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 48

48

13

Viacute dụ 09

bull Để giải quyết vấn đề nagravey cần 2 bước chiacutenhndashBước 1 taacutech thagravenh caacutec codon riecircngndashBước 2 tra tự điển để dịch matilde

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 49

49

bull Bước 1 Với một trigravenh tự RNA coacute được taacutech thagravenh caacutec codon tương ứng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 50

50

bull Bước 2 Tạo tự điển caacutec amino acid

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 51

51

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 52

52

14

bull Chương trigravenh coacute dạng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 53

53

Tổ chức chương trigravenh

bull Cấu truacutec của một chương trigravenh Python cũng coacute thể bao gồm nhiềundashchương trigravenh con ndashfile liecircn kết với nhau

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 54

54

Chương trigravenh con

bull Chương trigravenh con (Function) lagrave một khối caacutec cacircu lệnh được gom lại với một tecircn gọi thocircng qua từ khoacutea def

bull Chẳng hạn chương trigravenh con xuất ra trigravenh tự RNA từ trigravenh tự DNA cho trước

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 55

55

bull Khi gọi chương trigravenh con sử dụng tecircn của chương trigravenh con kegravem theo danh saacutech tham số

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 56

56

15

Một chương trigravenh gồm nhiều file

bull Caacutec file liecircn kết với nhau qua từ khoacutea import cugraveng với tecircn file tương ứng

bull Viacute dụ Chương trigravenh con ToRNA() được viết trong file coacute tecircn Functionpy

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 57

57

bull Để gọi sử dung từ một file khaacutec (chẳng hạn Usingpy) Phải import như lagrave sự liecircn kết vagrave gọi hagravem phải chỉ định thecircm tecircn file chứa hagravem

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 58

58

bull Trong việc tigravem trigravenh tự bổ sung coacute thể viết

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 59

59

bull Sau đoacute gọi hagravem bằng caacutech

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 60

60

16

Kiểu File trong Python

bull Khi dữ liệu nhiều coacute thể tổ chức để lưu trữ trong một gập tin

bull Sau đoacute lấy dữ liệu ra bằng hagravem readline() readlines() hoặc để ghi lecircn bằng hagravem writeline() writelines()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 61

61

bull Viacute dụ 10 Sao cheacutep nội dung tập tin Usingpy thagravenh tập tin Usingsave

open(Usingsavew)writelines(open(Usingpyr)

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 62

62

bull Viacute dụ 11 Lấy dữ liệu về Nucleotide từ NCBI dưới dạng file FASTA Sau đoacute lắp gheacutep caacutec dograveng Nucleotide coacute trong file nagravey để tạo ra trigravenh tự DNA tương ứng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 63

63

bull Cần tigravem trecircn NCBI về Nucleotide của H5N1 Vietnam

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 64

64

17

bull Sau khi chọn Search coacute kết quả

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 65

65

bull Chọn Send to để lấy kết quả thứ I vagrave Create File FASTA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 66

66

bull Khi đoacute trecircn đĩa coacute tập tin sequencefastatxt với nội dung Trong đoacutendashDograveng thứ I mocirc tả tecircn của dữ lieundashCaacutec dograveng cograven lại trigravenh tự DNA thagravenh caacutec dograveng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 67

67

bull Tạo một dograveng lagrave trigravenh tự DNA từ file dạng fasta nagravey

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 68

68

18

bull Kết quả trigravenh tự DNA được tạo ra

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 69

69

Hoặc cần lưu lại trigravenh tự nagravey trong tập tin coacute tecircn lấy từ dataname

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 70

70

bull Viacute dụ 12 Bắt cặp 2 trigravenh tự bằng thuật toaacuten Needleman ndash Wunsch

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 71

71

Viacute dụ 12

bull Coacute ba hagravem (chương trigravenh con)ndashSigma tiacutenh giaacute trị σij

ndashAlignment tigravem vết vagrave bắt cặpndashScore tiacutenh điểm

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 72

72

19

bull Hagravem sigma()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 73

73

bull Hagravem alignment()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 74

74

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 75

75

bull Hagravem score()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 76

File NeedlmanWunschGappy

76

20

bull Viacute dụ 13 Bắt cặp cục bộ bởi thuật toaacuten SmithndashWaterman

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 77

77

Page 13: GIỚI THIỆU VỀ NGÔN NGỮ PYTHON - FAIRfair.conf.vn/~lang/lecture/bioinf/IntroBioinf06.pdf · 4 A.Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 13 13 •Để

13

Viacute dụ 09

bull Để giải quyết vấn đề nagravey cần 2 bước chiacutenhndashBước 1 taacutech thagravenh caacutec codon riecircngndashBước 2 tra tự điển để dịch matilde

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 49

49

bull Bước 1 Với một trigravenh tự RNA coacute được taacutech thagravenh caacutec codon tương ứng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 50

50

bull Bước 2 Tạo tự điển caacutec amino acid

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 51

51

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 52

52

14

bull Chương trigravenh coacute dạng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 53

53

Tổ chức chương trigravenh

bull Cấu truacutec của một chương trigravenh Python cũng coacute thể bao gồm nhiềundashchương trigravenh con ndashfile liecircn kết với nhau

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 54

54

Chương trigravenh con

bull Chương trigravenh con (Function) lagrave một khối caacutec cacircu lệnh được gom lại với một tecircn gọi thocircng qua từ khoacutea def

bull Chẳng hạn chương trigravenh con xuất ra trigravenh tự RNA từ trigravenh tự DNA cho trước

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 55

55

bull Khi gọi chương trigravenh con sử dụng tecircn của chương trigravenh con kegravem theo danh saacutech tham số

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 56

56

15

Một chương trigravenh gồm nhiều file

bull Caacutec file liecircn kết với nhau qua từ khoacutea import cugraveng với tecircn file tương ứng

bull Viacute dụ Chương trigravenh con ToRNA() được viết trong file coacute tecircn Functionpy

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 57

57

bull Để gọi sử dung từ một file khaacutec (chẳng hạn Usingpy) Phải import như lagrave sự liecircn kết vagrave gọi hagravem phải chỉ định thecircm tecircn file chứa hagravem

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 58

58

bull Trong việc tigravem trigravenh tự bổ sung coacute thể viết

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 59

59

bull Sau đoacute gọi hagravem bằng caacutech

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 60

60

16

Kiểu File trong Python

bull Khi dữ liệu nhiều coacute thể tổ chức để lưu trữ trong một gập tin

bull Sau đoacute lấy dữ liệu ra bằng hagravem readline() readlines() hoặc để ghi lecircn bằng hagravem writeline() writelines()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 61

61

bull Viacute dụ 10 Sao cheacutep nội dung tập tin Usingpy thagravenh tập tin Usingsave

open(Usingsavew)writelines(open(Usingpyr)

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 62

62

bull Viacute dụ 11 Lấy dữ liệu về Nucleotide từ NCBI dưới dạng file FASTA Sau đoacute lắp gheacutep caacutec dograveng Nucleotide coacute trong file nagravey để tạo ra trigravenh tự DNA tương ứng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 63

63

bull Cần tigravem trecircn NCBI về Nucleotide của H5N1 Vietnam

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 64

64

17

bull Sau khi chọn Search coacute kết quả

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 65

65

bull Chọn Send to để lấy kết quả thứ I vagrave Create File FASTA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 66

66

bull Khi đoacute trecircn đĩa coacute tập tin sequencefastatxt với nội dung Trong đoacutendashDograveng thứ I mocirc tả tecircn của dữ lieundashCaacutec dograveng cograven lại trigravenh tự DNA thagravenh caacutec dograveng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 67

67

bull Tạo một dograveng lagrave trigravenh tự DNA từ file dạng fasta nagravey

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 68

68

18

bull Kết quả trigravenh tự DNA được tạo ra

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 69

69

Hoặc cần lưu lại trigravenh tự nagravey trong tập tin coacute tecircn lấy từ dataname

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 70

70

bull Viacute dụ 12 Bắt cặp 2 trigravenh tự bằng thuật toaacuten Needleman ndash Wunsch

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 71

71

Viacute dụ 12

bull Coacute ba hagravem (chương trigravenh con)ndashSigma tiacutenh giaacute trị σij

ndashAlignment tigravem vết vagrave bắt cặpndashScore tiacutenh điểm

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 72

72

19

bull Hagravem sigma()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 73

73

bull Hagravem alignment()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 74

74

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 75

75

bull Hagravem score()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 76

File NeedlmanWunschGappy

76

20

bull Viacute dụ 13 Bắt cặp cục bộ bởi thuật toaacuten SmithndashWaterman

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 77

77

Page 14: GIỚI THIỆU VỀ NGÔN NGỮ PYTHON - FAIRfair.conf.vn/~lang/lecture/bioinf/IntroBioinf06.pdf · 4 A.Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 13 13 •Để

14

bull Chương trigravenh coacute dạng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 53

53

Tổ chức chương trigravenh

bull Cấu truacutec của một chương trigravenh Python cũng coacute thể bao gồm nhiềundashchương trigravenh con ndashfile liecircn kết với nhau

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 54

54

Chương trigravenh con

bull Chương trigravenh con (Function) lagrave một khối caacutec cacircu lệnh được gom lại với một tecircn gọi thocircng qua từ khoacutea def

bull Chẳng hạn chương trigravenh con xuất ra trigravenh tự RNA từ trigravenh tự DNA cho trước

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 55

55

bull Khi gọi chương trigravenh con sử dụng tecircn của chương trigravenh con kegravem theo danh saacutech tham số

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 56

56

15

Một chương trigravenh gồm nhiều file

bull Caacutec file liecircn kết với nhau qua từ khoacutea import cugraveng với tecircn file tương ứng

bull Viacute dụ Chương trigravenh con ToRNA() được viết trong file coacute tecircn Functionpy

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 57

57

bull Để gọi sử dung từ một file khaacutec (chẳng hạn Usingpy) Phải import như lagrave sự liecircn kết vagrave gọi hagravem phải chỉ định thecircm tecircn file chứa hagravem

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 58

58

bull Trong việc tigravem trigravenh tự bổ sung coacute thể viết

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 59

59

bull Sau đoacute gọi hagravem bằng caacutech

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 60

60

16

Kiểu File trong Python

bull Khi dữ liệu nhiều coacute thể tổ chức để lưu trữ trong một gập tin

bull Sau đoacute lấy dữ liệu ra bằng hagravem readline() readlines() hoặc để ghi lecircn bằng hagravem writeline() writelines()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 61

61

bull Viacute dụ 10 Sao cheacutep nội dung tập tin Usingpy thagravenh tập tin Usingsave

open(Usingsavew)writelines(open(Usingpyr)

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 62

62

bull Viacute dụ 11 Lấy dữ liệu về Nucleotide từ NCBI dưới dạng file FASTA Sau đoacute lắp gheacutep caacutec dograveng Nucleotide coacute trong file nagravey để tạo ra trigravenh tự DNA tương ứng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 63

63

bull Cần tigravem trecircn NCBI về Nucleotide của H5N1 Vietnam

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 64

64

17

bull Sau khi chọn Search coacute kết quả

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 65

65

bull Chọn Send to để lấy kết quả thứ I vagrave Create File FASTA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 66

66

bull Khi đoacute trecircn đĩa coacute tập tin sequencefastatxt với nội dung Trong đoacutendashDograveng thứ I mocirc tả tecircn của dữ lieundashCaacutec dograveng cograven lại trigravenh tự DNA thagravenh caacutec dograveng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 67

67

bull Tạo một dograveng lagrave trigravenh tự DNA từ file dạng fasta nagravey

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 68

68

18

bull Kết quả trigravenh tự DNA được tạo ra

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 69

69

Hoặc cần lưu lại trigravenh tự nagravey trong tập tin coacute tecircn lấy từ dataname

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 70

70

bull Viacute dụ 12 Bắt cặp 2 trigravenh tự bằng thuật toaacuten Needleman ndash Wunsch

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 71

71

Viacute dụ 12

bull Coacute ba hagravem (chương trigravenh con)ndashSigma tiacutenh giaacute trị σij

ndashAlignment tigravem vết vagrave bắt cặpndashScore tiacutenh điểm

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 72

72

19

bull Hagravem sigma()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 73

73

bull Hagravem alignment()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 74

74

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 75

75

bull Hagravem score()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 76

File NeedlmanWunschGappy

76

20

bull Viacute dụ 13 Bắt cặp cục bộ bởi thuật toaacuten SmithndashWaterman

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 77

77

Page 15: GIỚI THIỆU VỀ NGÔN NGỮ PYTHON - FAIRfair.conf.vn/~lang/lecture/bioinf/IntroBioinf06.pdf · 4 A.Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 13 13 •Để

15

Một chương trigravenh gồm nhiều file

bull Caacutec file liecircn kết với nhau qua từ khoacutea import cugraveng với tecircn file tương ứng

bull Viacute dụ Chương trigravenh con ToRNA() được viết trong file coacute tecircn Functionpy

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 57

57

bull Để gọi sử dung từ một file khaacutec (chẳng hạn Usingpy) Phải import như lagrave sự liecircn kết vagrave gọi hagravem phải chỉ định thecircm tecircn file chứa hagravem

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 58

58

bull Trong việc tigravem trigravenh tự bổ sung coacute thể viết

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 59

59

bull Sau đoacute gọi hagravem bằng caacutech

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 60

60

16

Kiểu File trong Python

bull Khi dữ liệu nhiều coacute thể tổ chức để lưu trữ trong một gập tin

bull Sau đoacute lấy dữ liệu ra bằng hagravem readline() readlines() hoặc để ghi lecircn bằng hagravem writeline() writelines()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 61

61

bull Viacute dụ 10 Sao cheacutep nội dung tập tin Usingpy thagravenh tập tin Usingsave

open(Usingsavew)writelines(open(Usingpyr)

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 62

62

bull Viacute dụ 11 Lấy dữ liệu về Nucleotide từ NCBI dưới dạng file FASTA Sau đoacute lắp gheacutep caacutec dograveng Nucleotide coacute trong file nagravey để tạo ra trigravenh tự DNA tương ứng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 63

63

bull Cần tigravem trecircn NCBI về Nucleotide của H5N1 Vietnam

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 64

64

17

bull Sau khi chọn Search coacute kết quả

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 65

65

bull Chọn Send to để lấy kết quả thứ I vagrave Create File FASTA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 66

66

bull Khi đoacute trecircn đĩa coacute tập tin sequencefastatxt với nội dung Trong đoacutendashDograveng thứ I mocirc tả tecircn của dữ lieundashCaacutec dograveng cograven lại trigravenh tự DNA thagravenh caacutec dograveng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 67

67

bull Tạo một dograveng lagrave trigravenh tự DNA từ file dạng fasta nagravey

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 68

68

18

bull Kết quả trigravenh tự DNA được tạo ra

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 69

69

Hoặc cần lưu lại trigravenh tự nagravey trong tập tin coacute tecircn lấy từ dataname

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 70

70

bull Viacute dụ 12 Bắt cặp 2 trigravenh tự bằng thuật toaacuten Needleman ndash Wunsch

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 71

71

Viacute dụ 12

bull Coacute ba hagravem (chương trigravenh con)ndashSigma tiacutenh giaacute trị σij

ndashAlignment tigravem vết vagrave bắt cặpndashScore tiacutenh điểm

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 72

72

19

bull Hagravem sigma()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 73

73

bull Hagravem alignment()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 74

74

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 75

75

bull Hagravem score()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 76

File NeedlmanWunschGappy

76

20

bull Viacute dụ 13 Bắt cặp cục bộ bởi thuật toaacuten SmithndashWaterman

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 77

77

Page 16: GIỚI THIỆU VỀ NGÔN NGỮ PYTHON - FAIRfair.conf.vn/~lang/lecture/bioinf/IntroBioinf06.pdf · 4 A.Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 13 13 •Để

16

Kiểu File trong Python

bull Khi dữ liệu nhiều coacute thể tổ chức để lưu trữ trong một gập tin

bull Sau đoacute lấy dữ liệu ra bằng hagravem readline() readlines() hoặc để ghi lecircn bằng hagravem writeline() writelines()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 61

61

bull Viacute dụ 10 Sao cheacutep nội dung tập tin Usingpy thagravenh tập tin Usingsave

open(Usingsavew)writelines(open(Usingpyr)

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 62

62

bull Viacute dụ 11 Lấy dữ liệu về Nucleotide từ NCBI dưới dạng file FASTA Sau đoacute lắp gheacutep caacutec dograveng Nucleotide coacute trong file nagravey để tạo ra trigravenh tự DNA tương ứng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 63

63

bull Cần tigravem trecircn NCBI về Nucleotide của H5N1 Vietnam

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 64

64

17

bull Sau khi chọn Search coacute kết quả

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 65

65

bull Chọn Send to để lấy kết quả thứ I vagrave Create File FASTA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 66

66

bull Khi đoacute trecircn đĩa coacute tập tin sequencefastatxt với nội dung Trong đoacutendashDograveng thứ I mocirc tả tecircn của dữ lieundashCaacutec dograveng cograven lại trigravenh tự DNA thagravenh caacutec dograveng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 67

67

bull Tạo một dograveng lagrave trigravenh tự DNA từ file dạng fasta nagravey

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 68

68

18

bull Kết quả trigravenh tự DNA được tạo ra

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 69

69

Hoặc cần lưu lại trigravenh tự nagravey trong tập tin coacute tecircn lấy từ dataname

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 70

70

bull Viacute dụ 12 Bắt cặp 2 trigravenh tự bằng thuật toaacuten Needleman ndash Wunsch

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 71

71

Viacute dụ 12

bull Coacute ba hagravem (chương trigravenh con)ndashSigma tiacutenh giaacute trị σij

ndashAlignment tigravem vết vagrave bắt cặpndashScore tiacutenh điểm

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 72

72

19

bull Hagravem sigma()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 73

73

bull Hagravem alignment()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 74

74

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 75

75

bull Hagravem score()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 76

File NeedlmanWunschGappy

76

20

bull Viacute dụ 13 Bắt cặp cục bộ bởi thuật toaacuten SmithndashWaterman

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 77

77

Page 17: GIỚI THIỆU VỀ NGÔN NGỮ PYTHON - FAIRfair.conf.vn/~lang/lecture/bioinf/IntroBioinf06.pdf · 4 A.Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 13 13 •Để

17

bull Sau khi chọn Search coacute kết quả

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 65

65

bull Chọn Send to để lấy kết quả thứ I vagrave Create File FASTA

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 66

66

bull Khi đoacute trecircn đĩa coacute tập tin sequencefastatxt với nội dung Trong đoacutendashDograveng thứ I mocirc tả tecircn của dữ lieundashCaacutec dograveng cograven lại trigravenh tự DNA thagravenh caacutec dograveng

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 67

67

bull Tạo một dograveng lagrave trigravenh tự DNA từ file dạng fasta nagravey

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 68

68

18

bull Kết quả trigravenh tự DNA được tạo ra

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 69

69

Hoặc cần lưu lại trigravenh tự nagravey trong tập tin coacute tecircn lấy từ dataname

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 70

70

bull Viacute dụ 12 Bắt cặp 2 trigravenh tự bằng thuật toaacuten Needleman ndash Wunsch

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 71

71

Viacute dụ 12

bull Coacute ba hagravem (chương trigravenh con)ndashSigma tiacutenh giaacute trị σij

ndashAlignment tigravem vết vagrave bắt cặpndashScore tiacutenh điểm

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 72

72

19

bull Hagravem sigma()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 73

73

bull Hagravem alignment()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 74

74

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 75

75

bull Hagravem score()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 76

File NeedlmanWunschGappy

76

20

bull Viacute dụ 13 Bắt cặp cục bộ bởi thuật toaacuten SmithndashWaterman

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 77

77

Page 18: GIỚI THIỆU VỀ NGÔN NGỮ PYTHON - FAIRfair.conf.vn/~lang/lecture/bioinf/IntroBioinf06.pdf · 4 A.Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 13 13 •Để

18

bull Kết quả trigravenh tự DNA được tạo ra

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 69

69

Hoặc cần lưu lại trigravenh tự nagravey trong tập tin coacute tecircn lấy từ dataname

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 70

70

bull Viacute dụ 12 Bắt cặp 2 trigravenh tự bằng thuật toaacuten Needleman ndash Wunsch

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 71

71

Viacute dụ 12

bull Coacute ba hagravem (chương trigravenh con)ndashSigma tiacutenh giaacute trị σij

ndashAlignment tigravem vết vagrave bắt cặpndashScore tiacutenh điểm

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 72

72

19

bull Hagravem sigma()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 73

73

bull Hagravem alignment()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 74

74

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 75

75

bull Hagravem score()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 76

File NeedlmanWunschGappy

76

20

bull Viacute dụ 13 Bắt cặp cục bộ bởi thuật toaacuten SmithndashWaterman

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 77

77

Page 19: GIỚI THIỆU VỀ NGÔN NGỮ PYTHON - FAIRfair.conf.vn/~lang/lecture/bioinf/IntroBioinf06.pdf · 4 A.Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 13 13 •Để

19

bull Hagravem sigma()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 73

73

bull Hagravem alignment()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 74

74

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 75

75

bull Hagravem score()

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 76

File NeedlmanWunschGappy

76

20

bull Viacute dụ 13 Bắt cặp cục bộ bởi thuật toaacuten SmithndashWaterman

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 77

77

Page 20: GIỚI THIỆU VỀ NGÔN NGỮ PYTHON - FAIRfair.conf.vn/~lang/lecture/bioinf/IntroBioinf06.pdf · 4 A.Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 13 13 •Để

20

bull Viacute dụ 13 Bắt cặp cục bộ bởi thuật toaacuten SmithndashWaterman

AProf Tran Van Lang PhD VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 77

77