geneorder : comparing the order of genes in small genomes
DESCRIPTION
GeneOrder : comparing the order of genes in small genomes. 200034061 윤 여 란. ABSTRACT. Motivation - 전체 게놈 DNA 순서 데이터의 빠른 성장으로 완벽한 분석을 위한 유전자 데이터 마이닝 소프트웨어 툴의 필요 성 커짐 Results - GeneOrder : 웹 기반의 상호 작용 계산 툴 2 개의 유전자에서 유전자 순서 비교 출력에서 ‘ Protein Cording Regions ’ 로 가는 하이퍼 - PowerPoint PPT PresentationTRANSCRIPT
GeneOrder : comparing the order of genes
in small genomes
200034061
윤 여 란
ABSTRACT
Motivation - 전체 게놈 DNA 순서 데이터의 빠른 성장으로 완벽한 분석을 위한 유전자 데이터 마이닝 소프트웨어 툴의
필요 성 커짐 Results - GeneOrder : 웹 기반의 상호 작용 계산 툴 2 개의 유전자에서 유전자 순서 비교 출력에서 ‘ Protein Cording Regions’ 로 가는 하이퍼 링크 제공
INTRODUCTION
비교유전학 - 생물학적인 기능을 더 잘 이해하는데 도움을 줌 - 조직내의 보통의 관련된 유전자를 밝혀내고 ,
순서의 차이 연구 . 추정되는 유전자에는 이미 알려진 유전자 순서의 유사함에 기반하여 기능 부여
- 게놈 분석 프로그램 : BLAST, FASTA - 연구 활발하지 못함 : 사용자에게 친숙한
소프트웨어 부족 - KEGG 웹 사이트에서 프로그램 제공 -> 한계 ->
개선된 프로그램 개발 (GeneOrder)
INTRODUCTION
NCBI - National Center for Biotechnology Information (
미국 국립 생물 정보 센터 ) - GenBank 운영 , 데이터 분석 , retrieval & resourc
e 들 제공 , 단백질 구조 링크 BLAST - Basic Local Alignment Search Tool - NCBI/GenBank 의 research staff 에 의해 개발된
유사성 검색 프로그램 - BLASTP : 단백질 서열간의 비교
MATERIALS AND METHODS
Algorithm - NCBI GenBank 의 DB 에서 두 개의 전체 게놈
엔티티들은 GenBank 접근 번호를 통해 접근 가능 - reference 데이터베이스 게놈 , query 게놈 - 주석 (annotation) : 추정 단백질의 순서 포함 - 질의 단백질은 BLASTP 사용하여 순서대로 DB 에
질의 ->alignment score >= 전에 할당 된 BLASTP high sco
re 초기값 -> 유전자들 짝 지음 , 유전자 번호 추출하여 저장
- x-y 차원에서 데이터를 좌표에 나타내는 프로그램 사용
MATERIALS AND METHODS
Program description - Perl, 자바 스크립트
사용 - 기본 : BLASTP
프로그램 - score 가 사용자 지정
범위 안에 있으면 유전자 번호와 BLASTP high score 추출 , 출력 테이블 생성
- 하이퍼링크 : protein cording region
MATERIALS AND METHODS
Parameter - 데이터베이스 박스 : 게놈 순서를 위한 GenBank
접근 번호 입력 - 질의 박스 : 비교 될 게놈 순서를 위한 GenBank
접근 번호 입력 - 데이터베이스 선택 ( 드롭 - 다운 메뉴 : GeneBank) - A, B, C 박스 : 세 개의 범위로 BLASTP high score
파라미터 (75 이상 ) 를 지정 , 각각 A, B, C 박스로 들어감 ( 디폴트 : A-200 이상 , B-100~200, C-75~100)
RESULT AND DISCUSSION
GeneOrder application description
- 초기 출력 : 테이블 형태 - 양과 사람의
아데노바이러스 비교 - x : 질의 조직 유전자 번호 - y : 데이터베이스 조직
유전자 번호 -A, B, C 디폴트 값 사용 - 하이퍼 링크
RESULT AND DISCUSSION
그래프로 표현 - Microsoft Excel 의 ‘ Chart Wizard’ 사용
RESULT AND DISCUSSION 수행시간 - ATCC, NCBI 서버에 의존 - 200 개 유전자 가진 게놈 -> 표로 출력 : 1~3 분 소요 ( 이더넷으로 연결된 iMac(233 MHz) 에서 ..) 제약 - 유전자 순서 생성할 때 NCBI 데이터베이스에서
데이터를 가져오므로 NCBI DB 에 질의하는데 요구되는 시간에 의존하게 됨
- GenBank 접근 번호를 가진 NCBI DB 만 오직 사용 됨
- 각각의 게놈 안의 유전자 전체 개수 약 200 개로 한정 ( 출력 임시 파일을 저장하는데 제공되는 디스크 공간 부족 )
RESULT AND DISCUSSION
결 론 - GeneOrder : 탐색자들이 게놈의 타입을 결정하고
분석하는 것 도움 - 기능 향상 노력 : * 사용자들 소유의 DB 를
포함한 다른 DB 로의 접근을 허락 , 비교 * 서버에 전체 게놈 데이터를
보관하여 응답 시간 향상시키도록 ...
GeneOrder 3.0 수행과정
GeneOrder 3.0 수행결과