me - 0 # $$112 34 !# 5$# 6 7189 3 6 $679 6 3 6123712 :!6;
TRANSCRIPT
발간등록번호: 11-1480592-001060-01
NIBR201512104
독청버섯과(Strophariaceae) 버섯종 유래
유용물질 탐색 1차년도
Screening of bioactive compounds
from the mushroom-forming fungi
(Family Strophariaceae) 1
2015
국립생물자원관National Institute of Biological Resources
독청버섯과(Strophariaceae) 버섯종 유래
유용물질 탐색 1차년도
생물자원활용부 유용자원분석과
윤혁준
Screening of bioactive compounds from
the mushroom-forming fungi
(Family Strophariaceae) 1
Hyeokjun Yoon
Biological and Genetic Resources Assessment Division
National Institute of Biological Resources
2015
소 속 연구분야 담당자
유용자원분석과연구사업총괄
유전체 정보 분석윤혁준(총괄연구책임자)
대상종 선정 김창무
경북대학교 유전자 정보 분석 김종국
유전자 정보 분석 김 현
유전자 정보 분석 남윤종
유전자 정보 분석 오유선
유전자 정보 분석 정민지
참여 연구진
- i -
요 약 문
1. 제 목
독청버섯과(Strophariaceae) 버섯종 유래 유용물질 탐색 1차년도
2. 목 적
항균, 항암 등 생리활성이 우수한 독청버섯과 버섯종의 유용물질 및 생합성
유전자 정보 확보를 통해 유용물질 대량생산 기반 구축
3. 연구내용 및 방법
가. 버섯종 채집확보, 동정 및 배양체 확보
1) 버섯 자실체 수집 및 자실체로부터 분리배양을 통한 배양체 확보
- 기 확보종 1종(국립생물자원관) 및 당해연도 채집종 2종(강원도 오대산, ‘15.8)
2) 형태적, 분자생물학적(ITS region) 분석을 통한 종 동정
나. 유전체 염기서열 해독
1) 고품질 RNA 추출 절차 확립
2) 발현 유전체 시퀀싱(RNA sequencing) 수행
- Illumina Hiseq2500(PE sequencing(200 bp)) 염기서열해독기 이용
3) 전사체 서열 전처리, 조립 및 서열 집단화를 통한 오류 서열 제거
다. 유전자 기능 분석
1) Unigene의 단백질 발현 서열(Coding sequence, CDS) 분석
2) DNA 및 단백질 서열 기반의 상동성 검색을 통한 유전자 기능 분석
3) RSEM 프로그램을 이용하여 전사체 발현량 측정
- ii -
4. 연구결과
가. 버섯종 채집확보, 동정 및 배양체 확보
1) 버섯 자실체 수집(2종) 및 자실체로부터 분리배양을 통한 배양체 확보(2종)
2) 종 동정 결과 개암버섯 및 노란다발버섯으로 분석
나. 유전체 염기서열 해독(3종)
1) 비늘버섯의 발현 유전체 시퀀싱(RNA sequencing)
가) 비늘버섯 균사 시료로부터 11.3 Gb의 발현 유전체 서열 확보
나) 31,958개(32,944,295 bp)의 Unigene 확보
2) 개암버섯의 발현 유전체 시퀀싱(RNA sequencing)
가) 개암버섯 균사 시료로부터 8.5 Gb의 발현 유전체 서열 확보
나) 40,793개(61,020,017 bp)의 Unigene 확보
3) 노란다발버섯의 발현 유전체 시퀀싱(RNA sequencing)
가) 노란다발버섯 균사 시료로부터 8.2 Gb의 발현 유전체 서열 확보
나) 62,785개(235,243,548 bp)의 Unigene 확보
다. 유전자 기능 분석
1) 비늘버섯의 유전자 기능 분석
가) DNA 서열 기반의 상동성 검색을 통한 유전자 기능 분석
(1) Homologous Hits 19,245개, Non-Homologous Hits 12,713개 분석
(2) BLAST Hits의 48.5%(15,485개)가 Plants 범주에 속함
나) 단백질 서열 기반의 상동성 검색을 통한 유전자 기능 분석
- 1개의 CDS를 포함하는 Unigene의 개수는 총 26,371개(Predicted
: 16,156개/Validated : 10,215개)로 분석
다) RSEM 프로그램을 이용하여 전사체 발현량 측정
- Known gene 19,338개, Novel gene 12,620개의 발현량 측정
- iii -
2) 개암버섯의 유전자 기능 분석
가) DNA 서열 기반의 상동성 검색을 통한 유전자 기능 분석
(1) Homologous Hits 26,338개, Non-Homologous Hits 14,455개 분석
(2) BLAST Hits의 51.6%(21,059개)가 Plants 범주에 속함
나) 단백질 서열 기반의 상동성 검색을 통한 유전자 기능 분석
- 1개의 CDS를 포함하는 Unigene의 개수는 총 29,129개(Predicted
: 16,614개/Validated : 12,515개)로 분석
다) RSEM 프로그램을 이용하여 전사체 발현량 측정
- Known gene 26,452개, Novel gene 14,341개의 발현량 측정
3) 노란다발버섯의 유전자 기능 분석
가) DNA 서열 기반의 상동성 검색을 통한 유전자 기능 분석
(1) Homologous Hits 49,666개, Non-Homologous Hits 13,119개 분석
(2) BLAST Hits의 62.4%(39,183개)가 Plants 범주에 속함
나) 단백질 서열 기반의 상동성 검색을 통한 유전자 기능 분석
- 1개의 CDS를 포함하는 Unigene의 개수는 총 29,164개(Predicted
: 14,242개/Validated : 14,922개)로 분석
다) RSEM 프로그램을 이용하여 전사체 발현량 측정
- Known gene 49,804개, Novel gene 12,981개의 발현량 측정
5. 연구결과의 활용에 대한 건의
당해연도 사업을 통해 확보된 독청버섯과 발현 유전자 정보를 바탕으로
항균·항암 효과가 알려져 있는 특정 독버섯에 대한 효능·성분 분석 연구에
활용할 예정이며, 금후 유용물질 생합성 유전자 발굴과 연계하여 유용유전자
정보의 산업계 제공 및 유용 생물소재 대량생산에 활용 할 수 있음
- iv -
목 차
요약문 ····················································································································· i
목차 ······················································································································ iv
표 목차 ················································································································· v
그림 목차 ············································································································vi
Abstract ·············································································································vii
I. 서론 ··················································································································· 1
II. 연구방법 ··········································································································3
1. 고품질 RNA 추출 절차 확립 ·································································· 3
2. 서열 조립 및 유전자 획득 ······································································· 3
3. 유전자 기능 분석 ······················································································· 5
4. 유전자 발현량 측정 ··················································································· 5
III. 연구결과 ·········································································································7
1. 비늘버섯 발현 유전자 시퀀싱(RNA sequencing) ······························· 7
가. 고품질 RNA 추출 ·················································································7
나. 서열 조립 및 유전자 획득 ·································································· 8
다. 유전자 기능 분석 ················································································ 10
라. 유전자 발현량 측정 ············································································ 19
2. 개암버섯 발현 유전자 시퀀싱(RNA sequencing) ····························· 25
가. 고품질 RNA 추출 ··············································································· 25
나. 서열 조립 및 유전자 획득 ································································ 26
다. 유전자 기능 분석 ················································································ 28
라. 유전자 발현량 측정 ············································································ 37
3. 노란다발버섯 발현 유전자 시퀀싱(RNA sequencing) ····················· 43
가. 고품질 RNA 추출 ··············································································· 43
나. 서열 조립 및 유전자 획득 ································································ 44
다. 유전자 기능 분석 ················································································ 46
라. 유전자 발현량 측정 ············································································ 55
IV. 고찰 및 결론 ······························································································ 61
V. 참고문헌 ········································································································63
- v -
표 목 차
표 III-1-1. RNA Sample QC 결과 ································································7
표 III-1-2. RNA 대량염기서열 전처리 결과 ···············································8
표 III-1-3. RNA 대량염기서열 조립 결과 ···················································9
표 III-1-4. BLAST 분석 결과 Homologous/Non-Homologous Hits의 개수 및 비율· 10
표 III-1-5. BLAST Hits 리스트(Bit Score 기준 상위 50개) ················11
표 III-1-6. InterProScan 분석 결과 Unigene의 Predicted/Validated CDS의 개수· 14
표 III-1-7. Unigene내의 CDS Type 분석 결과 ······································· 14
표 III-1-8. InterProScan 분석 결과 리스트(Score 기준 상위 50개) ··· 15
표 III-1-9. BLAST 및 InterProScan 분석 결과 ······································ 18
표 III-1-10. 유전자 발현량 분석 결과 표준화(> fpkm 1.0) ·················· 19
표 III-1-11. 유전자 발현량 분석 결과 리스트(FPKM값 기준 상위 100개) · 20
표 III-2-1. RNA Sample QC 결과 ······························································25
표 III-2-2. RNA 대량염기서열 전처리 결과 ·············································26
표 III-2-3. RNA 대량염기서열 조립 결과 ·················································27
표 III-2-4. BLAST 분석 결과 Homologous/Non-Homologous Hits의 개수 및 비율· 28
표 III-2-5. BLAST Hits 리스트(Bit Score 기준 상위 50개) ················29
표 III-2-6. InterProScan 분석 결과 Unigene의 Predicted/Validated CDS의 개수· 32
표 III-2-7. Unigene내의 CDS Type 분석 결과 ······································· 32
표 III-2-8. InterProScan 분석 결과 리스트(Score 기준 상위 50개) ··· 33
표 III-2-9. BLAST 및 InterProScan 분석 결과 ······································ 36
표 III-2-10. 유전자 발현량 분석 결과 표준화(> fpkm 1.0) ·················· 37
표 III-2-11. 유전자 발현량 분석 결과 리스트(FPKM값 기준 상위 100개) · 38
표 III-3-1. RNA Sample QC 결과 ······························································43
표 III-3-2. RNA 대량염기서열 전처리 결과 ·············································44
표 III-3-3. RNA 대량염기서열 조립 결과 ·················································45
표 III-3-4. BLAST 분석 결과 Homologous/Non-Homologous Hits의 개수 및 비율· 46
표 III-3-5. BLAST Hits 리스트(Bit Score 기준 상위 50개) ················47
표 III-3-6. InterProScan 분석 결과 Unigene의 Predicted/Validated CDS의 개수· 50
표 III-3-7. Unigene내의 CDS Type 분석 결과 ······································· 50
표 III-3-8. InterProScan 분석 결과 리스트(Score 기준 상위 50개) ··· 51
표 III-3-9. BLAST 및 InterProScan 분석 결과 ······································ 54
표 III-3-10. 유전자 발현량 분석 결과 표준화(> fpkm 1.0) ·················· 55
표 III-3-11. 유전자 발현량 분석 결과 리스트(FPKM값 기준 상위 100개) · 56
- vi -
그 림 목 차
그림 I-1-1. 버섯의 생활사(Life cycle) ··························································1
그림 III-1-1. RNA Integrity 측정 결과 ·······················································7
그림 III-1-2. RNA 염기서열 Quality 분석 결과 ········································8
그림 III-1-3. RNA 대량염기서열 조립 결과의 길이 분포도 ··················· 9
그림 III-1-4. BLAST Annotation 결과 모식도 ········································10
그림 III-1-5. InterProScan 분석 결과 모식도 ···········································14
그림 III-1-6. BLAST 및 InterProScan 분석 결과 모식도 ···················· 18
그림 III-1-7. RSEM을 이용한 유전자 발현량 분석 결과 ······················ 19
그림 III-1-8. RSEM을 이용한 유전자 발현량 분석 결과 표준화(Normalization) ·· 19
그림 III-2-1. RNA Integrity 측정 결과 ·····················································25
그림 III-2-2. RNA 염기서열 Quality 분석 결과 ······································26
그림 III-2-3. RNA 대량염기서열 조립 결과의 길이 분포도 ················· 27
그림 III-2-4. BLAST Annotation 결과 모식도 ········································28
그림 III-2-5. InterProScan 분석 결과 모식도 ···········································32
그림 III-2-6. BLAST 및 InterProScan 분석 결과 모식도 ···················· 36
그림 III-2-7. RSEM을 이용한 유전자 발현량 분석 결과 ······················ 37
그림 III-2-8. RSEM을 이용한 유전자 발현량 분석 결과 표준화(Normalization) ·· 37
그림 III-3-1. RNA Integrity 측정 결과 ·····················································43
그림 III-3-2. RNA 염기서열 Quality 분석 결과 ······································44
그림 III-3-3. RNA 대량염기서열 조립 결과의 길이 분포도 ················· 45
그림 III-3-4. BLAST Annotation 결과 모식도 ········································46
그림 III-3-5. InterProScan 분석 결과 모식도 ···········································50
그림 III-3-6. BLAST 및 InterProScan 분석 결과 모식도 ···················· 54
그림 III-3-7. RSEM을 이용한 유전자 발현량 분석 결과 ······················ 55
그림 III-3-8. RSEM을 이용한 유전자 발현량 분석 결과 표준화(Normalization) ·· 55
- vii -
Abstract
The Kingdom Fungi is one of eukaryotic kingdom systems, and includes
molds, mushrooms and yeasts. Fungi are heterotrophic organisms that grow
on alive or dead hosts, such as animals, plants, and insects. The
Agaricomycotina species in the phylum Basidiomycota have four distinct
developmental stages: monokaryotic mycelium, dikaryotic mycelium,
dikaryotic primordium, and dikaryotic basidiocarp. Dikaryotic primordium is
formed under appropriate environmental conditions, such as suitable CO2
concentration, humidity, light, and temperature. Dikaryotic primordium
develops into the dikaryotic basidiocarp(mushroom). Mushrooms are not only
used for food but also as biopharmaceutical or industrial materials. They can
be cultivated for a short period of time, and their culture conditions are
uncomplicated compared to crops. The genome sequencing projects of
mushrooms are actively ongoing, and the genetic information of the
mushrooms has gradually accumulated. In this study, we report the
information on transcriptomes of three poisonous mushrooms (Pholiota
squarrosa, Hypholoma lateritium, and Hypholoma fasciculare), which belong
to the family Strophariaceae in the class Agaricomycetes. Sequencing was
progressed as paired-end (2×100bp) using Illumina HiSeq2500 (Illumina, CA,
USA), and transcriptome assembly was performed by Trinity program.
Protein coding sequence (CDS) was extracted from the reconstructed
transcripts by TransDecoder, and BLAST and InterProScan were applied for
homology search to make a prediction of the function of CDS in unigene.
Gene expression level was measured with RSEM using directed graph model
following reads alignment to the transcripts for the expression. The
transcriptome information of three poisonous mushrooms provides important
information that will help better understand biosynthetic pathways for toxic
materials.
- 1 -
I. 서론
생물분류군 중에서 균류에 속하는 버섯은 전 세계적으로 식용 및 약용으로
오랜 기간 이용되어져 왔으며, 이와 관련된 전통지식 등 관련 유용성 정보가
축적되어 왔다. 버섯은 다당류, 단백질, 필수 아미노산 등의 성분이 높으며,
특정 버섯은 항균, 항산화, 항암 등 다양한 생리활성물질을 함유하고 있는 것으로
확인되었다(Mau et al., 2001; Wasser & Weis, 1999; Wasser, 2002;
Zaidman et al., 2005). 현재까지 자생균류는 3,451종이 보고되었으며, 버섯은
약 1,800여 종이 보고되었다(국립생물자원관, ‘14).
버섯은 종속영양생물(heterotrophic organism)이며, 살아있는 생물에 공생
또는 기생하거나, 죽은 생물에 기생하여 영양·생식 생장하는 것으로 알려져 있다.
담자균아문(Agaricomycotina)에 속하며 4단계(단핵균사(monokaryotic mycelium),
이핵균사(dikaryotic mycelium), 원기(dikaryotic primordium), 자실체(dikaryotic
basidiocarp 또는 fruiting body)의 발달 단계를 가진다(그림 I-1-1). 이핵균사는
이산화탄소 농도, 습도, 빛, 온도 등 적절한 환경조건 아래에서 영양생장을 통해
자실체로 발달하게 된다(Baldauf & Palmer, 1993; Bruns, 2006; Deacon, 2005).
그림 I-1-1. 버섯의 생활사(Life cycle)(Campbell et al., 2009)
- 2 -
일반적으로 버섯은 크게 식용버섯, 약리버섯, 독버섯으로 구분될 수 있으며,
식용버섯은 120개 이상의 국가에서 식품으로 이용되고 있으며, 약 20개국에서
전문적으로 식용버섯을 재배하여 이용하고 있다. 또한, 항암, 항산화 등의 약리
활성 연구를 통하여 약리버섯을 이용한 약용 소재화 연구가 활발히 진행되고
있다(Houghton & Vieth, 2006; Mattila et al., 2000; Ng, 1998; Sliva, 2010).
버섯은 배양 기간이 짧고, 대량배양이 가능하며, 재배 및 생육환경조건을 작물과
비교 하였을 때 상대적으로 용이하다. 따라서 식·약용 버섯의 소비가 증가
함으로써, 버섯의 경제적 가치가 증가하고 있는 추세이다.
버섯유래 약리학적 특성 연구는 주로 식용 및 약용버섯에 집중되어있는 반면,
독버섯의 약리학적 연구는 사회통념상·위험도 등의 이유로 상대적으로 미흡한
실정이다. 그러나 독버섯 유래 생리활성물질은 항균·항암 등에서 우수한 효과를
나타낸다는 연구보고(Kim et al., 2013; Pereira et al., 2013)가 있고, 이로 인한 유용성
검증을 통한 유용 물질 발굴 연구가 필요하다. 이처럼 독버섯 유래 유용성 검증
연구를 추진함으로써 소재 개발과 연계할 수 있고, 국내 자생 생물자원의 활용
측면에서도 매우 중요하다. 따라서 본 사업은 독청버섯과에 속하는 노란다발
버섯(Hypholoma fasciculare) 등 독성이 강한 독버섯을 대상으로 연구를 수행
하였다. 노란다발버섯은 α-Glucosidase 저해 활성이 높아 혈관계질환 치료용
의약품으로 개발될 수 있는 것으로 보고되었으며(Kim et al., 2007), 에르고-
스테롤 퍼옥사이드(ergosterol peroxide) 등의 항암활성 물질 확인(Beattie et
al., 2011; Ding et al., 2009; Kim et al., 2013), 항균 및 항진균 활성(de Boer
et al., 2010; Pereira et al., 2013)이 있는 것으로 보고되었다.
본 사업의 목표는 항균, 항암 등 생리활성이 우수한 독청버섯과 버섯종의
유용물질 및 생합성 유전자 정보 확보를 통해 유용물질 대량생산 기반을 구축하는
것이다. 당해연도에는 독청버섯과에서 생산되는 생합성 관련 유전자 정보를
확보·이용 할 수 있는 기반을 구축하기 위한, 발현 유전자 대량염기서열 해독
및 정보 분석을 수행하였다.
- 3 -
II. 연구방법
1. 고품질 RNA 추출 절차 확립
Total RNA 2 ug으로부터 oligodT를 이용하여 mRNA를 분리한다. Library는
100 bp Paired-end sequencing을 위해 진행되었으며, 샘플 혼합 후 Illumina사의
TruSeq RNA Sample Prep Kit을 이용하여 Library를 준비하였다. 분리된
mRNA는 fragmentation 단계를 거치고 random hexamer priming을 통해
single-stranded cDNA로 합성되었으며, 이를 주형으로 하여 second strand가
합성됨으로써 double-stranded cDNA가 합성되었다. Blunt-end를 만들기 위한
End Repair, Adapter를 붙이기 위한 A-tailing 및 Adapter ligation을 순차적으로
거친 후, PCR(Polymerase Chain Reaction)을 이용하여 cDNA library를 증폭
시켰다. 최종 산물은 2100 BioAnalyzer를 이용하여 확인하였다. 만들어진
library는 KAPA library quantification kit를 이용하여 정량한 후 cluster
generation하여 Hiseq2500을 이용하여 서열해독을 진행하였다.
2. 서열 조립 및 유전자 획득
가. 필터링
전사체 서열을 얻기 위한 조립과정에 앞서 서열 필터링 작업을 진행하였다.
필터링 작업은 서열 해독과정에서 생긴 잘못된 서열을 가진 리드(Read) 및 어댑터
서열을 제거하고, 낮은 품질의 서열로 인한 조립 오류를 줄이기 위한 사전 작업으로
서열 조립 전 반드시 진행되어야 하는 단계이다. 먼저 낮은 품질의 서열을 제거하기
위해서 서열 정보 중 N으로 나타난 염기의 비율이 전체 서열의 10% 이상 포함
되어 있거나 Q20 미만의 염기가 20%이상인 리드가 제거되었으며, 평균 품질이
Q20 이하인 리드 역시 제거 하였다. 낮은 품질 서열을 제거한 뒤에 남은 서열에
대해서 서열의 양끝에 존재하는 Q20 미만의 염기를 모두 제거하였다. 이것은
mRNA의 특성상 시간이 지날 경우 양끝단의 품질이 현격히 떨어지는 특징 때문에
조립 서열의 품질을 높이기 위해 진행되었다(Martin & Wang, 2011).
- 4 -
나. 서열 조립
서열 조립은 전체 샘플의 서열 데이터를 하나로 합친 뒤 Trinity (Grabherr
et al., 2011; Hass et al., 2013) 프로그램을 이용하여 진행되었다. Trinity는
RNA-seq de novo assembly를 수행하는 대표적인 RNA Assmebler로 de
Bruijin graph(DBG) 알고리즘을 이용하여 서열 조립을 진행한다. Trinity의 서열
조립과정은 3단계로 Inchworm, Chrysalis, Butterfly 단계로 이루어져 있다. 첫 번째
단계인 Inchworm에서는 메모리의 효율적인 사용을 위하여 각 서열을 서로 연결하여
서브그룹으로 나누는 작업을 한다. Inchworm 단계에서 각 서열은 길이 25의 조각으로
나눠져서 24 bp가 겹치는 조각을 합치는 과정을 통해서 contig를 구성하게 된다.
Chrysalis 단계에서는 Inchworm에서 구성된 contig를 이용하여 리드에 대한 집단화
(clustering)를 진행한다. 그리고 나눠진 각 집단 안에서 완벽한 de Bruijin
Graph를 다시 만들어내고, Butterfly 단계에서는 이 그래프를 해석하여
Transcript 서열을 예측한다. 이 연구에서는 Trinity의 기본 설정값을 이용하여
서열 조립을 진행하였다.
다. 서열 집단화(Clustering)
Trinity를 이용하여 조립된 전사체 서열은 Gene이 아닌 Isoform을 포함한
Transcript를 기준으로 작성되어서 서열의 중복이 존재하며, 서열 조립 과정에서
생기는 Chimera transcript가 포함되어 있다는 것이 알려져 있다(Yang &
Smith, 2013). 이런 문제점을 해결하기 위해서 Trinity에서 조립된 전사체 서열에
대해 집단화 방법을 이용하여 중복을 제거하고, Chimera 서열을 제거하였다. 조립된
전사체의 집단화는 TGICL(Pertea et al., 2003) 프로그램이 이용되었다. TGICL은
주어진 서열을 1:1 서열 비교를 통하여 서열간의 유사도를 계산하고, 유사도에
기반하여 서열의 집단화를 한 뒤, CAP3(Huang & Madan, 1999)를 이용하여 각
집단에 속한 서열을 재조립하여 집단을 대표하는 서열을 만들어 내는 도구이다. 집
단화를 위한 서열 유사성 기준은 0.94로 설정하였다.
라. CDS 예측
UNIGENE의 기능을 알기 위한 전단계로 단백질 발현 부분(Coding
sequence, CDS)을 예측하였다. 이 과정은 TransDecoder(Haas et al., 2013)를
이용해서 이루어졌다. TransDecoder는 Trinity 프로그램에서 CDS를 찾기 위해서
사용되는 프로그램으로 주어진 전사체 서열 중 가능성 있는 CDS를 예측해주는
- 5 -
프로그램이다. TransDecoder의 작동 방식은 다음과 같다. 먼저 주어진 서열에서
가능성 있는 모든 CDS 서열을 예측한다. 예측된 CDS에 대해서 GeneID(Blanco
et al., 2007) 프로그램을 이용하여 가능성을 검증하여 log-likelihood score가 0보다
큰 것을 선택한다. 찾아진 가능성 있는 단백질 서열 중에서 가장 높은 점수를 가지는
것이 선택된다. 만약 겹치지 않는 ORF(Open readling frame)가 여러 개 존재하는
경우는 모든 CDS를 선택하게 된다.
3. 유전자 기능 분석
가. DNA 서열 기반의 상동성 검색
DNA 서열에 기반한 상동성 검색을 위해서 NCBI Blast 2.2.28+와 NCBI
Non-redundant(nr) database(2013-07-17)가 사용되었다. BLAST 탐색 방법 중
BLASTX를 사용하여 UNIGENE 서열에 대한 모든 가능한 단백질 서열을 NCBI
에서 제공하는 단백질 데이터베이스인 Non-redundant database를 검색하여서 그
기능을 예측하였다. 검색 과정에서 상동성의 유의성은 E-value<1e-5로 설정하였다.
나. 단백질 서열 기반의 상동성 검색
UNIGENE의 기능 예측을 위한 두 번째 방법으로 예측된 단백질 서열을 이용한
InterProScan 검색을 사용하였다. 서열의 부분적인 상동성을 이용하여 유사 서열을
검색하는 BLAST와는 달리 InterProScan은 Hidden Markov Model을 이용하여
단백질 기능의 단위인 도메인 수준의 유사성 검색을 진행하여 기능 예측을 할
수 있도록 해준다. 분석은 InterProScan v5을 이용하여 진행되었으며 ProDom,
PfamA, Panther, SMART, SuperFamily, Gene3d의 총 6개의 단백질 데이터
베이스를 E-value<1e-5를 기준으로 검색하였다.
4. 유전자 발현량 측정
발현량 분석은 RSEM(Li & Dewey, 2011) 프로그램을 이용하여 수행하였다.
RSEM은 유전자의 발현량을 측정하는 도구로 참조 유전체 정보 없이 전사체를
대상으로 발현량을 계산할 수 있도록 만들어진 프로그램이다. RSEM은 Bowtie를
이용하여 리드를 전사체에 정렬한 뒤 directed graph model을 이용하여 전사체의
발현량을 측정한다.
- 7 -
SampleConcentration
(ng/ul)
Volume
(ul)
Quantity
(μg)
Purity
RIN 28s/18s
비늘버섯 144 67 9.6 7.9 1.6
III. 연구결과
1. 비늘버섯 발현 유전자 시퀀싱(RNA sequencing)
가. 고품질 RNA 추출
비늘버섯 RNA 추출 후, 대량염기서열 결정을 위한 고품질의 라이브러리 제작
단계에 앞서 RNA Sample의 QC를 분석하였다(표 III-1-1, 그림 III-1-1). 추출된
RNA의 Concentration은 144 ng/ul, Volume은 67 ul로 전체 RNA Quantity는 9.6 ug으로
측정되었으며, RNA Purity 분석 결과 RNA Integrity Number(RIN) 값은 7.9, 28s/18s
값은 1.6으로 분석되었다. 추출된 RNA의 양과 질에 기초하였을 때, 라이브러리
제작에 적합한 것으로 분석되었다.
표 III-1-1. RNA Sample QC 결과
그림 III-1-1. RNA Integrity 측정 결과
- 8 -
SampleRaw Clean
Reads Base(>Q30) Reads Base(>Q30)
비늘버섯 119,400,726 11,377,335,180 107,368,538 10,830,316,771
나. 서열 조립 및 유전자 획득
추출된 RNA를 이용하여 대량염기서열 결정을 위한 고품질의 라이브러리
제작 후, Hiseq2500을 이용하여 염기서열해독을 진행하였다(그림 III-1-2).
그림 III-1-2. RNA 염기서열 Quality 분석 결과
생산된 대량염기서열을 조립하기 앞서, 서열의 정확한 조립을 위하여 서열
필터링 작업을 수행하였다(표 III-1-2). Raw 리드(Read) 서열은 119,400,726개가
생산되었으며, 그 중 Q30 이상 값을 나타내는 염기서열은 11,377,335,180개로 분석
되었다. 서열 필터링 작업 후 107,368,538개의 리드 서열을 확보하였으며, 확보된 리드
서열을 이용하여 고품질 서열 조립 작업에 이용하였다.
표 III-1-2. RNA 대량염기서열 전처리 결과
- 9 -
BasepairsNumber of
UnigenesAverage Length of Unigenes
32,944,295 31,958 1,031
대량염기서열 조립 결과 Unigene의 개수는 31,958개로 조립되었으며, 전체
Unigene의 길이는 32,944,295 bp로 분석되었다. 평균 Unigene의 길이는 1,031
bp로 분석되었다(표 III-1-3).
표 III-1-3. RNA 대량염기서열 조립 결과
조립된 Unigene의 길이 분포도를 분석한 결과, 300-400 bp 길이의 Unigene의
개수는 약 4,000개로 가장 많았으며, 200-300 bp 길이의 Unigene이 약 3,500개,
400-500 bp 길이의 Unigene이 약 3,000개로 분석되었다. 2,900 bp 이상 길이의
Unigene의 개수는 약 1,500개로 분석되었다(그림 III-1-3).
그림 III-1-3. RNA 대량염기서열 조립 결과의 길이 분포도
- 10 -
Has homologous No homologous
19,245 (60.2%) 12,713 (39.8%)
다. 유전자 기능 분석
DNA 서열에 기반한 상동성 검색은 SwissProt(http://www.uniprot.org/) 데이터
베이스 및 NCBI Non-redundant(nr)(http://www.ncbi.nlm.nih. gov/) 데이터베이스가
사용되었다. 31,958개의 Unigene에 대한 BLAST 분석을 수행한 결과, 위 데이터
베이스에 대한 Homologous Hit의 개수는 전체 Unigene의 60.2%인 19,245개로
분석되었으며, Non-Homologous Hits의 개수는 12,713개(39.8%)로 분석되었다
(표 III-1-4).
표 III-1-4. BLAST 분석 결과 Homologous/Non-Homologous Hits의 개수 및 비율
BLAST Annotation 결과를 분류군별로 구분하였을 때, Plants 범주에 전체
Unigene의 48.5%인 15,485개의 BLAST Hits가 분석되었으며, Bacteria 범주에
4.8%인 1,538개의 BLAST Hits, Invertebrates 범주에 1.5%인 492개의 BLAST
Hits가 분석되었다(그림 III-1-4, 표 III-1-5).
그림 III-1-4. BLAST Annotation 결과 모식도
- 11 -
Query
Id
%
Identity
E-
value
Bit
ScoreDescription Source
TBIU
02090681.2 0 3,239
Pre-mRNA-processing-splicing
factor 8SWISS
TBIU
02149778.27 0 2,514
Pentafunctional AROM
polypeptideSWISS
TBIU
00194255.71 0 2,454 Acetyl-CoA carboxylase SWISS
TBIU
01917572.33 0 2,442
1,3-beta-glucan synthase
component FKS1SWISS
TBIU
02169170.71 0 2,170
Vacuolar protein
sorting/targeting protein 10SWISS
TBIU
00960561.55 0 1,923
hypothetical protein
GALMADRAFT_239698
NCBI_
NRTBIU
00181370.39 0 1,895
hypothetical protein
GALMADRAFT_156774
NCBI_
NRTBIU
02204062.86 0 1,834
DNA-directed RNA
polymerase II subunit rpb1SWISS
TBIU
01274780.29 0 1,808 Myosin-1 SWISS
TBIU
02203964.15 0 1,769
DNA-directed RNA
polymerase II subunit rpb1SWISS
TBIU
00735770.5 0 1,743
hypothetical protein
GALMADRAFT_234163
NCBI_
NR
TBIU
01375071.57 0 1,656
Carbamoyl-phosphate
synthase arginine-specific
large chain
SWISS
TBIU
01375171.57 0 1,656
Carbamoyl-phosphate
synthase arginine-specific
large chain
SWISS
TBIU
01781968.51 0 1,639
hypothetical protein
GALMADRAFT_227055
NCBI_
NRTBIU
00258067.43 0 1,609
hypothetical protein
GALMADRAFT_134888
NCBI_
NRTBIU
00735671.75 0 1,607
hypothetical protein
GALMADRAFT_234163
NCBI_
NR
표 III-1-5. BLAST Hits 리스트(Bit Score 기준 상위 50개)
- 12 -
Query
Id
%
Identity
E-
value
Bit
ScoreDescription Source
TBIU
01918078.4 0 1,547
1,3-beta-glucan synthase
component FKS1SWISS
TBIU
00889267.04 0 1,508 Pyruvate carboxylase SWISS
TBIU
026312100 0 1,506 Formate acetyltransferase 1 SWISS
TBIU
01707175.4 0 1,435
hypothetical protein
GALMADRAFT_248549
NCBI_
NR
TBIU
024070100 0 1,430 Elongation factor G SWISS
TBIU
00423564.84 0 1,418 Exportin-1 SWISS
TBIU
01671553.72 0 1,406
Fatty acid synthase subunit
alphaSWISS
TBIU
01771352.26 0 1,398 Chitin synthase 8 SWISS
TBIU
01998172.69 0 1,380
hypothetical protein
GALMADRAFT_73169
NCBI_
NRTBIU
00209877.32 0 1,358 Elongation factor 2 SWISS
TBIU
02238466.44 0 1,348 Splicing factor 3B subunit 1 SWISS
TBIU
00946570.32 0 1,347
hypothetical protein
GALMADRAFT_268571
NCBI_
NRTBIU
00213956.59 0 1,345 Chitin synthase 5 SWISS
TBIU
00688299.12 0 1,342 Gag-Pol polyprotein SWISS
TBIU
01998271.54 0 1,340
hypothetical protein
GALMADRAFT_73169
NCBI_
NRTBIU
00735971.94 0 1,338
hypothetical protein
GALMADRAFT_234163
NCBI_
NR
TBIU
00946669.16 0 1,336
hypothetical protein
GALMADRAFT_268571
NCBI_
NRTBIU
01124769.06 0 1,319
hypothetical protein
GALMADRAFT_55353
NCBI_
NR
- 13 -
Query
Id
%
Identity
E-
value
Bit
ScoreDescription Source
TBIU
00346280.69 0 1,315
Protein transport protein
SEC23SWISS
TBIU
00429061.82 0 1,309
Isoleucine--tRNA ligase,
cytoplasmicSWISS
TBIU
01920056.68 0 1,301
Pre-mRNA-splicing factor
ATP-dependent RNA
helicase prp22
SWISS
TBIU
01281886.15 0 1,253
Elongation factor G,
mitochondrialSWISS
TBIU
02309357.1 0 1,237 ATP-citrate synthase SWISS
TBIU
02177170.94 0 1,236
Regulator of nonsense
transcripts 1 homologSWISS
TBIU
00593480.65 0 1,233 Trehalose phosphorylase SWISS
TBIU
00946471.28 0 1,232
hypothetical protein
GALMADRAFT_268571
NCBI_
NR
TBIU
02332970.66 0 1,224
Ribonucleoside-diphosphate
reductase large chainSWISS
TBIU
02363599.84 0 1,224
DNA-directed RNA
polymerase subunit betaSWISS
TBIU
01788773.22 0 1,215
hypothetical protein
GALMADRAFT_76693
NCBI_
NRTBIU
02434175.06 0 1,204
Cell division control protein
48 homolog ASWISS
TBIU
01432144.91 0 1,190
Brefeldin A resistance
proteinSWISS
TBIU
00370557.2 0 1,183
Ubiquitin-activating enzyme
E1 1SWISS
TBIU
02177270.74 0 1,179
Regulator of nonsense
transcripts 1 homologSWISS
TBIU
00176147.49 0 1,170 Coatomer subunit alpha SWISS
- 14 -
Number of CDS ofunigenes Predicted Validated
1 16,156 10,2152 6,722 1,8493 2,470 2834 786 405 291 76 82 1
7 9 08 5 09 4 0
10 1 1
CDSType SUM Has Homologous No Homologous
Total 42,253 14,974 35.40% 27,279 64.60%Complete 17,688 6,413 36.30% 11,275 63.70%5'_partial 12,606 5,028 39.90% 7,578 60.10%3'_partial 6,288 1,295 20.60% 4,993 79.40%
Internal 5,671 2,238 39.50% 3,433 60.50%
단백질 서열 기반의 상동성 검색은 ProDom, PfamA, Panther, SMART,
SuperFamily, Gene3d의 총 6개의 단백질 데이터베이스를 이용하였다. 31,958개의
Unigene에 대한 InterProScan 분석을 수행한 결과, 1개의 CDS를 포함하는
Unigene의 개수는 총 26,371개(Predicted : 16,156개/Validated : 10,215개)로 분석
되었다. 2개의 CDS를 포함하는 Unigene의 개수는 총 8,571개(Predicted : 6,722개
/Validated : 1,849개), 3개의 CDS를 포함하는 Unigene의 개수는 총 2,753개
(Predicted : 2,470개/Validated : 283개)로 분석되었다(그림 III-1-5, 표 III-1-6,
표 III-1-7, 표 III-1-8).
그림 III-1-5. InterProScan 분석 결과 모식도
표 III-1-6. InterProScan 분석 결과 Unigene의 Predicted/Validated CDS의 개수
표 III-1-7. Unigene내의 CDS Type 분석 결과
- 15 -
Transcript
IDLength Analysis InterProID Description
TBIM
0093991,813 PANTHER IPR004835 Chitin synthase
TBIM
006841974 PANTHER IPR004835 Chitin synthase
TBIM
006843974 PANTHER IPR004835 Chitin synthase
TBIM
001079986 PANTHER IPR001930
Peptidase M1, alanine
aminopeptidase/leukotrie
ne A4 hydrolase
TBIM
009813866 PANTHER IPR022812 Dynamin superfamily
TBIM
009815866 PANTHER IPR022812 Dynamin superfamily
TBIM
009812866 PANTHER IPR022812 Dynamin superfamily
TBIM
005365488 PANTHER IPR000217 Tubulin
TBIM
009244530 PANTHER IPR006539
P-type ATPase,
subfamily IV
TBIM
008644457 PANTHER IPR004790
Isocitrate dehydrogenase
NADP-dependent
TBIM
008642457 PANTHER IPR004790
Isocitrate dehydrogenase
NADP-dependent
TBIM
008582927 PANTHER IPR027004
Dolichyl-phosphate-man
nose-protein
mannosyltransferase 1/5
TBIM
008582927 PANTHER IPR027005
Glycosyltransferase 39
like
TBIM
0070801,218 PANTHER IPR006544
P-typeATPase,subfamily
V
TBIM
002371470 PANTHER IPR027238 RuvB-like
TBIM
007522625 PANTHER IPR015700
DNA-directed RNA
polymerase III subunit
RPC1
표 III-1-8. InterProScan 분석 결과 리스트(Score 기준 상위 50개)
- 16 -
Transcript
IDLength Analysis InterProID Description
TBIM
008652458 PANTHER IPR004790
Isocitrate dehydrogenase
NADP-dependent
TBIM
008647458 PANTHER IPR004790
Isocitrate dehydrogenase
NADP-dependent
TBIM
008658458 PANTHER IPR004790
Isocitrate dehydrogenase
NADP-dependent
TBIM
005689721 PANTHER IPR026739
AP complex subunit
beta
TBIM
005686721 PANTHER IPR026739
AP complex subunit
beta
TBIM
005684721 PANTHER IPR026739
AP complex subunit
beta
TBIM
0029901,446 PANTHER IPR004835 Chitin synthase
TBIM
007521838 PANTHER IPR015700
DNA-directed RNA
polymerase III subunit
RPC1
TBIM
008493909 PANTHER IPR026983 Dynein heavy chain
TBIM
009859444 PANTHER IPR000941 Enolase
TBIM
007377646 PANTHER IPR002554
Protein phosphatase 2A,
regulatory B subunit,
B56
TBIM
007837449 PANTHER IPR000043 Adenosylhomocysteinase
TBIM
013500779 PANTHER IPR000924
Glutamyl/glutaminyl-tR
NA synthetase
TBIM
0138711,198 PANTHER IPR005930 Pyruvate carboxylase
TBIM
013679785 PANTHER IPR027065 Lon protease
TBIM
019230739 PANTHER IPR006823
Neutral/alkaline
nonlysosomal
ceramidase
TBIM
0171171,027 PANTHER IPR020581
Glycine cleavage
system P protein
- 17 -
Transcript
IDLength Analysis InterProID Description
TBIM
0171121,027 PANTHER IPR020581
Glycine cleavage
system P protein
TBIM
013631601 PANTHER IPR013283 ABC transporter ABCE
TBIM
013634601 PANTHER IPR013283 ABC transporter ABCE
TBIM
011652784 PANTHER IPR026892
Glycoside hydrolase
family 3
TBIM
0191211,362 PANTHER IPR006539
P-type ATPase,
subfamily IV
TBIM
0177591,145 PANTHER IPR004835 Chitin synthase
TBIM
015776626 PANTHER IPR018150
Aminoacyl-tRNA
synthetase, class II
(D/K/N)-like
TBIM
013640522 PANTHER IPR013283 ABC transporter ABCE
TBIM
018081855 PANTHER IPR011603
2-oxoglutarate
dehydrogenase E1
component
TBIM
012440780 PANTHER IPR006539
P-type ATPase,
subfamily IV
TBIM
018140757 PANTHER IPR008631 Glycogen synthase
TBIM
018140757 Pfam IPR008631 Glycogen synthase
TBIM
014490529 PANTHER IPR010401
Glycogen debranching
enzyme
TBIM
017526752 PANTHER IPR002092
DNA-directed RNA
polymerase, phage-type
TBIM
016447552 PANTHER IPR001672
Phosphoglucose
isomerase (PGI)
TBIM
017989773 PANTHER IPR001661
Glycoside hydrolase,
family 37
TBIM
019092576 PANTHER IPR010061
Methylmalonate-semiald
ehyde dehydrogenase
- 18 -
Type Frequency (%)
Blastx and InterProScan 12,303 39
Blastx Only 6,942 22
InterProScan Only 93 0
No Homolog 12,620 40
BLAST 및 InterProScan 분석 결과는 아래와 같다(그림 III-1-6, 표
III-1-9). Blastx와 InterProScan에서 공통적으로 분석된 Unigene의 개수는
12,303개로, 전체 Unigene의 39%를 차지하였다. Blastx 단독으로 분석된
Unigene의 개수는 전체 Unigene의 22%인 6,942개, InterProscan 단독으로 분석된
Unigene의 개수는 93개로 분석되었다. Blastx 및 InterProScan 분석결과 No
Homolog로 분석된 Unigene의 개수는 전체 Unigene의 40%인 12,620개로 분석
되었다(그림 III-1-6, 표 III-1-9).
그림 III-1-6. BLAST 및 InterProScan 분석 결과 모식도
표 III-1-9. BLAST 및 InterProScan 분석 결과
- 19 -
Name
Gene Gene (> fpkm 1.0)
Expre
ssedKnown Novel
Unexp
ressed
Expre
ssedKnown Novel
Unexp
ressed비늘
버섯28,574 18,035 10,539 3,384 26,487 16,884 9,603 0
라. 유전자 발현량 측정
Blastx와 InterProScan 분석결과에 기초하여 Unigene 19,338개를 Known
gene, No Homolog로 분석된 Unigene 12,620개를 Novel gene으로 구분하여
유전자 발현량을 측정하였다(그림 III-1-7, 그림 III-1-8, 표 III-1-10). FPKM
방법을 이용하여 데이터를 표준화(Normalization)한 후 분석한 결과는 아래와
같다(그림 III-1-8, 표 III-1-10, 표 III-1-11).
그림 III-1-7. RSEM을 이용한 유전자 발현량 분석 결과
그림 III-1-8. RSEM을 이용한 유전자 발현량 분석 결과 표준화(Normalization)
표 III-1-10. 유전자 발현량 분석 결과 표준화(> fpkm 1.0)
- 20 -
ID Description FPKM Type
TBIU
002453- 67,192.7 KNOWN
TBIU
022732
hypothetical protein
[Source:NCBI_NR;ACC:XP_007861720.1]30,731 KNOWN
TBIU
030172- 10,416.8 NOVEL
TBIU
005144
RNA polymerase II-associated protein 3
[Source:SWISS;ACC:Q5ZKQ3]10,083.6 KNOWN
TBIU
012564- 9,950.35 KNOWN
TBIU
001154
hypothetical protein
[Source:NCBI_NR;ACC:XP_007366826.1]9,598.06 KNOWN
TBIU
023099
ATP synthase subunit 9, mitochondrial
[Source:SWISS;ACC:Q01554]8,910.43 KNOWN
TBIU
005498
Peptidyl-prolyl cis-trans isomerase
[Source:SWISS;ACC:P18253]8,840.56 KNOWN
TBIU
025243- 8,507.74 NOVEL
TBIU
002122- 8,269.6 KNOWN
TBIU
001740- 8,042.09 KNOWN
TBIU
007335
Protoplast secreted protein 2
[Source:SWISS;ACC:Q12335]7,560.15 KNOWN
TBIU
024155
hypothetical protein
[Source:NCBI_NR;ACC:XP_001880460.1]6,857.38 KNOWN
TBIU
005499
Peptidyl-prolyl cis-trans isomerase
[Source:SWISS;ACC:P18253]6,401.75 KNOWN
TBIU
012620- 6,198.43 NOVEL
TBIU
002840
hypothetical protein
[Source:NCBI_NR;ACC:XP_007853011.1]5,788.19 KNOWN
TBIU
003761- 5,700.88 KNOWN
TBIU
031342- 5,173.34 NOVEL
TBIU
004394- 4,976.51 KNOWN
표 III-1-11. 유전자 발현량 분석 결과 리스트(FPKM값 기준 상위 100개)
- 21 -
ID Description FPKM Type
TBIU
000304
Fruiting body protein SC1
[Source:SWISS;ACC:P04158]4,898.7 KNOWN
TBIU
003287
Superoxide dismutase [Mn], mitochondrial
[Source:SWISS;ACC:Q92429]4,367.31 KNOWN
TBIU
031892- 4,318.09 NOVEL
TBIU
010997
Probable DNA-directed RNA polymerase
[Source:SWISS;ACC:P33540]4,207.88 KNOWN
TBIU
001861
Putative uncharacterized protein ART2
[Source:SWISS;ACC:Q8TGM7]4,139.05 KNOWN
TBIU
023069- 3,363.97 KNOWN
TBIU
029885- 3,334.16 NOVEL
TBIU
005143
RNA polymerase II-associated protein 3
[Source:SWISS;ACC:Q5ZKQ3]3,276.13 KNOWN
TBIU
005181
Protein PLANT CADMIUM
RESISTANCE 3
[Source:SWISS;ACC:P0CW97]
3,268.95 KNOWN
TBIU
010159
Aryl-alcohol dehydrogenase [NADP(+)]
[Source:SWISS;ACC:Q01752]3,179.82 KNOWN
TBIU
001780
hypothetical protein
[Source:NCBI_NR;ACC:XP_007316400.1]3,156.52 KNOWN
TBIU
023796
Ubiquitin-conjugating enzyme E2-16 kDa
[Source:SWISS;ACC:Q9UVR2]3,052.77 KNOWN
TBIU
001133- 2,979.56 NOVEL
TBIU
006204
Carbonic anhydrase 2
[Source:SWISS;ACC:P45148]2,928.83 KNOWN
TBIU
019473
Alcohol oxidase
[Source:SWISS;ACC:Q00922]2,890.36 KNOWN
TBIU
000142
hypothetical protein
[Source:NCBI_NR;ACC:XP_007360856.1]2,825.78 KNOWN
TBIU
000404
hypothetical protein
[Source:NCBI_NR;ACC:XP_001889528.1]2,756.47 KNOWN
TBIU
023068
Small nuclear ribonucleoprotein G
[Source:SWISS;ACC:O74966]2,556.61 KNOWN
TBIU
023307- 2,501.13 NOVEL
- 22 -
ID Description FPKM Type
TBIU
012621- 2,482.96 NOVEL
TBIU
025218- 2,310.13 NOVEL
TBIU
024385
Serine proteinase inhibitor IA-2
[Source:SWISS;ACC:Q7M4T5]2,288.8 KNOWN
TBIU
022796
hypothetical protein
[Source:NCBI_NR;ACC:XP_001838176.1]2,280.5 KNOWN
TBIU
002109
Glyceraldehyde-3-phosphate
dehydrogenase 2
[Source:SWISS;ACC:P32636]
2,252.97 KNOWN
TBIU
025567
Protein MGR2
[Source:SWISS;ACC:Q02889]2,218.51 KNOWN
TBIU
023067Calmodulin [Source:SWISS;ACC:P11120] 2,188.28 KNOWN
TBIU
018656
60S acidic ribosomal protein P1-alpha 3
[Source:SWISS;ACC:P17477]2,040.61 KNOWN
TBIU
007046
Fruiting body protein SC1
[Source:SWISS;ACC:P04158]2,039.03 KNOWN
TBIU
024588
40S ribosomal protein S23
[Source:SWISS;ACC:Q9HE74]2,007.11 KNOWN
TBIU
024598
40S ribosomal protein S21
[Source:SWISS;ACC:Q9P844]1,945.34 KNOWN
TBIU
003711
Glutathione S-transferase PM239X14
[Source:SWISS;ACC:P42769]1,823.77 KNOWN
TBIU
005489- 1,812.27 KNOWN
TBIU
010015
hypothetical protein
[Source:NCBI_NR;ACC:XP_001829570.1]1,796.67 KNOWN
TBIU
003394- 1,741.08 NOVEL
TBIU
023559
Elongation factor 1-alpha
[Source:SWISS;ACC:O42820]1,728.3 KNOWN
TBIU
027057- 1,724.44 NOVEL
TBIU
006225
Peroxiredoxin Q, chloroplastic
[Source:SWISS;ACC:P0C5D5]1,712.91 KNOWN
TBIU
022789
Glutathione S-transferase omega-like 2
[Source:SWISS;ACC:O94524]1,684.08 KNOWN
TBIU
002700
60S ribosomal protein L35-3
[Source:SWISS;ACC:Q9M3D2]1,661.58 KNOWN
- 23 -
ID Description FPKM Type
TBIU011133
Protein mmf2, mitochondrial[Source:SWISS;ACC:Q9UR06]
1,656.53 KNOWN
TBIU026812
- 1,612.28 NOVEL
TBIU024212
40S ribosomal protein S25[Source:SWISS;ACC:Q6FPX5]
1,575.17 KNOWN
TBIU002156
Peroxiredoxin-6[Source:SWISS;ACC:O35244]
1,569.77 KNOWN
TBIU005487
- 1,554.48 KNOWN
TBIU006567
hypothetical protein[Source:NCBI_NR;ACC:XP_001879745.1]
1,538.47 KNOWN
TBIU022804
Cytochrome b5[Source:SWISS;ACC:Q9HFV1]
1,489.69 KNOWN
TBIU000088
Cysteine proteinase 1, mitochondrial[Source:SWISS;ACC:Q01532]
1,479.24 KNOWN
TBIU012141
Uncharacterized oxidoreductase C663.06c[Source:SWISS;ACC:Q7Z9I4]
1,461.72 KNOWN
TBIU021179
Metal homeostasis factor ATX1[Source:SWISS;ACC:P38636]
1,412.28 KNOWN
TBIU025919
- 1,406.87 NOVEL
TBIU023306
hypothetical protein[Source:NCBI_NR;ACC:XP_001878083.1]
1,401.81 KNOWN
TBIU022663
Agroclavine dehydrogenase[Source:SWISS;ACC:M1WEN5]
1,382.08 KNOWN
TBIU024041
- 1,381.81 KNOWN
TBIU003963
Glutaredoxin-C4[Source:SWISS;ACC:Q8LFQ6]
1,380.68 KNOWN
TBIU022797
40S ribosomal protein S18[Source:SWISS;ACC:Q8ISP0]
1,374.91 KNOWN
TBIU024454
40S ribosomal protein S11[Source:SWISS;ACC:P79013]
1,348.45 KNOWN
TBIU001751
FK506-binding protein 2[Source:SWISS;ACC:P0CP96]
1,312.58 KNOWN
TBIU003418
Histone H4 [Source:SWISS;ACC:P62792] 1,297.7 KNOWN
TBIU023114
40S ribosomal protein S12[Source:SWISS;ACC:P46405]
1,296.36 KNOWN
TBIU
006298
Apoptosis-inducing factor homolog B
[Source:SWISS;ACC:Q54NS8]1,288.02 KNOWN
- 24 -
ID Description FPKM Type
TBIU003072
Hydrophobin-1[Source:SWISS;ACC:P52748]
1,279.34 KNOWN
TBIU003762
- 1,265.78 NOVEL
TBIU006976
- 1,259.69 NOVEL
TBIU010996
Probable DNA polymerase[Source:SWISS;ACC:P33537]
1,244.91 KNOWN
TBIU009699
hypothetical protein[Source:NCBI_NR;ACC:XP_006457302.1]
1,241.01 KNOWN
TBIU007047
Fruiting body protein SC3[Source:SWISS;ACC:P16933]
1,231.58 KNOWN
TBIU002731
Alkali-sensitive linkage protein 1[Source:SWISS;ACC:Q09788]
1,219.24 KNOWN
TBIU024144
hypothetical protein[Source:NCBI_NR;ACC:XP_001834059.2]
1,215.51 KNOWN
TBIU025506
14-3-3 protein homolog[Source:SWISS;ACC:Q99002]
1,211.15 KNOWN
TBIU006588
hypothetical protein[Source:NCBI_NR;ACC:XP_001840248.2]
1,208.47 KNOWN
TBIU000086
Transaldolase [Source:SWISS;ACC:O42700] 1,206.25 KNOWN
TBIU001552
- 1,205.19 NOVEL
TBIU002079
Cell number regulator 11[Source:SWISS;ACC:D9HP27]
1,202.68 KNOWN
TBIU009225
- 1,198.49 KNOWN
TBIU005036
Actin-1 [Source:SWISS;ACC:Q9Y702] 1,183.21 KNOWN
TBIU025001
Thioredoxin [Source:SWISS;ACC:Q9UW02] 1,182.46 KNOWN
TBIU002723
60S ribosomal protein L10[Source:SWISS;ACC:P41805]
1,172.75 KNOWN
TBIU031763
- 1,172.54 NOVEL
TBIU002990
hypothetical protein[Source:NCBI_NR;ACC:XP_001879034.1]
1,157.95 KNOWN
TBIU002317
- 1,138.06 KNOWN
TBIU003752
hypothetical protein[Source:NCBI_NR;ACC:XP_001879765.1]
1,114.47 KNOWN
- 25 -
SampleConcentration
(ng/ul)
Volume
(ul)
Quantity
(μg)
Purity
RIN 28s/18s
개암버섯 67 68 4.6 8.3 1.8
2. 개암버섯 발현 유전자 시퀀싱(RNA sequencing)
가. 고품질 RNA 추출
개암버섯 RNA 추출 후, 대량염기서열 결정을 위한 고품질의 라이브러리 제작
단계에 앞서 RNA Sample의 QC를 분석하였다(표 III-2-1, 그림 III-2-1). 추출된
RNA의 Concentration은 67 ng/ul, Volume은 68 ul로 전체 RNA Quantity는 4.6 ug으로
측정되었으며, RNA Purity 분석 결과 RNA Integrity Number(RIN) 값은 8.3, 28s/18s
값은 1.8로 분석되었다. 추출된 RNA의 양과 질에 기초하였을 때, 라이브러리
제작에 적합한 것으로 분석되었다.
표 III-2-1. RNA Sample QC 결과
그림 III-2-1. RNA Integrity 측정 결과
- 26 -
SampleRaw Clean
Reads Base(>Q30) Reads Base(>Q30)
개암버섯 96,717,578 8,538,809,598 83,824,914 8,444,181,755
나. 서열 조립 및 유전자 획득
추출된 RNA를 이용하여 대량염기서열 결정을 위한 고품질의 라이브러리
제작 후, Hiseq2500을 이용하여 염기서열해독을 진행하였다(그림 III-2-2).
그림 III-2-2. RNA 염기서열 Quality 분석 결과
생산된 대량염기서열을 조립하기 앞서, 서열의 정확한 조립을 위하여 서열
필터링 작업을 수행하였다(표 III-2-2). Raw 리드(Read) 서열은 96,717,578개가
생산되었으며, 그 중 Q30 이상 값을 나타내는 염기서열은 8,538,809,598개로 분석
되었다. 서열 필터링 작업 후 83,824,914개의 리드 서열을 확보하였으며, 확보된 리드
서열을 이용하여 고품질 서열 조립 작업에 이용하였다.
표 III-2-2. RNA 대량염기서열 전처리 결과
- 27 -
BasepairsNumber of
UnigenesAverage Length of Unigenes
61,020,017 40,793 1,496
대량염기서열 조립 결과 Unigene의 개수는 40,793개로 조립되었으며, 전체
Unigene의 길이는 61,020,017 bp로 분석되었다. 평균 Unigene의 길이는 1,496
bp로 분석되었다(표 III-2-3).
표 III-2-3. RNA 대량염기서열 조립 결과
조립된 Unigene의 길이 분포도를 분석한 결과, 2,900 bp 이상 길이의
Unigene의 개수는 약 4,500개로 가장 많았으며, 300-400 bp 길이의 Unigene의
개수는 약 3,500개, 200-300 bp 길이의 Unigene이 약 3,000개, 400-500 bp 길이의
Unigene이 약 2,500개로 분석되었다(그림 III-2-3).
그림 III-2-3. RNA 대량염기서열 조립 결과의 길이 분포도
- 28 -
Has homologous No homologous
26,338 (64.6%) 14,455 (35.4%)
다. 유전자 기능 분석
DNA 서열에 기반한 상동성 검색은 SwissProt(http://www.uniprot.org/) 데이터
베이스 및 NCBI Non-redundant(nr)(http://www.ncbi.nlm.nih. gov/) 데이터베이스가
사용되었다. 40,793개의 Unigene에 대한 BLAST 분석을 수행한 결과, 위 데이터
베이스에 대한 Homologous Hit의 개수는 전체 Unigene의 64.6%인 26,338개로
분석되었으며, Non-Homologous Hits의 개수는 14,455개(35.4%)로 분석되었다
(표 III-2-4).
표 III-2-4. BLAST 분석 결과 Homologous/Non-Homologous Hits의 개수 및 비율
BLAST Annotation 결과를 분류군별로 구분하였을 때, Plants 범주에 전체
Unigene의 51.6%인 21,059개의 BLAST Hits가 분석되었으며, Bacteria 범주에
3.5%인 1,427개의 BLAST Hits, Primates 범주에 2.9%인 1,198개의 BLAST
Hits가 분석되었다(그림 III-2-4, 표 III-2-5).
그림 III-2-4. BLAST Annotation 결과 모식도
- 29 -
Query
Id
%
Identity
E-
value
Bit
ScoreDescription Source
TBIU
01978078.82 0 3,403
Pre-mRNA-processing-splicing
factor 8SWISS
TBIU
02687365.71 0 2,836
Putative glutamate synthase
[NADPH]SWISS
TBIU
01978179.22 0 2,831
Pre-mRNA-processing-splicing
factor 8SWISS
TBIU
01643176.11 0 2,613
1,3-beta-glucan synthase
component FKS1SWISS
TBIU
02497463.78 0 2,149 Protein rad9 SWISS
TBIU
02497859.95 0 2,061 Clathrin heavy chain 1 SWISS
TBIU
02486256.2 0 1,971
hypothetical protein
GALMADRAFT_141321
NCBI_
NRTBIU
01655943.41 0 1,887
Cell wall alpha-1,3-glucan
synthase mok13SWISS
TBIU
02497770.02 0 1,847 Protein rad9 SWISS
TBIU
02100159.59 0 1,841
U5 small nuclear ribo-
nucleoprotein 200 kDa helicaseSWISS
TBIU
03265256.35 0 1,826 Chitin synthase 8 SWISS
TBIU
01410672.94 0 1,823
DNA-directed RNA
polymerase II subunit RPB2SWISS
TBIU
02159779.56 0 1,776 Myosin-1 SWISS
TBIU
02691253.03 0 1,658
Fatty acid synthase subunit
alphaSWISS
TBIU
01464433.32 0 1,650
Transcription-associated
protein 1SWISS
TBIU
02652763.72 0 1,600
hypothetical protein
GALMADRAFT_1357807
NCBI_
NRTBIU
00959475.75 0 1,560 Exportin-T SWISS
표 III-2-5. BLAST Hits 리스트(Bit Score 기준 상위 50개)
- 30 -
Query
Id
%
Identity
E-
value
Bit
ScoreDescription Source
TBIU
00132254.06 0 1,501
Phosphatidylinositol 3-kinase
tor2SWISS
TBIU
02094367.3 0 1,465 Pyruvate carboxylase SWISS
TBIU
02382381.35 0 1,446
hypothetical protein
GALMADRAFT_251646
NCBI_
NRTBIU
00959575.65 0 1,433 Exportin-T SWISS
TBIU
01909973.58 0 1,365
hypothetical protein
GALMADRAFT_281689
NCBI_
NRTBIU
02734669.19 0 1,352
hypothetical protein
GALMADRAFT_237258
NCBI_
NRTBIU
00956399.12 0 1,342 Gag-Pol polyprotein SWISS
TBIU
02535858.33 0 1,336 Splicing factor 3B subunit 1 SWISS
TBIU
02990777.67 0 1,329 Elongation factor 2 SWISS
TBIU
02593356.5 0 1,327
Phosphoribosylformylglycina
midine synthaseSWISS
TBIU
03189056.61 0 1,326 Chitin synthase 5 SWISS
TBIU
02560680.44 0 1,315
Protein transport protein
SEC23SWISS
TBIU
01230644.53 0 1,297 Myosin-2 SWISS
TBIU
02470350.66 0 1,295
DNA-directed RNA
polymerase I subunit rpa1SWISS
TBIU
01739166.25 0 1,295
hypothetical protein
GALMADRAFT_56685
NCBI_
NRTBIU
02258974.09 0 1,287
hypothetical protein
GALMADRAFT_268571
NCBI_
NR
TBIU
02334661.91 0 1,273
DNA-directed RNA
polymerase III subunit rpc1SWISS
TBIU
01542584.34 0 1,268
Elongation factor G,
mitochondrialSWISS
- 31 -
Query
Id
%
Identity
E-
value
Bit
ScoreDescription Source
TBIU
02508454.59 0 1,266 DNA topoisomerase 2 SWISS
TBIU
02645660.76 0 1,265 Acetyl-CoA carboxylase SWISS
TBIU
02131072.39 0 1,262
DNA-directed RNA
polymerase III subunit RPC2SWISS
TBIU
00731264.79 0 1,261
hypothetical protein
GALMADRAFT_130902
NCBI_
NR
TBIU
01805762.98 0 1,246
hypothetical protein
GALMADRAFT_52101
NCBI_
NRTBIU
02479665.97 0 1,245 Exportin-1 SWISS
TBIU
01572162.58 0 1,243
Pre-mRNA-splicing factor
RSE1SWISS
TBIU
02306943.9 0 1,243
Glycogen debranching
enzymeSWISS
TBIU
01988369.31 0 1,234 Elongation factor 2 SWISS
TBIU
01988469.19 0 1,234 Elongation factor 2 SWISS
TBIU
02006776.24 0 1,226
hypothetical protein
GALMADRAFT_248549
NCBI_
NRTBIU
02070970.43 0 1,221
Pentafunctional AROM
polypeptideSWISS
TBIU
02006874.58 0 1,214
hypothetical protein
GALMADRAFT_248549
NCBI_
NRTBIU
00797482.01 0 1,211 Trehalose phosphorylase SWISS
TBIU
03213471.84 0 1,206
hypothetical protein
GALMADRAFT_53945
NCBI_
NR
- 32 -
Number of CDS ofunigenes Predicted Validated
1 16,614 12,5152 9,576 4,0493 4,602 1,143
4 2,164 3015 985 506 423 97 141 18 55 09 20 0
10 19 0
CDSType SUM Has Homologous No Homologous
Total 67,505 25,557 37.90% 41,948 62.10%
Complete 37,671 15,701 41.70% 21,970 58.30%5'_partial 15,087 5,829 38.60% 9,258 61.40%3'_partial 9,909 2,397 24.20% 7,512 75.80%Internal 4,838 1,630 33.70% 3,208 66.30%
단백질 서열 기반의 상동성 검색은 ProDom, PfamA, Panther, SMART,
SuperFamily, Gene3d의 총 6개의 단백질 데이터베이스를 이용하였다. 40,793개의
Unigene에 대한 InterProScan 분석을 수행한 결과, 1개의 CDS를 포함하는
Unigene의 개수는 총 29,129개(Predicted : 16,614개/Validated : 12,515개)로 분석
되었다. 2개의 CDS를 포함하는 Unigene의 개수는 총 13,625개(Predicted : 9,576개
/Validated : 4,049개), 3개의 CDS를 포함하는 Unigene의 개수는 총 5,745개
(Predicted : 4,602개/Validated : 1,143개)로 분석되었다(그림 III-2-5, 표
III-2-6, 표 III-2-7, 표 III-2-8).
그림 III-2-5. InterProScan 분석 결과 모식도
표 III-2-6. InterProScan 분석 결과 Unigene의 Predicted/Validated CDS의 개수
표 III-2-7. Unigene내의 CDS Type 분석 결과
- 33 -
Transcript
IDLength Analysis InterProID Description
TBIM
007598846 PANTHER IPR026892
Glycoside hydrolase
family 3
TBIM
007311886 PANTHER IPR004835 Chitin synthase
TBIM
005174679 PANTHER IPR015902
Glycoside hydrolase,
family 13
TBIM
004649889 PANTHER IPR028589
AdoMet-dependent
rRNA
methyltransferase, Spb1
TBIM
004649889 PANTHER IPR015507
Ribosomal RNA large
subunit
methyltransferase E
TBIM
009109815 PANTHER IPR024909
Cysteinyl-tRNA
synthetase/mycothiol
ligase
TBIM
007886475 PANTHER IPR000217 Tubulin
TBIM
007366706 PANTHER IPR004835 Chitin synthase
TBIM
003148970 PANTHER IPR027640 Kinesin-like protein
TBIM
009103831 PANTHER IPR024909
Cysteinyl-tRNA
synthetase/mycothiol
ligase
TBIM
001218634 PANTHER IPR004240 Nonaspanin (TM9SF)
TBIM
005225468 PANTHER IPR000217 Tubulin
TBIM
007809699 PANTHER IPR001404
Heat shock protein
Hsp90 family
TBIM
0045981,083 PANTHER IPR027073 5'-3' exoribonuclease
TBIM
0089141,898 PANTHER IPR026847
Vacuolar protein
sorting-associated
protein 13
표 III-2-8. InterProScan 분석 결과 리스트(Score 기준 상위 50개)
- 34 -
Transcript
IDLength Analysis InterProID Description
TBIM
013093681 PANTHER IPR004308
Glutamate-cysteine
ligase catalytic subunit
TBIM
010416790 PANTHER IPR008050
DNA replication
licensing factor Mcm7
TBIM
019284954 PANTHER IPR016460
Coatomer beta subunit
(COPB1)
TBIM
019148738 PANTHER IPR026892
Glycoside hydrolase
family 3
TBIM
0191061,289 PANTHER IPR004584
DNA repair protein
Rad50, eukaryotes
TBIM
013095576 PANTHER IPR004308
Glutamate-cysteine
ligase catalytic subunit
TBIM
0123451,743 Pfam IPR003440
Glycosyl transferase,
family 48
TBIM
024575694 PANTHER IPR022812 Dynamin superfamily
TBIM
021928784 PANTHER IPR015937
Aconitase/isopropylmalate
dehydratase
TBIM
023425853 PANTHER IPR004835 Chitin synthase
TBIM
026580834 PANTHER IPR027005
Glycosyltransferase 39
like
TBIM
024579617 PANTHER IPR022812 Dynamin superfamily
TBIM
0262541,012 PANTHER IPR006413
P-type ATPase,
subfamily IIA,
PMR1-type
TBIM
0280281,225 PANTHER IPR015712
DNA-directed RNA
polymerase, subunit 2
TBIM
025113539 PANTHER IPR000581
Dihydroxy-acid/6-phosp
hogluconate dehydratase
TBIM
028685943 PANTHER IPR027004
Dolichyl-phosphate-man
nose-protein
mannosyltransferase 1/5
TBIM
028685943 PANTHER IPR027005
Glycosyltransferase 39
like
- 35 -
Transcript
IDLength Analysis InterProID Description
TBIM
021830724 PANTHER IPR026739 AP complex subunit beta
TBIM
0270001,422 PANTHER IPR027073 5'-3' exoribonuclease
TBIM
027199952 PANTHER IPR006539
P-type ATPase,
subfamily IV
TBIM
025384736 PANTHER IPR006823
Neutral/alkaline
nonlysosomal ceramidase
TBIM
0270121,340 PANTHER IPR027073 5'-3' exoribonuclease
TBIM
023431459 PANTHER IPR004790
Isocitrate dehydrogenase
NADP-dependent
TBIM
025140564 PANTHER IPR000581
Dihydroxy-acid/6-phosp
hogluconate dehydratase
TBIM
022702502 PANTHER IPR001085
Serine
hydroxymethyltransferase
TBIM
021930726 PANTHER IPR015937
Aconitase/isopropylmalate
dehydratase
TBIM
0241821,633 SMART IPR001609
Myosin head, motor
domain
TBIM
023432459 PANTHER IPR004790
Isocitrate dehydrogenase
NADP-dependent
TBIM
0270021,340 PANTHER IPR027073 5'-3' exoribonuclease
TBIM
036198457 PANTHER IPR002454 Gamma tubulin
TBIM
036198457 PANTHER IPR000217 Tubulin
TBIM
0376221,045 PANTHER IPR027120
Structural maintenance
of chromosomes Smc2
TBIM
034639843 PANTHER IPR026825
Vacuole morphology and
inheritance protein 14
TBIM
033980482 PANTHER IPR000581
Dihydroxy-acid/6-phosp
hogluconate dehydratase
TBIM
035926723 PANTHER IPR026739
AP complex subunit
beta
- 36 -
Type Frequency (%)
Blastx and InterProScan 17,954 44
Blastx Only 8,384 21
InterProScan Only 114 0
No Homolog 14,341 35
BLAST 및 InterProScan 분석 결과는 아래와 같다(그림 III-2-6, 표
III-2-9). Blastx와 InterProScan에서 공통적으로 분석된 Unigene의 개수는
17,954개로, 전체 Unigene의 44%를 차지하였다. Blastx 단독으로 분석된
Unigene의 개수는 전체 Unigene의 21%인 8,384개, InterProscan 단독으로 분석된
Unigene의 개수는 114개로 분석되었다. Blastx 및 InterProScan 분석결과 No
Homolog로 분석된 Unigene의 개수는 전체 Unigene의 35%인 14,341개로 분석
되었다(그림 III-2-6, 표 III-2-9).
그림 III-2-6. BLAST 및 InterProScan 분석 결과 모식도
표 III-2-9. BLAST 및 InterProScan 분석 결과
- 37 -
Name
Gene Gene (> fpkm 1.0)
Expre
ssedKnown Novel
Unexp
ressed
Expre
ssedKnown Novel
Unexp
ressed
개암
버섯36,649 24,358 12,291 4,144 32,780 21,893 10,887 0
라. 유전자 발현량 측정
Blastx와 InterProScan 분석결과에 기초하여 Unigene 26,452개를 Known
gene, No Homolog로 분석된 Unigene 14,341개를 Novel gene으로 구분하여
유전자 발현량을 측정하였다(그림 III-2-7, 그림 III-2-8, 표 III-2-10). FPKM
방법을 이용하여 데이터를 표준화(Normalization)한 후 분석한 결과는 아래와
같다(그림 III-2-8, 표 III-2-10, 표 III-2-11).
그림 III-2-7. RSEM을 이용한 유전자 발현량 분석 결과
그림 III-2-8. RSEM을 이용한 유전자 발현량 분석 결과 표준화(Normalization)
표 III-2-10. 유전자 발현량 분석 결과 표준화(> fpkm 1.0)
- 38 -
ID Description FPKM Type
TBIU
003267- 64,762.2 NOVEL
TBIU
030986- 30,600.6 NOVEL
TBIU
000985
Uncharacterized oxidoreductase C162.03
[Source:SWISS;ACC:O74628]25,459.5 KNOWN
TBIU
033294Polyubiquitin [Source:SWISS;ACC:P0CG83] 23,812.6 KNOWN
TBIU
003266- 20,829.0 NOVEL
TBIU
034505
hypothetical protein
[Source:NCBI_NR;ACC:XP_007395411.1]18,175.9 KNOWN
TBIU
033297
Polyubiquitin 11
[Source:SWISS;ACC:P0CH33]13,977.4 KNOWN
TBIU
004603
hypothetical protein
[Source:NCBI_NR;ACC:XP_001880460.1]13,859.8 KNOWN
TBIU
005580- 10,620.1 NOVEL
TBIU
003265- 9,681.56 NOVEL
TBIU
034490
Glutathione S-transferase PM239X14
[Source:SWISS;ACC:P42769]9,148.10 KNOWN
TBIU
028751
hypothetical protein
[Source:NCBI_NR;ACC:XP_002391291.1]8,636.87 KNOWN
TBIU
029592- 8,283.30 NOVEL
TBIU
027520- 7,113.36 NOVEL
TBIU
036663
hypothetical protein
[Source:NCBI_NR;ACC:XP_007324731.1]7,003.07 KNOWN
TBIU
029585- 6,927.81 KNOWN
TBIU
029881
hypothetical protein
[Source:NCBI_NR;ACC:XP_007261739.1]6,141.59 KNOWN
TBIU
003268- 5,575.24 NOVEL
TBIU
033295Polyubiquitin [Source:SWISS;ACC:P0CG83] 5,347.08 KNOWN
TBIU
033238- 4,519.46 NOVEL
표 III-2-11. 유전자 발현량 분석 결과 리스트(FPKM값 기준 상위 100개)
- 39 -
ID Description FPKM Type
TBIU
033100
Hydrophobin-1
[Source:SWISS;ACC:P52748]4,519.24 KNOWN
TBIU
033296
Polyubiquitin 11
[Source:SWISS;ACC:P0CH33]4,352.97 KNOWN
TBIU
027406
Serine protease inhibitor
[Source:SWISS;ACC:P81639]4,336.48 KNOWN
TBIU
034570- 4,094.65 KNOWN
TBIU
004120
hypothetical protein
[Source:NCBI_NR;ACC:XP_007334599.1]3,863.76 KNOWN
TBIU
034596- 3,614.94 NOVEL
TBIU
007070
hypothetical protein
[Source:NCBI_NR;ACC:XP_001873703.1]3,499.15 KNOWN
TBIU
033201
Uncharacterized protein YbiU
[Source:SWISS;ACC:P75791]3,458.50 KNOWN
TBIU
035258
Uncharacterized protein YLR154C-G
[Source:SWISS;ACC:Q3E813]3,327.08 KNOWN
TBIU
013426
Putative carboxymethylenebutenolidase
[Source:SWISS;ACC:Q07505]3,213.90 KNOWN
TBIU
002991
hypothetical protein
[Source:NCBI_NR;ACC:XP_001877335.1]2,940.34 KNOWN
TBIU
030432
Elongation factor 3
[Source:SWISS;ACC:O94489]2,362.19 KNOWN
TBIU
005755
hypothetical protein
[Source:NCBI_NR;ACC:XP_001878194.1]2,326.18 KNOWN
TBIU
029405
hypothetical protein
[Source:NCBI_NR;ACC:XP_001877401.1]2,292.64 KNOWN
TBIU
004438
Peptidyl-prolyl cis-trans isomerase
[Source:SWISS;ACC:P18253]2,286.86 KNOWN
TBIU
028026- 2,240.28 NOVEL
TBIU
004121
hypothetical protein
[Source:NCBI_NR;ACC:XP_007334600.1]2,224.61 KNOWN
TBIU
004536
Extracellular metalloprotease GLRG_06286
[Source:SWISS;ACC:E3QJV4]2,140.50 KNOWN
TBIU
000309
E3 ubiquitin ligase complex SCF subunit
sconC [Source:SWISS;ACC:B6QGB9]2,129.32 KNOWN
TBIU
000830
hypothetical protein
[Source:NCBI_NR;ACC:XP_001880219.1]1,974.85 KNOWN
- 40 -
ID Description FPKM Type
TBIU
034476
Accumulation of dyads protein 2
[Source:SWISS;ACC:P25613]1,954.08 KNOWN
TBIU
030565
Metal homeostasis factor ATX1
[Source:SWISS;ACC:P38636]1,911.65 KNOWN
TBIU
011538
Aryl-alcohol dehydrogenase [NADP(+)]
[Source:SWISS;ACC:Q01752]1,886.56 KNOWN
TBIU
031285
40S ribosomal protein S18
[Source:SWISS;ACC:O94754]1,825.26 KNOWN
TBIU
007062
Cysteine proteinase 1, mitochondrial
[Source:SWISS;ACC:C7GPC1]1,774.10 KNOWN
TBIU
037361
hypothetical protein
[Source:NCBI_NR;ACC:XP_001889528.1]1,756.67 KNOWN
TBIU
002990
hypothetical protein
[Source:NCBI_NR;ACC:XP_001877335.1]1,743.95 KNOWN
TBIU
011537
Aryl-alcohol dehydrogenase [NADP(+)]
[Source:SWISS;ACC:Q01752]1,737.02 KNOWN
TBIU
001011
Nascent polypeptide-associated complex
subunit beta
[Source:SWISS;ACC:A2R091]
1,729.78 KNOWN
TBIU
008450
Putative band 7 family protein R614
[Source:SWISS;ACC:Q5UP73]1,721.89 KNOWN
TBIU
032636- 1,717.02 KNOWN
TBIU
027530
Ubiquitin-conjugating enzyme E2-16 kDa
[Source:SWISS;ACC:O74196]1,681.33 KNOWN
TBIU
038498
hypothetical protein
[Source:NCBI_NR;ACC:XP_001877971.1]1,662.84 KNOWN
TBIU
033207
GlcNAc-binding protein A
{ECO:0000255|HAMAP-Rule:MF_01905}
[Source:SWISS;ACC:Q8EHY2]
1,647.02 KNOWN
TBIU
028931
60S acidic ribosomal protein P1-alpha 5
[Source:SWISS;ACC:Q9UU78]1,638.16 KNOWN
TBIU
029539
3-oxoacyl-[acyl-carrier-protein] reductase
FabG [Source:SWISS;ACC:Q9PKF7]1,634.46 KNOWN
TBIU
027409
Protein MGR2
[Source:SWISS;ACC:Q02889]1,594.14 KNOWN
TBIU
013425
Putative carboxymethylenebutenolidase
[Source:SWISS;ACC:Q07505]1,563.20 KNOWN
TBIU
004524
Carbonyl reductase [NADPH] 1
[Source:SWISS;ACC:P48758]1,541.68 KNOWN
- 41 -
ID Description FPKM Type
TBIU
034556
Thiamine thiazole synthase
{ECO:0000255|HAMAP-Rule:MF_03158}
[Source:SWISS;ACC:A8NSD1]
1,497.12 KNOWN
TBIU
031843- 1,434.37 NOVEL
TBIU
029588
Fruiting body protein SC1
[Source:SWISS;ACC:P04158]1,422.88 KNOWN
TBIU
033198- 1,384.88 NOVEL
TBIU
027535Actin-1 [Source:SWISS;ACC:Q9Y702] 1,356.50 KNOWN
TBIU
003263- 1,335.15 NOVEL
TBIU
030354
60S ribosomal protein L29
[Source:SWISS;ACC:Q92366]1,320.54 KNOWN
TBIU
028025
hypothetical protein
[Source:NCBI_NR;ACC:XP_001888159.1]1,317.07 KNOWN
TBIU
001603
Protein mmf1, mitochondrial
[Source:SWISS;ACC:O43003]1,289.74 KNOWN
TBIU
030567
hypothetical protein
[Source:NCBI_NR;ACC:XP_007299782.1]1,272.29 KNOWN
TBIU
013429
hypothetical protein
[Source:NCBI_NR;ACC:XP_001890125.1]1,266.80 KNOWN
TBIU
027550
40S ribosomal protein S25
[Source:SWISS;ACC:Q6FPX5]1,252.84 KNOWN
TBIU
006977- 1,246.44 NOVEL
TBIU
023890
Plasma membrane ATPase 1
[Source:SWISS;ACC:Q08435]1,237.74 KNOWN
TBIU
001665
Pyrimidodiazepine synthase {ECO:0000305}
[Source:SWISS;ACC:Q9VSL3]1,237.43 KNOWN
TBIU
031548
tetraspanin Pls1 family
[Source:NCBI_NR;ACC:XP_001878645.1]1,204.92 KNOWN
TBIU
004210Polyubiquitin [Source:SWISS;ACC:P0CG83] 1,204.23 KNOWN
TBIU
011121- 1,183.37 KNOWN
TBIU
032348
Probable 60S ribosomal protein L37-A
[Source:SWISS;ACC:Q9VXX8]1,175.87 KNOWN
TBIU
000517
Polyadenylate-binding protein, cytoplasmic
and nuclear [Source:SWISS;ACC:P0CP46]1,172.23 KNOWN
- 42 -
ID Description FPKM Type
TBIU040374
- 1,170.76 NOVEL
TBIU030393
hypothetical protein[Source:NCBI_NR;ACC:XP_007851724.1]
1,160.97 KNOWN
TBIU028475
hypothetical protein[Source:NCBI_NR;ACC:XP_001874265.1]
1,159.21 KNOWN
TBIU033101
Hydrophobin-1[Source:SWISS;ACC:P52748]
1,149.15 KNOWN
TBIU002814
V-type proton ATPase 16 kDa proteolipidsubunit [Source:SWISS;ACC:P31413]
1,128.24 KNOWN
TBIU011884
Subtilisin-like protease 8[Source:SWISS;ACC:D4DKQ4]
1,126.01 KNOWN
TBIU011506
glycoside hydrolase family 79 protein[Source:NCBI_NR;ACC:XP_001879951.1]
1,122.81 KNOWN
TBIU027533
hypothetical protein[Source:NCBI_NR;ACC:XP_001873463.1]
1,108.54 KNOWN
TBIU033030
hypothetical protein[Source:NCBI_NR;ACC:XP_001878499.1]
1,107.89 KNOWN
TBIU028491
hypothetical protein[Source:NCBI_NR;ACC:XP_007370845.1]
1,093.18 KNOWN
TBIU007888
hypothetical protein[Source:NCBI_NR;ACC:XP_007355301.1]
1,086.28 KNOWN
TBIU032861
Alkali-sensitive linkage protein 1[Source:SWISS;ACC:Q09788]
1,041.72 KNOWN
TBIU023889
ATPase 6, plasma membrane-type[Source:SWISS;ACC:Q9SH76]
1,041.28 KNOWN
TBIU008051
Chitin deacetylase[Source:SWISS;ACC:P50325]
1,038.17 KNOWN
TBIU032195
40S ribosomal protein S11[Source:SWISS;ACC:P79013]
1,034.57 KNOWN
TBIU033024
40S ribosomal protein S20[Source:SWISS;ACC:O74893]
1,027.39 KNOWN
TBIU015316
- 993.81 KNOWN
TBIU001995
- 986.50 NOVEL
TBIU000986
Uncharacterized oxidoreductase C162.03[Source:SWISS;ACC:O74628]
986.44 KNOWN
TBIU007273
Cathepsin E-B[Source:SWISS;ACC:Q805F2]
982.95 KNOWN
TBIU029428
- 976.82 KNOWN
- 43 -
SampleConcentration
(ng/ul)
Volume
(ul)
Quantity
(μg)
Purity
RIN 28s/18s
노란다발
버섯160 20 3.2 7.9 1.8
3. 노란다발버섯발현유전자시퀀싱(RNA sequencing)
가. 고품질 RNA 추출
개암버섯 RNA 추출 후, 대량염기서열 결정을 위한 고품질의 라이브러리 제작
단계에 앞서 RNA Sample의 QC를 분석하였다(표 III-3-1, 그림 III-3-1). 추출된
RNA의 Concentration은 160 ng/ul, Volume은 20 ul로 전체 RNA Quantity는 3.2 ug으로
측정되었으며, RNA Purity 분석 결과 RNA Integrity Number(RIN) 값은 7.9, 28s/18s
값은 1.8로 분석되었다. 추출된 RNA의 양과 질에 기초하였을 때, 라이브러리
제작에 적합한 것으로 분석되었다.
표 III-3-1. RNA Sample QC 결과
그림 III-3-1. RNA Integrity 측정 결과
- 44 -
SampleRaw Clean
Reads Base(>Q30) Reads Base(>Q30)
노란다발
버섯98,066,388 8,276,081,950 81,107,406 8,145,760,190
나. 서열 조립 및 유전자 획득
추출된 RNA를 이용하여 대량염기서열 결정을 위한 고품질의 라이브러리
제작 후, Hiseq2500을 이용하여 염기서열해독을 진행하였다(그림 III-3-2).
그림 III-3-2. RNA 염기서열 Quality 분석 결과
생산된 대량염기서열을 조립하기 앞서, 서열의 정확한 조립을 위하여 서열
필터링 작업을 수행하였다(표 III-3-2). Raw 리드(Read) 서열은 98,066,388개가
생산되었으며, 그 중 Q30 이상 값을 나타내는 염기서열은 8,276,081,950개로 분석
되었다. 서열 필터링 작업 후 81,107,406개의 리드 서열을 확보하였으며, 확보된 리드
서열을 이용하여 고품질 서열 조립 작업에 이용하였다.
표 III-3-2. RNA 대량염기서열 전처리 결과
- 45 -
BasepairsNumber of
UnigenesAverage Length of Unigenes
235,243,548 62,785 3,747
대량염기서열 조립 결과 Unigene의 개수는 62,785개로 조립되었으며, 전체
Unigene의 길이는 235,243,548 bp로 분석되었다. 평균 Unigene의 길이는 3,747
bp로 분석되었다(표 III-3-3).
표 III-3-3. RNA 대량염기서열 조립 결과
조립된 Unigene의 길이 분포도를 분석한 결과, 2,900 bp 이상 길이의
Unigene의 개수는 약 26,000개로 가장 많았으며, 300-400 bp 길이의 Unigene의
개수는 약 3,500개, 200-300 bp 길이의 Unigene이 약 2,500개, 400-500 bp 길이의
Unigene이 약 2,000개로 분석되었다(그림 III-3-3).
그림 III-3-3. RNA 대량염기서열 조립 결과의 길이 분포도
- 46 -
Has homologous No homologous
49,666 (79.1%) 13,119 (20.9%)
다. 유전자 기능 분석
DNA 서열에 기반한 상동성 검색은 SwissProt(http://www.uniprot.org/) 데이터
베이스 및 NCBI Non-redundant(nr)(http://www.ncbi.nlm.nih. gov/) 데이터베이스가
사용되었다. 62,785개의 Unigene에 대한 BLAST 분석을 수행한 결과, 위 데이터
베이스에 대한 Homologous Hit의 개수는 전체 Unigene의 79.1%인 49,666개로
분석되었으며, Non-Homologous Hits의 개수는 13,119개(20.9%)로 분석되었다
(표 III-3-4).
표 III-3-4. BLAST 분석 결과 Homologous/Non-Homologous Hits의 개수 및 비율
BLAST Annotation 결과를 분류군별로 구분하였을 때, Plants 범주에 전체
Unigene의 62.4%인 39,183개의 BLAST Hits가 분석되었으며, Primates 범주에
4.1%인 2,581개의 BLAST Hits, Bacteria 범주에 3.6%인 2,260개의 BLAST
Hits가 분석되었다(그림 III-3-4, 표 III-3-5).
그림 III-3-4. BLAST Annotation 결과 모식도
- 47 -
Query
Id
%
Identity
E-
value
Bit
ScoreDescription Source
TBIU
02538359.97 0 4,190
Cytoplasmic dynein 1 heavy
chain 1SWISS
TBIU
00160877.81 0 3,673
Pre-mRNA-processing-splicing
factor 8SWISS
TBIU
01828053.6 0 3,004
hypothetical protein
GALMADRAFT_141321
NCBI_
NRTBIU
04209665.81 0 2,845
Putative glutamate synthase
[NADPH]SWISS
TBIU
00933870.07 0 2,838
hypothetical protein
GALMADRAFT_553913
NCBI_
NRTBIU
01149052.87 0 2,833
hypothetical protein
GALMADRAFT_141321
NCBI_
NRTBIU
04212565.23 0 2,830
Putative glutamate synthase
[NADPH]SWISS
TBIU
00932969.42 0 2,829
hypothetical protein
GALMADRAFT_553913
NCBI_
NR
TBIU
02538264.72 0 2,722
Cytoplasmic dynein 1 heavy
chain 1SWISS
TBIU
00933270.29 0 2,663
hypothetical protein
GALMADRAFT_553913
NCBI_
NRTBIU
02241272.95 0 2,632
1,3-beta-glucan synthase
component FKS1SWISS
TBIU
02933277.5 0 2,507
Pentafunctional AROM
polypeptideSWISS
TBIU
04002172.27 0 2,478
1,3-beta-glucan synthase
component FKS1SWISS
TBIU
04210766.39 0 2,477
Putative glutamate synthase
[NADPH]SWISS
TBIU
00123356.69 0 2,466
DNA polymerase epsilon
catalytic subunit ASWISS
TBIU
02742755.62 0 2,457 Acetyl-CoA carboxylase SWISS
TBIU
02537667.1 0 2,451
Cytoplasmic dynein 1 heavy
chain 1SWISS
표 III-3-5. BLAST Hits 리스트(Bit Score 기준 상위 50개)
- 48 -
Query
Id
%
Identity
E-
value
Bit
ScoreDescription Source
TBIU
03597651.35 0 2,393
hypothetical protein
GALMADRAFT_141321
NCBI_
NR
TBIU
00441670.11 0 2,392
hypothetical protein
GALMADRAFT_227055
NCBI_
NR
TBIU
02992449.83 0 2,287
Phosphatidylinositol 3-kinase
tor2SWISS
TBIU
00441569.98 0 2,268
hypothetical protein
GALMADRAFT_227055
NCBI_
NR
TBIU
03117852.68 0 2,208
hypothetical protein
GALMADRAFT_239698
NCBI_
NR
TBIU
00715153.69 0 2,171
U5 small nuclear ribo-
nucleoprotein 200 kDa helicaseSWISS
TBIU
03118552.92 0 2,170
hypothetical protein
GALMADRAFT_239698
NCBI_
NR
TBIU
01282570.3 0 2,136 Protein pyrABCN SWISS
TBIU
05340257.86 0 2,117
hypothetical protein
DICSQDRAFT_172627
NCBI_
NR
TBIU
01282670.58 0 2,096 Protein pyrABCN SWISS
TBIU
05419068.49 0 2,083
Vacuolar protein
sorting/targeting protein 10SWISS
TBIU
04312155.69 0 2,070 Chitin synthase 8 SWISS
TBIU
03400160.1 0 2,069 Clathrin heavy chain 1 SWISS
TBIU
01148850.8 0 2,069 predicted protein
NCBI_
NR
TBIU
03400059.45 0 2,060 Clathrin heavy chain 1 SWISS
TBIU
03118652.92 0 2,046
hypothetical protein
GALMADRAFT_239698
NCBI_
NR
TBIU
03399960.07 0 2,040 Clathrin heavy chain 1 SWISS
TBIU
03117752.59 0 2,035
hypothetical protein
GALMADRAFT_239698
NCBI_
NR
- 49 -
Query
Id
%
Identity
E-
value
Bit
ScoreDescription Source
TBIU
00331263.42 0 2,008
DNA-directed RNA
polymerase II subunit rpb1SWISS
TBIU
02567750.1 0 1,898 predicted protein
NCBI_
NRTBIU
05441772.71 0 1,893
hypothetical protein
GALMADRAFT_60409
NCBI_
NRTBIU
05340560.47 0 1,882
hypothetical protein
DICSQDRAFT_172627
NCBI_
NR
TBIU
01777453.41 0 1,872
Fatty acid synthase subunit
alphaSWISS
TBIU
00331862.91 0 1,855
DNA-directed RNA
polymerase II subunit rpb1SWISS
TBIU
00368978.35 0 1,834 Myosin-1 SWISS
TBIU
01777347.62 0 1,823
Fatty acid synthase subunit
betaSWISS
TBIU
03752372.48 0 1,821
DNA-directed RNA
polymerase II subunit RPB2SWISS
TBIU
00332060.94 0 1,813
DNA-directed RNA
polymerase II subunit rpb1SWISS
TBIU
02567552.98 0 1,747
hypothetical protein
GALMADRAFT_141321
NCBI_
NRTBIU
03117552.82 0 1,743
hypothetical protein
GALMADRAFT_239698
NCBI_
NRTBIU
00924466.09 0 1,685
Pre-mRNA-splicing factor
RSE1SWISS
TBIU
03753974.53 0 1,645
DNA-directed RNA
polymerase II subunit RPB2SWISS
TBIU
03423771.26 0 1,640
Carbamoyl-phosphate
synthase arginine-specific
large chain
SWISS
- 50 -
Number of CDS ofunigenes Predicted Validated
1 14,242 14,9222 10,218 9,7053 8,092 6,2334 5,972 3,4795 4,494 2,3076 3,467 1,396
7 2,691 7888 1,921 4969 1,298 274
10 4,289 574
CDSType SUM Has Homologous No Homologous
Total 230,907 105,901 45.90% 125,006 54.10%Complete 182,648 87,520 47.90% 95,128 52.10%5'_partial 26,503 11,616 43.80% 14,887 56.20%3'_partial 18,109 5,577 30.80% 12,532 69.20%
Internal 3,647 1,188 32.60% 2,459 67.40%
단백질 서열 기반의 상동성 검색은 ProDom, PfamA, Panther, SMART,
SuperFamily, Gene3d의 총 6개의 단백질 데이터베이스를 이용하였다. 62,785개의
Unigene에 대한 InterProScan 분석을 수행한 결과, 1개의 CDS를 포함하는
Unigene의 개수는 총 29,164개(Predicted : 14,242개/Validated : 14,922개)로 분석
되었다. 2개의 CDS를 포함하는 Unigene의 개수는 총 19,923개(Predicted : 10,218개
/Validated : 9,705개), 3개의 CDS를 포함하는 Unigene의 개수는 총 14,325개
(Predicted : 8,092개/Validated : 6,233개)로 분석되었다(그림 III-3-5, 표
III-3-6, 표 III-3-7, 표 III-3-8).
그림 III-3-5. InterProScan 분석 결과 모식도
표 III-3-6. InterProScan 분석 결과 Unigene의 Predicted/Validated CDS의 개수
표 III-3-7. Unigene내의 CDS Type 분석 결과
- 51 -
Transcript
IDLength Analysis InterProID Description
TBIM
0025962,368 PANTHER IPR027652
Pre-mRNA-processing-
splicing factor 8
TBIM
005151963 PANTHER IPR027065 Lon protease
TBIM
006375826 PANTHER IPR027108
Pre-mRNA-processing
factor 6/Prp1/STA1
TBIM
007033912 PANTHER IPR005378
Vacuolar protein
sorting-associated
protein 35, Vps35
TBIM
0000711,267 PANTHER IPR002202
Hydroxymethylglutaryl-
CoA reductase, class I/II
TBIM
007229835 PANTHER IPR015712
DNA-directed RNA
polymerase, subunit 2
TBIM
0066871,241 SMART IPR001609
Myosin head, motor
domain
TBIM
0051501,131 PANTHER IPR027065 Lon protease
TBIM
004339758 PANTHER IPR015937
Aconitase/isopropylmalate
dehydratase
TBIM
008403770 PANTHER IPR011603
2-oxoglutarate
dehydrogenase E1
component
TBIM
003801464 PANTHER IPR001672
Phosphoglucose
isomerase (PGI)
TBIM
004340720 PANTHER IPR015937
Aconitase/isopropylmalate
dehydratase
TBIM
0083451,581 Pfam IPR022155
Protein of unknown
function DUF3684
TBIM
008396756 PANTHER IPR011603
2-oxoglutarate
dehydrogenase E1
component
TBIM
001193937 PANTHER IPR004835 Chitin synthase
TBIM
005039787 PANTHER IPR015937
Aconitase/isopropylmalate
dehydratase
표 III-3-8. InterProScan 분석 결과 리스트(Score 기준 상위 50개)
- 52 -
Transcript
IDLength Analysis InterProID Description
TBIM
008401737 PANTHER IPR011603
2-oxoglutarate
dehydrogenase E1
component
TBIM
003357970 PANTHER IPR027640 Kinesin-like protein
TBIM
001777804 PANTHER IPR027005
Glycosyltransferase 39
like
TBIM
004338647 PANTHER IPR015937
Aconitase/isopropylmalate
dehydratase
TBIM
006350544 PANTHER IPR026739
AP complex subunit
beta
TBIM
007044826 PANTHER IPR005378
Vacuolar protein
sorting-associated
protein 35, Vps35
TBIM
006378979 PANTHER IPR027108
Pre-mRNA-processing
factor 6/Prp1/STA1
TBIM
007233726 PANTHER IPR015712
DNA-directed RNA
polymerase, subunit 2
TBIM
004475502 PANTHER IPR001085
Serine
hydroxymethyltransferase
TBIM
006338724 PANTHER IPR026739
AP complex subunit
beta
TBIM
001194802 PANTHER IPR004835 Chitin synthase
TBIM
0033071,022 PANTHER IPR027512
Eukaryotic translation
initiation factor 3
subunit A
TBIM
014593390 PANTHER IPR002133
S-adenosylmethionine
synthetase
TBIM
013360585 PANTHER IPR027031
Glycyl-tRNA
synthetase/DNA
polymerase subunit
gamma-2
TBIM
0106111,237 PANTHER IPR028468
Structural maintenance
of chromosomes protein 1
TBIM
011273719 PANTHER IPR024909
Cysteinyl-tRNA
synthetase/mycothiol ligase
- 53 -
Transcript
IDLength Analysis InterProID Description
TBIM012164
472 PANTHER IPR028356UDP-glucose
6-dehydrogenase
TBIM012164
472 PANTHER IPR017476UDP-glucose/GDP-man
nose dehydrogenase
TBIM014837
1,083 PANTHER IPR000648Oxysterol-binding
protein
TBIM010241
953 PANTHER IPR027065 Lon protease
TBIM011277
805 PANTHER IPR024909Cysteinyl-tRNA
synthetase/mycothiol ligase
TBIM010423
738 Pfam IPR008631 Glycogen synthase
TBIM013359
686 PANTHER IPR027031 Glycyl-tRNA synthetase
TBIM010608
1,092 PANTHER IPR028468Structural maintenance
of chromosomes protein 1
TBIM010438
693 Pfam IPR008631 Glycogen synthase
TBIM022829
806 PANTHER IPR006329 AMP deaminase
TBIM025114
2,229 PANTHER IPR026827Proteasome component
ECM29
TBIM020124
537 PANTHER IPR005656 MmgE/PrpD
TBIM023225
375 PANTHER IPR004000 Actin family
TBIM033427
892 PANTHER IPR002303 Valine-tRNA ligase
TBIM030439
461 PANTHER IPR004790Isocitrate dehydrogenase
NADP-dependent
TBIM037331
1,389 PANTHER IPR027073 5'-3' exoribonuclease
TBIM033445
628 PANTHER IPR002303 Valine-tRNA ligase
TBIM037340
1,424 PANTHER IPR027073 5'-3' exoribonuclease
- 54 -
Type Frequency (%)
Blastx and InterProScan 40,036 63.8
Blastx Only 9,630 15.3
InterProScan Only 138 0.2
No Homolog 12,981 20.7
BLAST 및 InterProScan 분석 결과는 아래와 같다(그림 III-3-6, 표
III-3-9). Blastx와 InterProScan에서 공통적으로 분석된 Unigene의 개수는
40,036개로, 전체 Unigene의 63.8%를 차지하였다. Blastx 단독으로 분석된
Unigene의 개수는 전체 Unigene의 15.3%인 9,630개, InterProscan 단독으로 분석된
Unigene의 개수는 138개로 분석되었다. Blastx 및 InterProScan 분석결과 No
Homolog로 분석된 Unigene의 개수는 전체 Unigene의 20.7%인 12,981개로 분석
되었다(그림 III-3-6, 표 III-3-9).
그림 III-3-6. BLAST 및 InterProScan 분석 결과 모식도
표 III-3-9. BLAST 및 InterProScan 분석 결과
- 55 -
Name
Gene Gene (> fpkm 1.0)
Expre
ssedKnown Novel
Unexp
ressed
Expre
ssedKnown Novel
Unexp
ressed
노란
다발51,502 40,838 10,664 11,283 35,590 27,314 8,276 0
라. 유전자 발현량 측정
Blastx와 InterProScan 분석결과에 기초하여 Unigene 49,804개를 Known
gene, No Homolog로 분석된 Unigene 12,981개를 Novel gene으로 구분하여
유전자 발현량을 측정하였다(그림 III-3-7, 그림 III-3-8, 표 III-3-10). FPKM
방법을 이용하여 데이터를 표준화(Normalization)한 후 분석한 결과는 아래와
같다(그림 III-3-8, 표 III-3-10, 표 III-3-11).
그림 III-3-7. RSEM을 이용한 유전자 발현량 분석 결과
그림 III-3-8. RSEM을 이용한 유전자 발현량 분석 결과 표준화(Normalization)
표 III-3-10. 유전자 발현량 분석 결과 표준화(> fpkm 1.0)
- 56 -
ID Description FPKM Type
TBIU
062276- 10,443.4 KNOWN
TBIU
030037
hypothetical protein
[Source:NCBI_NR;ACC:XP_008045234.1]5,856.86 KNOWN
TBIU
001374
hypothetical protein
[Source:NCBI_NR;ACC:XP_001873781.1]4,705.08 KNOWN
TBIU
006284
Pyruvate decarboxylase
[Source:SWISS;ACC:Q2UKV4]4,634.20 KNOWN
TBIU
038353
Alcohol dehydrogenase 2
[Source:SWISS;ACC:O94038]4,069.72 KNOWN
TBIU
001274- 3,491.64 NOVEL
TBIU
057948- 3,111.28 NOVEL
TBIU
057176
hypothetical protein
[Source:NCBI_NR;ACC:XP_002435918.1]2,964.31 KNOWN
TBIU
031395
Retrovirus-related Pol polyprotein from
transposon TNT 1-94
[Source:SWISS;ACC:P10978]
2,743.94 KNOWN
TBIU
054388
Glutathione S-transferase PM239X14
[Source:SWISS;ACC:P42769]2,674.56 KNOWN
TBIU
053654
hypothetical protein
[Source:NCBI_NR;ACC:XP_002391291.1]2,551.83 KNOWN
TBIU
010735
hypothetical protein
[Source:NCBI_NR;ACC:XP_001882735.1]2,547.52 KNOWN
TBIU
003294
Putative uncharacterized protein ART2
[Source:SWISS;ACC:Q8TGM7]2,336.22 KNOWN
TBIU
007063
Peptidyl-prolyl cis-trans isomerase
[Source:SWISS;ACC:P18253]1,891.80 KNOWN
TBIU
036450- 1,820.29 NOVEL
TBIU
053882
Zinc-type alcohol dehydrogenase-like
protein C1773.06c
[Source:SWISS;ACC:O94564]
1,786.61 KNOWN
TBIU
054702- 1,731.34 KNOWN
TBIU
016113- 1,668.59 KNOWN
TBIU
055832- 1,596.65 NOVEL
표 III-3-11. 유전자 발현량 분석 결과 리스트(FPKM값 기준 상위 100개)
- 57 -
ID Description FPKM Type
TBIU
053487
hypothetical protein
[Source:NCBI_NR;ACC:XP_007261739.1]1,557.38 KNOWN
TBIU
036447
hypothetical protein
[Source:NCBI_NR;ACC:XP_001840198.2]1,509.44 KNOWN
TBIU
016036- 1,489.70 NOVEL
TBIU
036453- 1,464.33 NOVEL
TBIU
004023
hypothetical protein
[Source:NCBI_NR;ACC:XP_006454110.1]1,438.79 KNOWN
TBIU
041978Polyubiquitin [Source:SWISS;ACC:P0CG83] 1,361.07 KNOWN
TBIU
055802
hypothetical protein
[Source:NCBI_NR;ACC:XP_008045234.1]1,356.50 KNOWN
TBIU
000780
hypothetical protein
[Source:NCBI_NR;ACC:XP_007387798.1]1,339.87 KNOWN
TBIU
053891
Cysteine proteinase 1, mitochondrial
[Source:SWISS;ACC:C7GPC1]1,327.26 KNOWN
TBIU
015311
Required for meiotic nuclear division
protein 1 homolog
[Source:SWISS;ACC:Q9NWS8]
1,254.59 KNOWN
TBIU
055345
Metal homeostasis factor ATX1
[Source:SWISS;ACC:P38636]1,252.47 KNOWN
TBIU
011579
Superoxide dismutase [Mn], mitochondrial
[Source:SWISS;ACC:Q92429]1,252.23 KNOWN
TBIU
053656
hypothetical protein
[Source:NCBI_NR;ACC:XP_007360859.1]1,240.92 KNOWN
TBIU
030038
hypothetical protein
[Source:NCBI_NR;ACC:XP_008045234.1]1,158.88 KNOWN
TBIU
053657
hypothetical protein
[Source:NCBI_NR;ACC:XP_002391291.1]1,156.40 KNOWN
TBIU
011378- 1,098.81 NOVEL
TBIU
010061- 999.43 NOVEL
TBIU
004140
small heat shock protein
[Source:NCBI_NR;ACC:XP_001829984.1]997.16 KNOWN
TBIU
016112- 994.60 NOVEL
TBIU
011330
78 kDa glucose-regulated protein homolog
[Source:SWISS;ACC:P83616]958.01 KNOWN
- 58 -
ID Description FPKM Type
TBIU053469
Probable glycosidase C21B10.07[Source:SWISS;ACC:Q9USW3]
929.83 KNOWN
TBIU054771
- 925.66 NOVEL
TBIU035366
hypothetical protein[Source:NCBI_NR;ACC:XP_007398345.1]
920.88 KNOWN
TBIU002272
Glucose-6-phosphate isomerase[Source:SWISS;ACC:Q711G1]
891.32 KNOWN
TBIU053461
Protein MGR2[Source:SWISS;ACC:Q02889]
865.61 KNOWN
TBIU013886
hypothetical protein[Source:NCBI_NR;ACC:XP_001875376.1]
861.07 KNOWN
TBIU006285
Pyruvate decarboxylase[Source:SWISS;ACC:Q2UKV4]
826.71 KNOWN
TBIU054186
hypothetical protein[Source:NCBI_NR;ACC:XP_001886995.1]
804.57 KNOWN
TBIU035880
hypothetical protein[Source:NCBI_NR;ACC:XP_007327856.1]
758.97 KNOWN
TBIU053466
Cathepsin D [Source:SWISS;ACC:Q05744] 744.39 KNOWN
TBIU007053
S-adenosylmethionine synthase[Source:SWISS;ACC:P48466]
701.10 KNOWN
TBIU009640
Elongation factor 2[Source:SWISS;ACC:Q874B9]
699.34 KNOWN
TBIU055326
hypothetical protein[Source:NCBI_NR;ACC:XP_006455941.1]
682.13 KNOWN
TBIU010022
Actin-1 [Source:SWISS;ACC:Q9Y702] 669.88 KNOWN
TBIU011377
- 665.13 NOVEL
TBIU023097
Probable glucose transporter rco-3[Source:SWISS;ACC:Q92253]
655.52 KNOWN
TBIU054184
hypothetical protein[Source:NCBI_NR;ACC:XP_001877052.1]
651.38 KNOWN
TBIU035312
- 630.46 NOVEL
TBIU004013
Vegetative incompatibility proteinHET-E-1 [Source:SWISS;ACC:Q00808]
629.88 KNOWN
TBIU017099
expansin family protein[Source:NCBI_NR;ACC:XP_001875413.1]
623.94 KNOWN
TBIU017098
Secretory carrier-associated membraneprotein 2 [Source:SWISS;ACC:O15127]
623.24 KNOWN
- 59 -
ID Description FPKM Type
TBIU009446
Chitin deacetylase 1[Source:SWISS;ACC:Q06702]
623.17 KNOWN
TBIU054166
hypothetical protein[Source:NCBI_NR;ACC:XP_001873703.1]
621.09 KNOWN
TBIU051282
Ran-specific GTPase-activating protein 1[Source:SWISS;ACC:Q09717]
603.00 KNOWN
TBIU060969
- 602.02 NOVEL
TBIU060970
- 594.24 NOVEL
TBIU018554
hypothetical protein[Source:NCBI_NR;ACC:XP_001875182.1]
591.99 KNOWN
TBIU023099
Probable glucose transporter rco-3[Source:SWISS;ACC:Q92253]
587.52 KNOWN
TBIU055831
Protein decapping 5[Source:SWISS;ACC:Q9C658]
581.17 KNOWN
TBIU003645
Diacetyl reductase [(S)-acetoin forming][Source:SWISS;ACC:Q48436]
580.56 KNOWN
TBIU012548
hypothetical protein[Source:NCBI_NR;ACC:XP_008045233.1]
557.75 KNOWN
TBIU054684
- 545.26 NOVEL
TBIU008808
hypothetical protein[Source:NCBI_NR;ACC:XP_001877401.1]
545.07 KNOWN
TBIU041958
WD repeat-containing protein 5[Source:SWISS;ACC:Q498M4]
544.87 KNOWN
TBIU055065
Eukaryotic translation initiation factor 5A[Source:SWISS;ACC:O94083]
542.64 KNOWN
TBIU062415
hypothetical protein[Source:NCBI_NR;ACC:XP_001836165.1]
533.98 KNOWN
TBIU054165
Riboflavin transporter MCH5[Source:SWISS;ACC:Q08777]
525.96 KNOWN
TBIU021062
Ubiquitin-conjugating enzyme E2-16 kDa[Source:SWISS;ACC:O74196]
524.96 KNOWN
TBIU050945
Leptomycin B resistance protein pmd1[Source:SWISS;ACC:P36619]
522.30 KNOWN
TBIU001786
Calmodulin [Source:SWISS;ACC:P11120] 513.75 KNOWN
TBIU035646
Adenosylhomocysteinase[Source:SWISS;ACC:P83783]
496.64 KNOWN
TBIU005887
- 493.04 KNOWN
- 60 -
ID Description FPKM Type
TBIU
053883Protein psi1 [Source:SWISS;ACC:Q09912] 492.48 KNOWN
TBIU
006096
hypothetical protein
[Source:NCBI_NR;ACC:XP_001879021.1]489.93 KNOWN
TBIU
002271
Glucose-6-phosphate isomerase
[Source:SWISS;ACC:Q711G1]481.73 KNOWN
TBIU
053900
hypothetical protein
[Source:NCBI_NR;ACC:XP_007845047.1]476.44 KNOWN
TBIU
000496- 465.14 NOVEL
TBIU
004025
hypothetical protein
[Source:NCBI_NR;ACC:XP_001873400.1]462.16 KNOWN
TBIU
054221
Serine protease inhibitor
[Source:SWISS;ACC:P81639]459.02 KNOWN
TBIU
012505
ATP synthase subunit beta, mitochondrial
[Source:SWISS;ACC:P22068]458.85 KNOWN
TBIU
050127
Heat shock protein 78, mitochondrial
[Source:SWISS;ACC:O74402]454.39 KNOWN
TBIU
002662
Phosphoinositide 3-phosphatase
[Source:SWISS;ACC:O13819]448.74 KNOWN
TBIU
053945
hypothetical protein
[Source:NCBI_NR;ACC:XP_001882733.1]436.07 KNOWN
TBIU
030036
hypothetical protein
[Source:NCBI_NR;ACC:XP_008045234.1]429.29 KNOWN
TBIU
055327
hypothetical protein
[Source:NCBI_NR;ACC:XP_007334600.1]427.00 KNOWN
TBIU
055961
RING-box protein 1
[Source:SWISS;ACC:Q8QG64]416.01 KNOWN
TBIU
058369- 413.82 KNOWN
TBIU
050947
Leptomycin B resistance protein pmd1
[Source:SWISS;ACC:P36619]401.66 KNOWN
TBIU
054678
hypothetical protein
[Source:NCBI_NR;ACC:XP_001873721.1]401.39 KNOWN
TBIU
005358
2,3-bisphosphoglycerate-independent
phosphoglycerate mutase 1
[Source:SWISS;ACC:Q8TMI6]
401.39 KNOWN
TBIU
054671- 398.59 NOVEL
- 61 -
IV. 고찰 및 결론
항균, 항암 등 생리활성이 우수한 독청버섯과 버섯종의 유용물질 및 생합성 유전자
정보 확보를 통해 유용물질 대량생산 기반을 구축하기 위하여 「독청버섯과
(Strophariaceae) 버섯종 유래 유용물질 탐색」사업을 추진하였다. 당해연도에는
버섯종 유래 유용물질 생합성 유전자를 발굴하기 위한 기반을 구축하기 위하여,
독청버섯과 버섯종(3종)의 대량염기서열 해독 및 유전자 기능 분석을 수행하였다.
연구 대상종은 국립생물자원관에서 기 확보된 독청버섯과 버섯종 비늘버섯(P.
squarrosa) 및 당해연도 채집·확보된 개암버섯(H. lateritium), 노란다발버섯(H.
fasciculare)을 대상으로 발현 유전자 대량염기서열 해독 및 정보 분석을 수행하였다.
비늘버섯 균사 시료로부터 31,958개(32 Mbp, 평균길이 1,031 bp), 개암버섯 균사
시료로부터 40,793개(61 Mbp, 1,496 bp), 노란다발버섯 균사 시료로부터 62,785개(235
Mbp, 3,747 bp)의 Unigene을 확보하였다. DNA 서열 기반 상동성 검색을 통하여 기능
분석을 수행한 결과, Homologous Hits의 비율은 비늘버섯 전체 Unigene의 60.2%,
개암버섯의 64.6%, 노란다발버섯의 79.1%로 분석되었다. RSEM 프로그램을 이용하여
비늘버섯의 Known gene 19,338개, Novel gene 12,620개, 개암버섯의 Known
gene 26,452개, Novel gene 14,341개, 노란다발버섯의 Known gene 49,804개,
Novel gene 12,981개의 발현량을 측정하였다.
본 사업은 야생버섯자원을 대상으로 연구를 수행하였으며, 식용버섯 및 약용
버섯에 비해 활용도가 매우 낮은 독버섯을 대상으로 연구를 수행하였다. 해마다
발생되고 있는 독버섯 오용 사고로 인하여 일반인들에게 독버섯은 해로운 생물로
인식되어 왔지만, 독버섯이 생산하는 독성분은 항균 및 항진균 활성뿐만 아니라
항암 활성이 있는 것으로 보고되어, 향후 의약품 소재로 활용될 수 있는 귀중한
생물자원으로 보존 및 활용가치가 높다. 본 사업은 항균활성, 항암활성 등 유용한
활성을 가지는 독청버섯과 버섯종인 비늘버섯, 개암버섯, 노란다발버섯을 대상으로
연구를 진행하였다. 산업적 응용 가능성이 높은 유용물질 생합성 관련 유전자
정보를 확보·이용 할 수 있는 기반을 구축하기 위하여, 독청버섯과 버섯종(3종)의
대량 발현 유전자 정보를 확보하였다. 당해연도 사업을 통해 확보된 정보를 향후
추진할 효능·성분 분석 결과와 연계하여 유용물질 생합성 유전자 발굴을 위한 기초
자료로 활용할 계획이다.
- 63 -
V. 참고문헌
Anders S, Huber W. 2010. Differential expression analysis for sequence
count data. Genome Biol. 11:R106.
Baldauf SL, Palmer JD. 1993. Animals and fungi are each other's closest
relatives: congruent evidence from multiple proteins. Proc. Natl. Acad.
Sci. U. S. A. 90:11558-11562.
Beattie KD, Ulrich R, Grice ID, Uddin SJ, Blake TB, Wood KA, Steele J,
Iu F, May TW, Tiralongo E. 2011. Ethanolic and aqueous extracts
derived from Australian fungi inhibit cancer cell growth in vitro.
Mycologia. 103:458-465.
Blanco E, Parra G, Guigó R. 2007. Using geneid to identify genes. Curr.
Protoc. Bioinformatics. Chapter 4:Unit 4.3.
Bruns T. 2006. Evolutionary biology: a kingdom revised. Nature. 443:758–761.
Campbell NA, Reece JB, Urry LA, Cain ML, Wasserman SA, Minorsky
PV, Jackson RB. 2009. Biology, 8th ed. Pearson. San Francisco. 542pp.
Deacon J. 2005. Fungal Biology, 4th ed. Wiley-Blackwell. Massachusetts.
de Boer W, Folman LB, Gunnewiek PJ, Svensson T, Bastviken D, Oberg
G, del Rio JC, Boddy L. 2010. Mechanism of antibacterial activity of
the white-rot fungus Hypholoma fasciculare colonizing wood. Can. J.
Microbiol. 56:380-388.
Ding Yan, Tolgor Bau, Kim YH, Hai Ying Bao, Yu Li. 2009. Antitumor
Components from Naematoloma fasciculare. J. Microbiol. Biotechnol.
19:1135-1138.
Grabherr MG, Haas BJ, Yassour M, Levin JZ, Thompson DA, Amit I,
Adiconis X, Fan L, Raychowdhury R, Zeng Q, Chen Z, Mauceli E,
Hacohen N, Gnirke A, Rhind N, di Palma F, Birren BW, Nusbaum C,
Lindblad-Toh K, Friedman N, Regev A. 2011. Full-length
transcriptome assembly from RNA-Seq data without a reference
genome. Nat. Biotechnol. 29:644-652.
- 64 -
Haas BJ, Papanicolaou A, Yassour M, Grabherr M, Blood PD, Bowden J,
Couger MB, Eccles D, Li B, Lieber M, Macmanes MD, Ott M, Orvis
J, Pochet N, Strozzi F, Weeks N, Westerman R, William T, Dewey
CN, Henschel R, Leduc RD, Friedman N, Regev A. 2013. De novo
transcript sequence reconstruction from RNA-seq using the Trinity
platform for reference generation and analysis. Nat. Protoc.
8:1494-1512.
Houghton LA, Vieth R. 2006. The case against ergocalciferol (vitamin D2)
as a vitamin supplement. Am. J. Clin. Nutr. 84:694–697.
Huang X, Madan A. 1999. CAP3: A DNA sequence assembly program.
Genome Res. 9:868-877.
Kadota K, Nishiyama T, Shimizu K. 2012. A normalization strategy for
comparing tag count data. Algorithms Mol. Biol. 7:5.
Kim JH, Lee EJ, Seok SJ. 2007. Fibrinolytic and α-Glucosidase Inhibitory
Activitiesof Wild Mushroom Methanol Extracts. Kor. J. Mycol.
35:128-132.
Kim KH, Moon E, Choi SU, Kim SY, Lee KR. 2013. Lanostane
triterpenoids from the mushroom Naematoloma fasciculare. J. Nat.
Prod. 76:845-851.
Li B, Dewey CN. 2011. RSEM: accurate transcript quantification from
RNA-Seq data with or without a reference genome. BMC
Bioinformatics. 12:323.
Li H, Durbin R. 2009. Fast and accurate short read alignment with
Burrows-Wheeler transform. Bioinformatics. 25:1754-1760.
Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, Marth G,
Abecasis G, Durbin R; 1000 Genome Project Data Processing
Subgroup. 2009. The Sequence Alignment/Map format and SAMtools.
Bioinformatics. 25:2078-2079.
Martin JA, Wang Z. 2011. Next-generation transcriptome assembly. Nat.
Rev. Genet. 12:671-682.
Mattila P, Suonpää K, Piironen V. 2000. Functional properties of edible
mushrooms. Nutrition. 16: 694–696.
- 65 -
Mau JL, Lin HC, Chen CC. 2001. Non-volatile components of several
medicinal mushrooms. Food Res. Int. 34:521-526.
Ng TB. 1998. A review of research on the protein-bound polysaccharide
(polysaccharopeptide, PSP) from the mushroom Coriolus versicolor
(basidiomycetes: Polyporaceae). General Pharmacology. 30:1-4.
Pereira E, Santos A, Reis F, Tavares RM, Baptista P, Lino-Neto T,
Almeida-Aguiar C. 2013. A new effective assay to detect
antimicrobial activity of filamentous fungi. Microbiol. Res. 168:1-5.
Pertea G, Huang X, Liang F, Antonescu V, Sultana R, Karamycheva S,
Lee Y, White J, Cheung F, Parvizi B, Tsai J, Quackenbush J. 2003.
TIGR Gene Indices clustering tools (TGICL): a software system for
fast clustering of large EST datasets. Bioinformatics. 19:651-652.
Sliva D. 2010. Medicinal mushroom Phellinus linteus as an alternative
cancer therapy. Exp. Ther. Med. 1:407-411.
Sun J, Nishiyama T, Shimizu K, Kadota K. 2013. TCC: an R package for
comparing tag count data with robust normalization strategies. BMC
Bioinformatics. 14:219.
Wasser SP, Weis AL. 1999. Medicinal properties of substances occurring in
higher Basidiomycetes mushrooms: current perspective. Int. J. Med.
Mushrooms. 1:31-62.
Wasser SP. 2002. Medicinal mushrooms as a source of antitumor and
immunomodulating polysaccharides. Appl. Microbiol. Biotechnol.
60:258-274.
Yang Y, Smith SA. 2013. Optimizing de novo assembly of short-read
RNA-seq data for phylogenomics. BMC Genomics. 14:328.
Zaidman BZ, Yassin M, Mahajna J, Wasser SP. 2005. Medicinal mushroom
modulators of molecular targets as cancer therapeutics. Appl.
Microbiol. Biotechnol. 67:453-468.