hhhmmmeee모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른...

103
HME모형을 이용한 시간에 따른 반복측정Microarray자료에대한 분석기법 연구 연세대학교 대학원 의학전산통계학협동과정 의학통계학전공 명성민

Upload: others

Post on 09-Mar-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

HHHMMMEEE모모모형형형을을을 이이이용용용한한한 시시시간간간에에에 따따따른른른반반반복복복측측측정정정 MMMiiicccrrroooaaarrrrrraaayyy자자자료료료에에에 대대대한한한

분분분석석석기기기법법법 연연연구구구

연연연세세세대대대학학학교교교 대대대학학학원원원의의의학학학전전전산산산통통통계계계학학학협협협동동동과과과정정정

의의의학학학통통통계계계학학학전전전공공공명명명 성성성 민민민

Page 2: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

HME모형을 이용한 시간에 따른반복측정 Microarray자료에 대한

분석기법 연구

지도 김 동 기 교수

이 논문을 박사 학위논문으로 제출함

2005년 12월 일

연세대학교 대학원

의학전산통계학 협동과정

의학통계학전공

명 성 민

Page 3: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

명명명성성성민민민의의의 박박박사사사 학학학위위위논논논문문문을을을 인인인준준준함함함

심사위원 인

심사위원 인

심사위원 인

심사위원 인

심사위원 인

연연연세세세대대대학학학교교교 대대대학학학원원원

222000000555년년년 111222월월월 일일일

Page 4: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- i -

차차차 례례례

그림 차례 ······························································································································iii표 차례 ··································································································································iv국문 요약 ·······························································································································v제 1장 서론 ·························································································································11.1연구배경····························································································································11.2연구목적 및 방법············································································································2제 2장 Microarray실험 및 군집분석기법·····································································42.1cDNA Microarray의 소개·····························································································42.2모형에 기초한 군집분석(Model-basedClustering)·················································62.2.1모형에 기초한 접근방법·····························································································72.2.2모수의 추정 및 모형의 선택·····················································································92.2.3군집분석·······················································································································10제 3장 계층적 혼합 엑스퍼트(HME)모형···································································133.1혼합 엑스퍼트(MixtureofExpert)모형·································································133.1.1최대우도추정치에 기초한 네트워크 학습·····························································133.1.2ME모형에 관한 EM-알고리즘의 적용································································173.2계층적 혼합 엑스퍼트(HME)모형············································································223.2.1HME모형의 정의······································································································233.2.2HME의 확률 모형······································································································283.3HME모형에 관한 EM-알고리즘의 적용··································································32제 4장 time-course실험의 선형 회귀모형··································································364.1.반복측정자료의 정의와 실험설계·············································································364.1.1반복측정자료의 정의와 특징···················································································364.1.2반복측정자료의 실험설계·························································································37

Page 5: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- ii -

4.2일반 선형모형을 이용한 반복측정자료의 분석······················································384.2.1일변량 분석·················································································································384.2.2다변량 분석·················································································································414.3혼합모형을 이용한 반복측정자료의 분석································································434.3.1혼합모형·······················································································································434.3.2고정 효과·····················································································································454.3.3임의 효과·····················································································································484.4공분산 구조 모형··········································································································50제 5장 time-coursemicroarray자료에 관한 HME모형의 적용··························535.1수정된 HME모형의 설정···························································································535.2모수의 추정····················································································································565.3제안된 HME모형의 정규성 근사···············································································60제 6장 제안된 HME모형에 관한 모의 실험································································646.1모의자료의 생성············································································································646.21차 자기회귀 상관계수의 변화에 따른 추정치의 변화········································696.3기존 모형과의 비교······································································································70제 7장 실재자료를 이용한 HME모형의 적용······························································747.1이스트 세포주기(yeastcellcycle)자료····································································747.2인간 섬유아세포(fibroblast)자료··············································································787.3말라리아 숙주 자료······································································································82제 8장 토의 및 결론·········································································································86

Page 6: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- iii -

그그그 림림림 차차차 례례례

그림 1.마이크로어레이 실험 ····························································································5그림 2.수준이 2개인 HME모형(1)················································································24그림 3.수준이 2개인 HME모형(2)················································································53그림 4.가정된 HME모형의 구조···················································································66그림 5.모의생성된 자료의 산점도··················································································67그림 6.EM 알고리즘의 반복에 따른 추정치들의 수렴정도······································68그림 7.모의자료에 대한 MCLUST의 추정된 평균에 관한 프로파일····················72그림 8.세포주기자료에 대한 엑스퍼트 네트워크들의 프로파일······························76그림 9.세포주기자료에 대한 MCLUST의 추정된 평균에 관한 프로파일············77그림 10.인간 섬유아세포에 대한 엑스퍼트 네트워크들의 프로파일······················80그림 11.인간 섬유아세포에 대한 MCLUST의 추정된 평균에 관한 프로파일····81그림 12.말라리아 숙주자료에 대한 MCLUST의 추정된 평균에 관한 프로파일 83그림 13.말라리아 숙주자료에 대한 엑스퍼트 네트워크들의 프로파일··················84그림 14.말라리아 숙주자료에 대한 MCLUST 군집들에 관한 프로파일··············85

Page 7: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- iv -

표표표 차차차 례례례

표 1.MCLUST에서 제안된 공분산 모형 ······································································8표 2.자기회귀상관계수의 변화에 따른 제안된 HME의 적용결과···························70표 3.생성된 모의자료에 대한 MCLUST결과······························································71표 4.자기회귀상관계수가 변화된 모의자료에 대한 HME모형의 적용결과···········72표 5.자기회귀상관계수가 변화된 모의자료에 대한 MCLUST결과························73표 6.세포주기자료에 대한 제안된 HME모형의 적용결과·········································75표 7.Spellman등(1998)에 의하여 정의된 5주기의 612개의 유전자들중에서 제안된 HME모형을 이용한 4개의 엑스퍼트들과의 분포····················································77표 8.MCLUST에서의 군집과 제안된 HME모형에서의 유전자들의 분포 ···········78표 9.인간 섬유아세포에 대한 제안된 HME모형의 적용결과···································79표 10.Iyer등(1999)에 의하여 알려진 군집과 각 엑스퍼트들의 분포····················81표 11.말라리아 숙주자료에 대한 제안된 HME모형의 적용결과·····························82

Page 8: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- v -

국국국문문문요요요약약약

HHHMMMEEE모모모형형형을을을 이이이용용용한한한 시시시간간간에에에 따따따른른른반반반복복복측측측정정정 MMMiiicccrrroooaaarrrrrraaayyy자자자료료료에에에 대대대한한한 분분분석석석기기기법법법 연연연구구구

DNA microarray 자료에 대한 통계적 분석방법 중 군집분석(clusteringanalysis)기법은 수많은 유전자들과 생물학적 네트워크의 복잡성을 가지는 유전자발현자료의 분석에 대하여 유용하게 설명할 수 있는 방법이다.그러나 이러한 군집분석방법은 시간에 따라 반복되는 자료에 대해서는 이러한 시간에 따른 정보를이용할 수 없다는 제약을 가지고 있다.그러므로 시간에 따른 유전자 발현자료에대하여 각 유전자들에 대한 군집(cluster)및 각 군집에 대한 특성을 파악하는 통계학적 방법이 요구되고 있다.본 논문에서는 시간에 따른 반복측정 microarray자료에 대하여 HME모형을 이

용한 군집(clustering)및 각 군집에 따른 특성을 선형혼합모형(linearmixedeffectmodel)을 이용하여 추정하는 방법에 대하여 제안하였다.제안된 모형의 방법론적 타당성을 확인하기 위하여,모의자료를 이용하여 기존

의 군집분석방법과 비교해 보았을 때 시간에 대한 영향력을 고려한 군집(clustering)및 이에 대한 선형추세(lineartrend)를 확인할 수 있었다.아울러 본연구의 방법에 대하여 실제 기존에 발표된 자료들에도 적용시켰을 때,기존에 보고된 결과와 유사함을 알 수 있었다.

핵심되는 말 :계층적 혼합 전문가 모형,혼합 전문가 모형,EM 알고리즘,선형혼합모형,혼합모형,microarray.time-coursegeneexpresssion

Page 9: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 1 -

제 제 제 제 1 1 1 1 장 장 장 장 서론 서론 서론 서론

1.1 1.1 1.1 1.1 연구배경연구배경연구배경연구배경

분자생물학적 실험기술의 발달과 공학 기술의 발달로 등장하게 된 DNA

microarray 혹은 마이크로 칩(microchip)은 유전자 형별 분석이나 EST(Expressed

Sequence Tag)의 발현정도를 동시에 관찰할 수 있는 기술이다. 수천 개, 수만 개의

유전자 발현을 일시에 검증하고 그 결과를 토대로 생물학적 의미를 찾아내는

(discovery-driven) 효율적인 유전자 발현 검색 시스템이 개발되었으며, 이중 가장

보편적인 것이 DNA microarray 실험방법이다.

DNA microarray는 수많은 유전자들의 변화를 동시에 연구하는 것을 제공하며,

연구자들은 수많은 유전자 발현 자료들을 생성하지만, 분석을 위한 방법론과 이러

한 방법론에 의거한 정보를 발전시키는 것이 필요하다(Lander, 1999).

군집분석(clustering)은 수많은 유전자들과 생물학적 네트워크의 복잡성을 가지는

유전자 발현자료의 분석에 대하여 유용하게 설명할 수 있는 통계학적 방법이다

(Yeung et al, 2001). 유전자 발현자료의 분석을 위하여 제안된 군집분석 알고리즘

들은 계층적 군집분석(Eisen et al, 1998), SOM(Tamayo et al, 1999), k-평균 군집분

석(Tavazoie et al., 1999), 그래프-이론 접근방법(graph-theoretic approach;, Hartuv et

al, 1999) 및 SVM(support vector machine, Brown et al, 2000)이 있다. 이러한 많은

군집분석 방법들은 유전자 발현 분석만을 위하여 고안된 방법이라고 하기에는 거

리가 있다. 대부분의 제안된 군집 알고리즘은 군집의 수를 결정짓고, ‘좋은’ 군집

알고리즘을 선택한다는 것이 엄격하게 제시되고 있지 않다(Yeung et al, 2001).

Eisen et al.(1998)과 Tamayo et al.(1999)은 군집의 수를 결정하는 것을 도식화하여

표현하였으며, Yeung et al. (2001)은 첫 시점에서 한 개의 실험을 뺀 자료에 대하

여 군집분석을 하고 뺀 실험자료를 이용하여 다른 군집 알고리즘의 성능

(performance)를 비교하는 방법을 제안하였다. Tibshirani et al.(2000)이 제안한 gap-

통계량은 참조되는 영분포(null distribution)의 군집 내 산포를 비교하는 것으로서

Page 10: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 2 -

군집의 수를 추정하였다. 군집 알고리즘은 발견에 기초한 알고리즘들

(heuristic-based algorithms)에 대체되는 원칙을 나타내는 확률적인 모형이다. 특히,

모형에 근거한 접근방법은 자료가 다변량 정규 분포(multivariate normal distribution)

같은 확률분포를 가정하여, 유한 혼합모형(finite mixture model)에 의하여 생성되었

다고 고려하는 MCLUST 기법을 제안하였다.

생물학적 프로세스(biological process)가 이루어지는 동안에 어떤 특정한 셀(cell)

의 발현이 어느 시점에서 이루어지는지에 대한 연구를 time course 실험이라고 한

다(Costa et al, 2004). 이는 생물학적 프로세스를 통하여 동일한 형태로 발현되는

유전자들의 군들을 확인한 것으로서, 생물학자들은 유전자의 기능과 유전자 규칙

성(gene regulation)에 대한 메커니즘을 추론한다(Quackenbush, 2001; Slonim, 2002).

이러한 time-course 유전자 자료에 관한 분석기법은 일반적인 군집분석기법을 이용

하고 이의 타당도를 파악하기 위한 방법(Costa et al., 2002)등이 나타나고 있다.

1.2 연구목적 연구목적 연구목적 연구목적 및 및 및 및 방법방법방법방법

본 연구에서는 수정된 계층적 혼합 엑스퍼트(hierearchical mixture of expert;

HME)모형을 통하여 time-course 자료에 관한 유전자들의 군집 및 이에 따른 경향

성을 선형혼합모형(linear mixed effect model)을 통하여 확인하는 방법을 제시하고

자 한다.

HME 모형은 분리와 해결 원칙(divide and conquer)에 의거하여 아키텍쳐에 대한

학습의 문제(problem of learning)와 네트워크 아키텍쳐(network architecture)에 대한

모형을 의미한다(Jordan et al, 1994). 이는 혼합추정(mixture estimation)문제의 학습

및 EM-알고리즘을 통한 혼합 모수(mixture parameter)들을 추정한다. 또한, 아키텍

쳐의 구성에 대한 통계학적 구조를 나타내기 위하여, Laird et al.(1982)이 제시한

혼합모형(mixed effect model)을 이용하여 time-course에 관하여 모형화하여Tdsmsep,

본 논문에서는 최대우도(Maximum Likelihood) 혹은 제한된 최대우도(Restricted

Maximum Likelihood)를 통하여 혼합모형을 추정하는 알고리즘이 EM 알고리즘의

Page 11: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 3 -

M-step으로 표현되는 것을 제시한다. 마지막으로, 이러한 제안된 HME모형과

Yeung et al.(2001)이 제시한 MCLUST와의 비교를 통하여 기존의 군집분석과의 타

당성을 평가하고자 한다.

본 연구에서 제시하고자 하는 것은 기존의 분석방법에 비해 군집을 계층적으로

표현하면서, 동시에 각 군집들의 선형추세를 추정할 수 있다는 측면에서 그 의미

를 갖고 있다고 할 수 있다. 본 논문에서 다루게 될 내용들을 소개하면 다음과 같

다. 먼저 microarray 실험에 관한 내용과 그 분석방법에 대하여 소개한다. 분석방법

은 가장 일반적으로 많이 사용되는 모형에 기초한 MCLUST방법에 대하여 구체적

으로 기술한다. 다음으로 혼합 엑스퍼트(mixture of expert; ME)모형과 이를 계층화

한 HME모형의 방법을 소개한다. 다음으로 본 연구의 핵심인 수정된 HME모형을

기술하고, 이에 대한 근사적 정규성(asymptotic normality)에 관하여 논의하고, 아울

러 제안된 HME모형을 통하여 실재자료와 모의자료등을 이용하여 분석된 결과를

해석하고 토론한다.

Page 12: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 4 -

제 제 제 제 2 장 장 장 장 Microarray 실험 실험 실험 실험 및 및 및 및 군집분석기법군집분석기법군집분석기법군집분석기법

2.1 cDNA Microarray의 의 의 의 소개소개소개소개

분자생물학적 실험기술의 발달과 공학 기술의 발달로 등장하게 된 DNA

microarray 혹은 마이크로 칩(microchip)은 유전자 형별 분석이나 EST(Expressed

Sequence Tag)의 발현정도를 동시에 관찰할 수 있는 기술이다. 종래의 생명과학은

이러한 유전자 발현의 변화를 일대일의 관계로부터 찾는 것이 관례였다. 즉, A 단

백질의 발현 변화는 B 단백질의 발현 변화를 초래하고 이는 또 다시 C 단백질의

발현 변화를 유도한다는 것을 가정하고 이를 증명함으로서 유전자 발현 경로와

병리기전을 찾아내는 것이다. 그러나 특정 단백질의 작용이 하나의 단백질에 국한

되는 것만은 아니며 다양한 단백질의 발현에 관여한다고 생각할 때 이러한 접근

은 매우 제한적일 수밖에 없다. 이러한 이유에서 최근에는 수천 개, 수만개의 유

전자 발현을 일시에 검증하고 그 결과를 토대로 생물학적 의미를 찾아내는 효율

적인 유전자 발현 검색 시스템이 개발되었으며, 이중 가장 보편적인 것이 DNA

microarray나 SAGE(serial analysis of gene expression)이다.

DNA microarray 자료란 서로 다른 두 실험환경 하에서 여러 유전자들의 발현정

도가 어떻게 달라지는지에 대한 비를 수치적으로 표현한 것을 말한다. 즉, 수많은

유전자들에 대한 DNA의 시퀀스를 특정 실험환경에서의 두 개의 군으로 놓고, 각

각 다른 시각에 채집된 mRNA를 역전사하여 만든 cDNA를 hybridization하면, 특정

유전자들이 이 cDNA와 특별히 많이 결합되어 발현수치가 높아진다. 정리하면, 수

천 개의 유전자에 대해 서로 다른 조건(일반적으로 한 조건은 백그라운드

(background)조건으로 하고 다른 한 조건은 heat shock와 같은 특정한 조건으로 한

다)의 cDNA를 발현수준에 따른 비(ratio)로 나타낸 것이 DNA microarray 자료이다.

cDNA microarray 자료에 대하여 간단하게 소개하면 다음과 같다.

세포에서 특정의 기능 또는 구성원소가 필요하게 되면 해당 작용에 관여하는

DNA는 RNA를 생성하고 이 mRNA가 가지고 있는 유전정보는 리보솜(ribosome)에

Page 13: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 5 -

전달되어 실제 생물학적 기능을 하게 되는 단백질(protein)이 생성된다. mRNA로부

터 DNA의 정보가 복사되는 과정을 전사(transcription)라고 하며, mRNA의 정보로

부터 단백질이 합성되는 과정을 번역(translation)이라 한다. mRNA를 역전사(reverse

transcription)과정을 거치면 cDNA로 전환되는데, 이 cDNA들은 서로 상보적인

(complementary) 염기서열을 갖는 cDNA들 끼리만 결합을 하는 특성이 있다.

그림 1 . 마이크로어레이 실험(sourced by Patrick O. Brown

and David Botstein, Exploring the new world of the genome

with DNA microarrays, Nature genetics, vol.21, 34-37, 1999)

이처럼 유전자가 반응을 타나내는 것을 유전자의 발현(expression)이라고 하는데

microarray 실험은 각 처리에 따른 유전자의 발현도의 차이를 측정하는 실험이다.

microarray 실험방법에 대하여 기술하면, 먼저 실험군과 대조군에서 mRNA를 추

출한 후, 역전사과정을 통하여 각각 붉은색(Cy5)과 녹색(Cy3)의 형광염로로 염색

(dying)을 한다. 염색된 cDNA를 혼합하여 DNA chip에 뿌린 후 hybridization 과정

을 거치게 되면 역전사된 cDNA들은 각각의 상보적인 유전자를 찾아서 붙게 된다.

여러 번 세척(washing)을 하여 반응을 하지 않은 cDNA들을 제거한 후 레이저스캐

너를 이용하여 녹색 파장과 붉은 색 파장을 각각 읽어 두 개의 이미지 파일로 저

장을 하게 된다. 이러한 실험과정은 그림 1에서 나타난다. 생성된 이미지들은 이

Page 14: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 6 -

미지 처리 프로그램 등을 통하여 수치화 하게 된다.

2.2 모형에 모형에 모형에 모형에 기초한 기초한 기초한 기초한 군집분석군집분석군집분석군집분석(Model-based Clustering)

DNA microarray는 수많은 유전자들의 변화를 동시에 연구하는 것을 제공한다.

연구자들은 수많은 유전자 발현 자료들을 생성하지만, 분석을 위한 방법론과 이러

한 방법론에 의거한 정보를 발전시키는 것이 필요하다(Lander, 1999). 군집분석

(clustering)은 수많은 유전자들과 생물학적 네트워크의 복잡성을 가지는 유전자 발

현자료의 내재된 정보를 유용하게 설명할 수 있다(Yeung et al, 2001).

유전자 발현자료의 분석을 위한 제안된 군집분석 알고리즘들은 계층적 군집분

석(Eisen et al, 1998), SOM(Tamayo et al, 1999), k-평균 군집분석(Tavazoie et al.,

1999), 그래프-이론 접근방법(graph-theoretic approach;, Hartuv et al, 1999) 및

SVM(support vector machine, Brown et al, 2000)이 있다. 이러한 대부분의 제안된

군집 알고리즘은 군집의 수를 결정짓고, ‘좋은’ 군집 알고리즘을 선택한다는 것이

엄격하게 제시되어 있지 않다(Yeung et al, 2001). Eisen et al.(1998)과 Tamayo et

al.(1999)은 군집의 수를 결정하는 것을 도식화하여 표현하였고, Yeung et al. (2001)

은 첫 시점에서 한 개의 실험을 뺀 자료에 대하여 군집분석을 하고, 나머지 한 개

의 실험자료를 이용하여 다른 군집 알고리즘의 성능(performance)을 비교하는 방법

을 제안하였다. Tibshirani et al.(2000)이 제안한 gap-통계량은 참조되는 영분포(null

distribution)의 군집내의 산포를 비교하는 것으로서 군집의 수를 추정하였다.

군집 알고리즘은 발견적 알고리즘(heuristic-based algorithms)에 대체되는 확률적

모형이다. 특히, 모형에 근거한 접근방법은 자료가 다변량 정규 분포(multivariate

normal distribution) 같은 확률 분포의 유한 혼합모형(finite mixture model)에 의하여

생성되었다고 가정한다(Yeung et al, 2001).

2.2.1 모형에 모형에 모형에 모형에 기초한 기초한 기초한 기초한 접근방법접근방법접근방법접근방법

Page 15: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 7 -

혼합모형(mixture model)은 자료의 각 성분(component) 혹은 군(group)이 가정된

확률분포에 의해 생성되어진다는 것을 가정한다. 독립적인 다변량 관찰치

⋯ 으로 구성되어 있는 자료 를 가정하고, 는 자료의 성분(component)

개수를 의미한다면 혼합모형(mixture model)에 관한 우도함수는 다음과 같다.

(2.1)

여기서 와 는 밀도함수(density) 와 혼합모형(mixture)에서 -번째 성분의 모

수들을 의미하며, 는 관찰치가 -번째 성분에 속할 확률이다. 여기서,

이다.

가우시안 혼합모형(Gaussian mixture model)에서, 각 성분 는 모수 (평균벡터)

와 (공분산 행렬)를 가지는 다변량 정규분포에 의해 모형화 된다.

(2.2)

각 성분 의 기하학적 특징들, 즉 형태(shape), 퍼짐의 정도(volume), 방위

(orientation)들은 공분산 행렬 에 의하여 결정된다. Banfield 와 Raftery(1993)는

고유값 분해(eigenvalue decomposition)로서 공분산 행렬을 나타내는 일반적인 형태

를 제안하였고 이는 아래와 같다.

(2.3)

여기서 는 고유 벡터(eigenvectors)들의 직교 행렬(orthogonal matrix)이고,

Page 16: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 8 -

는 의 고유값들에 비례한 값들을 가지는 대각행렬(diagonal matrix)이며, 는 스

칼라 값이다. 는 각 성분의 방위(orientation)를 결정하며, 는 형태(shape), 는

퍼짐 정도(volume)를 결정한다. 이러한 공분산 행렬의 형태는 몇 가지로 정의되는

데, 첫 번째로 동일한 산포정도를 가진 구형성 모형(equal volume spherical model;

이하 EI)이다. EI 모형의 공분산 행렬은 로서, 모수들의 수가 작은 경우를

가지는 제한되지 않은 모형에서 많이 쓰인다. 두 번째로, 산포정도가 같지 않은

구형성 모형(unequal volume spherical model, 이하 VI) 는 각 성분 에 대

한 서로 다른 에 의하여 산포의 정도가 결정되는 구형모형을 의미한다. 세 번째

로, 제약되지 않은 모형(unconstrained model, 이하 VVV) 은 모든 , , 가 성

분들 간에 서로 다르다는 것이다. 이러한 VVV 모형은 가장 일반적인 모형이라는

것에 장점이 있지만, 추정해야할 모수가 너무 많아지게 되어 결국에는 각 성분에

서 상대적으로 더 많은 자료들이 필요하다는 단점이 있다(Yeung et al, 2001).

이러한 공분산 모형들은 MCLUST 패키지(Fraley and Raftery, 1998)에서 제공하게

되는데, Celeux and Govaert(1995), Murua et al. (2001)등이 공분산 모형을 추가로

제시하였다. MCLUST에서 지원하는 공분산 모형은 표 1과 같이 나타난다.

identifier Model Distribution Volume Shape Orientation

EII Spherical equal equal NA

VII Spherical variable equal NA

EEI Diagonal equal equal coordinate axes

VEI Diagonal variable equal coordinate axes

EVI Diagonal equal variable coordinate axes

VVI Diagonal variable variable coordinate axes

EEE Ellipsoidal equal equal equal

EEV Ellipsoidal equal equal variable

VEV Ellipsoidal variable equal variable

VVV Ellipsoidal variable variable variable

표 1 . MCLUST에서 제안된 공분산 모형

Page 17: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 9 -

2.2.2 모수의 모수의 모수의 모수의 추정 추정 추정 추정 및 및 및 및 모형의 모형의 모형의 모형의 선택선택선택선택

군집의 수 가 결정되어지면, 모형의 추정치들 , , 들은 Dempster et

al.(1997)이 제안한 EM-알고리즘을 통하여 추정할 수 있다. 혼합모형에 관한 EM-

알고리즘에서, ‘완전 자료(complete data)'는 로 고려할 수 있는데, 여기

서 ⋯ 는 아래의 성질을 가지는 자료의 ’관찰되지 않은(unobserved)' 부

분이다.

1

0

가 -군에 속할 경우

가 -군에 속하지 않는 경우 (2.4)

각 가 확률 ⋯ 를 가지는 범주로부터 뽑힌 다항분포(multunominal

distribution)를 따르는 독립적이면서 동일한 분포(i.i.d) 이고, 가 주어졌을 때 관찰

치 의 밀도(density)는

이 되고, 완전자료의 로그-우도함수는 아

래와 같다.

(2.5)

혼합모형에 관한 EM-알고리즘의 E-step은 아래와 같다.

M-step은 완전자료우도함수를 E-step에서 계산된 를 가지고 와 에 관하여

최대화한다. 이는 아래와 같다.

Page 18: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 10 -

, ←

, ≡

공분산 추정치 의 계산은 그 자체의 모수화(parameterization)에 기인한다. 고유

값 분해(eigenvalue decomposition)에 의하여 모수화되는 에 대한 M-step은 Celeux

and Govaert(1995)가 제시한 방법을 따른다.

모형에 대한 선택과 군집의 수를 결정하는 방법은 베이즈 요인(Bayes factor)과

사후 모형 확률(posterior model probabilities)에서 나타나는 베이지안 모형 선택방법

을 따른다(Kass and Raftery, 1995). 베이즈 요인을 이용하는데 가장 어려운 점은

우도함수를 정의하는 적분의 평가인데, 일반적인 모형에서 누적 우도함수는 베이

지안 정보기준(bayesian information criterion; 이하 BIC)에 근사되어질 수 있다

(Fraley and Raftery, 2002).

여기서 는 모형 에서 추정된 독립 모수들의 수이다(Schwarz 1978;

Haughton, 1988). 이러한 모형에 근거한 군집분석의 응용에서 BIC에 기초한 모형의

선택은 좋은 결과를 제공하여 준다(Campbell et al, 1997, 1999; DasGupta et al,

1998; Fraley et al, 1998; Stanford et al, 2000).

2.2.3 군집분석군집분석군집분석군집분석

군집분석의 목적은 사전에 알 수 없는 구조의 자료를 의미있는(meaningful) 군으

로 분류하는 것이다. 모형에 근거한 계층적 병합 군집(model-based hierarchical

agglomerative clustering)은 분류 우도함수(classification likelihood)에 대한 근사 최대

화를 계산하는 것이다(Fraley et al, 2002).

Page 19: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 11 -

⋯ ⋯

(2.6)

여기서 는 각 관찰치의 유일한(unique) 분류를 나타내는 것으로서 가 -번째

성분에 포함되는 경우 라 표현한다. 혼합모형 우도함수(mixture model

likelihood) (2.1)에서, 개별의 관찰치가 각 성분에 포함되는 확률로 가중치(weight)를

부여한다(Fraley and Raftery, 2002).

위의 내용들을 종합하면, 계층적 병합(hierarchical agglomeration)에서는 각 군집의

개수와 자료의 분할을 통합하게 된다. 주어진 분할(partition)은 식 (2.4)에 의하여

가변수로 전환되고, 이 가변수는 모수 추정에 관하여 EM-알고리즘의 M-step에서

조건부 확률로서 쓰이게 된다. 이는 모형의 선택에서 BIC에 의하여 근사적으로 나

타나는 것으로 베이즈 요인과 결합된다. 이러한 과정을 정리하면 다음과 같다

(Fraley and Raftery, 2002).

1. 최대군집수 을 결정하고 혼합모형(mixture model)을 고려한다.

2. 각 모형에 관하여 분류 우도함수(classification likelihood)를 최대화 시키는

계층적 병합(hierarchical agglomeration)을 시행하여 개의 군까지 수행한다.

3. 각 모형 및 군집에 관하여 EM-알고리즘을 적용한다.

4. 각 모형에 관한 경우의 BIC를 계산하고 혼합모형(mixture model)에 관하여

⋯ 군집들에 관한 최적 모수값을 산출한다.

Page 20: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 12 -

제 제 제 제 3 장 장 장 장 계층적 계층적 계층적 계층적 혼합 혼합 혼합 혼합 엑스퍼트엑스퍼트엑스퍼트엑스퍼트(HME) 모형모형모형모형

3.1 혼합 혼합 혼합 혼합 엑스퍼트엑스퍼트엑스퍼트엑스퍼트(Mixture of Expert) 모형모형모형모형

3.1.1 최대우도추정치에 최대우도추정치에 최대우도추정치에 최대우도추정치에 기초한 기초한 기초한 기초한 네트워크 네트워크 네트워크 네트워크 학습학습학습학습

계층적 혼합 엑스퍼트(hierarchical mixture of expert;이하 HME)모형을 설명하기

전에, 먼저 비계층(non-hierarchical)인 경우에 관해 고려해보자. 혼합 엑스퍼트

(mixture of expert;이하 ME) 모형은 개의 엑스퍼트 네트워크(expert network)로 구

성되어 있고, 이는 입력공간(input space) 지역에서 근사함수의 해를 구할 수 있다.

각 엑스퍼트 네크워크에 관하여 입력 벡터 ∈ 을 출력 벡터 ∈과 관련된

확률적 모형으로 연계시킬 수 있다. 이러한 확률모형은 아래와 같이 정의한다.

, ⋯

여기서 는 모수벡터(parameter vector)이다. 이러한 각 확률밀도(probability

density)들은 일반적으로 지수족(exponential family)에 속한다고 가정한다(Jordan and

Jacobs, 1994). 본 논문에서는 단순화를 위하여 가우시안(Gaussian)모형으로 제한한

다. 번째 엑스퍼트 네트워크는 결과로서 모수벡터 ⋯

를 출력한다. 여기서 위치모수는 번째 확률밀도를 의미한다. 본 논문에서는 가

모수에서 선형성(linear)을 가지고 있다고 가정한다. 모수가 비선형(nonlinear)인 경

우의 엑스퍼트들의 결과물은 Jacob and Tanner(2001)의 APPENDIX에 기술되어 있

다.

가우시안 확률밀도 에 관하여 위치모수(location parameter) 는 평균

을 의미한다. 또한, 비정칙(nonsingular) 공분산 행렬 가 각 엑스퍼트 네트워크와

Page 21: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 13 -

관련되어 있고, 엑스퍼트 에 관하여 아래와 같은 확률모형을 산출할 수 있다는

것을 나타낸다.

(3.1)

ME 아키텍쳐는 입력 네트워크(gating network)라고 부르는 보조적인 네트워크를

이용하는데, 이 입력 네트워크는 입력공간을 여러 엑스퍼트 네트워크에 대응되는

지역으로 할당하는 역할을 한다. 즉, 확률벡터 ⋯ 를 입력공간에서의

각 지점으로 할당한다는 의미이다. 특히, 입력 네트워크는 모수화된 함수

(parameterized function) 와 정규화된 함수 로서 구성된다. 함수는 모

수벡터 의 각 값에 관하여 공간 에서 로 배치하는 역할을 하며, 는

에서 로 배치한다. 의 특정한 형태는 아래와 같은 소프맥스(softmax) 함수로서

나타낼 수 있다.

⋯ (3.2)

위의 정의에서 는 양수이면서 합은 1이라는 것을 내포한다. 본 논문에서는 함

수 는 선형인 경우로 한정한다(cf. Jordan and Jacobs, 1994).

로부터 가 관찰될 전 확률(total probability)은 아래와 같은 유한 혼합분포

(finite mixture density)로서 주어진다.

(3.3)

Page 22: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 14 -

훈련 집합(training set) ⋯ 은 혼합 밀도(mixture density)

로부터 독립적으로 뽑힌 집단임을 가정한다. 그러므로, 입력벡터

의 특

정한 집합에 관한 훈련 집합의 전 확률(total probability)은, 아래의 우도함수

(likelihood function)로서 나타난다.

(3.4)

×

(3.5)

본 논문에서 제안하는 학습 알고리즘은 최대우도추정(Maximum Likelihood

Estimators)방법이다. 이는 모수 , , 를 찾기 위하여 우도함수 혹은 우도함

수에 로그를 취한 을 최대화함으로써 추정하는 방법이다.

여기서 ⋯ ⋯ 이다. 식 (3.3)에서 확률모형이 주어

졌을 때 나타나는 결과의 기대값은 아래와 같이 주어진다.

이는 ME 아키텍쳐의 전체 결과로서, 엑스퍼트 네트워크의 가중치(weighted

output)로서 나타난다. 식 (3.3)과 (3.1)에서의 모형은 유한 가우시안 혼합모형(finite

Gaussian mixture model)이다. 본 모형과 관련된 가우시안 혼합 모형과 비교하는 것

은 일반적으로 통계학에서 많이 연구되고 있는 상황이다. 가우시안 혼합 모형은

Page 23: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 15 -

다음과 같다.

, ≧ ,

(3.6)

가우시안 혼합모형과 ME모형간의 차이는 명확하다. 식 (3.6)의 는 입력벡터들

과 서로 독립이지만, 식 (3.3)의 는 이므로 에 조건부(conditional) 하다.

그러므로, 식 (3.6)에서의 모형, 즉, 가우시안 혼합모형은 비조건부확률

(unconditional probability)이며, 비지도학습(unsupervised learning)에 적합하고, 식

(3.3)에서의 ME모형은 조건부 확률(conditinal probability)이기 때문에 지도학습

(supervised learning)에 적합하다 할 수 있다(Jordan et al, 1995).

통계학에서 연구되는 또 다른 모형은 Quandt and Ramsey(1972, 1978), De

Veaux(1986)이 제시한 교체 회귀모형(switching regression model)이다. 이는 모형

(3.6)과 모형(3.3)의 중간의 형태를 가지고 있으며, 아래와 같은 모형으로 주어진다.

(3.7)

여기서 은 단변량 가우시안이며, 각 가우시안의 평균은 에서 선형이

라 가정한다. 이 모형은 자료의 쌍 가 확률 를 가지는 성분으로 할당되며,

다른 한쪽으로는 확률 로서 할당되는 임의 전환(random switch)을 통하여 선

형 회귀모형(linear regression models)의 쌍으로부터 생성된다고 가정한다. 본 모형

은 다항 전환(multinomial switch)으로 생성되어 질 수 있다.

(3.8)

여기서 ≧ , 이며, 는 식(3.1)로부터 주어진다. 교체

Page 24: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 16 -

회귀모형과 ME 모형과의 차이는 교체회귀모형에서 교체의 세팅(setting)을 입력벡

터(input vector)의 독립이라 가정한다는 것이다. 이러한 가정은 회귀 표면(regression

surface)의 형태에서 구분적인 변이(piecewise variation)를 나타낼 수 없다. 즉, 모든

회귀성분들은 입력공간을 통하여 영향을 준다는 것이다. 교체회귀모형은 회귀성분

에서 중첩(overlap)이 전체가 되는 연속체(continuum)의 끝으로서 나타낼 수 있다.

Breiman등(1984)이 제시한 의사결정나무모형(decision tree models)은 중첩(overlap)

이 0인 다른 연속체의 종단으로서 나타난다. ME 모형은 이러한 극단의 차이를 보

완한 것이다.

3.1.2 ME 모형에 모형에 모형에 모형에 관한 관한 관한 관한 EM-알고리즘의 알고리즘의 알고리즘의 알고리즘의 적용적용적용적용

우도함수에 관한 추정 시, 모수들이 복잡한 비선형함수를 가진다는 점은 문제가

된다. 이러한 경우에서의 모수추정은 수치적 최적화 기법(numerical optimization

technique)을 고려하는데, 일반적으로 경사 상승(gradient ascent)방법을 사용한다. 경

사법의 대체로서, 많은 경우에서 사용되어 지는 것은 EM 알고리즘이다(Baum et

al., 1970; Dempster et al., 1977). EM 알고리즘은 부가적으로 ‘숨겨진(hidden)’ 혹은

‘잠재적인(latent)’ 변수들의 집합을 가지고 실제 관찰된 원래의 변수에 잠재변수를

대입하여, 이를 증가시킴으로서 얻어지는 단순화된 문제를 갱신하며 해를 구하는

방법이다. 비조건부 혼합모형(unconditional mixture model)은 EM-알고리즘을 사용하

고 있으며(Redner and Walker, 1984), 조건부 ME(conditional mixture of expert)모형

또한 EM-알고리즘을 이용하며 이는 이는 아래와 같다(Jordan and Jacobs, 1994).

관찰된 가 주어졌을 때, 를 ‘결측치(missing value)' 혹은 ’은닉치(hidden value)'

라고 불리우는 집합으로 확대하며, 또한 ‘완전 자료’에 대한 집합 에

대하여 최대우도추정방법을 고려한다(Little and Rubin, 1987).

가 주어짐으로서 ‘완전자료에 대한 로그우도함수’의 결

과가 에 대하여 쉽게 최대화되는 방법으로 결측 변수를 선택할 수 있다. 확률모

형 는 에 대한 주변 분포(marginal distribution)로 선택되어야 하는데,

Page 25: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 17 -

이는 아래와 같은 식으로 나타낼 수 있다.

(3.9)

완전자료 로그우도함수(complete data log-likelihood)에 기초하여 모수들을 업데이

트 하는데, 주의해야 할 점은 완전자료에 대한 로그우도함수를 바로 구할 수가 없

다는 점이다. 왜냐하면, 이러한 우도함수는 불완전 확률변수 의 함수이기 때문

이다. 그렇다면, 완전자료에 대한 로그우도함수의 평균 를

최대화하는 의 평균을 구하는 방법을 생각할 수 있는데, 이러한 방법이 EM-

알고리즘의 근간이 된다.

EM-알고리즘은 두 가지 step으로 구성되어 있다. Expection(E) step에서는 로그

우도함수의 조건부 기대치를 아래와 같이 계산한다.

(3.10)

여기서 는 번째 반복에서의 모수벡터의 값이다. Maximization(M) step 은

다음과 같이 계산한다.

(3.11)

M-step은 함수가 최대화되는 모수값을 선택한다. 즉, 완전자료에 대한 우도함

수의 기대값을 찾아내는 것이다. Dempster et al.(1977)은 EM 알고리즘의 반복이

원 자료에 대한 로그 우도함수 을 증가시킨다는 것을 증명하였다. 이는 아래와

같은 식으로 나타낼 수 있다.

Page 26: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 18 -

위의 식에 의하여, 우도함수 은 EM 알고리즘에 의하여 생성되는 모수추정치들

을 순차적으로 단조증가 시킨다는 것이다.

ME모형에서는 불완전자료를 가변수 집합 ⋯ ⋯ 을 가지는

에서 불완전자료를 선택 할 수 있다.

는 다음과 같다.

1

0

가 번째 모형에서 생성되었을 경우

o.w (3.12)

또한, 각 에 대하여

이다.

완전자료에 대한 우도함수는 다음과 같은 분포를 따른다고 가정한다.

위의 분포가 식(3.9)를 따른다는 것은 쉽게 증명할 수 있다. 식 (3.10)으로부터,

아래와 같이 얻을 수 있다.

Page 27: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 19 -

(3.13)

여기서,

(3.14)

위의 식에서 는 자료 가 번째 확률모형에서 나올 수

있는 확률값이라 정의한다. 또한, 이다. 함수를 가지고 M-step을 식

(3.14), (3.1), (3.2)를 이용하여 아래와 같이 나타낼 수 있다.

(3.15)

(3.16)

×

(3.17)

Page 28: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 20 -

식(3.17)은 다음과 같이 기호화 한다.

공분산 행렬을 식(3.18)과 같이 대치할 수 있다.

×

(3.18)

가 혼합모형(mixture model)에 의하여 생성된다고 가정하고, 표본수 이 충분

히 크다고 가정할 때, 벡터 에 의하여 생성(span)되는 공간은

확률값 1을 가지는 완전차원(full dimension)이 될 것이다. 을 고려할 때, 표

본수 이 충분히 크다면 공분산행렬 은 확률값 1을 가지는 양의 정부호

(positive definite)가 된다.

식 (3.16)은 다음과 같이 기호화 한다.

위의 방정식을 풀면 식(3.19)과 같다.

×

(3.19)

Page 29: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 21 -

위의 식(3.19)에서 엑스퍼트 네트워크들이 선형이라는 가정이 주어진 상태에서는

아래 식(3.20) ~ (3.23)과 같이 나타나서 해를 구할 수 있다.

(3.20)

여기에서,

(3.21)

(3.22)

⋯ ⋯ ⋯⋯

⋯ ⋮ ⋮ ⋮ ⋮ ⋮ ⋯ ⋯ ⋯⋯

(3.23)

는 표본수 이 충분히 큰 경우 확률값 1을 가지면서 역행렬을 가질 수 있

다(invertible). 에 관한 업데이트는 Jordan and Jacobs(1994)에서 입력 네트워크

(gating network)가 일반화 선형모형(generalized linear model)의 특정한 형태인 다항

로짓모형(multinomial logit model)으로 나타났다는 것을 보여주었다. 다항 로짓모형

은 IRLS(iteratively reweighted least squares)방법으로 알려진 뉴턴방법(Newton

method)을 통하여 추정할 수 있다. 입력 네트워크(gating network) 모수에 관한 업

데이트는 다음과 같이 나타난다. 번째 반복에서의 기울기(gradient) 벡터는 아래와

같이 정의된다.

(3.24)

Page 30: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 22 -

번째 반복에서의 헤시안 행렬(Hessian Matrix)은 아래와 같다.

(3.25)

위 식 (3.24), (3.25)를 이용하여 일반화된 IRLS 업데이트는 아래와 같이 주어진

다.

(3.26)

여기서 는 학습 비율(learning rate)이다. 식(3.3)에 대한 모형의 업데이트는 아

래와 같이 요약할 수 있다.

알고리즘.

1. (The E-step): 식 (3.14)에 의한 를 계산한다.

2. (The M-step): 식 (3.18)에 의한 을 계산하고, 식 (3.26)에 의한

, 식(3.21)에 의한

⋯를 계산한다.

3.2 계층적 계층적 계층적 계층적 혼합 혼합 혼합 혼합 엑스퍼트엑스퍼트엑스퍼트엑스퍼트(HME) 모형모형모형모형

HME 모형은 트리기반방법의 다른 형태로서 볼 수 있다. 주요한 차이점은 트리

기반의 모형처럼 ‘딱딱하게(hard)' 나타나는 의사결정방법(hard decision)으로 분할

되는 것이 아닌 부드러운 확률적 형태(soft probabilistic)로 나타난다는 것이다

(Hastie et al, 2002). 각 노드(node)에서 관찰치는 입력변수(input variable)에 의존하

여 왼쪽/오른쪽으로 확률 값을 가지고 간다는 것이다. 이는 기존의 트리-기반의 접

근방법(tree-based approach)에서 이산적으로 분할 점(split point)을 탐색하는 것과는

Page 31: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 23 -

다르게, 모수최적화문제에서 몇 가지 계산적 이득이 존재한다는 것이다. 이러한 '

부드러운 분할(soft split)'은 예측정도와 자료의 유용한 해석(description)을 제공한다

(Hastie et al., 2002).

트리의 수행에 있어서 HME 와 CART 간에 다른 차이점이 존재한다. CART에서

상수로 제공하는 것과는 다르게, HME 에서는 선형모형(혹은 로지스틱 모형)이 각

종단노드(terminal node)에서 적합된다. 이러한 분할은 입력(input)이 이원(binary) 혹

은 다원(multiway)일 경우에도 선형조합의 확률적 함수로 나타난다는 것이다.

CART의 경우 단일 입력(single input)이 사용된다. 그러나, 이러한 선택의 장점이

명확하게 정의되어 있지는 않다(Hastie et al, 2002).

ME 아키텍쳐는 입력공간(input space)을 서로 다른 로컬함수에 적합시키는 지역

(region)들로 분리시키는 방법이나, HME 아키텍쳐는 입력공간(input space)을 각

서브지역(sub-region)들로 반복하여 분리하는 지분된 모형(nested model)을 일반화

한 것이다(Jordan and Jacobs, 1992).

3.2.1 HME 모형의 모형의 모형의 모형의 정의정의정의정의

본 절에서 제안하는 알고리즘은 지도 학습(supervised learning)알고리즘이다. 입력

벡터(input vector)는 의 요소이고, 출력 벡터(output vector)는 의 요소로 구성

되어 있는 회귀분석의 형태를 명확하게 나타낸다. 또한, 출력치들은 정수로 구성

된 분류(classification)모형과 계수(counting)모형을 고려하며, 자료는 셀 수 있는

(countable) 쌍의 집합 ℵ 의 형태를 가진다고 가정한다.

아래에서 설명하는 배치(batch)알고리즘의 경우에는 이러한 집합의 형태가 유한

(finite)하다고 가정하지만, 온라인(on-line)알고리즘의 경우에는 무한(infinite)하다.

HME모형은 입력공간(input space)을 지분(nested)된 영역들로 나누어 영역에 놓여

진 자료를 단순한 표면에 적합시키는 방법으로 비선형 지도학습(nonlinear

supervised learning)문제를 해결하는 것을 제안한다(Jordan and Jacobs, 1994). 각 영

역들은 ‘부드러운(soft)'한 경계를 가지는데, 이는 자료들이 동시에 여러 영역들(다

Page 32: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 24 -

중영역; multiple regions)에 놓여져 있음을 의미한다. 영역들 간의 경계(boundaries)

들은 학습 알고리즘에 의하여 조정된 단순 모수화(parameterized)된 영역을 의미한

다.

HME 아키텍쳐는 아래 그림 2와 같이 나타나고, 이는 트리의 비종단

(non-terminal)에 놓여있는 입력 네트워크(gating network)로 구성된 트리구조이다.

이러한 네트워크는 벡터 를 입력받아 입력공간에서 각 점의 부분집합인 스칼

라 결과치를 생성한다. 엑스퍼트 네트워크(expert network)는 트리의 잎 부분이다.

각 엑스퍼트는 각 입력벡터에 대한 출력벡터 를 생성한다(Jordan and Jacobs,

1994). 이러한 출력벡터는 입력네트워크 결과치와 혼합되어 트리의 윗부분에 놓여

지게 된다.

그림 2 . 수준이 2개인 HME 모형(1)

Page 33: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 25 -

엑스퍼트 네트워크 는 입력 의 일반화 선형함수로서 결과치 를 생성한

다.

(3.27)

여기서 는 가중치 행렬을 의미하고, 는 고정된 연속적 비선형성을 가진다.

벡터 는 절편부분에 고정된 하나의 성분(component)을 포함하고 있다. 회귀분석

(regression)의 경우, ⋅은 일반적으로 항등함수(identity function), 즉 엑스퍼트가

선형으로 선택되어 진다. 예를 들면, 이분형 분류문제에서 ⋅은 일반적으로 로

지스틱 함수가 되며, 엑스퍼트 결과치는 베르누이 확률모형 하에서 “성공” 의 로

그 오즈로서 해석 되어 질 수 있다. 다른 모형(다범주 분류, 비율추정, 생존률 추

정)들은 다른 ⋅을 선택할 수 있다. 이러한 모형들은 일반화 선형모형의 부분

평활 메커니즘(smoothed piecewise analog)이다. 입력 네트워크 또한 일반화 선형모

형이다.

매개 변수(intermediate variable) 는 다음과 같이 정의한다.

(3.28)

여기서 는 가중치 벡터를 의미한다. 여기서, 상위 입력네트워크(gating network)

의 번째 결과는 의 소프맥스(softmax) 함수이다.(Bridle, 1989;McCullagh and

Nelder, 1983)

(3.29)

는 양수이면서, 각 에 관해서의 들의 합은 1 이다. 이것은 입력공간의 ‘부

Page 34: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 26 -

드러운' 분할(partitioning)을 나타내는 것으로 해석 될 수 있다. 유사한 의미로, 하

위수준에서의 입력 네트워크(gating network) 또한 선형으로 일반화 할 수 있으며,

를 다음과 같이 정의한다.

(3.30)

그렇다면,

(3.31)

는 상위 수준에서 번째 입력 네트워크가 주어진 상태에서 하위레벨이 번

째 단위 아키텍쳐의 결과이다. 마찬가지로 는 양수이면서, 각 에 관해서의

의 합은 1이다. 이는 상위레벨 입력네트워크에 의해 제공된 분할 내에서 지분

된 입력공간의 ‘부드러운’ 서브-분할(sub-partition)을 나타내는 것으로 해석될 수 있

다. 트리의 각 비종단(nonterminal)에서의 출력벡터는 비종단 아래의 엑스퍼트들의

가중치 결과이다. 이는 하위트리레벨의 두 번째 층에서 번째 비종단에서의 결과

를 의미하며 아래와 같이 나타난다.

트리의 상위레벨의 결과는

이다. 여기서 주의해야 할 점은 두 와

들은 에 종속적이므로, 전체 결과는 입력벡터의 비선형함수의 형태라는 점이다.

엑스퍼트 네트워크와 입력네트워크의 정의가 주어졌을 때, 계층적 회귀표면

(regression surface)은 엑스퍼트들에 의해 정의된 회귀표면 부분들의 혼합이다. 입력

네트워크들은 지분된 입력공간의 ‘부드러운' 분할을 나타내며, 엑스퍼트 네트워크

Page 35: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 27 -

는 각 분할(partitation)내에서 국소 회귀 표면(local regression surface)을 나타내며,

인접하는 지역 간에 중첩(overlap)이 존재한다. 중첩(overlap)의 의미는 두 개의 엑

스퍼트 네트워크를 가지는 계층적인 하나의 레벨이 존재한다고 가정하는 것이다.

이 경우, 입력네트워크는 두 개의 결과 , 이다. 입력 네트워크에 대한 결과

은 아래와 같이 주어진다.

(3.32)

(3.33)

이는 방향(orientation)이 벡터 에 의해서 결정되는 로지스틱 능형 함수

(logistic ridge function)이다. 입력 네트워크의 결과 는 이다. 가 주어졌을

때, 는 의 볼록조합(convex combination)이다. 이는 엑스퍼트들의 가중

평균(weighted average)이며, 이 가중치는 능형함수(ridge function)에 의해서 결정되

어 진다. 인 경우, 두 개의 엑스퍼트들이 영향을 미치는 정도는 동일

하다. 능형에 따른 평활(smoothing)의 정도는 벡터 의 정도에 의해 결정된

다. 만약 이 크다면, 능형함수는 ridge function은 명확한 분할(sharp split)이

되며 엑스퍼트들의 가중치 결과는 부분(일반화) 선형의 형태를 가진다. 반대로,

이 작은 경우, 각 엑스퍼트들은 각 능형의 사이드(side)에 영향을 미치는 정

도를 표현 한다.

일반적으로, 입력 네트워크가 주어지는 것은 입력공간의 평활된 2차원적인 분리

를 야기한다. 하위레벨 입력 네트워크는 상위레벨 네트워크에 의해 나타난 분할

내에서 또 다른 분리를 유도한다. 주어진 입력 네트워크에서의 가중치(weight)는

특정한 수준의 해상도(resolution)에서의 분리를 통한 평활의 정도를 결정한다. 큰

가중치 벡터는 능형을 통한 회귀표면(regression surface)에서 명확한 변화(sharp

change)를 나타내며, 낮은 가중치는 평활한 표면(smoother surface)을 의미한다.

Page 36: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 28 -

3.2.2 HME의 의 의 의 확률 확률 확률 확률 모형모형모형모형

계층(hierarchy)은 확률적 해석을 부여할 수 있다. 생성된 자료의 메카니즘

(mechanism)은 와 를 배치하는 회귀적 프로세스(regressive process)에서 종료하는

의사결정의 지분된 시퀀스(nested sequence)를 포함하는 것을 가정한다. 의사결정은

다항분포에 대한 확률변수로서 모형화 된다. 이는 각 에 대하여 첫 번째 의사결

정과 관련된 다항분포확률로서 값과 두 번째 의사결정과 관련된 ‘조건부’

다항분포확률로서 로 해석할 수 있다. 여기서 기호 ‘0’ 이 의미하는 것은

모수의 ‘실제’ 값을 의미한다. 이러한 의사결정은 의사결정나무를 형성하게 된다.

우리는 이러한 의사결정나무를 모형화 하는데 통계학적 모형을 사용하게 된다. 특

히, 모수화(parameterization)를 선택하는 방법으로 각 트리의 비종단(nonterminal)지

점에서 다항 로짓 확률 모형(multinomial logit probability model)을 이용한다. 다항

로짓 모형은 GLIM의 특정한 모형의 형태인데, 이는 흔히 ‘부드러운' 경우의 다분

류(multiway classification)에 사용된다(McCullagh and Nelder, 1983). 다항 로짓 모형

에서 설명-반응변수를 모형화 함으로써 입력 네트워크를 해석하며, 자료의 트리구

조에서 특정레벨의 의사결정에 관련된 다항분포 확률값을 추정하는데 이용한다.

회귀적 프로세스 의 선택에 기인하는 특정한 의사결정의 시퀀스가 결정되

면, 결과치 는 다음의 통계학적 모형을 통하여 생성되어짐을 가정된다. 첫째로,

선형 예측 는 다음과 같이 형성된다.

의 기대값은 연결함수(link function) 를 통하여 선형 예측을 함으로서 얻어진

다.

Page 37: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 29 -

결과치 는 확률밀도 로부터 선택되어 지는데, 평균 와 산포 모수

를 가

지게 된다. 의 밀도(density)는 아래와 같이 정의한다.

여기서 모수벡터 는 가중치

와 산포모수 를 포함한다.

밀도함수 가 지수족(exponential family) 중의 하나라고 가정한다(McCullagh and

Nelder 1983). 산포(dispersion) 모수의 해석은 특정한 밀도함수(density)의 선택에 의

존한다. 예를 들어, -차원 가우시안의 경우, 산포 모수(dispersion parameter)는 공

분산행렬(covariance matrix) 이다. 이러한 가정들이 주어졌을 때, 로부터 를

생성하는 전체 확률은 혼합 비율이 다항분포의 확률을 가진 각 밀도로부터 를

생성하는 혼합(mixture)확률이다.

(3.34)

여기서 는 엑스퍼트 네트워크 모수 및 입력 네트워크 모수

와 를 포함

한다. 또한 입력변수 와 각 모수들에서 와 의 의존성을 표현함을 알 수 있

다. 이는 아래와 같이 간략하게 표현할 수 있다.

(3.35)

예를 들어 회귀분석의 경우, 모형의 확률구조는 일반적으로 가우시안이라고 가

Page 38: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 30 -

정한다. 각 엑스퍼트들에 대해 동일한 공분산 행렬 를 가정하면 아래의 계층적

확률모형을 산출할 수 있다.

이원 분류(binary classification)문제의 경우 결과치 는 이산형 확률변수이며, 이

는 ‘성공’ 혹은 ‘실패’의 가능한 사상(event)을 가진다. 이러한 모형의 확률적 구조

는 일반적으로 베르누이 분포를 가정한다(Cox, 1970). 이런 경우, 평균 는 입력

이 ‘성공’ 으로서 분류될 조건부 확률을 의미한다. 계층적 확률 모형의 결과는 베

르누이 분포의 혼합으로 나타난다.

베이지안 관점에서는, 사전(prior) 확률로서 와 를 이용한다. 왜냐하면 목표

변수 의 지식 없이 오직 입력변수 에만 의존되기 때문이다. 사후확률은 입력과

목표 결과치가 알려져 있는 경우에 정의된다. 베이즈 정리를 이용하여 트리 노드

에서의 사후확률은 아래와 같이 정의한다.

(3.36)

(3.37)

또한 결합사후확률 를 와 의 곱으로서 정의할 수 있다.

Page 39: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 31 -

(3.38)

이는 엑스퍼트 네트워크 가 입력변수와 목표변수의 지식에 기초한 자료를

생성하는 확률을 의미한다. 이는 입력변수 에 조건부(conditional)하다.

Jordan and Jacobs(1992)는 계층적 아키텍쳐에 관하여 기울기 상승(gradient ascent

learning) 알고리즘을 제안하였다. 이 알고리즘은 3.1절의 ME모형에서도 적용되었

었던 알고리즘이다.

자료 의 로그우도함수는 식 (2.9)의 형태의 밀도들의 곱으로

서 만들어 질 수 있다. 로그우도함수는 아래와 같다(Jordan and Jacobs, 1994).

(3.39)

확률밀도 는 항등 공분산 행렬과 연결함수(link function)가 동일한 가우시안분

포임을 가정한다. 이 경우, 모수에 관하여 를 미분함으로써, 가중치 행렬

(weight matrix) 에 대한 아래의 기울기 상승 학습 규칙(gradient ascent learning

rule)을 얻는다.

(3.40)

여기서 는 학습비율(learning rate)을 의미한다. 상위레벨(top-level) 입력네트워크

에서 번째 가중치 행렬에 대한 기울기 상승 학습 규칙(gradient ascent learning

rule)은 아래와 같이 주어진다.

(3.41)

Page 40: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 32 -

또한 번째 하위레벨(lower-level) 입력 네트워크에서 번째 가중치 행렬에 대한

기울기 상승 학습 규칙(gradient ascent learning rule)은 아래와 같다.

(3.42)

업데이트는 공분산행렬로부터 얻어질 수 있다(Jordan and Jacobs, 1992). 여기서

식(3.40), (3.41), (3.42)에 의한 알고리즘은 집단 학습 알고리즘(batch learning

algorithm)이다(Jordan and Jacobs, 1994).

3.3 HME모형에 모형에 모형에 모형에 관한 관한 관한 관한 EM-알고리즘의 알고리즘의 알고리즘의 알고리즘의 적용적용적용적용

HME 모형에 관하여 EM-알고리즘을 적용시키기 위하여, 우도함수를 단순화 시

키는 적절한 "결측 자료(missing data)"를 정의해야만 한다. 먼저 가변수(indicator

variable) 와 를 정의하는데 와 는 오직 1의 값을 가진다. 이러한 가변수

의 해석은 확률모형의 결정에 쓰인다. 또한, 는 와 의 곱으로서 표시된다.

이는 확률모형에서 엑스퍼트(expert)를 나타내는 것으로 해석 될 수 있다. 만약

, , 가 알려져 있다면 각 엑스퍼트 네트워크에 대하여 회귀문제의 서로 다

른 집합으로 분리될 수 있고, 입력 네트워크(gating network)에 대해서도 다범주 분

류(multiway classification)의 서로 다른 집합으로 분리될 수 있다. 이러한 문제는 서

로 독립적으로 단일 학습 알고리즘(one-pass learning algotirhm)으로 나타낼 수 있

다. 물론, 이러한 결측치(missing value)는 알려져 있지는 않지만, 관찰된 자료로부

터 확률모형을 기술할 수 있다. 에 대한 확률모형은 아래와 같이 기술할 수 있

다.

(3.43)

Page 41: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 33 -

(3.44)

는 가변수이다. 이 확률모형에 대하여 로그를 취하게 되면 아래의 완전 자

료에 대한 우도함수(complete-data likelihood)를 도출할 수 있다.

(3.45)

(3.46)

식 (3.46)에서의 완전자료 우도함수와 (3.39)의 불완전자료 우도함수의 관계를 보

면, 가변수 의 사용이 합의 부호(summation sign)안에 로그의 형태로 들어가 있

어서 결과적으로 최대화문제를 간소화할 수 있다(Jordan and Jacobs, 1992).

완전자료 우도함수의 기대값에 의한 EM-알고리즘의 E-step은 아래와 같이 정의

된다.

(3.47)

여기서,

(3.48)

(3.49)

(3.50)

(3.51)

여기서

이며,

이다.

M-step은 엑스퍼트 네트워크 및 입력 네트워크 모수들에 대해서 를

Page 42: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 34 -

최대화 시켜주는 것이 필요하다. (3.47)식을 보면, 엑스퍼트 네트워크 모수

(parameter)는

항을 통해서 함수에 영향을 미치고, 입력 네트워크

모수는

를 통하여 영향을 미친다. 그래서 M-step은 다음의

각기 다른 최대화 문제(maximization problem)를 고려하게 된다.

(3.52)

(3.53)

(3.54)

식 (3.52)는 확률밀도 에서 가중치가 주어진 최대우도문제(weighted ML

problem)로 나타낼 수 있다.

의 모수화가 주어졌을 때, 식 (3.52)에서 로그우도함수는 일반화 선형모형

(GLIM)에 대한 가중치 로그 우도함수이다. 이러한 경우 효율적인(efficient) 알고리

즘으로 반복 재가중 최소제곱(Iteratively reweighted least-square, 이하 IRLS)이 있으

며, 이를 이용하여 최대우도문제를 풀 수 있다(McCullagh and Nelder, 1983).

식 (3.53)은 사후확률 와 사전확률

간의 교차 엔트로피(cross-entropy)를

최대화하는 것을 포함하고 있다. 이 교차 엔트로피는 결과로서 고려되는 인

다항 로짓 확률모형(multinomial logit probability model)과 관련된 로그 우도함수이

다(Jordan et Jacobs, 1994, APPENDIX B). 식 (3.53)에서의 최대화는 일반화 선형모

형에 관한 최대우도 문제로서 IRLS를 통하여 풀 수 있다. 식 (3.54)도 마찬가지로

결과 관찰치 와 관찰치 가중치

와 동일하다.

요약하면, EM-알고리즘은 외부 반복(outer loop)에서 사후확률을 계산하고

(E-step), 내부반복(inner loop)에서 IRLS를 통하여 해를 구하는 것(M-step)이다. 본

알고리즘은 아래와 같이 요약할 수 있다.

1. 각 자료의 짝 에 대하여, 모수의 현재값을 이용하여 사후확률

Page 43: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 35 -

와 를 구한다.

2. 각 엑스퍼트 에 대하여, 관찰치

와 관찰가중치

를 가지고 IRLS 문제를 푼다.

3. 각 상위레벨(top-level) 입력 네트워크에 대하여, 관찰치

를 가

지고 IRLS 문제를 푼다.

4. 각 하위레벨(lower-level) 입력 네트워크에 대하여, 관찰치

관찰 가중치

를 가지고 IRLS 문제를 푼다.

5. 업데이트 된 모수치를 이용하여 반복한다.

Page 44: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 36 -

제 제 제 제 4 장 장 장 장 time-course 실험의 실험의 실험의 실험의 선형 선형 선형 선형 회귀모형회귀모형회귀모형회귀모형

4.1. 반복측정자료의 반복측정자료의 반복측정자료의 반복측정자료의 정의와 정의와 정의와 정의와 실험설계실험설계실험설계실험설계

4.1.1 반복측정자료의 반복측정자료의 반복측정자료의 반복측정자료의 정의와 정의와 정의와 정의와 특징특징특징특징

각 실험단위(experiment unit)에 대하여 실험조건(experimental condition)이나 처리

(treatment)를 달리하거나 또는 여러 다른 시점에서 반복적으로 특정한 값을 측정하

는 경우, 동일한 실험 단위에서 다중 반응치를 갖고 있는 자료를 반복측정자료라

고 한다(송혜향, 1998).

반복측정자료는 경시적 자료(longitudinal data)와 구분 할 수 있는데, 반복측정의

의미는 실험조건하에서 관계적으로 짧은 기간 동안 수집된 자료를 의미하여, 이는

경시적 자료의 특정한 경우로서 인식되어지기도 한다(Davis, 2002).

반복측정자료의 실험단위는 개체(subject)라고 하며, 기본적으로 두 가지의 요인

(factor)을 생각해볼 수 있는데 처리와 시간의 개념이다. 처리는 그 수준(level)이 개

체들 사이에서 변화하기 때문에 개체 간(between-subject) 요인이라고 하며 동일한

개체의 모든 측정치들은 같은 처리를 나타낸다. 시간은 동일한 개체의 다른 측정

치들이 각각 다른 시간에 존재하기 때문에 개체 내(within-subject) 요인이라고 한다

(Diggle, 1996).

반복측정자료의 형태는 연구목적이나 개체의 선정 및 연구방법에 따라 여러 가

지로 나뉠 수 있다. 연구대상집단과 반복요인이 각각 하나 뿐인 가장 단순한 형태

가 있는가 하면 두 개 이상의 연구대상집단이 있을 뿐 아니라, 반복요인에 의한

측정값의 변화양상을 성장곡선(growth curves)의 관점에서 분석해야 하는 복잡한

경우도 있다. 이 외에도 반복요인의 수, 연구대상집단의 수, 반응변수(response

variable)의 수 등이 둘 이상으로 확장된 일반적인 형태를 생각할 수도 있다.

이러한 반복측정자료를 이용할 때에는 시간의 흐름에 따라 각 개체가 특정한

Page 45: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 37 -

처리에 의해 나타나는 반응치의 경향이 어떻게 달라지는지, 각 관찰시점에서 각

개체들이 일정한 유형을 보이면서 각각의 처리에 반응하는 지를 명확히 살펴볼

수 있다는 것이다. 만약 동일한 개체가 관찰되는 것이 아니라 관찰 시점마다 다른

개체가 관찰될 경우 특정한 변화의 양상이 보인다면 그러한 결과가 개체가 달라

져서 얻어진 것인지 실제로 반응치가 변화해서 그런 결과를 낳은 것인지 구분하

기가 어려워진다. 또한 한번 추출된 개체를 유지하며 매 시점마다 관찰하는 경우

의 오차와 개체를 달리하며 관찰된 경우의 오차를 비교해보면 후자의 경우 오차

가 더 커지게 되는 문제점을 갖게 된다. 따라서 반복측정자료를 이용한 경우의 장

점은 시간의 흐름에 따라 개체의 반응치가 변화하는 양상을 명확히 확인할 수 있

다는 것이다. 그러나 반복측정자료가 여러 장점을 가진 반면에 처리라는 요인을

고려했을 때 주의해야 할 몇 가지 문제점들이 있다(송혜향, 1998).

첫째로, 이전에 있었던 처리의 효과가 미처 사라지기 전에 다음 처리를 추가하

게 되면 기존에 있었던 처리의 영향력이 다음 처리에 반영될 수 있다. 이러한 영

향력을 이월효과(carry-over effect)라고 부르며 이것은 처리의 시행간격을 충분히

크게 하여 없앨 수도 있고 이월효과 자체를 직접 측정할 수 있는 실험방법을 선

택할 수도 있다.

둘째, 어떤 처리를 할 때는 나타나지 않았던 효과가 다음 처리를 할 때에 비로

소 나타나거나, 전과 후의 두 가지 이상의 효과가 복합적으로 작용하는 경우 기존

처리의 잠재효과(latent effect)가 나타날 수 있다.

셋째, 처리나 실험을 반복함으로 인해 학습효과(learning effect)가 생기는 경우로

서 이때에는 아무 처리도 하지 않은 대조군을 마련하여 같은 내용을 반복 실험함

으로써 학습효과의 양을 측정해 낼 수 있다.

4.1.2 반복측정자료의 반복측정자료의 반복측정자료의 반복측정자료의 실험설계실험설계실험설계실험설계

같은 개체 또는 동질적인 개체들을 실험단위로 하여 여러 처리간의 차이를 비

교하는 실험 설계방법으로는 흔히 확률화 블록 설계(randomized block design)를 선

Page 46: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 38 -

택한다. 이 방법은 같은 개체들의 수치 또는 같은 블록의 개체들이 서로 동질적이

기 때문에, 이질적인 개체들을 대상으로 실험할 때 생길 수 있는 개체들 간의 차

이를 전체 실험 오차에서 그만큼 줄일 수 있다는 장점이 있다. 그렇지만, 확률화

블록 설계에서는 같은 블록의 동질적 개체들에게 할당(assignment)하는 처리의 종

류와 순서를 확률적으로 결정해야 한다는 제약이 있으므로 연구의 성격상 처리순

서를 일정하게 유지해야만 하거나 같은 내용을 시간의 변화에 따라 연속적으로

측정할 수밖에 없는 경우에는 확률화 블록 설계에서 요구되는 처리 순서의 확률

화 조건을 만족시킬 수 없다.

이러한 반복측정자료에 적용되는 설계방법을 모형의 관점에서는 혼합모형(mixed

model)이라고 부르고 배치의 관점에서는 분할수 계획법(split-plot design)이라고 하

며 분석의 관점에서는 반복측정자료의 분산분석법(repeated measures ANOVA)이라

고 한다(송혜향, 1998).

4.2 일반 일반 일반 일반 선형모형을 선형모형을 선형모형을 선형모형을 이용한 이용한 이용한 이용한 반복측정자료의 반복측정자료의 반복측정자료의 반복측정자료의 분석분석분석분석

4.2.1 일변량 일변량 일변량 일변량 분석분석분석분석

반복측정자료에 대한 일변량 분석은 분할구 계획법(split-plot design)에서 출발하

였는데 분할구 계획법은 별로 관심이 없거나 중요하지 않은 요인을 주구(main

plot)에 배치하고 구체적인 효과를 조사하고 싶은 요인을 세구(sub-plot)에 배치하여

주구내 세구들 간의 상대적으로 작은 변동을 이용하여 세구에 배치된 요인의 효

과를 분석하려는 실험 배치 방식이다. 이것을 반복측정자료에 적용하게 되면 주구

는 각 개체가 되고 세구는 처리 혹은 시간이 된다(송혜향, 1998).

서로 다른 개체들 간의 반응치의 차이인 개체 간 변동(between subject variation)

과 같은 개체 내에서 처리간의 반응치의 차이인 개체 내 변동(within subject

variation)에서 전체 변동 중 먼저 변이가 심한 개체 간 변동부분을 분리해 낸 후,

상대적으로 변이가 작은 개체 내 변동에서 처리 간 변동과 그것을 검정할 오차

Page 47: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 39 -

변동을 계산하므로 밝혀내고자 하는 처리효과를 검정하는데 효율성을 가지게 된

다.

반복측정자료의 가장 단순한 형태인 한 모집단에서 추출되고 하나의 반복요인

만 있을 경우의 예를 들면 처리의 효과가 가법적인(additive) 형태로 작용한다고 할

때 다음과 같은 모형을 세울 수 있다.

, ⋯ ⋯

여기에서 는 전체평균, 는 번째 처리의 효과를 나타낸다. 와 ′ ≠ ′는

서로 독립이며 평균이 0이고 분산이 인 정규분포를 따른다고 가정한다.

이 경우 귀무가설은 다음과 같이 설정된다.

위에서 가정한 오차항의 독립성과 정규분포성 외에 일변량 분석에서는 동일 개

체들을 대상으로 하여 얻어진 반응치들이므로 처리간의 값들은 어느 정도의 상관

관계가 존재한다고 보는 것이다. 이것은 각 처리의 오차항 들간의 공분산 행렬로

표현되며 일변량 분석에서 요구되는 공분산 행렬의 형태는 다음과 같다(Anderson,

1958).

⋯ ⋯ ⋮ ⋱ ⋮ ⋯ ⋯

즉, 각 처리의 분산은 모두 이고 처리간의 공분산은 으로 일정하다는 것

이다. 이와 같이 동일 분산과 공분산의 형태를 갖는 공분산 행렬의 특성을 복합대

칭성(compound symmetry)이라 하며 일변량 분석을 하기 위한 충분조건이 된다. 이

Page 48: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 40 -

것은 공분산 행령의 각 성분이 ⋅

⋅인 형태로 표현되는 구형성

(sphericity)조건의 특수한 경우이다.

일변량 분석을 위한 공분산 행렬의 구형성 가정에 대한 검토는 일반적으로

Anderson(1958)이 제시한 구형성 검정으로 하는데 이 검정법은 개체수가 작은 경

우에는 검정력이 매우 낮고 반대로 개체수가 많은 경우에는 검정력이 지나치게

높으면서 이상치(outlier)에 민감하게 반응한다는 결점이 있다. 실제로 대다수의 자

료의 경우 구형성 조건을 쉽게 만족하지 않을 뿐 아니라 위에서 언급한 결정들이

있을 수 있으므로 일변량 분석을 하기 전에 구형성 검정과정을 반드시 거쳐야 한

다라고 규정지을 필요는 없다. 구형성 가정을 전제로 한 분석을 대신할 수 있는

방법들은 다음과 같은 것들이 있다.

먼저 Box(1954)가 처음 제안하고 이를 Greenhouse-Geisser 또는 Huynh-Feldt가 수

정한 방법으로서 자유도를 좀 더 작게 수정한 -검정 방법으로 일변량 분석을 실

시하는 것이다. 이 방법은 공분산 행렬이 구형성 가정에서 벗어나는 정도를 계산

하여 검정 통계량 의 분자와 분모의 자유도에 각각 곱한 값을 검정의 자유도

로 사용하는 것이다. 다음으로 공분산 행렬을 복합대칭성이 아닌 여러 다른 형태

의 행렬 중 주어진 자료에 가장 적절한 것을 선택하는 방법이 있다. 마지막으로

공분산 행렬의 특정한 형태를 가정하지 않는 다변량 분석법으로 고려할 수도 있

다.

다음으로 여러 개의 모집단에서 추출된 하나의 반복요인을 갖는 자료의 예를

들면, 모형은 다음과 같다.

⋯ ⋯ ⋯

여기서 는 전체평균, 는 번째 집단의 효과, 는 번째 집단 내에서 번째

개체의 효과, 는 번째 처리의 효과, 는 번째 집단의 번째 처리의 효과로서

집단과 처리간의 교호작용(interaction)을 나타낸다.

모집단이 하나가 아니라 여러개일 경우에는 집단간의 차이와 집단과 처리간의

Page 49: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 41 -

교호작용이 추가되는 것을 알 수 있다. 따라서 가정도 여러집단의 공분산행렬이

서로 같다는 가정이 추가된다. 이 가정은 Bartlett의 등분산 검정을 확장시킨 Box의

M-검정을 이용하여 동일 공분산 행렬의 가정을 검토한다.

이 경우 귀무가설은 다음과 같이 세 가지로 설정된다. 먼저 집단간의 차이에 대

한 가설로서 아래와 같다.

이 가설의 검정은 여러 처리의 평균을 종합한 값을 이용하여 만들어 낸 집단간

의 차리에 대한 검정 통계량을 이용하므로 공분산 행렬의 구형성 가정에 제한 받

을 필요가 없다.

두 번째로 처리간의 차리에 대한 가설은 다음과 같다.

마지막으로 여러 처리에서 평균들의 변화양상이 각 집단에서 서로 같은 가를

표현하는 가설로서 다음과 같다.

여기에서 두 번째, 세 번째의 가설 검정은 공분산 행렬의 구형성 가정이 만족되

지 않으면 귀무가설 하에도 -분포가 성립되지 않으므로 앞에서 언급한 수정된

자유도로 계산된 검정 통계량을 이용해야 한다.

4.2.2 다변량 다변량 다변량 다변량 분석분석분석분석

다변량 분석에서는 구형성에 관한 가정이 필요하지 않으며 여기에서 요구되는

Page 50: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 42 -

가정은 오차간의 독립성과 오차 벡터(vector)들의 다변량 정규분포성(multivariate

normal distribution)이다. 따라서 구형성 가정이 만족하지 않는 경우라도 사용할 수

있는 장점이 있다. 그러나 자료가 구형성 가정을 만족하는 경우에는 일변량 분석

에 비해 검정력이 떨어지는 것으로 알려져 있다(Diggle et al, 1994).

다변량 분석의 또 다른 제약점은 연구대상 개체수가 어느 정도 커야 하는데 이

는 다음에 설명할 검정 통계량들의 분포에서의 자유도가 이기

때문이다. 예를 들어, 한 모집단에서의 자유도는 이 되는데 개체의

수 이 처리의 수 보다 작을 때는 -분포의 분모의 자유도가 0이하가 되기 때문

에 다변량 분석을 할 수 없다.

다변량 분석은 대상집단의 수에 따라 다음과 같은 검정 통계량을 사용하는데,

먼저 집단의 수가 하나 또는 둘인 경우 일변량에서 사용하는 -통계량을 일반화시

킨 Hotelling 통계량을 사용하고, 집단의 수가 셋 이상일 때에는 다변량 일반선

형모형(multivariate general linear model)에서 사용하는 다변량 통계량들이 있는데

이것들은 통계량을 일반화시킨 것이다. 다변량 분석에 사용되는 검정 통계량

들은 Wilks의 람다(lambda), Pillai의 트레이스(trace), Hotelling-Lawley의 트레이스,

Roy의 루트(root)들이 있다.

Wilks의 람다는 오차에 대한 제곱합 행렬( )의 행렬식(determinant)을 모형에 대

한 제곱합 행렬( )과 오차에 대한 제곱합 행렬을 더한 행렬 의 행렬식으로

나누어 준 값이다.

Pillai의 트레이스는 모형에 대한 제곱합 행렬( )을 모형에 대한 제곱합 행렬과

오차에 대한 제곱합 행렬을 더한 행렬의 역행렬 에 곱한 행렬

에서 대각원소들의 합으로 나타난다.

Hotelling-Lawley의 트레이스는 오차에 대한 제곱합 행렬의 역행렬( )에 모형

에 대한 제곱합 행렬을 곱한 행렬 의 대각원소들의 합이다.

Roy의 루트는 오차에 대한 제곱합 행렬의 역행렬( )에 모형에 대한 제곱합

행렬을 곱한 행렬( )의 큰 순서대로 배열된 고유값(eigenvalue)들을 나타낸다.

각 통계량들은 나름대로의 합리적인 이론적 근거를 가지고 있으므로 우열에 대

Page 51: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 43 -

한 일반적인 비교는 할 수 없으나 Wilks의 람다는 특정저곤이 만족되면 정확한

분포를 한다는 장점이 있고, 여러 고유값들이 매우 다를 경우 Hotelling-Lawley

의 트레이스가 검정력이 가장 높으며, 고유값들이 모두 비슷한 경우에는 Pillai의

트레이스가 높고 가장 큰 고유값이 다른 것들에 비해 월등히 큰 경우에는 Roy의

루트의 검정력이 가장 높다고 알려져 있다. 그러나 오차의 자유도가 큰 경우, 즉,

개체수가 많을 때에는 이 네가지의 통계량들은 거의 같은 값을 제시한다(송혜향,

1998).

4.3 혼합모형을 혼합모형을 혼합모형을 혼합모형을 이용한 이용한 이용한 이용한 반복측정자료의 반복측정자료의 반복측정자료의 반복측정자료의 분석분석분석분석

4.3.1 혼합모형혼합모형혼합모형혼합모형

혼합모형(mixed model)을 설명하기 위해 확률화 블록 계획법(randomized block

design)을 간단히 살펴보면, 특정 처리들의 효과를 알아보기 위하여 사용되는 개체

들이 각 처리간에 서로 동질적이지 않을 때에는 반응치들 간의 차이가 특정처리

로 인한 것인지 또는 동질적이지 못한 여러 다른 요인에서 비롯된 것인지를 파악

하기 어렵다. 이런 경우 순수한 처리효과를 왜곡시키는 요인을 찾아내어 그 요인

에 따라 대상을 구획화(blocking)하는 확률화 블록 계획법이 하나의 해결방법이 될

수 있다(Verbeke, 1997).

통계학적 모형은 다음과 같이 나타낼 수 있다.

⋯ ⋯

여기서 는 총평균을 의미하며,는 의 번째 블록의 효과를 나타내는 확률변

수를 의미하며, ∼ 이다. 는 의 번째 처리의 효과를 나타내는 고정

Page 52: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 44 -

된 상수를 의미하며,

이며, 는 서로 독립인 실험오차를 나타내는 확률

변수이며, ∼ 이다.

위의 모형에 나타난 두 가지의 요인 중 처리를 나타내는 요인 를 고정효과

(fixed effect)라 하고, 모집단으로부터 확률적으로 추출된 개체들의 집합인 요인

를 임의 효과(random effect)라고 한다. 이와 같이 고정효과와 임의 효과과 동시에

나타난 모형을 혼합모형(mixed model)이라고 한다(Laird, 1982).

위의 모형을 일반화 하면 아래와 같이 표현된다.

∼ , ∼

⋯ 과 ⋯ 은 상호 독립이다.

: 개체 에 대한 차원의 반응벡터, ⋯ (개체의 수)

: 고정효과를 표현하는 × 차원의 계획행렬(design matrix)

: 임의효과를 표현하는 × 차원의 계획행렬

: 고정 효과를 표현하는 차원의 모수벡터

: 임의효과를 표현하는 차원의 모수벡터

: 차원의 오차성분벡터

: 원소가 인 × 공분산행렬

: × 공분산 행렬

종종 가 가 되도록 선택되어지는데 여기서는 는 차원의 단위행렬

(identity matrix)로서 이 경우 위의 모형을 조건적 독립모형(conditional independent

model)이라고도 한다. 왜냐하면 각 개체 들 간의 반응치는 독립적이면서 와

Page 53: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 45 -

에 대하여는 조건적(conditional)이기 때문이다(Laird, 1982).

는 평균벡터가 이고 공분산행렬이 인 정규분포를 하는데, 가

평균벡터 0과 공분산행렬 인 정규분포를 한다고 가정할 때 의 주변확률밀도

함수(marginal p.d.f) 가 되어 결국 는 평균벡터 와

공분산 행렬 ′인 차원의 정규분포를 한다는 것을 얻어낼 수 있

다.

4.3.2 고정 고정 고정 고정 효과효과효과효과

고정효과라는 것은 요인의 수준(level)에 따른 수가 한정된 모집단이 있고 연구

에 대한 모든 관심의 수준이 그 모집단에 포함되어 있을 때 그러한 요인의 효과

를 말하는 것인데, 예를 들면 연구의 관심인 개체의 특정한 반응치를 성별로 나누

어서 그 변화의 양상을 보고자 할 때, 남성과 여성으로 나누어지는 요인의 효과를

말한다고 할 수 있다.

혼합모형 에서는 부분으로 고정 효과를 표현할 수 있는데,

고정효과를 나타내는 계획행렬 는 연구하고자 하는 자료에서 집단 간의 차이,

처리 간의 차이, 집단과 처리간의 교호작용을 검정하는데 사용한다. 즉, 집단 간의

차이는 집단 내 개체 간 변동을 오차항으로 이용하고 처리간의 차이와 교호작용

은 개체 내 변동을 이용하여 검정한다.

의 공분산 행렬을 라고 할 때, 고정 요인의 효과를 나타내는 를 추정하기

위해 와 에 관한 로그우도함수(log-likelihood)를 라고 하면 는 다

음과 같이 나타낼 수 있다(Laird, 1982).

를 알고 있다고 할 때, 의 최대우도추정량(maximum likelihood estimator)을 얻

Page 54: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 46 -

기 위한 방정식은 다음과 같다.

위의 식을 다른 방식으로 표현하면 ′ ′ 가 되는데, 의 추정

치를 구하기 위해서는 ′ 의 역행렬(inverse matrix)을 알아야 하는데 일반적

으로 역행렬이 존재한다는 것을 보장하기 어렵기 때문에, 일반화 역행렬

(generalized inverse matrix)을 사용한다. 를 의 일반화 역행렬이라고 할 때,

는 를 만족한다. 또 다른 해석을 위하여 사용되는 방법은 일반화

최소자승 방법(generalized least squares method)인데, 이것은 에 관하여

′ 를 최소화하는 의 추정치 를 찾는 것이다.(Verbeke,

1997)

의 분산-공분산 행렬(variance-covariance matrix)은 다음과 같이 표현할 수 있

다.

′ ′ ′ ′

와 가 알려져 있다고 가정한 행렬 를 포함하고 있다는 사실은,

위에서 표현된 식의 결과를 얻어내는 것이 현실적으로 어렵다고 할 수 있다. 따라

서 의 모수들을 추정치로 대신하여 얻은 을 이용하여 을 구할 수 있는데, 그

것은 ′ ′ 와 같다. 여기서

이 존재한다고 가정하는데

′ 에 대한 근사화(approximation)에서 실제의 분산성분을 대신 사용하여

추정된 의 분산성분에 의해 발생하는 변동량을 고려하지 않았기 때문에

′ 는 편의적(biased)이라고 할 수 있다. 따라서 위의 추정치에 기초한 검

정통계량의 분포에 영향을 줄 수 있다. 혼합 모형에서 과모수화의 경우에 우도 방

Page 55: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 47 -

정식의 행렬 ′ 는 완전 계수(full rank)가 아니므로 역행렬이 존재하지 않

는다. 따라서 유일하지 않은(non-unique) 일반화 역행렬을 사용해야 하는데 이때 위

의 문제가 발생하게 된다. 이러한 경우 과모수화를 피한 모형을 재구성하는 것으

로 위의 문제를 풀 수도 있으며 모수의 유일한 추정치들을 결정하는 것이 아니라

어떤 추정가능한 모수들의 유일한 선형 결합(linear combination)을 얻어내는 방법도

적용 시켜볼 수 있다(Verbeke, 1997).

모수의 선형결합의 관점에서 고정효과에 대한 통계적 검정을 살펴보면 귀무가

설 및 대립가설은 아래와 같다.

: ′ vs : ′≠

여기서 는 ×벡터이고 는 ×, ≦ 의 완전행렬이다.

⋯ ′을 행렬의 번째 열이라고 하고 ⋯인 ′ 를

추정가능하다고 가정하면 ′의 추정치 ′의 아래와 같은 분산-공분산 행렬은

′ ′ ′ ′ 이 되는데, 이를 이용한 아래의 통계량은

근사적인 -분포를 따른다.

′′ ′ ′ ′

위의 분포에서 분자(numerator)에 대한 자유도는 행렬의 열의 수인

가 된다. 분모(denominator)에 대한 자유도는 균형자료(balanced data)의

경우, 검정해야 할 내재적 변동량(background variability)이 하나의 분산성분에 일치

하므로 모형에 고려된 임의 효과를 갖고 있는 모든 항(term)들 각각의 자유도를

계산한 후 그 중에 가장 작은 값을 근사적인 통계량의 분모에 대한 자유도로

사용한다. 그러나 자료가 불균형(unbalanced)일 때에는 내재적 변동량이 서로 다른

분산성분들에 기인하기 때문에 근사적인 와 통계량에 대한 자유도가 자료로부

Page 56: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 48 -

터 계산되어져야 하는데 다양한 임의 효과의 요인들과 관련된 자유도의 최저값과

최고값 사이에서 결정되어져야 한다. 이를 위하여 Satterthwaite(1946)와 Neter(1996)

등이 제시한 방법을 들 수 있다.

′ ′ 를 평균제곱(mean square)의 선형 결합이라고 할 때 분모에 대한

자유도 는 근사적으로 ′ ′ ′ ′

가 되고 ′ ′ 의

확률적인 근사값을 얻어내면 자유도 는 아래와 같은 값으로 표현되어 진다.

여기서 는 ′ ′ 의 다른 표현으로서 변동량이 생기게 되는 요인

에 따른 평균제곱을 나타내며 는 상수(constant)를 의미한다.

결국, 고정효과를 검정하기 위한 귀무가설 하에서 검정통계량은 분자의 자유도

과 분모의 자유도 를 갖는 근사적인 분포를 따르므로 가설검정을 위한 의

사결정은 인 경우 귀무가설 가 기각된다. 여기에서 는

실제로 얻어진 검정 통계량이고 는 유의수준(significance level)을 의미한다.

4.3.3 임의 임의 임의 임의 효과효과효과효과

임의 효과라는 것은 무한인 수준(infinite level)의 수를 가진 요인의 모집단이 있

다고 가정했을 때, 연구에서 나타난 관심의 수준이 그 모집단으로부터 확률적으로

뽑힌 표본이라고 생각하는 요인의 효과를 말하는 것이다. 따라서 표본이 뽑힌 모

집단에 대한 타당한 추론을 이끌어 내는 것이 주된 관심사가 된다. 예를 들면 연

구의 관심이 강물의 오염도를 알아보는 것이라 할 때, 특정한 강에서 임의적으로

물을 뜰 경우 물을 떠낸 장소가 달라지는 차이에 의한 효과를 말한다고 할 수 있

Page 57: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 49 -

다(Longford, 1993).

혼합모형 에서는 두 가지 종류의 오차항을 갖는데 첫째가 개체

간 변동에 의한 오차항이고 둘째가 관찰치 수준에 의한 오차항이다. 임의효과는

바로 개체간 변동에 의한 효과로서 부분으로 표현할 수 있는데 여기서 는

계획행렬이고 는 들로 이루어진 벡터이다. 고정효과와 비교하여 임의 효과를

구별해야 할 것은 는 평균벡터가 0이고 공분산 행렬이 인 확률변수라는 사실

인데 그런 이유로 오차항으로 간주되기도 한다. 의 추정에 관하여 아래와 같이

설명할 수 있다(Verbeke, 1997).

단순한 임의 효과를 갖는 모형을 다음과 같이 설정하기로 한다.

, ⋯ ⋯

여기서 는 고정효과인 알려지지 않은 모집단의 전체 평균이고 는 평균이

0이고 분산이 인 정규분포를, 는 평균이 0이고 분산이 인 정규분포를 한다

고 가정하고 와 는 독립이라고 가정하면 가 되고

이 된다. 의 추정치 는 번째 처리의 관찰치 평균 ⋅에 의

한 의 조건부평균(conditional mean)으로 볼 수 있으므로 ⋅ 로 표현되고

이것은 다시 다음과 같이 나타낼 수 있다.

⋅ ⋅ ⋅

위의 식에서 보듯이 는 ⋅ 의 축소형(contraction)이라고 할 수 있다. 즉,

Page 58: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 50 -

이 ⋅ 를 의 기대값(0)의 방향으로 축소시킨다는 것인데, 이러한 이유로

를 축소 추정량(shrinkage estimator)이라고 부른다. 만약 여기에서 이 보다

상대적으로 크다면 ≫ 는 거의 ⋅ 에 근사한 값을 가지게 된다. 반면

에, 이 보다 상대적으로 큰 경우

≪ 에는 이 기대값이 0으로 축소하

게 되고 또한 각 처리당 관찰치의 수가 커지면 커질수록 예측을 하는데 있어서

⋅ 의 값이 크게 고려될 수 있다.

를 표현하는데 실제적인 성질을 갖도록 하기 위하여, 알 수 없는 전체 평균

를 최대우도방정식에 근거한 추정치 로 대신하고 과 을 제한적인 최대우

도추정량(restricted maximum likelihood estimator) 과 으로 대신하여 표현하면,

이 때 은 최량선형불편예측량(best linear unbiased predictors; BLUP)이 된다.

한편, 좀 더 엄격하게 말해서 가 모집단 전체의 평균에 기초한 추정치와 개별

적인 연구단위의 자료에 근거한 추정치 사이의 절충안(compromise)이라는 점에서

경험적인 베이즈 추정량(empirical Bayes estimators)이라고도 한다(Liang, 1986).

4.4 공분산 공분산 공분산 공분산 구조 구조 구조 구조 모형모형모형모형

본 절에서는 반복측정자료에 관한 분석에서 공분산 구조에 관한 내용을 다루기

로 한다.

선택되어진 블록 효과(blocking effect)의 각 범주(category)내에서의 관찰치가 어

떤 기간이나 방문과 같은 시간 효과에 의해서 정의되어지는 특정한 공분산 구조

가 있다고 가정한다(H.Brown and R.Prescott, 1999). 예를 들면, 반복측정된 시험에

서 시간에 따른 패턴이 같은 환자내에서 일어나는 관찰치들 간의 공분산으로서

나타난다는 것이다. 이러한 공분산 패턴은 잔차 행렬(residual matrix) 내에서 정

의된다. 이러한 행렬은 환자에 의해 블록화되어 같은 환자들에서도 서로 관련된

관찰치를 가진다. 잔차행렬 은 다음과 같이 나타난다.

Page 59: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 51 -

위의 식에서 는 각 환자들에 대한 공분산들의 행렬이며, 각 환자들에게서 일

어나는 관찰치의 수와 동일한 차원을 가진다. 은 서로 다른 환자들의 관찰치들

간의 상관계수가 0이라는 것을 의미한다.

본 논문에서는 많이 쓰이는 4개의 공분산 구조에 관하여 보기로 한다.

첫 번째로 일반적인 구조로서 ‘구조화 되어 있지 않은 경우(unstructured)' 이다.

각 시간 에 대해서 서로 다른 분산 을 가지며, 서로 다른 시간 , 는 공분산

를 가진다는 것이다. 모형은 아래와 같다.

두 번째로 분산들은 동일하고 공분산들은 지수로서(exponentially), 에 의존

하여 감소한다는 것이다. 즉, 이다. 이를 일차 자기회귀(first-order

autoregressive)라 한다. 이는 시간의 흐름이 있을수록 영향력이 떨어진다는 것이며,

구조가 으로 점점 감소한다는 것을 의미한다.

Page 60: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 52 -

세 번째로 복합 대칭(compound symmetry)인 경우로서 시점과 시점간에는 차이가

존재하고 분산들은 동일한 경우를 나타낸다.

마지막으로, 토플리츠(Toeplitz) 경우로서, 시점과 시점간의 차이가 같다면 그 영

향력이 같은 경우를 의미한다. 이는 일반적인 자기회귀모형(general autoregressive

model)이라고도 알려져 있다(H.Brown and R.Prescott, 1999).

Page 61: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 53 -

제 제 제 제 5 장 장 장 장 time-course microarray자료에 자료에 자료에 자료에 관한 관한 관한 관한 HME 모모모모

형의 형의 형의 형의 적용적용적용적용

이제 본 논문의 주 목적인 microarray 자료가 시간에 따라 반복되는 time-course

자료일 때, 이를 입력변수로 하는 수정된 HME 모형을 적용시켜 엑스퍼트들의 선

형조합의 확률적 함수로 표현하는 방법을 고려해 보도록 한다.

5.1 수정된 수정된 수정된 수정된 HME 모형의 모형의 모형의 모형의 설정설정설정설정

HME 모형은 아래와 같이 수준이 2개가 있는 모형을 가정한다. 이는 각각의 비

종단 노드에서 ‘부드러운 분할(soft split)’을 가지는 트리모형으로 생각할 수 있다.

종단 노드는 엑스퍼트(expert)라고 정의하고 비종단 노드(non-terminal node)는 입력

네트워크(gating network)로 정의한다. 그렇다면, 각 엑스퍼트는 반응변수(response)

에 대한 의견, 즉 예측(prediction)을 제공하고 이러한 엑스퍼트들은 입력 네트워크

에 의해서 서로 연결되어져 있다.

Expert Network

Gating Network

Gating Network

Expert Network

Expert Network

Expert Network

Gating Network

1|1g

2g1g

1|2g 2|1g 2|2g

),|Pr( 11θxy ),|Pr( 21θxy ),|Pr( 12θxy ),|Pr( 22θxy

그림 3 . 수준이 2개인 HME 모형(2)

Page 62: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 54 -

이러한 모형은 공식적으로 혼합모형(mixture model)이라고 할 수 있으며, 위의

그림에서 2개의 수준이 있는 모형은 다중 모형으로 확장될 수 있고, 이를 HME 라

고 정의한다.

자료가 , ⋯ 는 연속형 반응변수이고, 는 입력벡터이다. 즉,

microarray 자료에서는 는 시간에 관한 변수라고 할 수 있고, 는 각 시간에 대

한 Cy3와 Cy5의 로그 비(log ratio)값을 의미한다.

표기의 간소화를 위해 의 첫 번째 요소(element)는 1로 정의하고 이는 절편

(intercept)을 의미한다.

HME모형의 상위레벨 입력 네트워크(top gating network)는 아래의 결과값을 갖는

다.

, ⋯ (5.1)

여기서 각 는 알려지지 않은 모수벡터이다. 이는 K-요인 분할(K-way split)을

나타낸다(위의 그림 3에서는 K=2인 경우). 각 는 특징 벡터 가 번째 가

지(branch)의 관찰치를 할당하는 확률을 의미한다. 주의할 점은 K=2인 경우에서

의 요소 중의 하나가 ∞를 가지게 된다고 가정할 때, 무한한 기울기(slope)를

가지는 로지스틱 곡선을 얻는다. 이러한 경우 입력 네트워크 확률(gating

probability)는 0혹은 1이 되고, 이는 입력에서 hard split과 일치하게 된다.

두 번째 수준에서 입력 네트워크는 상위 수준에서와 비슷한 형태로 제공된다.

, ⋯ (5.2)

이는 상위수준에서 번째 가지로 할당되어 졌고, 번째 가지로 할당될 확률이

Page 63: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 55 -

다. 각 엑스퍼트(종단 노드)에서 반응변수에 관한 모형은 아래와 같은 형태를 가진

다.

∼ (5.3)

여기서 각 종단노드(terminal node)에서 반응변수의 모형으로 Laird et al.(1982)이

제안한 선형 혼합 모형(linear mixed-effects model)을 적용한다. 즉, 을

가지는 혼합모형을 아래와 같은 모형으로 나타낸다는 것이다.

, ⋯ ,

∼ , ∼ (5.4)

위의 식에서 각 유전자들에 대하여 시간별로 들에 대한 로그 비를 나타낸 것

으로서, 고정 효과(fixed effect)는 시간에 대한 효과를 의미하며, 임의 효과(random

effect)는 유전자(gene)들을 의미한다.

모든 모수들의 집합을 로서 정의하면, 일 전 확률은 아

래와 같다.

(5.5)

이는 입력 네트워크(gating network)모형에 의해서 결정되는 혼합모형(mixture

model)이다.

모수들을 추정하기 위해서 자료의 로그우도함수

를 에 관하

여 최대화(maximize) 시키는 방법으로 EM 알고리즘을 이용한다. 먼저 잠재변수

(latent variable) 를 정의하는데, 이는 0 아니면 1을 갖는 값이다. 이는 상위 레벨

Page 64: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 56 -

입력 네트워크(top level gating network)에 의해 만들어진 결과로서 해석한다. 유사

한 방법으로 잠재변수(latent variable) 는 두 번째 수준에서의 입력 결과(gating

decision)를 정의할 수 있다.

E-step은 모수의 현재 값이 주어진 상태에서 와 의 기대값(expectation)을 계산

한다. 이러한 기대치는 M-step에서의 엑스퍼트 네트워크에서 모수를 추정하기 위

한 관찰 가중치(weight)로 사용된다. 내부 노드(internal node)에서의 모수는 다중로

지스틱 회귀분석으로 추정되어진다.

와 의 기대치(expectation)는 확률 프로파일(profile)이며, 이는 로지스틱 회귀

분석에 반응 벡터로서 사용된다. 모수들의 추정은 다음 절에서 설명한다.

5.2 모수의 모수의 모수의 모수의 추정추정추정추정

2개의 수준을 가지는 HME 모형을 아래와 같이 나타낸다.

(5.6)

여기서 는 (공변수로 를 가지는)가 첫 번째 수준에서 번째 성분

(component)에 속하는 확률을 의미하며, 는 (공변수로 를 가지는)가

첫 번째 수준에서 번째 성분에 속한다고 주어질 때, 번째 성분에 속하는(즉,

번째 성분) 조건부 확률을 의미한다.

혼합비율 와 는 일반적으로 로지스틱 함수에 의해 공변수 의 함수형태

로서 모형화 할 수 있다. 즉,

, ⋯ (5.7)

Page 65: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 57 -

여기서 의 첫 번째 요소가 1 일때, 가 된다는 것을 가정한다. 는

⋯ 에서의 요소들을 포함한다. 도 위의 식과 유사하게 구할 수

있다.

, ⋯

이고 는 ⋯ 에서의 요소를 포함하고 있다. 알려지지 않

은 모수의 벡터는 아래와 같이 주어진다.

여기서 는 구분할 수 있는 우선순위(priori)로서 알려진 의 요소들을 포함한

다. 번째 수준에서의 성분(component)은 확률 를 따르는 다항분포(multinomial

dist.)를 갖는다.

(5.8)

위의 다항분포는 범주에 관해서 다음의 확률을 갖는 것으로 구성되어 있다.

⋯ (5.9)

다음으로 번째 수준에서의 성분은 확률 를 가지는 다항분포를 따른

다.

Page 66: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 58 -

(5.10)

또한 위의 분포는 범주에 관하여 다음의 확률을 갖는 것으로 구성되어 있다.

⋯ (5.11)

번째 과정은 번째 엑스퍼트들에 관한 밀도함수 로부터

벡터 를 생성한다.

위의 모수벡터 ⋯ 를 추정하기 위하여 EM-알고리즘을

적용시키는데, 이를 위하여 성분 가변수(component-indicator variable), 다시 말하면

잠재변수(latent variable) 를 정의한다. 는 가 HME 모형의 번째 성분

에 속하는지의 여부에 따라서 0 또는 1 로 나타낼 수 있다. 를 이러한 성분 가변

수(component-indicator varibale)를 포함하는 벡터라 정의한다.

공변수 가 주어질 때, 가 1일 확률은

(5.12)

⋯ ⋯

공변수 를 가지는 반응변수 가 주어졌을 때, 의 조건부 기대치는 아래와

같이 주어진다.

(5.13)

⋯ ⋯

Page 67: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 59 -

일반화 선형모형(generalized linear model)의 혼합(mixture)을 추정하기 위해서, 만

약 모든 성분 가변수를 포함하는 가 알려져 있다면, 최대우도추정치의 계산은 각

엑스퍼트 네트워크에 관한 혼합모형(mixed effect regression model)문제와 다항분포

(multinomial)에 관한 다중 분류(multiway classification)문제로 귀결되어, 이는 서로

독립적으로 풀어야 한다. 이를 풀기 위하여 완전 자료(complete data) 로그 우도함

수는 아래와 같이 주어진다.

(5.14)

번째 EM 알고리즘은 아래와 같이 나타낼 수 있다.

E-step. 식 (5.13)에서 에 대한 를 이용하여 얻어진 조건부 기대값 에

의해 식(5.14)에서의 를 대체한다.

M-step. 4가지의 최대화(maximization) 문제로 구성되어 있다. update된 추정치

은 아래와 같이 풀 수 있다.

(5.15)

업데이트 된 의 추정치는 아래 식의 해를 구함으로서 얻어질 수 있다.

( ⋯ ) (5.16)

가 일반적으로 우선순위(priori)로 알려진 요소(element)를 가지지 않는다고 가

Page 68: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 60 -

정할 때, update된 는 아래의 식에 대한 해로서 얻어질 수 있다.

(5.17)

for each ⋯ ⋯

(5.18)

for each ⋯ ⋯

이러한 방정식은 반복법(iterative method)이 필요한데, (5.64)와 (5.65)인 경우 일

반화 선형모형에 대한 IRLS(iteratively reweighted least square)를 이용할 수 있으며,

(5.66), (5.67)인 경우 가 혼합모형에 적합 시켜서 해를 구할 수 있다.

5.3 제안된 제안된 제안된 제안된 HME모형의 모형의 모형의 모형의 정규성 정규성 정규성 정규성 근사근사근사근사

일반적인 HME모형에서 단순회귀모형(simple regression models)의 엑스퍼트들은

트리구조의 네트워크와 혼합되어 있고, 변수들 사이의 관계를 살펴보는 것에 대한

모형의 계급(class)을 제공하는 것과 결합된다. 입력변수 에 의하여, HME 네트워

크는 각 엑스퍼트에 대한 가중치를 할당하고, 할당된 가중치를 통한 모든 엑스퍼

트들에 의하여 생성된 결과치와 결합된 최종적인 결과를 생성한다. 이러한 네트워

크는 어떤 확률분포로부터 뽑혀진다고 가정된 입력과 반응의 쌍으로 구성된 훈련

자료의 집합을 분석하는 것으로 학습된다. 흔히 사용되는 학습방법은 최소자승

(least square)과 최대우도(maximum likelihood)이다. 이러한 학습과정을 거쳐서, 네트

워크는 입력과 출력 사이의 사상(mapping)을 나타낸다. 즉, 나중의 입력값이 주어

질 때, 출력값을 예측한다는 것이다.

본 절에서는 모형이 정확하게 알려졌다고 가정할 때, 모형에서의 모수 및 평균

Page 69: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 61 -

반응의 최대우도추정치들(MLEs)이 표본 이 증가함에 따라 근사 정규분포

(asymptotic normal distribution)를 가진다는 제약조건(regularity condition)을 고려해

본다. 이러한 정규성 근사의 결과는 일치적(consistent)이며 근사적 정규성

(asymptotic normal)을 가지는 우도함수의 국소 최대치(local maxizers)의 시퀀스가

존재하는 것을 보이는 것으로 나타낼 수 있다.(Serfling, 1984; Redner and Walker,

1984)

이러한 결과는 국소 식별성(local identifiablity)을 반영하는 정칙 피셔 정보행렬

(non-singular Fisher information matrix)이 필요하며, 다른 모수화(parameterization)의

전체적 식별성(global identifiability)은 필요하지 않다(Jiang and Tanner, 2000).

요약하면 본 절에서는 입력네트워크 함수 와 엑스퍼트 밀도함수 에서

어떤 조건하에서 첫 번째로, 우도 방정식이 일치적(consistent)이며 근사적 정규해

(asymptotically normal solution) 를 나타내는지, 둘째로, 추정된 평균 반응

가 실제 평균반응 을 추정하는 것에 대하여 일치적이며 근사적 정

규를 나타내는 가에 대하여 기술한다.

Jiang and Tanner(2000)은 기약(irreducible HME)에 관하여 아래와 같이 정의하였

다.

Definition 1. 기약(irreducible) HME

기약 HME(IHME)는 두 엑스퍼트들이 같은 엑스퍼트 모수를 가질 수 없는 것이

다. 일반화 선형모형을 가지는 엑스퍼트들의 HME 모형에 관하여, 기약성

(irreducibility)은 회귀 모수 ∈가 개의 서로 다른(mutually distinct)

-차원의 벡터를 가진다는 것이다. 즉, 에서 어떤 두 개의 서로 다른 와

에서, ≠

를 의미한다.

엑스퍼트 모수들이 서로 다르다는 가정 하에, 에서의 모수들의 집합을 로

서 정의한다. 정의에 의하여, IHME의 모수 공간(parameter space) 는 개집합

(open set)이며, 어떤 동일한 두 expert 모수들에 대한 의 집합은 닫혀있는 초평면

(hyperplane)의 유한 합집합이다. 만약 HME 구조가 기약의 형태가 아니라면, 모수

Page 70: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 62 -

화(parameterization)된 값들은 우도함수가 어떤 방향에서 일률적으로 되어 유일한

해를 가지지 않게 되어, 결국 비정칙 피셔 정보 행렬(singular Fisher information

matrix)으로 나타나게 된다. 또한 일반화 선형모형에 관한 정규적 근사에 대하여

아래와 같은 정리를 증명하였다(Jiang and Tanner, 2000).

Thm 1. 제약조건 1,2,3이 일반화 선형모형의 HME에 대하여 만족한다고 가정하

자. ∈에 의하여 모수화된 각각의 기약 HME에 대하여, 에서 의 어떤 충

분히 작은 근방에 주어진다고 가정하자. 그렇다면

a) 이 충분히 크다면, 우도 방정식의 해 은 유일하게 존재하며, 이 해는 로

그-우도함수를 부분적으로 최대화한다.

b) 해 은 근사적으로 평균이 이고, 공분산행렬 인 정규분포를 따른다.

여기서 는 피셔 정보 행렬을 의미하며, 이는 아래와 같다.

≡∇ ⊗

c) 추정된 평균 함수 는 각 ∈ 에 대하여 평균이 , 공분산행

렬이 인 정규분포를 따르며, ∇ 이다.

위의 정리에서 3개의 제약조건은 다음과 같다.

- 조건 1: ∪ 는 개의 서로 다른 실수 들에 관하여

∈의 선형 독립 함수(linearly independent function)의 집합이다. 여기서 은

HME 네트워크에서 expert들의 개수를 의미하며, 은 어떤 ≠에 대하여

≠ 라는 것을 의미한다.

- 조건 2: × 행렬 ⋯ ⋯

은 어떤 실측치 ⋯ 에 대하여 완전계수(full rank)이다. 여기서 는 식(5)

의 형태를 가진다.

- 조건 3: the support of 이 개집합(open set)일 때, 는 Aℜ× 에서

Page 71: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 63 -

의 연속형 함수이다.

이러한 결과를 바탕으로 다음 장에서는 모의자료를 이용하여 지금까지 논의한 방

법을 적용시켜 보도록 한다.

Page 72: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 64 -

제 제 제 제 6 장 장 장 장 제안된 제안된 제안된 제안된 HME모형에 모형에 모형에 모형에 관한 관한 관한 관한 모의 모의 모의 모의 실험실험실험실험

6.1 모의자료의 모의자료의 모의자료의 모의자료의 생성생성생성생성

5장에서 제안된 방법을 나타내기 위하여, 본 장에서는 모의실험을 통한 가상의

microarray 자료에 하여 HME모형을 적용하기로 한다. 모의자료의 생성을 위하여,

먼저 엑스퍼트(expert)들의 개수를 5개라고 가정하고, 유전자(gene)들의 개수를 1000

개로 설정하며, 공변수 는 시간으로서 총 6시점으로 정의하였다. 각 엑스퍼트들

에 관한 모수 는 아래와 같이 정의하였다.

위의 엑스퍼트들의 분산은

이며, 각 입력 네트워크(gating network)는 아래와 같다.

위의 식에서 , 임을 알 수 있다. 위의 모수들을 이용하여

microarray 자료의 로그 비(log ratio)를 생성할 수 있는데, 이는 Cy3와 Cy5의 비율

을 의미한다. 확률분포는 다변량 정규분포(multivariate normal distribution)에 의하여

생성한다. 다변량 정규분포는 아래와 같다.

Page 73: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 65 -

모의자료생성에 있어서 공분산 행렬은 1차 자기회귀모형(first-order autocorrelation

model)을 이용하였고 이는 ×행렬로 아래와 같이 나타난다.

,

위의 경우들을 고려하여 로그비를 다변량 정규분포 ∼ 를 통하여

생성하였고, 모의자료에 대한 HME모형은 아래 그림 4와 같이 설정하였다.

아래 그림 4의 HME모형은 2개의 수준을 가진 계층적 엑스퍼트 모형으로서 입

력 네트워크(gating network)와 엑스퍼트 네트워크로 구성되어 있다.

각 엑스퍼트들은 혼합 모형(mixed model)을 가지며, 이는 가 아래와

같은 형태로 나타난다.

이를 요약하면 로서 나타낼 수 있다(M.I Jordan et al, 1995). 입력 네트

워크(gating network)는 아래와 같이 나타난다.

Page 74: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 66 -

Expert Network

Gating

Network

Gating

Network

Expert Network

Expert Network

Expert Network

1|1g

2g1g

1|2g 2|1g 2|2g

),|Pr( 11θxy ),|Pr( 21θxy ),|Pr( 12θxy ),|Pr( 22θxy

µ

Expert Network

0g

00Pr( | , )y x θ

그림 4. 가정된 HME 모형의 구조

여기서 는 식(5.56)에 의하여 주어진다. 단순화 하면, 를 경사 상승(gradient

ascent)에 의하여 업데이트 할 수 있다.

(6.1)

여기서 학습율(learning rate)은 으로 놓았다. 식

(5.17)과 식(5.18)을 이용하여 과

을 업데이트 할 수 있다.

EM-알고리즘을 이용하기 위한

들의 초기치는 임의로 할당하였고,

수렴이 될 때까지 계속 반복시키는데, 허용한계는 까지, 최대반복회수는 100

회를 두었다.

아래 그림은 자기회귀계수가 인 경우, 위의 평균과 공분산을 이용하여

생성한 모의자료에 대한 산점도(scatter plot)이다.

Page 75: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 67 -

X

Y

-10

-5

0

5

10

그림 5. 모의생성된 자료의 산점도

동일자료를 가지고 EM-알고리즘을 통한 HME모형을 적용시켰을 때의 수행정도

(performance)를 파악하기 위하여 수렴할 때까지의 엑스퍼트들의 추정치와 분산을

도식화 하였다(그림 6). 그림 6의 (a)는 1번째 엑스퍼트들에 관한 모수 추정치들의

수렴정도이고 (b)는 2번째 엑스퍼트, (c)는 각 3개의 엑스퍼트들에 관한 분산의 수

렴정도이다.

Page 76: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 68 -

(a)

iteration

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

Par

amet

ers(

Exp

ert 1

)

0

1

2

3

4Expert Network 1|1 interceptExpert Network 1|1 SlopeExpert Network 2|1 interceptExpert Network 2|1 Slope

(b)

iteration

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

Par

amet

ers(

Exp

ert 2

)

-3.5

-3.0

-2.5

-2.0

-1.5

-1.0

-0.5

0.0

Expert Network 1|2 InterceptExpert Network 1|2 SlopeExpert Network 2|2 InterceptExpert Network 2|2 Slope

(c)iteration

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

Var

ianc

es

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

1.1

Expert 0Expert 1|1Expert 2|1Expert 1|2Expert 2|2

그림 6. EM-알고리즘의 반복에 따른 추정치들의 수렴정

Page 77: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 69 -

6.2 1차 차 차 차 자기회귀 자기회귀 자기회귀 자기회귀 상관계수의 상관계수의 상관계수의 상관계수의 변화에 변화에 변화에 변화에 따른 따른 따른 따른 추정치의 추정치의 추정치의 추정치의 변화변화변화변화

시간에 따른 영향력이 떨어진다는 공분산 모형이 1차 자기회귀모형인데, 이러한

자기회귀 상관계수의 변화에 따른 추정치의 변화에 대하여 제안된 HME모형을 적

용시켰다. 엑스퍼트 네트워크의 추정치 및 분산은 6.1절의 모형을 따른다고 가정

하고 자기회귀 상관계수를 변화시켜가면서 입력 및 엑스퍼트 네트워크들의 값을

추정하였다. 6.1절과 마찬가지로 EM-알고리즘을 이용하기 위한

의 초기치는 엑스퍼트 0를 제외한 나머지는 임의로 할당하였고, 수렴이 될 때까지

계속 반복시키는데, 허용한계는 까지, 최대 가능 반복회수는 100회를 두었으

며, 이를 1000번 반복하여 각 추정치들의 평균 및 표준편차를 아래 표 2와 같이

구하였다. 프로그램은 R-package 2.2.0을 이용하여 작성하였으며, 다변량 정규분포

에 대한 모의 자료생성은 mvtnorm library(Alan Genz et al)를 이용하였고, 엑스퍼트

네트워크의 추정을 위한 혼합모형(mixed model)의 적용은 nlme library(Jose

Pinheiro)를 이용하였다.

표 2를 보면 자기회귀 상관계수에 따라 모의자료를 생성하여 제안된 HME 모형

을 적용한 결과인데, 추정된 절편(intercept), 기울기(slope), 은 각 엑스퍼트

네트워크에서 추정된 모수들을 의미하며, 추정된 AR(1)은 각 엑스퍼트별 자기회

귀 상관계수를 추정한 값이다. 는 입력 네트워크(gating network)에서 종단

노드(terminal node)일때의 비율의 추정치를 의미하며, 비종단 노드인 경우

, 의 형태로 구할 수 있다. 자기회귀 상관관계가 약

하게 나타나는 경우( 0.1, 0.3, 0.5), 엑스퍼트 네트워크 및 입력 네트워크들 및

각 분산들의 추정치는 모의자료의 실제값과 비슷하게 나옴을 알 수 있다.

자기회귀 상관관계가 강하게 나타나는 경우( 0.7, 0.9)인 경우, 엑스퍼트 네트

워크의 추정치 및 입력 네트워크(gating network)는 실제 값과 별 차이가 없으나,

추정된 분산 및 표준편차에서 차이가 존재하였다. 즉, 가 0.7보다는 0.9일경우의

분산의 추정치가 실제 값보다는 차이가 존재한다는 것을 알 수 있다.

Page 78: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 70 -

true

Expert

Network

Estimated Value

intercept slope AR(1)

0 0 0 0.1006±0.0326 0.3001±0.0003 1.0024±0.0335

1|1 2.9829±0.1074 1.0029±0.0215 0.0856±0.0241 0.1020±0.0045 1.0350±0.0226

2|1 1.5305±0.0557 0.4945±0.0112 0.0841±0.0064 0.2040±0.0089 0.5028±0.0295

1|2 -1.5464±0.0944 -0.4933±0.0243 0.0874±0.0594 0.0999±0.0003 0.4881±0.0404

2|2 -3.0113±0.0747 -0.9996±0.0224 0.1058±0.0231 0.2940±0.0134 0.9956±0.0255

0 0 0 0.2884±0.0358 0.2999±0.0002 0.9964±0.0694

1|1 2.9673±0.1834 1.0067±0.0466 0.2594±0.0462 0.1001±0.0002 0.9358±0.0722

2|1 1.4634±0.0305 0.5079±0.0038 0.2888±0.0245 0.2000±0.0001 0.4949±0.0296

1|2 -1.4965±0.0868 -0.5067±0.0272 0.2818±0.0496 0.1000±0.0001 0.4967±0.0214

2|2 -3.0383±0.0240 -0.9881±0.0078 0.2772±0.0162 0.3000±0.0001 1.0069±0.0395

0 0 0 0.4989±0.0356 0.2999±0.0006 1.0002±0.0536

1|1 2.9966±0.1574 0.9919±0.0216 0.4868±0.0654 0.1002±0.0006 0.9612±0.1031

2|1 1.5127±0.0711 0.4961±0.0196 0.4927±0.0325 0.1999±0.0012 0.4895±0.0446

1|2 -1.5189±0.1087 -0.4958±0.0258 0.4971±0.0567 0.1000±0.0003 0.4791±0.0470

2|2 -3.0039±0.0416 -0.9994±0.0141 0.4896±0.0360 0.3001±0.0003 0.9880±0.0518

0 0 0 0.6849±0.0419 0.2987±0.0029 0.9574±0.0884

1|1 2.9520±0.1367 0.9999±0.0371 0.6833±0.0409 0.1006±0.0008 0.9518±0.0781

2|1 1.5195±0.0238 0.4935±0.0124 0.6788±0.0250 0.1997±0.0022 0.4772±0.0283

1|2 -1.5229±0.0695 -0.5018±0.0155 0.7283±0.0334 0.1043±0.0032 0.5705±0.0920

2|2 -3.0475±0.0715 -0.9983±0.0139 0.6684±0.0288 0.2968±0.0018 0.9656±0.0432

0 0 0 0.8729±0.0148 0.2979±0.0016 0.7960±0.1157

1|1 2.9945±0.1779 0.9945±0.0396 0.8580±0.0467 0.0995±0.0036 0.7409±0.2210

2|1 1.4897±0.0342 0.5055±0.0087 0.8870±0.0339 0.2008±0.0039 0.4710±0.1150

1|2 -1.5807±0.0751 -0.4972±0.0153 0.8946±0.0551 0.1051±0.0048 0.5771±0.1944

2|2 -3.0171±0.0896 -1.0038±0.0115 0.8731±0.0511 0.2967±0.0034 0.8647±0.2299

* each column is demostrated mean±sd, total iteration n=1000표 3. 자기회귀상관계수의 변화의 따른 제안된 HME의 적용(1)

6.3 기존 기존 기존 기존 모형과의 모형과의 모형과의 모형과의 비교비교비교비교

모의실험자료에 대한 기존 모형은 Yeung 등(2002)이 제시한 모형에 기초한 군집

분석(Model-based clustering, 이하 MCLUST)방법을 이용한다. 위의 표(6.2)에서의

일 경우의 모의자료에 대하여 MCLUST를 1000번 시행하였다. MCLUST의

공분산 구조의 형태는 MCLUST적용 시 나타나는 BIC값을 기준으로 선택하였다.

Page 79: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 71 -

본 모의자료에 해당되는 공분산 구조는 elliposoidal 분포이면서 동일한 분산구조를

갖는 EEI 모형이었다. 제안된 모형과 MCLUST의 가장 큰 차이점이라고 할 수 있

는 것은 시간에 관한 요인은 고려하지 않고 시간에 따른 요인을 반복(replication),

혹은 표본(sample)이라고 고려한다는 것이다. 이에 따른 평균 반응(mean response)

의 변화는 아래 그림 및 표 3와 같다.

그림 7의 평균반응의 추세를 보게 되면 평균 반응 및 자기상관계수 , cluster의

비율은 본 논문에서 제시한 모형 및 실제 생성값과 동일하나 분산자체가 동일 하

다는 가정 때문에 분산부분에서는 본 논문에서 제안한 HME모형이 더 낫다는 것

을 확인 할 수 있다.

cluster

sample(Replication)

var rho prop

1 2 3 4 5 6

cluster 10.0117±

0.0662

-0.0030±

0.0454

-0.0317±

0.0337

-0.0122±

0.1088

0.0003±

0.0696

-0.0338±

0.0420

0.8306±

0.0084

0.3033±

0.014

0.2995±

0.0004

cluster 23.9664±

0.1144

4.9463±

0.0996

5.9960±

0.0595

7.0060±

0.1720

7.9902±

0.1199

8.9593±

0.1413

0.1±

0.0000

cluster 32.0199±

0.0404

2.4972±

0.0411

3.0092±

0.0477

3.4826±

0.0340

3.9701±

0.0694

4.4978±

0.0447

0.2003±

0.0005

cluster 4-2.0021±

0.0658

-2.4985±

0.0654

-3.0187±

0.0565

-3.5100±

0.0748

-4.0397±

0.0603

-4.4540±

0.0502

0.1003±

0.0003

cluster 5-4.0095±

0.0716

5.0233±

0.0740

-6.0390±

0.0560

-7.0505±

0.0622

-8.0105±

0.0532

-8.9879±

0.0660

0.2999±

0.0004

* each column is demostrated mean±sd, total iteration n=1000

표 3. 생성된 모의자료에 대한 MCLUST 결과

Page 80: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 72 -

TIME

0 1 2 3 4 5 6 7

Mea

n(Lo

g R

atio

)

-10

-8

-6

-4

-2

0

2

4

6

8

10

Cluster 5Cluster 4Cluster 3Cluster 2Cluster 1

그림 7. 모의자료에 대한 MCLUST의 추정된 평균에 관한 프로

파일

아래 표 4, 표 5은 자기상관계수 를 각 모수별로 다르게 부여하여 모의자료를

생성하여 제안된 HME모형 및 MCLUST 를 각 100번씩 시행하여 각 추정치들의

평균 및 표준편차를 제시한 것이다. 제안된 HME모형(표 6)를 보면 실제 및 추

정된 값들이 실제 값과 잘 적용이 됨을 알 수 있다. 그러나 MCLUST를 적용한 결

과(표 7)는 절편 및 기울기, 각 군집별 비율 등은 잘 추정이 되었으나, 분산 및

값은 한쪽 부분에 편향되어 나타났다는 것을 알 수 있다. 그러나 본 모형에서도

시간에 따른 관계, 즉, 자기회귀상관계수가 커질수록 분산의 추정치가 낮게 나타

난다는 것을 알 수 있다.

Expert

Network

(Estimated)

intercept

(Estimated)

slope

(Estimated)

AR(1)

(Estimated)

(Estimated)

0 0 0 0.1014±0.0121 0.3000±0.0001 0.9887±0.0299

1|1 3.0352±0.0577 0.9861±0.0136 0.2874±0.0136 0.1000±0.0000 0.9602±0.0560

2|1 1.4840±0.0149 0.5038±0.0054 0.2792±0.0297 0.2000±0.0000 0.4899±0.0247

1|2 -1.4842±0.0554 -0.4955±0.0143 0.4611±0.0747 0.1002±0.0004 0.4752±0.0188

2|2 -3.0083±0.0335 -0.9952±0.0183 0.5032±0.0177 0.2998±0.0004 0.9804±0.0489

* each column is demostrated mean±sd, total iteration n=100

표 4. 자기상관계수가 변화되어 있는 모의자료에 대한 HME 모형의 추정치

Page 81: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 73 -

cluster

sample(Replication)

var rho prop

1 2 3 4 5 6

cluster 10.0249±

0.0499

-0.0194±

0.0081

0.0546±

0.0483

0.0090±

0.0691

-0.0028±

0.0491

0.0190±

0.0281

0.9691±

0.1243

0.0709±

0.1176

0.3001±

0.0003

cluster 24.0184±

0.0774

4.9807±

0.1434

6.0284±

0.0369

7.1281±

0.1271

8.0831±

0.0662

9.0448±

0.0989

0.1±

0.000

cluster 31.9847±

0.0246

2.4919±

0.0553

2.9923±

0.0432

3.5097±

0.0682

4.0021±

0.0579

4.4888±

0.0641

0.2000±

0.0000

cluster 4-2.0295±

0.0611

-2.5246±

0.0303

-2.9721±

0.0483

-3.5056±

0.0865

-4.0303±

0.0891

-4.5001±

0.0852

0.1003±

0.0000

cluster 5-4.0156±

0.0509

-4.9990±

0.0192

-5.9581±

0.0263

-6.9543±

0.0489

-7.9994±

0.0412

-9.0092±

0.0568

0.2996±

0.0001

* each column is demostrated mean±sd, total iteration n=100

표 5. 자기상관계수가 변화되어 있는 모의자료에 대한 MCLUST 모형의 추정치

위의 모의실험들의 결과를 종합하여 볼 때, 제안된 HME 모형을 이용하여 각 군

집에 대한 분석을 하는 것은 기존의 MCLUST 방법과 비교해 볼 때, 각 군집

(cluster)별 시간에 따른 영향력을 고려하여 추정치를 구할 수 있으며, 또한 각 군

집에서의 시간에 따른 영향력이 다른 경우에 MCLUST방법 보다 정확한 추정치를

구할수 있다는 것을 뒷받침 할 수 있다.

Page 82: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 74 -

제 제 제 제 7 장 장 장 장 실재자료를 실재자료를 실재자료를 실재자료를 이용한 이용한 이용한 이용한 HME모형의 모형의 모형의 모형의 적용적용적용적용

본 장에서는 실재자료를 이용하여 본 논문에서 제안된 HME모형을 동일한 시간

간격으로 뽑힌 자료를 대상으로 적용시킨다. 실재자료는 Spellman et al.(1998)이 제

안한 이스트 세포주기 자료와 Iyer et al.(1999)가 제안한 인간 섬유아세포(fibroblast)

자료 및 Bodezch et al.(2002)이 제시한 말라리아(malaria) 숙주(agent)자료를 이용하

였다. 이러한 자료를 통하여 각 시점별 선형적 추세 및 같은 추세를 가지는 유전

자들끼리의 군집을 확인해 보도록 한다.

7.1 이스트 이스트 이스트 이스트 세포주기세포주기세포주기세포주기(yeast cell cycle)자료자료자료자료

실제 자료를 이용한 제안된 HME 모형의 적용을 위한 자료의 첫 번째로,

Spellman등(1998)이 이용한 이스트 세포 주기(yeast cell cycle)자료를 이용한다. 이는

asynchronous yeast culture로부터 참조(reference) mRNA와 관련된 -factor에 의하여

싱크로된 yeast culture에서 두 번의 세포주기 기간 동안 6108개의 이스트 ORF로부

터 cDNA array를 이용한 genome-wide mRNA 수준을 측정한 것이다. 이스트 셀들

은 싱크로한 후에 7분 간격으로 119분까지 18번 반복측정 하였다(Spellman et al.,

1998).

6108개의 유전자들 중에서 Spellman et al.(1998)은 세포주기에 대하여 조절된

(regulated) 유전자들로 특징지어지는 800개의 유전자를 규명하였고, 이 규명된 유

전자들은 서로 다른 세포주기 단계, 즉, M/G1, G1, S, S/G2, G2/M 단계로 나타내

었다.

본 논문에서 사용되는 자료는 이미 규명된 800개의 유전자들 중에서 6개의 시

점, 즉, 0분부터 35분까지의 자료들 중에서 결측치가 존재하지 않는 612개의 유전

자를 이용하였다.

발현자료에 대한 정규화(normalization)을 위하여, 각 유전자들에 관하여 평균을 빼

주고 표준편차로 나누어 주었다. 위의 자료를 제안된 HME모형에 적용시키기 위해

Page 83: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 75 -

서는 엑스퍼트들의 수를 결정지어야 한다. 본 논문에서 쓰이는 자료는 이미 세포

주기에 특징지어진 자료이기 때문에 수준이 2개인 엑스퍼트 네트워크로 가정하였

다. 즉, 그림 2와 동일한 구조를 가지는 것이다.

제안된 HME모형의 적용 결과는 다음의 표 6과 같은데, 트리모형의 상위구조

(top-level gating network)를 보면, 각 17.62%, 82.38%로 나타났다. 즉, 이는 절편이

양이면서 점차 시간에 따라 감소하는 추세와 절편이 음이면서 시간에 따라 증가

하는 추세로 나뉜다는 것이다. 이 중 입력 네트워크 로 자료가 분포되어 있음을

알 수 있다. 또한 엑스퍼트 11과 12를 보면, 엑스퍼트 11의 경우 기울기가 12보다

는 좀더 감소하는 추세가 더 큼을 알 수 있었으나, 엑스퍼트 11로 가는 유전자는

1개로 나타났다.

Expert Networkbeta

(intercept,slope)var

top-level

gating network

2nd-level

gating network

(1.40, -0.49) 0.026104(17.62%)

1(1.56%)

(1.60, -0.34) 0.888 103(17.46%)

(-0.76, 0.18) 1.141508(82.38%)

468(75.76%)

(-2.53, 0.58) 0.320 40(6.62%)

표 6. 세포주기 자료에 대한 HME모형의 추정치

아래 그림 8은 각 엑스퍼트들에 해당되는 유전자들의 프로파일을 도식화 한 것

이다.

그림 8의 (b)에서 엑스퍼트 2|1 인 경우 절편이 양이면서 감소하는 추세를 가지

고 있으며, 엑스퍼트 1|2(그림 8-(c))인 경우 절편이 주로 음에 위치하면서 미세하

게 감소하는 추세를 가진다. 또한 엑스퍼트 2|2(그림 8-(d))인 경우 절편이 음에 위

치하면서 현저히 증가하는 추세임을 알 수 있다.

Page 84: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 76 -

TIME

0 1 2 3 4 5 6 7

Log

Rat

io

-4

-2

0

2

4

TIME

0 1 2 3 4 5 6 7

Log

Rat

io

-4

-2

0

2

4

6

(a) (b)

TIME

0 1 2 3 4 5 6 7

Log

Rat

io

-4

-3

-2

-1

0

1

2

3

4

TIME

0 1 2 3 4 5 6 7

Log

Rat

io

-4

-3

-2

-1

0

1

2

(c) (d)

그림 8. 세포주기자료에 대한 엑스퍼트 네트워크들의 프로파일

아래 표 7은 Spellman 등(1998)에 의하여 정의된 5개의 세포주기 단계와 본 논문

에서 제안된 HME모형의 엑스퍼트들과의 분포를 나타낸다. 대부분의 유전자들이

세포주기 한 단계 혹은 거의 2단계의 군들로 분포를 이루고 있는데, M/G1, G1,

G2/M 단계는 엑스퍼트 2|1, 1|2에 분포되어 있으며, S, S/G2 단계는 엑스퍼트 1|2,

2|2 에 많이 분포되어 있다.

Page 85: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 77 -

Expert Network

(freq)M/G1 G1 S S/G2 G2/M

1|1(1) 1 0 0 0 0

2|1(103) 45 18 7 6 27

1|2(468) 46 199 25 71 127

2|2(40) 0 5 15 16 4

Total 92 222 47 93 158

표 7. Spellman 등(1998)에 의하여 정의된 5주기의 612개의 유전자들중에서 제안된 HME모

형을 이용한 4개의 엑스퍼트들과의 분포

기존 모형과의 비교를 위하여 MCLUST를 이용하여 동일한 자료에 관하여 군집

분석을 실시하였다. 군집의 개수는 4개로 정의하였고 선택되어진 공분산 구조는

Ellipsoidal 분포이면서 모든 군집들 및 군집의 크기들이 모두 다른 VVV 모형으로

적용되었다.

Time

0 1 2 3 4 5 6 7

Mea

n Lo

g R

atio

-3

-2

-1

0

1

2

3Cluster 1Cluster 2Cluster 3Cluster 4

그림 9. 세포주기자료에 대한 MCLUST의 추정된 평균에 관한 프로파일

Page 86: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 78 -

위의 그림 9에서 보면 군집 2인 경우 절편이 양이면서 감소하는 추세로 보았을

때, 엑스퍼트 네트워크 1|1 혹은 2|1에 대응될 수 있다. 군집 1, 3, 4의 경우 엑스퍼

트 네트워크 1|2, 혹은 2|2 에 대응시킬 수는 있으나, 절편의 차이가 많이 난다고

할 수 있다. 이는 아래의 표 8을 통하여 확인할 수 있다.

Expert Network

(freq)Cluster 1 Cluster 2 Cluster 3 Cluster 4

1|1(1) 0 1 0 0

2|1(103) 2 64 0 37

1|2(468) 157 28 73 210

2|2(40) 3 0 37 0

Total 162 93 110 247

표 8. MCLUST에서의 군집과 HME모형의 엑스퍼트 네트워크된 유전자들의 분포

위의 표를 보면 엑스퍼트 2|1 인 경우 MCLUST의 군집 2로 많이 분포되어 있음

을 알 수 있으며, 엑스퍼트 1|2, 2|2인 경우 군집 1,3,4 로 분포되어 있다는 것을 확

인 할 수 있다.

7.2 인간 인간 인간 인간 섬유아세포섬유아세포섬유아세포섬유아세포(fibroblast) 자료자료자료자료

Iyer 등(1999)은 cDNA microarray자료를 이용하여 혈청(serum)에 관한 섬유아세포

(fibroblast)에 관한 생리적 반응을 12시점 동안 관찰한 것을 보고하였다. 총 시점은

혈청에 관한 자극(stimulation)후 0, 0.15, 0.25, 1, 2, 4, 6, 8, 12, 16, 20, 24시간이며

유전자의 개수는 8613개를 대상으로 하였다. 이후 연구에서 혈청 자극에 반응하는

유전자들에 대하여 517개를 발견하였다(Iyer et al, 1999). 본 논문에서는 시점이 4

Page 87: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 79 -

개인 경우, 즉 0, 0.15, 0.25, 1시간동안 관찰하여 발견된 유전자 517개의 유전자를

사용하였다. 제안된 HME모형의 적용은 앞의 7.1절과 같이 이미 영향을 미치는 유

전자라고 발견이 되었기 때문에 수준이 2개이고 각 수준 당 2개의 엑스퍼트 네트

워크를 가지는 모형을 고려하였다. 이를 적용한 결과는 아래 표 9와 같다.

Expert Networkbeta

(intercept,slope)var

top-level

gating network

2nd-level

gating network

(0.11, -0.18) 0.077

380(70.96%)

147(27.47%)

(0.02, -0.02) 0.041 233(43.49%)

(-0.24, 0.21) 0.117

137(25.89%)

111(21.92%)

(-0.71, 0.73) 0.122 26(3.97%)

표 9. 제안된 HME모형을 이용한 4개의 엑스퍼트들의 추정치

위의 결과를 보게 되면 엑스퍼트 1|1 인 경우 절편이 양이면서 감소하는 추세를

가지고, 2|1 인 경우 1|1보다는 절편이 작으면서 완만하게 감소하는 추세를 가진다.

1|2, 2|2의 경우 음의 절편을 가지면서 증가하는 추세를 가지는데, 1|2 보다는 2|2가

더 강한 증가추세를 가짐을 확인할 수 있다. 각 엑스퍼트 네트워크에 관한 유전자

들을 도식화 하면 아래 그림 10과 같다. 그림 10에서, 위의 표 9에 대한 엑스퍼트

들의 추정치와 이에 대한 추세를 확인할 수 있다. 즉, 그림 10의 (b) 보다는 (a)가

더 감소하는 추세를 가지며, (c)보다는 (d)가 더 증가하는 추세를 가진다는 것을

알 수 있다.

Page 88: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 80 -

TIME

0 1 2 3 4 5

Log

Rat

io

-4

-2

0

2

4

TIME

0 1 2 3 4 5

Log

Rat

io

-4

-2

0

2

4

(a) (b)

TIME

0 1 2 3 4 5

Log

Rat

io

-2

-1

0

1

2

3

TIME

0 1 2 3 4 5

Log

Rat

io

-1

0

1

2

3

4

(c) (d)

그림 10. 인간 섬유아세포에 대한 엑스퍼트 네트워크들의 프로파일

MCLUST의 비교를 위하여 공분산 구조는 VII 모형을 이용하였고, 군집의 개수

는 4개로 고정하고 적용하였다. 본 자료에 관하여 적용하였을 때의 평균 추세로

볼때 군집4가 엑스퍼트 2|2에, 군집 3이 엑스퍼트 1|2에 대응됨을 일차적으로 확인

할 수 있으나, 군집1과 군집2는 거의 같은 모형을 가짐을 알 수 있다.

Page 89: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 81 -

TIME

0 1 2 3 4 5

Mea

n R

espo

nse

Log

Rat

io

-0.6

-0.4

-0.2

0.0

0.2

0.4

0.6

0.8

1.0

1.2

1.4 Cluster 1Cluster 2Cluster 3Cluster 4

그림 11. 인간 섬유아세포 자료에 대한 MCLUST결과 추정된 평균에 관한 프

로파일

Iyer 등(1999)은 계층적 군집분석(hierarchical clustering)을 통하여 본 517 유전자

들에 대하여 2개의 군집을 생성하였다. 계층적 군집분석을 통하여 나타난 2개의

군집과 본 논문에서 제안된 HME모형을 적용시켰을 때의 분포는 아래 표 10과 같

다.

Expert 1|1 Expert 1|2 Expert 2|1 Expert 2|2

Cluster 1 111(75.51%) 172(73.81%) 57(51.35%) 4(15.38%)

Cluster 2 36(24.46%) 61(26.19%) 54(48.65%) 22(84.62%)

Total 147 233 111 26

표 10. Iyer et al.(1999)에 의해 알려진 군집과 각 엑스퍼트들의 분포

위의 표에서 cluster 1은 Iyer 등(1999)이 제시한 계층적 군집분석의 결과로서, 시

간에 따라 발현이 감소함을 나타낸 군집이며, ‘cluster 2'는 반대로 발현이 시간에

Page 90: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 82 -

따라 증가하는 경향을 나타내는 군집이다. 제안된 HME모형과 비교한 결과 Expert

1|1, 1|2가 cluster 1에 더 집중되어 있으며, Expert 2|1은 cluster 1,2와 비슷하게 존재

하나 Expert 2|2에서는 cluster 2에 집중되어 있음을 알 수 있다. 이는 제안된 HME

모형이 시점이 4개인 경우로만 사용되었기 때문이라 예상할 수 있다.

7.3 말라리아 말라리아 말라리아 말라리아 숙주 숙주 숙주 숙주 자료자료자료자료

Plasmodium falciparum 은 사람에게 감염되는 말라리아(malaria)의 가장 어려운

원인이 되는 숙주(agent)이다. Bozdech et al(2002)는 P.falciparum 5400gene들에 관하

여 60%정도의 기능을 규명하였다. 본 논문에서 쓰여진 자료는 blood sample에서

말라리아의 세포주기(cell cycle)에 대하여 조사한 자료를 이용하였으며, Bobzdech

et al이 제시한 자료 중 Quality control set 5400여개 중에서 결측치가 존재하지 않

는 4937개의 gene에 대하여 6시점(1, 6, 12, 18, 24, 30시간)에 대하여 측정한 자료

를 이용하였다. 제안된 HME모형의 적용은 상위 입력네트워크(gating network)는 3

개이고, 상위 3개중 2개는 각 엑스퍼트 네트워크가 2개인 모형을 이용하였다. 즉,

엑스퍼트 네트워크 0, 1|1, 2|1, 1|2, 2|2 의 형태로 가정하고 적용하였다. 적용한 결

과의 모수추정치는 아래의 표 11과 같다.

Expert Networkbeta

(intercept,slope)var

top-level

gating network

2nd-level

gating network

(0, 0) 0.183 32.91% 1615(32.91%)

(1.065, -0.045) 0.27732.98%

946(19.44%) (0.093, 0.098) 0.064 690(13.54%)

(-0.592, -0.088) 0.14234.10%

1328(26.68%)

(-1.251,-0.139) 0.203 358(7.42%)

표 11. 말라리아 숙주 자료에 대하여 제안된 HME모형을 이용한 4개의 엑스퍼트들의 추정치

위의 표 11에서는 양의 절편을 가지면서 감소하는 형태와 음의 절편을 가지면

Page 91: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 83 -

서 감소하는 형태로 이루어져 있다는 것을 알 수 있다. 여기서 엑스퍼트의 절편

및 추정치가 0 인 것은 유의하지 않은 유전자들을 가정한 것이다. 각 엑스퍼트들

에 관한 프로파일 그래프는 다음의 그림 13과 같다.

동일자료를 가지고 MCLUST결과 공분산 구조는 VVV 모형이었으며, 군집의 개

수는 5개로 선택되어졌다.

TIME

0 1 2 3 4 5 6 7

Mea

n R

espo

nse

Log

Rat

io

-2.0

-1.5

-1.0

-0.5

0.0

0.5

1.0

Cluster 1Cluster 2Cluster 3Cluster 4Cluster 5

그림 12. 말라리아 숙주자료에 대한 MCLUST의 추정된 평균에 관한 프로파일

위의 그림 12을 보게 되면 군집 2의 경우 엑스퍼트 1|1 에 대응되고, 군집 1의

경우 엑스퍼트 2|1에, 군집5와 군집4는 각각 엑스퍼트 1|2, 2|2에 대응시킬 수 있으

나 군집3은 0에 대응시킬 수 있다. 그림 14는 MCLUST에 대한 각 군집들의 프로

파일 그래프인데, 이를 보면 제안된 HME모형과 대조할 수가 있다. 군집 2, 4는

HME모형과 비슷한 형태로 나타나나, 1,3,5인 경우, 특히 군집 5인 경우는 프로파

일들이 경향성 없이 임의적으로(randomly) 분포되어 있음을 알 수 있다.

Page 92: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 84 -

TIME

0 1 2 3 4 5 6 7

Log

Rat

io

-4

-2

0

2

4

(a)

TIME

0 1 2 3 4 5 6 7

Log

Rat

io

-4

-2

0

2

4

TIME

0 1 2 3 4 5 6 7

Log

Rat

io

-4

-2

0

2

4

(b) (c)

TIME

0 1 2 3 4 5 6 7

Log

Rat

io

-4

-2

0

2

4

TIME

0 1 2 3 4 5 6 7

Log

Rat

io

-4

-2

0

2

4

(d) (e)

그림 13. 말라리아 숙주자료에 대한 엑스퍼트 네트워크들의 프로파일

Page 93: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 85 -

TIME

0 1 2 3 4 5 6 7

Log

Rat

io

-4

-2

0

2

4

TIME

0 1 2 3 4 5 6 7

Log

Rat

io

-4

-2

0

2

4

cluster 1 cluster 2

TIME

0 1 2 3 4 5 6 7

Log

Rat

io

-4

-2

0

2

4

TIME

0 1 2 3 4 5 6 7

Log

Rat

io

-4

-2

0

2

4

Cluster 3 Cluster 4

TIME

0 1 2 3 4 5 6 7

Log

Rat

io

-4

-3

-2

-1

0

1

2

3

Cluster 5

그림 14. 말라리아 숙주자료에 대한 MCLUST 군집들에 관한 프로파일

Page 94: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 86 -

제제제 8 장장장 토토토의의의 및및및 결결결론론론

지금까지 time-course 자료를 이용하여 HME 모형을 적용한 군집 및 이에 따른

선형추세의 추정을 동시에 고려하는 방법을 제시하였다.

HME모형은 분리와 해결 원칙(divide and conquer)에 의거하여 아키텍쳐에 대한

학습의 문제(problem of learning)와 네트워크 아키텍쳐(network architecture)에 대한

접근방법으로서 이는 혼합추정(mixture estimation)문제로의 학습 및 EM-알고리즘을

통한 혼합 모수(mixture parameter)들을 추정하는 연구를 의미한다.

본 연구에서 제안된 모형은 기존의 HME 모형이 엑스퍼트 네트워크에서 회귀모

형을 고려하는 것과는 다르게, 혼합모형을 적용하여 시간에 따라 반복되는 자료에

대하여 각 유전자들을 임의효과(random effect)로 나타내어, 시간에 대한 고정효과

(fixed-effect)를 추정할 수 있으며, 분산성분의 변화를 통한 각 추정치들의 다양성

을 파악 할 수 있다는 것이다. 또한 본 연구에서 제시하지는 않았으나, 혼합모형

(mixed-effect model)을 고려함으로서, 공변수(covariate)가 시간에 대한 효과 하나만

을 고려하는것이 아닌, 여러 공변수(covariate)들이 적용가능 할 수 있다는 것을 눈

여겨 볼 수 있다.

본 연구에 대한 타당성을 평가하기 위해 모의자료를 이용할 때, 1차 자기상관계

수의 따라서 변화할 때, 각 추정치들은 실제 모수들과 크게 차이가 나지 않았으

나, 자기회귀상관관계가 강하게 나타나는 경우에는 추정된 분산부분에서 차이가

존재한다는 것을 알 수 있었다. 기존모형과의 비교를 위한 MCLUST 의 평균 반

응의 변화 및 분산등을 고려해 보았을 때, 시간에 대한 효과를 고려하여 제안된

HME 모형이 타당한 결론을 얻을 수 있었다. 이는 실재 자료를 통해서도 확인 할

수 있었다.

본 연구에서는 시간에 따라 반복되는 microarray 자료에서의 HME모형을 이용한

적용방법을 제시하였는데, 이를 기초로 하여 앞으로 몇가지의 확장된 접근이 가능

하다고 여겨진다.

먼저, 공변수(covariate)를 시점으로 고려하는 것이 아닌처리(treatment), 혹은 기타

Page 95: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 87 -

제반 변수들을 고려할 수 있다. 또한, 임의효과를 단순히 유전자간으로 고려하는

것이 아닌 Kerr(2001)등이 제시한 어레이(array)간, 혹은 염색(dye)효과들도 고려하

여 HME모형을 적용할 수 있다. 다음으로는 본 논문에서는 공분산모형을 1차 자기

회귀 모형으로만 적용을 하였으나, 복합대칭(compound symmetry)이나 구조화되지

않은 경우(unstructured)를 고려할 수 있을 것이다. 또한 각 계층에 관한 엑스퍼트들

의 수를 정하는 것도 문제가 될 수 있다. Yeung et al.(2001)이 제시한 모형에 기초

한 군집분석에서는 BIC를 이용하여 군집의 수를 결정하였으나, 본 모형에서 엑스

퍼트들의 수를 결정하는 것은 보다 심층적인 이해가 필요할 것이라고 생각된다.

끝으로, 실제 microarray 자료에서는 시간에 따른 반복측정자료는 일반적으로 세포

주기(cell-cycle)자료들이 주가 되는데, 이러한 세포주기자료들은 시점이 적어도 10

시점 이상이라는 것이다. 이렇게 시점이 많은 경우에 대한 자료의 선형성은 존재

하지 않을 가능성이 높고, 또한 계산적(computational)인 측면에서 보다 효율적이고

일반화될 수 있는 구체적인 방법이 필요하리라 여겨진다.

Page 96: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 88 -

참참참 고고고 문문문 헌헌헌

Agresti, A., Categorical Data Analysis 2nd Ed., Wiley Interscience, 2002

Alexandre X. Carvalho and Martin A. Tanner, Mixtures-of-Experts of autoregressive

time series: asymptotic normality and model specification, IEEE Transactions on neural

networks, 2005:16;1;39-56

Banfield, J.D.and Raftery, A.E., Model-based Gaussian and non-Gaussian clustering,

Biometrics, 1993:49;803-821

Berrar, D. P., Dubitzky, W., Granzow, M., A practical approach to microarray data

analysis, Kluwer Academic Publishers, 2003

Brown, M. P. S., Grundy, W.N., Lin,D., Cristianini, N., Sugnet, C., Furey, T. S.,

Ares, M. and Haussler, D., Knowledge-based analysis of microarra gene expression

data using support vector machines, Proc. Natl Acad. Sci. USA, 2000:97;262-267

Brown, P. O., Botstein, D., Exploring the new world of the genome with DNA

microarrays, Nature, 1999:21;33-37

Brown, H., Prescott, R., Applied Mixed Models in Medicine, John Wiley & Sons, 1999

Carvalho, A. X., Tanner, M. A., Mixture-of-Experts of autoregressive time series:

asymptotic normality and model specification, IEEE transactions on neural networks,

2005:16;1;39-56

Fraley, C., Raftery, A.E., Model-based clustering, discriminant analysis and density

estimation., Journal of the American Statistical Association, 2002;97:611-631

Cox, D. R., The analysis of Binary Data, Chapman-Hall, London, 1970

Page 97: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 89 -

Cox, D. R., Hinkley, D.V., Theoretical Statistics, Chapman-Hall, London, 1970

Demidenko, E., Mixed models; Theory and applications, Wiley Interscience, 2004

Dempster, A. P., Laird, N. M., and Rubin, D. B., Maximum likelihood from

incomplete data via the EM algorithm, J.R. Statist. Soc. B, 1977;39:1-38

Diggle, P.J., An approach to the analysis of repeated measurements, Biometrics,

1988:44;959- 971

Diggle, P. J., Liang, K. Y., Zeger, S. L., Analysis of longitudinal data, Oxford

Science Publications, Clarendon Press, Oxford, 1994

Duda, R. O., and Hart P. E., Pattern classification and scene analysis, John Wiley,

New York, 1973

Duda, R. O., Hart P. E., Stork, D. G., Pattern Classification 2nd Ed., Wiley

Interscience, 2001

Eisen, M. B., Spellman, P. T., Brown, P. O and Botstein, D., Cluster analysis and

display of genome-wide expression patterns, Proc. Natl Acad. Sci. USA, 1998;95:

14863-14868

Gentle, J. E., Element of computational statistics, Springer, 2002

Golub, T. R., Slonim, D. K., Tamayo, P., Huard, C., Gaasenbeek, M., Mesirov, J.P.,

Coller, H., Loh, M., Downing, J. R., Caligiuri, M. A., Bloomfield, C. D., Lander, E.

S., Molecular classification of cancer: class discovery and class prediction by gene

expression monitoring, Science,1999:286(5439);531-537.

Page 98: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 90 -

Hartuv, E., Schmitt, A., Lange, J., Meirer-Ewert, S., Lehrach, H., and Shamir, R., An

algorithm for clustering cDNAs for gene expression analysis, IN RECOMB99:

Proceedings of the Third Annual International Conference on Computational Molecular

Biology. Lyon, France, 1999:188-197

Hastie, T., Tibshirani, R., Friedman, J., The elements of statistical learning, Springer,

2001

Hastie, T. J., and Tibshirani, R. J., Generalized additive models, Chapman and Hall,

London, 1990

Ivan G. Costa, Francisco de A.T. de Carvalho and Marcilio C.P. de Souto,

Comparative analysis of clustering methods for gene expression time course data,

Genetics and Molecular Biology, 2004:27;4;623-631

Iyer, V. R., Eisen, M. B., Ross, D. T., Schuler, G., Moore, T., Lee, J. C. F., Trent,

J. M., Staudt, L. M., Hudson, J., Boguski, M. S., Lashkari, D., Shalon, D., Botstein,

D., Brown, P. O., The transcriptional program in the response of human fibroblasts to

serum, Sciences, 1999:283;83-87

Kay, J. W., Titterington, D. M., Statistics and Neural Networks, Oxford university

press, 1999

Jiang, J., REML estimation: asymptotic behavior and related topics, The annals of

statistics, 1996:24;1;255-286

Jordan, M. I.,, Jacobs, R. A., Hierarchical Mixtures of Experts and the EM Algorithm,

Neural Computation, 1994:6;181-214

Jordan, M. I., and Xu, L., Convergence properties of the Em approach to learning in

mixture-of-expert architectures, Computational Congnitive Science Tech. Rep. 9301,

Page 99: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 91 -

MIT, Cambridge, MA., 1993

Jordan, M. I., Xu, L., Convergence results for the EM approach to mixtures of experts

architectures, Neural Networks, 1995:8;9;1409-1431

Ka Yee Yeung, Mario Medvedovic and Roger E Bumgarner, Clustering

gene-expression data with repeated measurements, Genome Biology, 2003:4;5;R34

Kohonen, T., Self-organzing maps, Berlin/Heidelberg: Springer-Verlag, 1997

Laird, N. M., Ware, J. H., Random effect s models for longitudinal data, Biometrics,

1982:38;963- 974

Lander, E.S., Array of hope., Nature Genet., 1999:21;3-4

Li, C., Wong, W. H., Model-based analysis of oligonucleotide arrays: model validation,

design issues and standard error application, Genome Biology, 2001:2:R32

Li, C., Wong, W. H., Model-based analysis of oligonucleotide arrays: expression index

computation and outlier detection, Proc Natl Acad Sci USA, 2001:98;31-36

Lindsey, J. K., Models for Repeated Measurements, Oxford Science Publications,

Clarendon Press, Oxford, 1993

Littell, R. C., Milliken, G. A., Stroup, W. W., Wolfinger, R. D., SAS system for

mixed models, SAS institute Inc., Cary, NC, USA, 1996

Little, R. J. A., and Rubin, D. B., Statistical analysis with missing data, John Wiley,

New York, 1984

McCulloch, C. E., Maximum likelihood algorithms for generalized linear mixed models,

Page 100: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 92 -

Journal of the American Statistical Association, 1997:92(437);162-170

McCullagh, P., and Nelder, J. A. 1983, Generalized linear Models, Chapman and Hall,

London, 1983

McCulloch, C. E., Searle, S. R., Generalized, Linear and Mixed models, Wiley

Interscience, 2001

McLachlan, G., Peel, D., Finite mixture models, Wiley Interscience, 2000

McLachlan, G. J., Do, K. A., Ambroise, C., Analyzing microarray gene expression

data, Wiley Interscience, 2004

Neter, Kutner, Nachtsheim, Wasserman, Applied Linear Statistical Models, IRWIN,

1989

Parmigiani, G., Garrett, P., Irizarry, R. A., Zeger, I., The analysis of gene expression

data, Springer, 2003

Pinheiro, J. C., Bates, D. M., Mixed-effect models in S and S-PLUS, Springer, 2000

Redner, R. A., and Walker, H. F., Mixture densities, maximum likelihood and the

EMalgorithm, SIAM Rev., 26, 195-239, 1984

Robert A. Jacobs, Martin A. Tanner, Fengchun Peng, Bayesian inference for

hierarchical mixtures-of-experts with applications to regression and classification,

Statistical Methods in Medical Research, 1996:5;375-390

Sen, P. K., Singer, J. M., Large sample methods in statistics: An introduction with

applications, New York: Chapman and Hall, 1993

Page 101: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 93 -

Serfling, R. J., Approximation theorems of mathematical statistics, New York: Wiley,

1990

Speed, T., Statistical analysis of gene expression microarray data, Chapman and Hall,

2003

Spellman, P., Sherlock, G., Zhang, M.Q., Iyer, V.R., Anders,K., Eisen, M.B., Brown,

P.O., Botstein, D., and Futcher, B., Comprehensive identification of cell cycle-regulated

genes of the yeast Saccharomyces cerevisiae by microarray hybridization, Mol. Biol.

Cell, 1998:9;3273-3297

Storey, J. D., Xiao, W., Leek, J. T., Tompkins, R. G., Davis, R. W., Significance

analysis of time course microarray experiments, Proc Natl Acad Sci USA,

2005:102:36;12837-12842

Tanner, M. A., Tools for statistical inference 3rd Ed., Springer, 1996

Titterington, D. M., Smith, A. F. M., and makov, U. E., Statistical analysis of finite

mixture distributions, John Wiley, New York, 1985

Venables, W. N., Ripley, B. D., Modern applied statistics with S 4th Ed., Springer,

2002

Verbeke, G.,Lesaffre, E. A., Linear mixed-effects model with heterogeneity in the

random-effects population., JASA, 1996:91(433);217- 222

Verbeke, G., Molenberghs, G., Linear Mixed Models in Practice: A SAS-Oriented Ap

proach, Springer, New York, 1997

Vonesh, E. F., Chinchilli, V. M., Linear and nonlinear models for the analysis of

repeated measurements, Marcel Dekker, 1997

Page 102: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 94 -

Yeung, K. Y., Fraley, C., Murua, A., Raftery, A.E. and Ruzzo, W.L., Model-based

clustering and data transformations for gene expression data, Bioinformatics, 2001:17;

977-987

Yeung, K. Y., Medvedovic, M., Bumgarner, R. E., Clustering gene-expression data

with repeated measurements, Genome Biology, 2003:4:R34

Zbynek Bozdech, Manuel Llinas, Biran Lee Pulliam, Edith D. Wong, Jingchun Zhu,

Joseph L. DeRisi, The transcriptome of the intraerythrocytic development cycle of

plasmodium falciparum, PLoS Biology, 2003:1;1;85-100

Zeger, S. L., Liang, K. Y., Albert, P. S., Models for longitudinal data: A Generalized

estimating equation approach., Biometrics, 1988:44;1049- 1060

Zhang, W., Shmulevish, I., Computational and statistical approaches to genomics,

Kluwer Academic Publishers, 2002

Page 103: HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

- 95 -

AAABBBSSSTTTRRRAAACCCTTT

AAA ssstttuuudddyyyooofffHHHMMMEEEmmmooodddeeellliiinnntttiiimmmeee---cccooouuurrrssseeemmmiiicccrrroooaaarrrrrraaayyydddaaatttaaa

Myoung,SungMinDept.ofBiostatisticsandComputing

TheGraduateSchoolYonseiUniversity

Forstatisticalmicroarray data analysis,clustering analysis is a usefulexploratorytechniqueandofferthepromiseofstudyingthevariationofmanygenes simutaneously.Butmostofthe proposed clustering method arenotrigorouslysolvedfortime-coursemicroarraydataclusterandforfittingtimecovariate,sostatisticalmethodisneededbyformingclusterandrepresentinglineartrendofeachclusterforeachgenes.Inthisthesis,wedevelopedmodifiedHMEmodeltosuggestclusteringdata

andcharacterizingeachclusterusinglinearmixedmodel.Forvalidity ofsuggested HME model,wecould makecertain thateach

clusterandlineartrendareexistedagainstotherproposedmethodinsimulateddata.Also,we applied ourmethod to the published data in time-coursemicroarraydataandfoundthatitwassimilarwithreportedresult.

Key words:HME,ME,EM-algorithm,linearmixedmodel,mixturemodel,microarray,time-coursegeneexpression