wykorzystanie metod zbiorÓw przybliŻonych w

22
Politechnika Śląska w Gliwicach Wydział Automatyki, Elektroniki i Informatyki Autoreferat rozprawy doktorskiej (Streszczenie) WYKORZYSTANIE METOD ZBIORÓW PRZYBLIŻONYCH W ALGORYTMACH BIKLASTERYZACJI BINARNEJ mgr inż. Magdalena Lachor Promotor: prof. dr hab. inż. Andrzej Polański Promotor pomocniczy: dr inż. Marcin Michalak Gliwice, 2014 r.

Upload: dinhnga

Post on 11-Jan-2017

239 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: WYKORZYSTANIE METOD ZBIORÓW PRZYBLIŻONYCH W

Politechnika Śląska w Gliwicach

Wydział Automatyki, Elektroniki i Informatyki

Autoreferat rozprawy doktorskiej

(Streszczenie)

W Y KOR Z YS TANI E M E TOD Z B I O R Ó W

P R Z YB L I Ż O NYC H W AL GORYT M A C H

B I KL A S T E RYZ AC J I B I N AR NE J

mgr inż. Magdalena Lachor

Promotor: prof. dr hab. inż. Andrzej Polański

Promotor pomocniczy: dr inż. Marcin Michalak

Gliwice, 2014 r.

Page 2: WYKORZYSTANIE METOD ZBIORÓW PRZYBLIŻONYCH W
Page 3: WYKORZYSTANIE METOD ZBIORÓW PRZYBLIŻONYCH W

Spis treści

Wprowadzenie ...................................................................................................................... 5

Cele pracy ....................................................................................................................... 6

Tezy pracy ...................................................................................................................... 6

Problem biklasteryzacji binarnej opartej na teorii zbiorów przybliżonych .......................... 7

Algorytmy eBi i HRoBi ........................................................................................................ 9

Eksperyment ....................................................................................................................... 13

Wybrane wyniki ................................................................................................................. 15

Dane symulowane ........................................................................................................ 15

Dane rzeczywiste .......................................................................................................... 17

Podsumowanie .................................................................................................................... 19

Oryginalne elementy pracy ........................................................................................... 19

Bibliografia ......................................................................................................................... 21

Page 4: WYKORZYSTANIE METOD ZBIORÓW PRZYBLIŻONYCH W
Page 5: WYKORZYSTANIE METOD ZBIORÓW PRZYBLIŻONYCH W

5

Wprowadzenie

Analiza nowego problemu najczęściej rozpoczyna się od określenia cech opisujących dane

zjawisko oraz porównania ich ze znanymi wzorcami na podstawie powszechnie akceptowanych

zasad. W dzisiejszym świecie generowana jest ogromna ilość informacji. W celu efektywnej

analizy takiej liczby danych niezbędne są wydajne algorytmy pozwalające na ekstrakcję cennej

wiedzy. Istotną rolę w rozwoju dziedziny wiedzy zwanej eksploracją danych (ang. data mining)

pełnią metody klasyfikacji. Jedną z nienadzorowanych metod klasyfikacji jest biklasteryzacja

po raz pierwszy zaproponowana w [1]. Celem algorytmów biklasteryzacji jest identyfikacja

grup elementów w macierzy nazywanych biklastrami. Biklaster zdefiniowany jest jako

podmacierz (podzbiór wierszy względem podzbioru kolumn) wejściowego zbioru danych,

której elementy spełniają założone kryterium jakości. Biklaster binarny jest podmacierzą

macierzy binarnej. Jeżeli wszystkie elementy biklastra binarnego są równe 1, taki biklaster

nazywany jest dokładnym. W przeciwnym przypadku biklaster jest niedokładny. Ideę

biklasteryzacji przedstawia Rysunek 1.

a b c

Rysunek 1. Schematyczna reprezentacja klasteryzacji (a i b) oraz biklasteryzacji (c) [2].

Biklasteryzacja największe zainteresowanie zyskała w analizie danych bioinformatycznych

oraz w przeszukiwaniu tekstów (ang. text mining). W niniejszej pracy całkowita uwaga została

poświęcona pierwszemu zastosowaniu. Ekstrakcja wiedzy z rzeczywistych danych

bioinformatycznych jest nietrywialnym zadaniem z dwóch względów. Po pierwsze, ten sam

algorytm może dawać odbiegające od siebie jakościowo wyniki w przypadku rożnych zbiorów

danych. Do tej pory nie zaproponowano metody, która dawałaby najlepsze wyniki we

wszystkich przypadkach. Po drugie, nie jest znana w literaturze żadna obiektywna metoda

porównania wyników biklasteryzacji. Wszystkie podejścia powszechnie stosowane do

porównania zbiorów biklastrów wymagają dodatkowej wiedzy na temat danych wejściowych.

Page 6: WYKORZYSTANIE METOD ZBIORÓW PRZYBLIŻONYCH W

6 Wykorzystanie metod zbiorów przybliżonych w algorytmach biklasteryzacji binarnej

Cele pracy

Cele pracy są następujące:

• Zaproponowanie dwóch nowych algorytmów biklasteryzacji binarnej, których

konstrukcje bazują na ideach teorii zbiorów przybliżonych.

• Zaimplementowanie wszystkich najważniejszych algorytmów biklasteryzacji binarnej

znanych z literatury.

• Porównanie własności analizowanych algorytmów biklasteryzacji binarnej dla danych

symulacyjnych oraz danych rzeczywistych.

• Analiza wskaźników jakości biklasteryzacji.

Tezy pracy

Tezy pracy są następujące:

• Teoria zbiorów przybliżonych jest użytecznym narzędziem stosowanym w algorytmach

biklasteryzacji binarnej oraz do konstrukcji współczynników pozwalających na ocenę

i porównanie wyników biklasteryzacji generowanych przez różne metody.

• Oryginalne algorytmy eBi oraz HRoBi bazujące na ideach teorii zbiorów przybliżonych

są efektywnymi metodami biklasteryzacji binarnej.

Page 7: WYKORZYSTANIE METOD ZBIORÓW PRZYBLIŻONYCH W

7

Problem biklasteryzacji binarnej opartej na teorii zbiorów

przybliżonych

Biklaster przybliżony zdefiniowany jest w następujący sposób:

Def. 1 Przybliżony biklaster binarny

Niech A będzie macierzą binarną. Przybliżony biklaster B dla macierzy A jest uporządkowaną

parą dwóch macierzy ��, ��� spełniających następujące warunki:

(i) Pierwszy element uporządkowanej pary ��, ���, nazywany przybliżeniem dolnym biklastra

B, jest podmacierzą macierzy A, której wszystkie komórki zawierają jedynki.

(ii) Drugi element uporządkowanej pary ��, ���, nazywany przybliżeniem górnym biklastra B,

jest podmacierzą macierzy A, która zawiera wszystkie elementy należące do przybliżenia

dolnego biklastra B (pierwszego elementu uporządkowanej pary).

Wykorzystując zbiór biklastrów dokładnych, pokrywających wszystkie jedynki w macierzy

binarnej �, można zdefiniować system informacyjny zgodny z definicją teorii zbiorów

przybliżonych [3] w następujący sposób. Niech � �,��będzie systemem informacyjnym.

jest zbiorem uporządkowanych par indeksów, wskazujących na komórki macierzy �, które

zawierają jedynki �� , �� ∶ ��� 1� . � jest zbiorem biklastrów dokładnych,

pokrywających wszystkie jedynki w macierzy � . Na podstawie relacji nierozróżnialności

�������, gdzie � � � określonej dla systemu informacyjnego � �,�� można wyznaczyć

zbiory �-elementarne. Każdy zbiór �-elementarny zawiera obiekty z , które są nierozróżnialne w

świetle wiedzy jaką daje zbiór atrybutów � . Poniżej zaprezentowano przykład systemu

informacyjnego (Tabela 3) dla macierzy binarnej � (Tabela 1) i zbioru biklastrów dokładnych,

pokrywających wszystkie jedynki w macierzy � (Tabela 2).

�� �� �� ��

�� 0 1 1 1

�� 0 1 1 1

�� 0 0 1 1

�� 0 0 0 0

Tabela 1. Macierz binarna �.

Page 8: WYKORZYSTANIE METOD ZBIORÓW PRZYBLIŻONYCH W

8 Wykorzystanie metod zbiorów przybliżonych w algorytmach biklasteryzacji binarnej

�� �� �� �� �� 0 1 1 1 �� 0 1 1 1 �� 0 0 1 1 �� 0 0 0 0

Tabela 2. Graficzna interpretacja zbioru dwóch biklastrów dokładnych, pokrywających

wszystkie jedynki w macierzy �. Biklastry ��oraz �� zostały zaznaczone odpowiednio

niebieskim oraz zielonym kolorem.

U\M �� ��

(��, ��) 1 0

(��, ��) 1 1

(��, ��) 1 1

(��, ��) 1 0

(��, ��) 1 1

(��, ��) 1 1

(��, ��) 0 1

(��, ��) 0 1

Tabela 3. System informacyjny zdefiniowany dla macierzy binarnej � i zbioru biklastrów

dokładnych �� oraz ��.

Przedstawienie macierzy binarnej jako systemu informacyjnego opisanego powyżej, pozwala

na generowanie przybliżonego opisu dowolnego pojęcia � ⊆ � w następujący sposób.

Przybliżeniem dolnym pojęcia � oznaczonym � nazywamy sumę zbiorów �-elementarnych,

które w całości zawierają się w pojęciu �. Przybliżeniem górnym pojęcia � oznaczonym �

nazywamy sumę zbiorów �-elementarnych, których nie można wykluczyć, że nie należą do

pojęcia � (mają z nim niepuste przecięcie). Wadą takiego podejścia jest utrata opisu pojęcia w

postaci macierzowej. Innymi słowy uzyskane przybliżenia są zbiorami elementów należących

do macierzy �, nie są natomiast jej podmacierzami. Niemniej jednak bardziej wnikliwa analiza

przedstawionego problemu pozwala na zaobserwowanie, iż przybliżenie dolne biklastra

przybliżonego, uzyskanego na podstawie przybliżonej sumy dwóch biklastrów przybliżonych,

może być zawsze zdefiniowane jako suma podzbioru pojęć �-elementarnych uzyskanych na

podstawie relacji nierozróżnialności ��(�)określonej dla systemu informacyjnego � =

(�, ). Własność ta została wykorzystana w algorytmie HRoBi do generowania zbioru

biklastrów przybliżonych na podstawie zbioru biklastrów dokładnych

uzyskanych przez algorytm eBi.

Page 9: WYKORZYSTANIE METOD ZBIORÓW PRZYBLIŻONYCH W

9

Algorytmy eBi i HRoBi

Algorytm eBi odnajduje biklastry dokładne w macierzy binarnej w dwóch równoległych

etapach osobno zaczynając analizę od macierzy nierozróżnialności wygenerowanej dla wierszy

oraz osobno dla kolumn [4]. W kolejnym kroku na podstawie macierzy nieodróżnialności

generowany jest zbiór półbiklastrów. Następnie na podstawie każdego półbiklastra

wygenerowanego

w poprzednim kroku, generowany jest odpowiadający jest mu półbiklaster. Każda

uporządkowana para składająca się z półbiklastra i odpowiadającego mu półbiklastra tworzy

biklaster. Wyjściowym zbiorem biklastrów jest suma zbiorów biklastrów uzyskanych w

pierwszym oraz drugim etapie. W celu redukcji dużej liczby powtarzających się biklastrów

zaproponowano dodatkowy krok polegający na filtracji. W tym celu wykorzystano algorytm

powszechnie stosowany do filtracji reguł „from coverage” [5]. Schemat przedstawiający

następujące po sobie kroki w algorytmie eBi prezentuje Rysunek 2.

HRoBi jest algorytmem hierarchicznym umożliwiającym łączenie mniejszych biklastrów

w większe biklastry przybliżone, przy zachowaniu ich jakości na założonym przez użytkownika

poziomie [6]. W każdej iteracji HRoBi łączy dwa biklastry na podstawie zdefiniowanej miary

jakości opartej na ich dolnym oraz górnym przybliżeniu. Algorytm ten pozwala na zmniejszenie

liczby biklastrów w zbiorze, czego rezultatem jest zwiększenie pokrycia poszczególnych

biklastrów, przy jak najmniejszej stracie dokładności. Schemat opisujący następujące po sobie

etapy algorytmu HRoBi przedstawia Rysunek 3.

Page 10: WYKORZYSTANIE METOD ZBIORÓW PRZYBLIŻONYCH W

10 Wykorzystanie metod zbiorów przybliżonych w algorytmach biklasteryzacji binarnej

Analiza oparta na

macierzy IN

DODATKOWY KROK

Generowanie zbioru biklastrów H* na

podstawie INGenerowanie zbioru biklastrów H na

podstawie IN*

Wyznaczenie dla każdego h* Є H*

odpowiadającego mu półbiklastra na

podstawie macierzy IN*

Wyznaczenie dla każdego h Є H

odpowiadającego mu półbiklastra na

podstawie macierzy IN

Generowanie macierzy IN oraz IN*

ZBIÓR WYJŚCIOWY: Suma dwóch zbiorów

wygenerowanych w poprzednim kroku.

FILTRACJA

Połączenie półbiklastrów

w biklastry

Połączenie półbiklastrów

w biklastry

Analiza oparta na

macierzy IN*

Rysunek 2. Schemat przedstawiający następujące po sobie kroki w algorytmie eBi.

Page 11: WYKORZYSTANIE METOD ZBIORÓW PRZYBLIŻONYCH W

11

Jeśli wartość

najlepszej miary

jakości jest poniżej

poziomu

zdefiniowanego przez

użytkownika

Generowanie macierzy LAM i UAM

Wyznaczenie parametru jakości dla każdej pary biklastrów

Zbiór biklastrów

uzyskanych za

pomocą algorytmu

eBi

STOP

Jeśli nie istnieje żadna

para biklastrów w

analizowanym zbiorze,

która ma niepustą część

wspólną ich dolnych

przybliżeń

Selekcja biklastra

przybliżonego o

najlepszej jakości

Usunięcie ze zbioru

dwóch oryginalnych

biklastrów i zastąpienie

ich nowym biklastrem

If If Else

Rysunek 3 Schemat przedstawiający etapy działania algorytmu HRoBi.

Page 12: WYKORZYSTANIE METOD ZBIORÓW PRZYBLIŻONYCH W
Page 13: WYKORZYSTANIE METOD ZBIORÓW PRZYBLIŻONYCH W

13

Eksperyment

Scenariusz eksperymentu zaplanowanego i przeprowadzonego w ramach niniejszej pracy

zakładał porównanie pięciu najpopularniejszych algorytmów biklasteryzacji binarnej znanych

w literaturze (BiMax [7], BiBit [8], BicBin [9], Hocclus2 [10], iBBiG [11]) oraz algorytmów

eBi i HRoBi zaproponowanych w niniejszej pracy oraz we wcześniejszych publikacjach [4, 6].

Dodatkowo analizie poddano korelację pomiędzy współczynnikami stosowanymi do oceny

biklastrów zaproponowanymi w literaturze a miarą wewnętrzną �� (ang. quality ratio)

zaproponowaną w ramach niniejszej pracy. Wskaźnik �� zdefiniowany jest jako średnia

geometryczna wskaźników ������� oraz �������� . Miara ������� zdefiniowana jest

zgodnie z równaniem (1) jako iloraz sumy liczby wszystkich komórek zawierających jedynki

pokrywanych przez poszczególne biklastry w analizowanym zbiorze oraz sumy liczby

wszystkich komórek należących do biklastrów w tym samym zbiorze. Miara ��������

zdefiniowana jest natomiast jako iloraz liczby komórek macierzy wejściowej zawierających

jedynki pokrywanych przez biklastry w zbiorze, do liczby wszystkich komórek macierzy

wejściowej zawierających jedynki, zgodnie z równaniem (2). Zmienna � w równaniach (1)

oraz (2) jest to waga macierzy (lub podmacierzy) zdefiniowana jako liczba komórek macierzy

(podmacierzy) zawierających jedynki.

MeanAcc 1∑ |B�|

��

)w�B��

��

(1) TotalCov w�⋃ B��� �w�A� (2)

Porównania siedmiu algorytmów dokonano na podstawie danych symulowanych oraz

rzeczywistych. Zbiór danych symulowanych składał się z macierzy binarnych o rozmiarze 200

wierszy na 200 kolumn. Wygenerowane macierze różniły się między sobą liczbą sztucznie

umieszczonych w macierzy biklastrów dokładnych oraz poziomem zaszumienia. Zbiór danych

rzeczywistych składał się z dwóch macierzy binarnych otrzymanych na podstawie baz

miRTaRBase [12] [13] oraz mirDIP [14] zawierających informację na temat mikroRNA oraz

ich genów docelowych. Baza miRTaRBase przechowuje dane potwierdzone w sposób

eksperymentalny, natomiast baza miRDIP łączy dwanaście zbiorów danych zawierających

informację na temat predykowanych miejsc docelowych mikroRNA. Otrzymane macierze

binarne reprezentowały dane dotyczące 8495 genów i 702 mikroRNA w przypadku bazy

miRDIP oraz 1945 genów względem 411 mikroRNA w przypadku bazy miRTaRBase.

Zaproponowana metoda porównania zbiorów biklastrów zakłada jednakową liczbę biklastrów

w każdym zbiorze. W celu selekcji �-najlepszych biklastrów, gdzie � jest założoną liczbą

biklastrów, zastosowano metodę zaproponowaną w ramach niniejszej pracy (algorytm „the

covering”) oraz drugą metodę zaproponowaną w literaturze (algorytm „the greedy set-cover”

[15]). Obie metody działają w sposób iteracyjny, w każdej iteracji dokładając do zbioru

wyjściowego biklaster, który uzyska najwyższą ocenę jakości. Różnice między metodami

dotyczą zastosowanego kryterium wyboru najlepszego biklastra. W zależności od wybranej

Page 14: WYKORZYSTANIE METOD ZBIORÓW PRZYBLIŻONYCH W

14 Wykorzystanie metod zbiorów przybliżonych w algorytmach biklasteryzacji binarnej

metody, ocena jakości dotyczyła całkowitego pokrycia, dokładności, a także podobieństwa

genów w biklastrach wyznaczonego na podstawie miary semantycznej simGIC [16].

Uzyskane zbiory biklastrów zostały ocenione na podstawie wewnętrznych oraz zewnętrznych

wskaźników jakości. Do oceny zbiorów biklastrów na podstawie informacji o biklastrach

prawdziwych w macierzy wejściowej wykorzystano nadzorowaną miarę � (ang. match

score) zaproponowaną w [7] oraz nienadzorowaną miarę jakości �� zaproponowaną w ramach

niniejszej pracy. Wskaźnik � służy do porównania zbioru biklastrów prawdziwych

umieszczonych w macierzy � oraz wyjściowego zbioru biklastrów estymowanych przez

poszczególne metody � zgodnie z następującym równaniem:

��(��,��) =1

|��|� ���

��∈��

�|� ∩ �||� ∪ �|

��∈��

(3)

Do oceny istotności wygenerowanych zbiorów biklastrów pod względem biologicznym

wykorzystanych zostało jedenaście miar semantycznych oceniających podobieństwo genów

w biklastrach na podstawie bazy danych Ontologii Genowych [17].

Page 15: WYKORZYSTANIE METOD ZBIORÓW PRZYBLIŻONYCH W

15

Wybrane wyniki

Dane symulowane

Zbiór danych syntetycznych wykorzystano w celu analizy korelacji pomiędzy miarami �2

i �� stosowanymi do oceny wyników biklasteryzacji. Uzyskane rezultaty przedstawia

Wykres 1a oraz Wykres 1b . Wartości wskaźników �2 oraz �� policzone dla podzbiorów

najlepszych biklastrów wyselekcjonowanych ze zbiorów wyjściowych za pomocą algorytmu

„the covering” przedstawia Wykres 1a. Wyniki oceny podzbiorów najlepszych biklastrów

wyselekcjonowanych ze zbiorów wyjściowych za pomocą algorytmu „the greedy set-cover”

obrazuje Wykres 1b.

a b

Wykres 1 a. Korelacja pomiędzy miarami �2 i ��. Podzbiór najlepszych biklastrów z

każdego zbioru wyselekcjonowany został algorytmem „the covering”. b. Korelacja pomiędzy

miarami �2 i ��. Podzbiór najlepszych biklastrów z każdego zbioru wyselekcjonowany

został algorytmem „the greedy set-cover”.

Uzyskane wartości współczynnika korelacji –-w pierwszym przypadku na poziomie 0,3,

natomiast w drugim 0,5 – nie są zadowalające z tego względu, iż jakość biklastrów policzona

na podstawie dwóch miar wewnętrznych powinna wykazywać znacznie lepszą współzależność.

Bardziej szczegółowa analiza uzyskanych rezultatów pozwoliła na określenie przyczyn

występujących różnic. Rysunek 2a przedstawia przykładową macierz binarną, na której

wstępnie można wyróżnić cztery biklastry dokładne zaznaczone czerwoną ramką (Rysunek 2d).

Zakładając, że taki zbiór czterech biklastrów będzie stanowił zbiór biklastrów prawdziwych,

0 0.2 0.4 0.6 0.8 10

0.2

0.4

0.6

0.8

1

QR

MS

R = 0.308

pValue = 0.000

0 0.2 0.4 0.6 0.8 10

0.2

0.4

0.6

0.8

1

QR

MS

R = 0.552

pValue = 0.000

BiBit

BiMax

BicBin

HRoBi

eBi

iBBiG

Page 16: WYKORZYSTANIE METOD ZBIORÓW PRZYBLIŻONYCH W

16 Wykorzystanie metod zbiorów przybliżonych w algorytmach biklasteryzacji binarnej

znanych a priori, na podstawie których będzie liczony współczynnik � , wartość � w

przypadku zbioru biklastrów, które przedstawia Rysunek 2d, będzie równa 1, ponieważ zbiory

te są identyczne. Wartość wskaźnika �� będzie również równa 1, ponieważ zbiór zawiera tylko

biklastry dokładne, które pokrywają wszystkie jedynki w macierzy. W przypadku zbioru

biklastrów, który przedstawia Rysunek 2e, wartość miary �� będzie równa 1 natomiast

wartość wskaźnika � będzie znacznie mniejsza, ponieważ zbiór ten w mniejszym stopniu

pokrywa się z założonym zbiorem biklastrów prawdziwych (Rysunek 2d).

a. Syntetyczna macierz binarna. b. Macierz binarna przedstawiona

na Rysunek 2a z przestawianymi

wierszami i kolumnami.

c. Syntetyczna macierz binarna z

nienakładającym się biklastrami,

QR=1, MS=1.

d. Zbiór biklastrów prawdziwych

QR = 1, MS = 1.

e. Przykładowy zbiór biklastrów

szacowanych QR = 1, MS =

0,8316.

f. Zbiór biklastrów szacowanych

przedstawionych na Rysunek 2e

zaprezentowanych na macierzy z

przestawianymi wierszami oraz

kolumnami.

Rysunek 2. Symulowany zbiór danych z różną konfiguracją ten samej liczby biklastrów

dokładnych (a,b,d,e,f) oraz syntetyczny zbiór danych z nienakładającymi się biklastrami (c).

Na podstawie tylko danych wejściowych nie da się jednoznacznie wskazać, która grupa

biklastrów jest lepsza lub gorsza, jeżeli w obu przypadkach zbiory te zawierają taką samą liczbę

biklastrów tylko dokładnych, które pokrywają wszystkie jedynki w macierzy. Można zatem

stwierdzić, że ocena zbioru biklastrów na podstawie miary � nie jest obiektywna, jeżeli nie

Page 17: WYKORZYSTANIE METOD ZBIORÓW PRZYBLIŻONYCH W

17

posiadamy dodatkowej wiedzy na temat analizowanego zbioru, pozwalającej na ocenę

słuszności założenia o biklastrach prawdziwych, znanych a priori. Drugą wadą miary �2 jest

niemożność zastosowania jej w przypadku danych rzeczywistych.

Dane rzeczywiste

Wyniki porównania algorytmów na podstawie miar wewnętrznych oceniających średnią

dokładność zbioru oraz pokrycie całkowite zostały przedstawione na Wykresach 3 – 5.

Algorytmy eBi oraz HRoBi najlepsze rezultaty uzyskały w przypadku, gdy podzbiór 50

biklastrów wyselekcjonowany został za pomocą algorytmu „the covering”. W przypadku

pozostałych algorytmów do selekcji najlepszych biklastrów, pokrycie całkowite wybranych

podzbiorów znacznie zmalało, przy czym średnia dokładność wzrosła lub pozostała na takim

samym poziomie.

a b

Wykres. 3 Porównanie uzyskanych wyników biklasteryzacji na podstawie miar wewnętrznych

w przypadku macierzy a. miRTaRBase oraz b. miRDip. W obu przypadkach podzbiór 50

najlepszych biklastrów został wyselekcjonowany na podstawie algorytmu „the covering”.

0 0.2 0.4 0.6 0.8 10

0.2

0.4

0.6

0.8

1

dataset7MiRTarBase var2

TotalCov

MeanAcc

0 0.2 0.4 0.6 0.8 10

0.2

0.4

0.6

0.8

1

dataset11mirDIPfilt var2

TotalCov

MeanAcc

BiBit

BicBin

HOCCLUS2

HRoBi

HRoBi simGIC

eBi

iBBiG

Page 18: WYKORZYSTANIE METOD ZBIORÓW PRZYBLIŻONYCH W

18 Wykorzystanie metod zbiorów przybliżonych w algorytmach biklasteryzacji binarnej

a b

Wykres. 4 Porównanie uzyskanych wyników biklasteryzacji na podstawie miar wewnętrznych

w przypadku macierzy a. miRTaRBase oraz b. miRDip. W obu przypadkach podzbiór 50

najlepszych biklastrów został wyselekcjonowany na podstawie algorytmu „the greedy set-

cover” z wagą wewnętrzną.

a b

Wykres. 5 Porównanie uzyskanych wyników biklasteryzacji na podstawie miar wewnętrznych

w przypadku macierzy a. miRTaRBase oraz b. miRDip. W obu przypadkach podzbiór 50

najlepszych biklastrów został wyselekcjonowany na podstawie algorytmu „the greedy set-

cover” z wagą zewnętrzną.

0 0.2 0.4 0.6 0.8 10

0.2

0.4

0.6

0.8

1

dataset7MiRTarBase var5

TotalCov

MeanAcc

0 0.2 0.4 0.6 0.8 10

0.2

0.4

0.6

0.8

1

dataset11mirDIPfilt var5

TotalCov

MeanAcc

BiBit

BicBin

HOCCLUS2

HRoBi

HRoBi simGIC

eBi

iBBiG

0 0.2 0.4 0.6 0.8 10

0.2

0.4

0.6

0.8

1

dataset7MiRTarBase var7

TotalCov

MeanAcc

0 0.2 0.4 0.6 0.8 10

0.2

0.4

0.6

0.8

1

dataset11mirDIPfilt var7

TotalCov

MeanAcc

BiBit

BicBin

HOCCLUS2

HRoBi

HRoBi simGIC

eBi

iBBiG

Page 19: WYKORZYSTANIE METOD ZBIORÓW PRZYBLIŻONYCH W

19

Podsumowanie

W pracy przedstawiono dwa oryginalne algorytmy biklasteryzacji binarnej, eBi oraz HRoBi.

Rozwinięto także metody porównywania jakości biklastrów. Opracowano nienadzorowaną

miarę wewnętrzną pozwalającą na ocenę jakości zbioru biklastrów. Zaproponowano

obiektywną metodę porównania wielu zbiorów biklastrów. Przeprowadzono eksperyment z

wykorzystaniem danych symulowanych oraz rzeczywistych. Na podstawie uzyskanych

wyników dokonano analizy korelacji pomiędzy nadzorowanym a nienadzorowanym

wewnętrznym wskaźnikiem jakości oraz korelacji pomiędzy nienadzorowanym wewnętrznym

wskaźnikiem jakości a miarami zewnętrznymi opartymi na bazie danych Ontologii Genowych.

Praca jest usystematyzowaniem i rozwinięciem metod przedstawionych w publikacjach,

których współautorem jest autorka niniejszej rozprawy doktorskiej [4] [6].

Oryginalne elementy pracy

- opracowanie dwóch algorytmów eBi oraz HRoBi do biklasteryzacji binarnej

wykorzystujących metody teorii zbiorów przybliżonych,

- zaproponowanie metody porównania wielu zbiorów biklastrów,

- zaproponowanie nienadzorowanej, wewnętrznej miary jakości zbioru biklastrów,

- przeprowadzenie eksperymentu z wykorzystaniem realnych danych bioinformatycznych,

- analiza korelacji pomiędzy zaproponowaną miarą jakości �� a innymi wskaźnikami

jakości biklastrów zaproponowanymi w literaturze.

Page 20: WYKORZYSTANIE METOD ZBIORÓW PRZYBLIŻONYCH W
Page 21: WYKORZYSTANIE METOD ZBIORÓW PRZYBLIŻONYCH W

21

Bibliografia

[1] J. A. Hartigan, "Direct clustering of a data matrix," Journal of the american statistical

association, vol. 67, no. 337, pp. 123-129, 1972.

[2] T. Amos, S. Roded and S. Ron, "Biclustering algorithms: A survey," Handbook of

computational molecular biology, vol. 9, pp. 26-1, 2005.

[3] Z. Pawlak, Rough sets: theoretical aspects of reasoning about data., Dordrecht: Kluwer

Academic Publishers, 1991.

[4] M. Stawarz and M. Michalak, "eBi–The Algorithm for Exact Biclustering," in Artificial

Intelligence and Soft Computing, 2012.

[5] M. Sikora, "Wybrane metody oceny i przycinania reguł decyzyjnych," Studia

Informatica, vol. 33, no. 3B, pp. 5-331, 2012.

[6] M. Michalak and M. Stawarz, "HRoBi–The Algorithm for Hierarchical Rough

Biclustering," in Artificial Intelligence and Soft Computing, 2013.

[7] A. Prelić, S. Bleuler, P. Zimmermann, A. Wille, P. Bühlmann, W. Gruissem, L. Hennig,

L. Thiele and E. Zitzler, "A systematic comparison and evaluation of biclustering methods

for gene expression data.," Bioinformatics, vol. 22, no. 9, pp. 1122-1129, 2006.

[8] D. S. Rodriguez-Baena, A. J. Perez-Pulido and J. S. Aguilar, "A biclustering algorithm

for extracting bit-patterns from binary datasets," Bioinformatics, vol. 27, no. 19, pp. 2738-

2745, 2011.

[9] M. v. Uitert, W. Meuleman and L. Wessels, "Biclustering sparse binary genomic data,"

Journal of Computational Biology, vol. 15, no. 10, pp. 1329-1345, 2008.

[10] P. Gianvito, C. Michelangelo, D. Domenica, L. Corrado and M. Donato, "A novel

biclustering algorithm for the discovery of meaningful biological correlations between

micrornas and their target genes," BMC bioinformatics, vol. 14, no. Suppl 7, p. S8, 2013.

[11] D. Gusenleitner, E. A. Howe, S. Bentink, J. Quackenbush and A. C. Culhane, "iBBiG:

iterative binary bi-clustering of gene sets," Bioinformatics, vol. 18, no. 19, pp. 2484-2492,

2012.

[12] S.-D. Hsu, F.-M. Lin, W.-Y. Wu, C. Liang, W.-C. Huang, W.-L. Chan, W.-T. Tsai, G.-Z.

Chen, C.-J. Lee and C.-M. Chiu, "miRTarBase: a database curates experimentally

Page 22: WYKORZYSTANIE METOD ZBIORÓW PRZYBLIŻONYCH W

22 Wykorzystanie metod zbiorów przybliżonych w algorytmach biklasteryzacji binarnej

validated microRNA–target interactions," Nucleic acids research, vol. 39, no. suppl 1,

pp. D163-D169, 2011.

[13] S.-D. Hsu, Y.-T. Tseng, S. Shrestha, Y.-L. Lin, A. Khaleel, C.-H. Chou, C.-F. Chu, H.-

Y. Huang, C.-M. Lin and S.-Y. Ho, "miRTarBase update 2014: an information resource

for experimentally validated miRNA-target interactions," Nucleic acids research, vol. 42,

no. D1, pp. D78-D85, 2014.

[14] E. A. Shirdel, W. Xie, T. W. Mak and I. Jurisica, "NAViGaTing the micronome–using

multiple microRNA prediction databases to identify signalling pathway-associated

microRNAs," PloS one, p. e17429, 2011.

[15] M.-Y. Kao, "Encyclopedia of algorithms," Springer, 2008, pp. 379-381.

[16] C. Pesquita, D. Faria, H. Bastos, A. E. Ferreira, A. O. Falcão and F. M. Couto, "Metrics

for GO based protein semantic similarity: a systematic evaluation," BMC bioinformatics,

vol. 9, no. Suppl 5, p. S4, 2008.

[17] M. Ashburner, C. A. Ball, J. Blake, D. Botstein, B. Heather, J. M. Cherry, A. P. Davis, K.

Dolinski, S. S. Dwight and J. T. Eppig, "Gene Ontology: tool for the unification of

biology," Nature genetics, vol. 25, no. 1, pp. 25-29, 2000.