wykorzystanie metod zbiorÓw przybliŻonych w
TRANSCRIPT
Politechnika Śląska w Gliwicach
Wydział Automatyki, Elektroniki i Informatyki
Autoreferat rozprawy doktorskiej
(Streszczenie)
W Y KOR Z YS TANI E M E TOD Z B I O R Ó W
P R Z YB L I Ż O NYC H W AL GORYT M A C H
B I KL A S T E RYZ AC J I B I N AR NE J
mgr inż. Magdalena Lachor
Promotor: prof. dr hab. inż. Andrzej Polański
Promotor pomocniczy: dr inż. Marcin Michalak
Gliwice, 2014 r.
Spis treści
Wprowadzenie ...................................................................................................................... 5
Cele pracy ....................................................................................................................... 6
Tezy pracy ...................................................................................................................... 6
Problem biklasteryzacji binarnej opartej na teorii zbiorów przybliżonych .......................... 7
Algorytmy eBi i HRoBi ........................................................................................................ 9
Eksperyment ....................................................................................................................... 13
Wybrane wyniki ................................................................................................................. 15
Dane symulowane ........................................................................................................ 15
Dane rzeczywiste .......................................................................................................... 17
Podsumowanie .................................................................................................................... 19
Oryginalne elementy pracy ........................................................................................... 19
Bibliografia ......................................................................................................................... 21
5
Wprowadzenie
Analiza nowego problemu najczęściej rozpoczyna się od określenia cech opisujących dane
zjawisko oraz porównania ich ze znanymi wzorcami na podstawie powszechnie akceptowanych
zasad. W dzisiejszym świecie generowana jest ogromna ilość informacji. W celu efektywnej
analizy takiej liczby danych niezbędne są wydajne algorytmy pozwalające na ekstrakcję cennej
wiedzy. Istotną rolę w rozwoju dziedziny wiedzy zwanej eksploracją danych (ang. data mining)
pełnią metody klasyfikacji. Jedną z nienadzorowanych metod klasyfikacji jest biklasteryzacja
po raz pierwszy zaproponowana w [1]. Celem algorytmów biklasteryzacji jest identyfikacja
grup elementów w macierzy nazywanych biklastrami. Biklaster zdefiniowany jest jako
podmacierz (podzbiór wierszy względem podzbioru kolumn) wejściowego zbioru danych,
której elementy spełniają założone kryterium jakości. Biklaster binarny jest podmacierzą
macierzy binarnej. Jeżeli wszystkie elementy biklastra binarnego są równe 1, taki biklaster
nazywany jest dokładnym. W przeciwnym przypadku biklaster jest niedokładny. Ideę
biklasteryzacji przedstawia Rysunek 1.
a b c
Rysunek 1. Schematyczna reprezentacja klasteryzacji (a i b) oraz biklasteryzacji (c) [2].
Biklasteryzacja największe zainteresowanie zyskała w analizie danych bioinformatycznych
oraz w przeszukiwaniu tekstów (ang. text mining). W niniejszej pracy całkowita uwaga została
poświęcona pierwszemu zastosowaniu. Ekstrakcja wiedzy z rzeczywistych danych
bioinformatycznych jest nietrywialnym zadaniem z dwóch względów. Po pierwsze, ten sam
algorytm może dawać odbiegające od siebie jakościowo wyniki w przypadku rożnych zbiorów
danych. Do tej pory nie zaproponowano metody, która dawałaby najlepsze wyniki we
wszystkich przypadkach. Po drugie, nie jest znana w literaturze żadna obiektywna metoda
porównania wyników biklasteryzacji. Wszystkie podejścia powszechnie stosowane do
porównania zbiorów biklastrów wymagają dodatkowej wiedzy na temat danych wejściowych.
6 Wykorzystanie metod zbiorów przybliżonych w algorytmach biklasteryzacji binarnej
Cele pracy
Cele pracy są następujące:
• Zaproponowanie dwóch nowych algorytmów biklasteryzacji binarnej, których
konstrukcje bazują na ideach teorii zbiorów przybliżonych.
• Zaimplementowanie wszystkich najważniejszych algorytmów biklasteryzacji binarnej
znanych z literatury.
• Porównanie własności analizowanych algorytmów biklasteryzacji binarnej dla danych
symulacyjnych oraz danych rzeczywistych.
• Analiza wskaźników jakości biklasteryzacji.
Tezy pracy
Tezy pracy są następujące:
• Teoria zbiorów przybliżonych jest użytecznym narzędziem stosowanym w algorytmach
biklasteryzacji binarnej oraz do konstrukcji współczynników pozwalających na ocenę
i porównanie wyników biklasteryzacji generowanych przez różne metody.
• Oryginalne algorytmy eBi oraz HRoBi bazujące na ideach teorii zbiorów przybliżonych
są efektywnymi metodami biklasteryzacji binarnej.
7
Problem biklasteryzacji binarnej opartej na teorii zbiorów
przybliżonych
Biklaster przybliżony zdefiniowany jest w następujący sposób:
Def. 1 Przybliżony biklaster binarny
Niech A będzie macierzą binarną. Przybliżony biklaster B dla macierzy A jest uporządkowaną
parą dwóch macierzy ��, ��� spełniających następujące warunki:
(i) Pierwszy element uporządkowanej pary ��, ���, nazywany przybliżeniem dolnym biklastra
B, jest podmacierzą macierzy A, której wszystkie komórki zawierają jedynki.
(ii) Drugi element uporządkowanej pary ��, ���, nazywany przybliżeniem górnym biklastra B,
jest podmacierzą macierzy A, która zawiera wszystkie elementy należące do przybliżenia
dolnego biklastra B (pierwszego elementu uporządkowanej pary).
Wykorzystując zbiór biklastrów dokładnych, pokrywających wszystkie jedynki w macierzy
binarnej �, można zdefiniować system informacyjny zgodny z definicją teorii zbiorów
przybliżonych [3] w następujący sposób. Niech � �,��będzie systemem informacyjnym.
jest zbiorem uporządkowanych par indeksów, wskazujących na komórki macierzy �, które
zawierają jedynki �� , �� ∶ ��� 1� . � jest zbiorem biklastrów dokładnych,
pokrywających wszystkie jedynki w macierzy � . Na podstawie relacji nierozróżnialności
�������, gdzie � � � określonej dla systemu informacyjnego � �,�� można wyznaczyć
zbiory �-elementarne. Każdy zbiór �-elementarny zawiera obiekty z , które są nierozróżnialne w
świetle wiedzy jaką daje zbiór atrybutów � . Poniżej zaprezentowano przykład systemu
informacyjnego (Tabela 3) dla macierzy binarnej � (Tabela 1) i zbioru biklastrów dokładnych,
pokrywających wszystkie jedynki w macierzy � (Tabela 2).
�� �� �� ��
�� 0 1 1 1
�� 0 1 1 1
�� 0 0 1 1
�� 0 0 0 0
Tabela 1. Macierz binarna �.
8 Wykorzystanie metod zbiorów przybliżonych w algorytmach biklasteryzacji binarnej
�� �� �� �� �� 0 1 1 1 �� 0 1 1 1 �� 0 0 1 1 �� 0 0 0 0
Tabela 2. Graficzna interpretacja zbioru dwóch biklastrów dokładnych, pokrywających
wszystkie jedynki w macierzy �. Biklastry ��oraz �� zostały zaznaczone odpowiednio
niebieskim oraz zielonym kolorem.
U\M �� ��
(��, ��) 1 0
(��, ��) 1 1
(��, ��) 1 1
(��, ��) 1 0
(��, ��) 1 1
(��, ��) 1 1
(��, ��) 0 1
(��, ��) 0 1
Tabela 3. System informacyjny zdefiniowany dla macierzy binarnej � i zbioru biklastrów
dokładnych �� oraz ��.
Przedstawienie macierzy binarnej jako systemu informacyjnego opisanego powyżej, pozwala
na generowanie przybliżonego opisu dowolnego pojęcia � ⊆ � w następujący sposób.
Przybliżeniem dolnym pojęcia � oznaczonym � nazywamy sumę zbiorów �-elementarnych,
które w całości zawierają się w pojęciu �. Przybliżeniem górnym pojęcia � oznaczonym �
nazywamy sumę zbiorów �-elementarnych, których nie można wykluczyć, że nie należą do
pojęcia � (mają z nim niepuste przecięcie). Wadą takiego podejścia jest utrata opisu pojęcia w
postaci macierzowej. Innymi słowy uzyskane przybliżenia są zbiorami elementów należących
do macierzy �, nie są natomiast jej podmacierzami. Niemniej jednak bardziej wnikliwa analiza
przedstawionego problemu pozwala na zaobserwowanie, iż przybliżenie dolne biklastra
przybliżonego, uzyskanego na podstawie przybliżonej sumy dwóch biklastrów przybliżonych,
może być zawsze zdefiniowane jako suma podzbioru pojęć �-elementarnych uzyskanych na
podstawie relacji nierozróżnialności ��(�)określonej dla systemu informacyjnego � =
(�, ). Własność ta została wykorzystana w algorytmie HRoBi do generowania zbioru
biklastrów przybliżonych na podstawie zbioru biklastrów dokładnych
uzyskanych przez algorytm eBi.
9
Algorytmy eBi i HRoBi
Algorytm eBi odnajduje biklastry dokładne w macierzy binarnej w dwóch równoległych
etapach osobno zaczynając analizę od macierzy nierozróżnialności wygenerowanej dla wierszy
oraz osobno dla kolumn [4]. W kolejnym kroku na podstawie macierzy nieodróżnialności
generowany jest zbiór półbiklastrów. Następnie na podstawie każdego półbiklastra
wygenerowanego
w poprzednim kroku, generowany jest odpowiadający jest mu półbiklaster. Każda
uporządkowana para składająca się z półbiklastra i odpowiadającego mu półbiklastra tworzy
biklaster. Wyjściowym zbiorem biklastrów jest suma zbiorów biklastrów uzyskanych w
pierwszym oraz drugim etapie. W celu redukcji dużej liczby powtarzających się biklastrów
zaproponowano dodatkowy krok polegający na filtracji. W tym celu wykorzystano algorytm
powszechnie stosowany do filtracji reguł „from coverage” [5]. Schemat przedstawiający
następujące po sobie kroki w algorytmie eBi prezentuje Rysunek 2.
HRoBi jest algorytmem hierarchicznym umożliwiającym łączenie mniejszych biklastrów
w większe biklastry przybliżone, przy zachowaniu ich jakości na założonym przez użytkownika
poziomie [6]. W każdej iteracji HRoBi łączy dwa biklastry na podstawie zdefiniowanej miary
jakości opartej na ich dolnym oraz górnym przybliżeniu. Algorytm ten pozwala na zmniejszenie
liczby biklastrów w zbiorze, czego rezultatem jest zwiększenie pokrycia poszczególnych
biklastrów, przy jak najmniejszej stracie dokładności. Schemat opisujący następujące po sobie
etapy algorytmu HRoBi przedstawia Rysunek 3.
10 Wykorzystanie metod zbiorów przybliżonych w algorytmach biklasteryzacji binarnej
Analiza oparta na
macierzy IN
DODATKOWY KROK
Generowanie zbioru biklastrów H* na
podstawie INGenerowanie zbioru biklastrów H na
podstawie IN*
Wyznaczenie dla każdego h* Є H*
odpowiadającego mu półbiklastra na
podstawie macierzy IN*
Wyznaczenie dla każdego h Є H
odpowiadającego mu półbiklastra na
podstawie macierzy IN
Generowanie macierzy IN oraz IN*
ZBIÓR WYJŚCIOWY: Suma dwóch zbiorów
wygenerowanych w poprzednim kroku.
FILTRACJA
Połączenie półbiklastrów
w biklastry
Połączenie półbiklastrów
w biklastry
Analiza oparta na
macierzy IN*
Rysunek 2. Schemat przedstawiający następujące po sobie kroki w algorytmie eBi.
11
Jeśli wartość
najlepszej miary
jakości jest poniżej
poziomu
zdefiniowanego przez
użytkownika
Generowanie macierzy LAM i UAM
Wyznaczenie parametru jakości dla każdej pary biklastrów
Zbiór biklastrów
uzyskanych za
pomocą algorytmu
eBi
STOP
Jeśli nie istnieje żadna
para biklastrów w
analizowanym zbiorze,
która ma niepustą część
wspólną ich dolnych
przybliżeń
Selekcja biklastra
przybliżonego o
najlepszej jakości
Usunięcie ze zbioru
dwóch oryginalnych
biklastrów i zastąpienie
ich nowym biklastrem
If If Else
Rysunek 3 Schemat przedstawiający etapy działania algorytmu HRoBi.
13
Eksperyment
Scenariusz eksperymentu zaplanowanego i przeprowadzonego w ramach niniejszej pracy
zakładał porównanie pięciu najpopularniejszych algorytmów biklasteryzacji binarnej znanych
w literaturze (BiMax [7], BiBit [8], BicBin [9], Hocclus2 [10], iBBiG [11]) oraz algorytmów
eBi i HRoBi zaproponowanych w niniejszej pracy oraz we wcześniejszych publikacjach [4, 6].
Dodatkowo analizie poddano korelację pomiędzy współczynnikami stosowanymi do oceny
biklastrów zaproponowanymi w literaturze a miarą wewnętrzną �� (ang. quality ratio)
zaproponowaną w ramach niniejszej pracy. Wskaźnik �� zdefiniowany jest jako średnia
geometryczna wskaźników ������� oraz �������� . Miara ������� zdefiniowana jest
zgodnie z równaniem (1) jako iloraz sumy liczby wszystkich komórek zawierających jedynki
pokrywanych przez poszczególne biklastry w analizowanym zbiorze oraz sumy liczby
wszystkich komórek należących do biklastrów w tym samym zbiorze. Miara ��������
zdefiniowana jest natomiast jako iloraz liczby komórek macierzy wejściowej zawierających
jedynki pokrywanych przez biklastry w zbiorze, do liczby wszystkich komórek macierzy
wejściowej zawierających jedynki, zgodnie z równaniem (2). Zmienna � w równaniach (1)
oraz (2) jest to waga macierzy (lub podmacierzy) zdefiniowana jako liczba komórek macierzy
(podmacierzy) zawierających jedynki.
MeanAcc 1∑ |B�|
��
)w�B��
��
(1) TotalCov w�⋃ B��� �w�A� (2)
Porównania siedmiu algorytmów dokonano na podstawie danych symulowanych oraz
rzeczywistych. Zbiór danych symulowanych składał się z macierzy binarnych o rozmiarze 200
wierszy na 200 kolumn. Wygenerowane macierze różniły się między sobą liczbą sztucznie
umieszczonych w macierzy biklastrów dokładnych oraz poziomem zaszumienia. Zbiór danych
rzeczywistych składał się z dwóch macierzy binarnych otrzymanych na podstawie baz
miRTaRBase [12] [13] oraz mirDIP [14] zawierających informację na temat mikroRNA oraz
ich genów docelowych. Baza miRTaRBase przechowuje dane potwierdzone w sposób
eksperymentalny, natomiast baza miRDIP łączy dwanaście zbiorów danych zawierających
informację na temat predykowanych miejsc docelowych mikroRNA. Otrzymane macierze
binarne reprezentowały dane dotyczące 8495 genów i 702 mikroRNA w przypadku bazy
miRDIP oraz 1945 genów względem 411 mikroRNA w przypadku bazy miRTaRBase.
Zaproponowana metoda porównania zbiorów biklastrów zakłada jednakową liczbę biklastrów
w każdym zbiorze. W celu selekcji �-najlepszych biklastrów, gdzie � jest założoną liczbą
biklastrów, zastosowano metodę zaproponowaną w ramach niniejszej pracy (algorytm „the
covering”) oraz drugą metodę zaproponowaną w literaturze (algorytm „the greedy set-cover”
[15]). Obie metody działają w sposób iteracyjny, w każdej iteracji dokładając do zbioru
wyjściowego biklaster, który uzyska najwyższą ocenę jakości. Różnice między metodami
dotyczą zastosowanego kryterium wyboru najlepszego biklastra. W zależności od wybranej
14 Wykorzystanie metod zbiorów przybliżonych w algorytmach biklasteryzacji binarnej
metody, ocena jakości dotyczyła całkowitego pokrycia, dokładności, a także podobieństwa
genów w biklastrach wyznaczonego na podstawie miary semantycznej simGIC [16].
Uzyskane zbiory biklastrów zostały ocenione na podstawie wewnętrznych oraz zewnętrznych
wskaźników jakości. Do oceny zbiorów biklastrów na podstawie informacji o biklastrach
prawdziwych w macierzy wejściowej wykorzystano nadzorowaną miarę � (ang. match
score) zaproponowaną w [7] oraz nienadzorowaną miarę jakości �� zaproponowaną w ramach
niniejszej pracy. Wskaźnik � służy do porównania zbioru biklastrów prawdziwych
umieszczonych w macierzy � oraz wyjściowego zbioru biklastrów estymowanych przez
poszczególne metody � zgodnie z następującym równaniem:
��(��,��) =1
|��|� ���
��∈��
�|� ∩ �||� ∪ �|
��∈��
(3)
Do oceny istotności wygenerowanych zbiorów biklastrów pod względem biologicznym
wykorzystanych zostało jedenaście miar semantycznych oceniających podobieństwo genów
w biklastrach na podstawie bazy danych Ontologii Genowych [17].
15
Wybrane wyniki
Dane symulowane
Zbiór danych syntetycznych wykorzystano w celu analizy korelacji pomiędzy miarami �2
i �� stosowanymi do oceny wyników biklasteryzacji. Uzyskane rezultaty przedstawia
Wykres 1a oraz Wykres 1b . Wartości wskaźników �2 oraz �� policzone dla podzbiorów
najlepszych biklastrów wyselekcjonowanych ze zbiorów wyjściowych za pomocą algorytmu
„the covering” przedstawia Wykres 1a. Wyniki oceny podzbiorów najlepszych biklastrów
wyselekcjonowanych ze zbiorów wyjściowych za pomocą algorytmu „the greedy set-cover”
obrazuje Wykres 1b.
a b
Wykres 1 a. Korelacja pomiędzy miarami �2 i ��. Podzbiór najlepszych biklastrów z
każdego zbioru wyselekcjonowany został algorytmem „the covering”. b. Korelacja pomiędzy
miarami �2 i ��. Podzbiór najlepszych biklastrów z każdego zbioru wyselekcjonowany
został algorytmem „the greedy set-cover”.
Uzyskane wartości współczynnika korelacji –-w pierwszym przypadku na poziomie 0,3,
natomiast w drugim 0,5 – nie są zadowalające z tego względu, iż jakość biklastrów policzona
na podstawie dwóch miar wewnętrznych powinna wykazywać znacznie lepszą współzależność.
Bardziej szczegółowa analiza uzyskanych rezultatów pozwoliła na określenie przyczyn
występujących różnic. Rysunek 2a przedstawia przykładową macierz binarną, na której
wstępnie można wyróżnić cztery biklastry dokładne zaznaczone czerwoną ramką (Rysunek 2d).
Zakładając, że taki zbiór czterech biklastrów będzie stanowił zbiór biklastrów prawdziwych,
0 0.2 0.4 0.6 0.8 10
0.2
0.4
0.6
0.8
1
QR
MS
R = 0.308
pValue = 0.000
0 0.2 0.4 0.6 0.8 10
0.2
0.4
0.6
0.8
1
QR
MS
R = 0.552
pValue = 0.000
BiBit
BiMax
BicBin
HRoBi
eBi
iBBiG
16 Wykorzystanie metod zbiorów przybliżonych w algorytmach biklasteryzacji binarnej
znanych a priori, na podstawie których będzie liczony współczynnik � , wartość � w
przypadku zbioru biklastrów, które przedstawia Rysunek 2d, będzie równa 1, ponieważ zbiory
te są identyczne. Wartość wskaźnika �� będzie również równa 1, ponieważ zbiór zawiera tylko
biklastry dokładne, które pokrywają wszystkie jedynki w macierzy. W przypadku zbioru
biklastrów, który przedstawia Rysunek 2e, wartość miary �� będzie równa 1 natomiast
wartość wskaźnika � będzie znacznie mniejsza, ponieważ zbiór ten w mniejszym stopniu
pokrywa się z założonym zbiorem biklastrów prawdziwych (Rysunek 2d).
a. Syntetyczna macierz binarna. b. Macierz binarna przedstawiona
na Rysunek 2a z przestawianymi
wierszami i kolumnami.
c. Syntetyczna macierz binarna z
nienakładającym się biklastrami,
QR=1, MS=1.
d. Zbiór biklastrów prawdziwych
QR = 1, MS = 1.
e. Przykładowy zbiór biklastrów
szacowanych QR = 1, MS =
0,8316.
f. Zbiór biklastrów szacowanych
przedstawionych na Rysunek 2e
zaprezentowanych na macierzy z
przestawianymi wierszami oraz
kolumnami.
Rysunek 2. Symulowany zbiór danych z różną konfiguracją ten samej liczby biklastrów
dokładnych (a,b,d,e,f) oraz syntetyczny zbiór danych z nienakładającymi się biklastrami (c).
Na podstawie tylko danych wejściowych nie da się jednoznacznie wskazać, która grupa
biklastrów jest lepsza lub gorsza, jeżeli w obu przypadkach zbiory te zawierają taką samą liczbę
biklastrów tylko dokładnych, które pokrywają wszystkie jedynki w macierzy. Można zatem
stwierdzić, że ocena zbioru biklastrów na podstawie miary � nie jest obiektywna, jeżeli nie
17
posiadamy dodatkowej wiedzy na temat analizowanego zbioru, pozwalającej na ocenę
słuszności założenia o biklastrach prawdziwych, znanych a priori. Drugą wadą miary �2 jest
niemożność zastosowania jej w przypadku danych rzeczywistych.
Dane rzeczywiste
Wyniki porównania algorytmów na podstawie miar wewnętrznych oceniających średnią
dokładność zbioru oraz pokrycie całkowite zostały przedstawione na Wykresach 3 – 5.
Algorytmy eBi oraz HRoBi najlepsze rezultaty uzyskały w przypadku, gdy podzbiór 50
biklastrów wyselekcjonowany został za pomocą algorytmu „the covering”. W przypadku
pozostałych algorytmów do selekcji najlepszych biklastrów, pokrycie całkowite wybranych
podzbiorów znacznie zmalało, przy czym średnia dokładność wzrosła lub pozostała na takim
samym poziomie.
a b
Wykres. 3 Porównanie uzyskanych wyników biklasteryzacji na podstawie miar wewnętrznych
w przypadku macierzy a. miRTaRBase oraz b. miRDip. W obu przypadkach podzbiór 50
najlepszych biklastrów został wyselekcjonowany na podstawie algorytmu „the covering”.
0 0.2 0.4 0.6 0.8 10
0.2
0.4
0.6
0.8
1
dataset7MiRTarBase var2
TotalCov
MeanAcc
0 0.2 0.4 0.6 0.8 10
0.2
0.4
0.6
0.8
1
dataset11mirDIPfilt var2
TotalCov
MeanAcc
BiBit
BicBin
HOCCLUS2
HRoBi
HRoBi simGIC
eBi
iBBiG
18 Wykorzystanie metod zbiorów przybliżonych w algorytmach biklasteryzacji binarnej
a b
Wykres. 4 Porównanie uzyskanych wyników biklasteryzacji na podstawie miar wewnętrznych
w przypadku macierzy a. miRTaRBase oraz b. miRDip. W obu przypadkach podzbiór 50
najlepszych biklastrów został wyselekcjonowany na podstawie algorytmu „the greedy set-
cover” z wagą wewnętrzną.
a b
Wykres. 5 Porównanie uzyskanych wyników biklasteryzacji na podstawie miar wewnętrznych
w przypadku macierzy a. miRTaRBase oraz b. miRDip. W obu przypadkach podzbiór 50
najlepszych biklastrów został wyselekcjonowany na podstawie algorytmu „the greedy set-
cover” z wagą zewnętrzną.
0 0.2 0.4 0.6 0.8 10
0.2
0.4
0.6
0.8
1
dataset7MiRTarBase var5
TotalCov
MeanAcc
0 0.2 0.4 0.6 0.8 10
0.2
0.4
0.6
0.8
1
dataset11mirDIPfilt var5
TotalCov
MeanAcc
BiBit
BicBin
HOCCLUS2
HRoBi
HRoBi simGIC
eBi
iBBiG
0 0.2 0.4 0.6 0.8 10
0.2
0.4
0.6
0.8
1
dataset7MiRTarBase var7
TotalCov
MeanAcc
0 0.2 0.4 0.6 0.8 10
0.2
0.4
0.6
0.8
1
dataset11mirDIPfilt var7
TotalCov
MeanAcc
BiBit
BicBin
HOCCLUS2
HRoBi
HRoBi simGIC
eBi
iBBiG
19
Podsumowanie
W pracy przedstawiono dwa oryginalne algorytmy biklasteryzacji binarnej, eBi oraz HRoBi.
Rozwinięto także metody porównywania jakości biklastrów. Opracowano nienadzorowaną
miarę wewnętrzną pozwalającą na ocenę jakości zbioru biklastrów. Zaproponowano
obiektywną metodę porównania wielu zbiorów biklastrów. Przeprowadzono eksperyment z
wykorzystaniem danych symulowanych oraz rzeczywistych. Na podstawie uzyskanych
wyników dokonano analizy korelacji pomiędzy nadzorowanym a nienadzorowanym
wewnętrznym wskaźnikiem jakości oraz korelacji pomiędzy nienadzorowanym wewnętrznym
wskaźnikiem jakości a miarami zewnętrznymi opartymi na bazie danych Ontologii Genowych.
Praca jest usystematyzowaniem i rozwinięciem metod przedstawionych w publikacjach,
których współautorem jest autorka niniejszej rozprawy doktorskiej [4] [6].
Oryginalne elementy pracy
- opracowanie dwóch algorytmów eBi oraz HRoBi do biklasteryzacji binarnej
wykorzystujących metody teorii zbiorów przybliżonych,
- zaproponowanie metody porównania wielu zbiorów biklastrów,
- zaproponowanie nienadzorowanej, wewnętrznej miary jakości zbioru biklastrów,
- przeprowadzenie eksperymentu z wykorzystaniem realnych danych bioinformatycznych,
- analiza korelacji pomiędzy zaproponowaną miarą jakości �� a innymi wskaźnikami
jakości biklastrów zaproponowanymi w literaturze.
21
Bibliografia
[1] J. A. Hartigan, "Direct clustering of a data matrix," Journal of the american statistical
association, vol. 67, no. 337, pp. 123-129, 1972.
[2] T. Amos, S. Roded and S. Ron, "Biclustering algorithms: A survey," Handbook of
computational molecular biology, vol. 9, pp. 26-1, 2005.
[3] Z. Pawlak, Rough sets: theoretical aspects of reasoning about data., Dordrecht: Kluwer
Academic Publishers, 1991.
[4] M. Stawarz and M. Michalak, "eBi–The Algorithm for Exact Biclustering," in Artificial
Intelligence and Soft Computing, 2012.
[5] M. Sikora, "Wybrane metody oceny i przycinania reguł decyzyjnych," Studia
Informatica, vol. 33, no. 3B, pp. 5-331, 2012.
[6] M. Michalak and M. Stawarz, "HRoBi–The Algorithm for Hierarchical Rough
Biclustering," in Artificial Intelligence and Soft Computing, 2013.
[7] A. Prelić, S. Bleuler, P. Zimmermann, A. Wille, P. Bühlmann, W. Gruissem, L. Hennig,
L. Thiele and E. Zitzler, "A systematic comparison and evaluation of biclustering methods
for gene expression data.," Bioinformatics, vol. 22, no. 9, pp. 1122-1129, 2006.
[8] D. S. Rodriguez-Baena, A. J. Perez-Pulido and J. S. Aguilar, "A biclustering algorithm
for extracting bit-patterns from binary datasets," Bioinformatics, vol. 27, no. 19, pp. 2738-
2745, 2011.
[9] M. v. Uitert, W. Meuleman and L. Wessels, "Biclustering sparse binary genomic data,"
Journal of Computational Biology, vol. 15, no. 10, pp. 1329-1345, 2008.
[10] P. Gianvito, C. Michelangelo, D. Domenica, L. Corrado and M. Donato, "A novel
biclustering algorithm for the discovery of meaningful biological correlations between
micrornas and their target genes," BMC bioinformatics, vol. 14, no. Suppl 7, p. S8, 2013.
[11] D. Gusenleitner, E. A. Howe, S. Bentink, J. Quackenbush and A. C. Culhane, "iBBiG:
iterative binary bi-clustering of gene sets," Bioinformatics, vol. 18, no. 19, pp. 2484-2492,
2012.
[12] S.-D. Hsu, F.-M. Lin, W.-Y. Wu, C. Liang, W.-C. Huang, W.-L. Chan, W.-T. Tsai, G.-Z.
Chen, C.-J. Lee and C.-M. Chiu, "miRTarBase: a database curates experimentally
22 Wykorzystanie metod zbiorów przybliżonych w algorytmach biklasteryzacji binarnej
validated microRNA–target interactions," Nucleic acids research, vol. 39, no. suppl 1,
pp. D163-D169, 2011.
[13] S.-D. Hsu, Y.-T. Tseng, S. Shrestha, Y.-L. Lin, A. Khaleel, C.-H. Chou, C.-F. Chu, H.-
Y. Huang, C.-M. Lin and S.-Y. Ho, "miRTarBase update 2014: an information resource
for experimentally validated miRNA-target interactions," Nucleic acids research, vol. 42,
no. D1, pp. D78-D85, 2014.
[14] E. A. Shirdel, W. Xie, T. W. Mak and I. Jurisica, "NAViGaTing the micronome–using
multiple microRNA prediction databases to identify signalling pathway-associated
microRNAs," PloS one, p. e17429, 2011.
[15] M.-Y. Kao, "Encyclopedia of algorithms," Springer, 2008, pp. 379-381.
[16] C. Pesquita, D. Faria, H. Bastos, A. E. Ferreira, A. O. Falcão and F. M. Couto, "Metrics
for GO based protein semantic similarity: a systematic evaluation," BMC bioinformatics,
vol. 9, no. Suppl 5, p. S4, 2008.
[17] M. Ashburner, C. A. Ball, J. Blake, D. Botstein, B. Heather, J. M. Cherry, A. P. Davis, K.
Dolinski, S. S. Dwight and J. T. Eppig, "Gene Ontology: tool for the unification of
biology," Nature genetics, vol. 25, no. 1, pp. 25-29, 2000.