informační a komunikační technologie ve...

43
Biomedical Data Processing G r o u p Získávání znalostí z dat Informační a komunikační technologie ve zdravotnictví

Upload: others

Post on 20-Oct-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

  • Biomedical Data Processing G r o u p

    Získávání znalostí z dat

    Informační a komunikační technologie

    ve zdravotnictví

  • Biomedical Data Processing G r o u p

    Získávání znalostí z dat

    � Definice: proces netriviálního získáváníimplicitní, dříve neznámé a potencionálně užitečnéinformace z dat.

    � Cíl: částečná automatizace procesu získánízajímavých vzorů chování z reálných dat: tvorbajejich modelů - např. pomocí nástrojů strojovéhoučení

    � Nové slibné odvětví SW průmyslu, jehož cílem jevyužít existující data pro zlepšení rozhodovacíchprocesů

  • Biomedical Data Processing G r o u p

    Získávání znalostí z dat (ZZD)

  • Biomedical Data Processing G r o u p

    ZZD - Příklady aplikací

    � Segmentace a klasifikace klientů banky (např. rozpoznáníproblémových nebo naopak vysoce bonitních klientů).

    � Predikce vývoje kursů akcií.

    � Analýza důvodů změny poskytovatele nějakých služeb(internet, mobilní telefony).

    � Segmentace a klasifikace klientů pojišťovny.

    � Analýza nákupního košíku (Market Basket Analysis).

    � Predikce spotřeby elektrické energie, plynu, …

    � Analýza příčin poruch v telekomunikačních sítích.

    � Rozbor databáze pacientů v nemocnici.

    � Charakterizace karcinogenních látek.

    � Mapování lidského genomu.

    � Veřejné mínění a sčítání lidu.

  • Biomedical Data Processing G r o u p

    ZZD - Terminologie

    � Koncept

    ♦oblast zájmu – co chceme♦předpověď počasí

    � Objekt (třída)♦obecný (abstraktní) prvek konceptu♦den předpovědi počasí

    � Atributy♦ jednotlivé vlastnosti objektu♦ teplota, tlak, množství srážek

    � Instance♦Kokrétní případ objektu - jednotlivá data♦data o počasí jednoho konkrétního dne

  • Biomedical Data Processing G r o u p

    ZZD - Typy atributů

    �Nominální

    ♦ 2 hodnoty - muž/žena => binární♦ více hodnot – barva (červená, modrá, zelená)

    �Binární

    ♦ boolean (True/False)

    �Ordinální

    ♦ celá čísla, reálná čísla – jakou přesnost♦ dají se řadit

    �Kategoriální

    ♦ nabývají diskrétních hodnot, avšak nelze je řadit

    � Řady

    ♦ veličin, které pravidelně měřeny zaznamenávány♦ vždy vztaženy k jediné monotónní veličině, která slouží jako index

  • Biomedical Data Processing G r o u p

    ZZD - Typy úloh

    � Klasifikace

    ♦ přiřazení třídy objektu� Predikce

    ♦ předpověď chování objektu v čase� Asociace

    ♦ hledání vazeb mezi objekty� Shluková analýza

    ♦ seskupování podobných objektů

  • Biomedical Data Processing G r o u p

    Klasifikace / Predikce

    � Cílem je nalézt znalosti použitelné pro klasifikaci novýchpřípadů

    � Požadujeme, aby získané znalosti co nejlépe odpovídalydanému konceptu

    � Dáváme přednost přesnosti pokrytí na úkorjednoduchosti - připouštíme větší množství méněsrozumitelných dílčích znalostí.

    � Rozdíl mezi klasifikací a predikcí spočívá v roli času

    � Predikce = ze starších hodnot nějaké veličiny sepokoušíme odhadnout její vývoj v budoucnosti.

  • Biomedical Data Processing G r o u p

    Asociace / Shluková analýza

    �Asociace

    ♦žádný atribut (sloupec tabulky) není vyčleněn jako cíl klasifikace

    ♦asociace je proces hledaní „všech zajímavých“ vztahů(implikace, ekvivalence) mezi hodnotami různých atributů.

    ♦Jednoduchá (pravděpodobnostní) tvrzení o spoluvýskytuudálostí v datech

    � Shluková analýza

    ♦vícerozměrná statistická metoda, která se používá ke klasifikaci objektů

    ♦slouží k třídění jednotek do skupin (shluků) tak, aby si jednotky náležící do stejné skupiny byly podobnější než objekty ze skupin různých

  • Biomedical Data Processing G r o u p

    ZZD - Typy úloh

    predikce

    deskripce

    highlighting

    detekceodchylek

    klasifikaceregrese

    asociačnípravidla

    shlukovánímodelovánízávislostí

    modelováníkauzalit

    sumarizace

    vztahy vdatabázích

    SQO pravidla

  • Biomedical Data Processing G r o u p

    Metodiky ZZD

    � Metodika SEMMA

    ♦ Podle metodologie SEMMA spočívá proces dobývání v těchto krocích:♦ Sample - vybírání vhodných objektů♦ Explore - vizuální explorace a redukce dat♦ Modify - seskupování objektů a hodnot atributů, datové transformace♦ Model - analýza dat♦ Assess - porovnání modelů a interpretace

    � Metodika 5A

    ♦ Assess - posouzení potřeb projektu♦ Access - shromáždění potřebných dat♦ Analyze - provedení analýz♦ Act - přeměna znalostí na akční znalosti♦ Automate - převedení výsledků analýzy do praxe

  • Biomedical Data Processing G r o u p

    Metodika CRISP-DM

    � CRISP-DM (CRoss-Industry Standard Process forDataMining)

    � Vznikla vrámci výzkumného projektu Evropské komise.

    � Cílem projektu je navrhnout univerzální postup použitelnýv nejrůznějších aplikacích.

    �Na projektu spolupracují firmy

    ♦ NCR (přední dodavatel datových skladů)♦ DaimlerChrysler♦ Integral Solutions (tvůrce systému Clementine)♦ OHRA (velká holandská pojišťovna).

  • Biomedical Data Processing G r o u p

    Metodika CRISP-DM

    2. Porozuměnídatům

    3. Příprava dat

    5. Vyhodnocení 4. Modelování

    6. Použití

    1. Zadání

    CRISP-DM (CRoss-Industry Standard Process for DataMining)

  • Biomedical Data Processing G r o u p

    Zadání / porozumění cílům

    � Pochopení cílů úlohy♦Co klient chce♦Manažerský náhled, např.

    � Primární cíl: Udržet si současné zákazníky pomocí predikce okamžiku, kdy jsou nakloněni přejít ke konkurenci

    � Související cíl: Budou nižší poplatky pro výběr z automatu signifikantně sníží počet bonitních klientů, kteří odejdou?

    � Hodnocení situace ♦Seznam zdrojů (personál, data)♦Požadavky (srozumitelnost, přesnost)♦Omezení (bezpečnostní otázky, anonimizace)♦Terminologie ♦Analýza náklady / přínos

  • Biomedical Data Processing G r o u p

    Zadání / porozumění cílům

    � Vymezení cílů ZZD

    ♦Příklad odlišnosti terminologií♦Cíl obchodníka: Rozšířit katalog prodeje pro existující

    zákazníky.♦Cíl informatika: Predikovat jak mnoho věcí bude zákazník

    kupovat z jeho nákupů za poslední tři měsíce, demografických informací (věk, město, plat, atd.) a ceny nabízené věci.

    � Vytvoření projektového plánu

    ♦Období provádění projektu společně s dobou trvání, požadavky na zdroje, vstupy, výstupy a závislostmi.

    ♦Výběr možných nástrojů pro řešení

  • Biomedical Data Processing G r o u p

    Porozumění datům� Shromáždění dat♦ Počáteční předzpracování dat

    � Popis dat♦ Formát dat♦ Množství

    � Prozkoumání dat♦ Descriptivní charakteristiky dat

    � Rozložení klíčových atributů, jednoduché statistiky, � Jednoduché vztahy mezi atributy, významné podskupiny, odlehlé

    hodnoty (outliers).♦ Použití vizualizačních technik

    � Ověření dat♦ Jsou kompletní (popisují celou oblast)♦ Složitost formy uložení dat♦ Šum, chybějící a špatné údaje

  • Biomedical Data Processing G r o u p

    Problém reálných dat

    �Data nejsou sbírána jako zdroj trénovacích příkladů, ale především kvůli podnikové dokumentaci a archivaci. Z tohotohlediska bývá sběr i uložení optimalizováno.

    �Data obsahují špatné údaje způsobené chybami měřicíchpřístrojů i lidské obsluhy.

    �Nevyplněné údaje.

    �U některých atributů se stává, že vyplnění údaje je skorovýjimkou – mluvíme pak o řídce (sparse) obsazenýchatributech.

    �Data jsou popsána pomocí příliš mnoha atributů – nenízřejmé, které z nich jsou pro řešení zvolené úlohy relevantní.

    � Úspěch modelování závisí na volbě vhodné množiny atributů.

    �Data mají formu složitého relačního schématu, nikolivjediné tabulky předpokládané atributovými metodamistrojového učení.

  • Biomedical Data Processing G r o u p

    Úkoly předzpracování dat

    �Množina vlastností (atributů nebo příznaků)

    ♦Bohatost dat (počet dimenzí) má zásadní vliv i pro úspěchpoužití technik strojového učení.

    ♦S dimenzí exponenciálně rostou i nároky na počettrénovacích příkladů.

    �Příprava dat pro modelování

    ♦Čištění dat♦Normalizace dat♦Převod typů dat, formátování a kódování♦Transformace dat do jedné tabulky♦Úpravy dimenze

  • Biomedical Data Processing G r o u p

    Předzpracování dat

    � Zpráva o stavu proměnných♦ typ (spojitá X diskrétní)♦ rozsah definičního oboru (počet hodnot)♦ rozsah a frekvence výskytů (histogram)♦ typ rozdělení a jeho statistické charakteristiky♦osamělé mimořádné hodnoty (outliers)♦ téměř konstantní atributy (možné vynechat)♦nevyplněná datová pole♦znečištění dat

    � data neodpovídají deklarovanému formátu� hodnoty neodpovídají deklarované množině

  • Biomedical Data Processing G r o u p

    Předzpracování dat

    � Čištění dat (chybějící a špatné údaje)

    ♦Nedělat nic� některým algoritmům chybějící hodnoty nevadí

    ♦ Ignorovat celou instanci� ideální pro data s minimem chybějících hodnot� pozor u časových řad na porušení vzorkování

    ♦Náhrada� nejčetnější hodnotou� průměrem, mediánem� nalezení nejbližšího souseda� využití algoritmu pro modelování

    ♦Náhrada hodnotou „nevím“

  • Biomedical Data Processing G r o u p

    Předzpracování dat

    � Čištění dat (čištění signálů)

    ♦Korekce resp. odstranění šumu - tento proces se nazýváfiltrace.

    ♦Většinou velmi podstatné pro získání příznaků ze signálu ♦ Ignorování šumu

    � Čištění dat (monotónní atributy)

    ♦Představují obvykle jednoznačnou identifikaci pro uvažované objekty, např. pořadové číslo měření, číslo bankovního účtu.

    ♦Rostou bez omezení a při tom jejich přímá hodnota jako taková nemá pro vytvoření modelu význam.

  • Biomedical Data Processing G r o u p

    � Normalizace dat♦ Převod numerických hodnot do intervalu

    ♦ Úprava rozsahu hodnot atributů pomocí logistickétransformace

    Předzpracování dat

    0

    0 .2

    0 .4

    0 .6

    0 .8

    1

    -6 -4 -2 0 2 4 6

    x

    g(x

    )

    a = 0 , b = 1 a = 0 , b = 2 a = 0 , b = 4

    - ( ) min( ) nebo

    ( ) max( ) min( )i i i i

    i ii i i

    v Avg v v va a

    StDev v v v

    −= =−

  • Biomedical Data Processing G r o u p

    Převod formátování a kódování

    � Datum♦volba přesnosti – např. roky, měsíce, dny, hodin, …♦ reprezentace reálným číslem

    � Nominální hodnoty♦2 hodnoty – 0,1♦výběr nejfrekventovanějších hodnot♦spojení do větších přirozených celků (město,kraj)

    �Při sloučení atributů♦Častokrát nutné nové kódování

    �Numerické hodnoty♦některé analytické algoritmy vyžadují pouze kategoriální

    data♦diskretizace dat – volba intervalů

  • Biomedical Data Processing G r o u p

    Diskretizace� Neinformované metody

    ♦ekvidistantní intervaly

    ♦ekvifrekvenční intervaly

  • Biomedical Data Processing G r o u p

    Diskretizace� Informované metody

    ♦ využití znalosti o příslušnosti objekt -> třída♦ strategie rozdělování nebo spojování intervalů

    �Fayyadův a Iraniho algoritmus (Entropy Based Discretization)

    ♦ Metoda založená na použití informací o třídách přítomných v datech♦ kritérium – entropie ♦ objekty mezi, kterými se mění třída♦ výběr nejlepšího dělicího bodu♦ Jde o hledání místa s maximálním informačním ziskem

    ♦ Fayyad, Irani : Multi-interval discretization of continuous-valuedattributes for classification learning In: Proc. 1st Int. Conf. on Knowledge Discovery and Data Mining. AAAI Press, 1995, s. 39-44

  • Biomedical Data Processing G r o u p

    Transformace dat do jedné tabulky

    �1:1

    ♦prakticky pouze doplnění tabulky o nové atributy

    � 1:N

    ♦ vytvoření agregovaných hodnot♦ součet, min, max, průměr, regresní křivka♦ majoritní hodnota, počet různých hodnot, výskyt konkrétní

    hodnoty♦ do této skupiny patří časové řady

    � M:N

    ♦ nutná volba úlohy, zda chceme 1:N nebo 1:M

  • Biomedical Data Processing G r o u p

    Úpravy dimenze

    �Snížení dimenze

    ♦Vynecháním� konstantních atributů� atributů řídce obsazených� atributů s duplicitní informací (rok narození X věk, apod.)

    ♦Sloučením� atributů řídce obsazených – z několika řídce obsazených

    atributů je možné zřetězením vytvořit jeden nový (PVP -present value pattern)

  • Biomedical Data Processing G r o u p

    Úpravy dimenze

    �Zvýšení dimenze

    ♦Obohacení� doplněním údajů z jiných zdrojů (např. meteorologická

    měření, demografické údaje, apod.)

    ♦Rozšíření� přidání odvozených atributů� např. pohlaví z rodného čísla� Body Mass Index (BMI)

    � „otočení“ dat (reverse pivoting) - nový atribut an+1 přebírá údaj z objektu následujícího. Pro každý objekt i platí an+1(i) = an(i+1).

    2

    váha [kg]BMI

    výška [m]=

  • Biomedical Data Processing G r o u p

    Úpravy dimenze

    �Selekce atributů♦hledáme k správnému výsledku nejvíce přispívající atributy♦metoda filtru

    � spočteme charakteristiku vyjadřující vhodnost atributu� chi-kvadrát, entropie, informační míra závislosti� vychází z kontingenční tabulky� nevýhoda: posuzujeme každý atribut samostatně – ne

    množiny atributů♦metoda obálky

    � použití metod strojového učení

    ♦Analýza hlavních komponent (PCA)� Nové atributy nelze interpretovat

  • Biomedical Data Processing G r o u p

    Úprava množin pro modelování

    � Hlavní zásada

    ♦každý nový soubor musí s rozumnou dávkou důvěry zachovávat původní pestrost či rozložení výchozího souboru.

    � Vytvoření trénovacích a testovacích dat

    � Vzorkování dat

    ♦ obrovský počet instancí� redukce počtu dat� tvorba modelů na základě podmnožin a jejich následná kombinace� pro algoritmy pracující v dávkovém režimu nutnost

    ♦ nevyvážená data např třída A 95%, třída B 5%� různé ceny chybného rozhodnutí� výběr dat pro různé třídy s různou pravděpodobností

  • Biomedical Data Processing G r o u p

    Modelování

    � Výběr techniky modelování

    ♦ s ohledem na data, pochopitelnosti, budoucímu použití a omezením

    ♦ rozhodovací stromy, asociační pravidla, neuronové sítě,regresní analýza, shluková analýza

    ♦ Kombinace více modelů

    � Návrh testování

    ♦ Technika validace techniky (trenovací/testovací množina), scóre, atd.

    � Vytvoření modelu

    ♦ Ladění parametrů, následné zpracování vygenerovaných pravidel

    � Ohodnocení modelu

    ♦ Splnění požadovaných testovacích kriterií.♦ Přesnost a obecnost vytvořeného modelu

  • Biomedical Data Processing G r o u p

    Vyhodnocení

    � Úspěšné dosažení zadavatelových cílů

    ♦Výsledek je kombinace Modelu a Závěry♦Závěry nemusí být srozumitelné vzhledem k zadavatelovým

    cílům – nutné převézt do zadavatelovy terminologie

    � Hodnocední výsledků

    ♦Rozdílné stupně než u ohodnocení modelu♦Jestliže je to možné test na reálné aplikaci

    � Revizní proces

    ♦Rekapitulace, hlavní cíl: nalézt přehlédnuté úlohy

    � Určení dalších kroků

    ♦Rozhodnutí o možném vylepšení

  • Biomedical Data Processing G r o u p

    Použití

    � Plán použití♦ Shrnutí použitelných výsledků♦ Rozhodnutí o způsobu předání (nasazení) získaných znalostí a

    informací uživateli.♦ Rozhodnutí jak bude vytvořený model nebo software použit v

    rámci exitujících systémů.♦ Odhalení možných problémů při nasazení výsledků ZZD

    �Plán monitorování a podpory♦ Je důležité vyhnout se dlouhým obdobím nesprávného užívání

    � Vytvoření závěrečné zprávy (dokumentace)

  • Biomedical Data Processing G r o u p

    Časové nároky v ZZD

    0 20 40 60

    Formulace problému

    Volba typu řešení

    Předpokládané využití

    Posouzení dat

    Příprava dat

    Modelování

    Potřebná čast času v rámci celéhoprojektu (v %)

    Význam pro úspěch projektu (v %)

  • Biomedical Data Processing G r o u p

    Vizualizace dat

    � Omezení vnímání na 3D

    � Vizualizace 1-D, 2-D a 3-D

    ♦standard♦grafy, matematika, statistika

    �Vizualizace n-D

    ♦nutná pro ZZD (Data mining)

  • Biomedical Data Processing G r o u p

    Vizualizace dat

    �Grafy

    ♦ sloupcové grafy♦ koláčové grafy♦ grafy X-Y – časové řady, trendy

  • Biomedical Data Processing G r o u p

    Vizualizace dat

    �3D vizualizace

  • Biomedical Data Processing G r o u p

    Vizualizace dat

    �Statistické grafy

  • Biomedical Data Processing G r o u p

    Iris data

    sepal length

    sepal width

    petal length

    petal width

    5.1 3.5 1.4 0.2

    4.9 3 1.4 0.2

    ... ... ... ...

    5.9 3 5.1 1.8

    Iris setosa

    Iris versicolor

    Iris virginica

  • Biomedical Data Processing G r o u p

    Vizualizace dat

    �Zobrazení matice rozptylů

  • Biomedical Data Processing G r o u p

    Parallel coordinates

  • Biomedical Data Processing G r o u p

    RadViz

  • Biomedical Data Processing G r o u p

    Dobrá příprava dat je klíčem kvytvoření

    platného a spolehlivého modelu

    Konec ?

    Ne!

    Začátek!