tutustuminen data-analytiikan ja big datan maailmaan
TRANSCRIPT
Tutustuminen data-analytiikan ja
Big Datan maailmaan
Pasi Hellsten & Jari Jussila @PasiHellsten & @jjussila
@EdutechTUT #Data4BizTraining
26.11.2015
”Suomen talouspolitiikkaa tehdään pahasti vanhentuneiden tietojen varassa, käytännössä sokkona.”
Kansanedustaja Jyrki J. J. Kasvi, TkT, Tieken tutkimus- ja kehitysjohtaja, ‘Tietoasiantuntija’-lehti 4/2015 (02.11.2015) https://t.co/piwBtps9Zn
”90 % maailman datasta on tuotettu kahden viime vuoden aikana*. Mutta pystymmekö me hyödyntämään kaikkea tätä dataa, muuttamaan sen informaatioksi, tiedoksi ja päätöksiksi?” ”..suuri osa meidän tietovarannoistamme on niin heikkolaatuisia, ettei niitä voi käyttää mihinkään muuhun kuin siihen tarkoitukseen, jota varten tiedot on alun perin kerätty.” ”Vanhoja tietojärjestelmiä ei ole suunniteltu big datan tarpeisiin, minkä seurauksena tietoaineistot ovat epäyhdenmukaisia ja vanhentuneita, ja määritelmät ja metadata ovat puutteellisia.”
* vrt. Mooren laki, 1965 (1975)
Liiketoimintatiedonhallinta
• Liiketoimintatiedon hallinnalla tarkoitetaan toimintaa, jossa – tietoisesti kerätään omaan liiketoimintaan ja liiketoimintaympäristöön
liittyvää tietoa, – tulkitaan ja – analysoidaan sitä, – arvioidaan tiedon merkitystä ja – käytetään analysoitua tietoa päätöksenteon tukena.
(Hannula 2003)
05/12/15 3
Kurssin kannalta keskeisiä termejä ja niiden väliset suhteet
P. Virtanen 4
Ulkoinen
Sisäinen
Tiedon luonne Kilpailutiedon
hallinta
Kilpailijatiedon hallinta
Laaja Kapea Tiedon keräämisen näkökulma
Pirttimäki 2007
Liiketoimintatiedon hallinta
Business (and competitive) intelligence, B(C)I
Competitive intelligence, CI
Competitor intelligence
Lähtökohtaisesti..
- Ei ole olemassa kahta samanlaista organisaatiota. à päätöksenteon tueksi organisaatiossa tarvitaan aina erilaista tietoa. - Päätöksenteon nopeus kilpailuedun tuottajana on korostunut yritysten
nykyisessä toimintaympäristössä (tietotalous) - Saatavilla olevan tiedon määrä on suuri, mutta sen tyyppi ja laatu
vaihtelevat - Kaikkea tarpeellista tietoa ei kuitenkaan ole saatavilla (..helposti/halvalla/..) - Kaikki tieto ei ole tarpeellista (infoähky) - Haasteena on, miten löytää oikea tieto, analysoida ja hyödyntää sitä
Tiedolla johtamista ja tiedon johtamista
• Tietojohtaminen voidaan jakaa tiedon johtamiseen ja tiedolla johtamiseen:
P. Virtanen 6
• Tiedon johtaminen • organisaatioiden tietovirtojen ohjaus • tietotuotteiden kehittäminen • tietojärjestelmien hyödyntäminen • jne.
• Tiedolla johtaminen
• strateginen johtaminen ja arvonluonti • suorituksen johtaminen ja tehokkaampi organisaatio • jne.
Esitetty jako ei ole ehdoton, vaan pikemminkin tarkastelutapa. Vrt. kolikon kaksi puolta.
• Liiketoimintatiedon hallinta käytännön tasolla – Ilmiö pitää ymmärtää – Tilaajan/päätöksentekijän toimintaa pitää ymmärtää (myös
oikea tahtotila) – Sitten käytetään työkaluja
05/12/15 7
05/12/15 8
TOP Business Intelligence and Analytics Platforms
Lähde: Gartner 2015 http://www.gartner.com/technology/reprints.do?id=1-2ACLP1P&ct=150220&st=sb
05/12/15 9
TOP Advanced Analytics Platforms
Lähde: Gartner 2015 http://www.gartner.com/technology/reprints.do?id=1-2AHPOU0&ct=150225&st=sb
Johdanto
• Termit haltuun ja uudet mahdollisuudet – Big Datan ja analytiikkamaailman käsitteiden läpikäyminen
• Tiedolla johtaminen – Toiminnan kehittämisen eri ulottuvuudet, mihin kaikkeen data ja
analytiikka taipuvat • Kulttuurin luominen ja organisointi
05/12/15 10
Datan käyttö ja analysointi; terminologiaa Termi Ajanjakso Kuvaus
Päätöksenteon tuki [Decision Support Systems]
1970-1985 Hyödynnetään data-analyysiä tukemaan päätöksentekoa
Johdon tukijärjestelmät [Executive Support/Information Systems]
1980-1990 Fokus data-analyysissä ylemmän johdon tueksi
Kuutioiden mallinnus [Online Analytical Processing, OLAP]
1990-2000 Ohjelmistoja multidimensionaalisten datataulujen analysointiin
Liiketoimintatiedon hallinta [Business Intelligence]
1989-2005 Työkaluja tukemaan datalähtöistä päätöksentekoa, painopiste raportoinnissa
Analytiikka [Analytics]
2005-2010 Fokus tilastollisessa ja matemaattisessa analyysissä päätöksenteon tueksi
Massadata [Big Data]
2010- Fokus erittäin isossa, monimuotoisessa ja nopeasti liikkuvassa datassa
11 (Big Data at Work, Davenport, 2014)
Päätöksenteon tukijärjestelmät ja johdon tietojärjestelmät ”1970-1990” • Säästetään kustannuksia, optimoidaan tiettyä toimintaa,..
• Tuotannonohjaus (Material Requirements Planning) • Laajempi tuotannon ohjaus (Manufacturing Resources Planning, MRP II) • Toiminnanohjaus (Enterprise Resource Planning) • Erilaiset toimintokohtaiset järjestelmät
à Raportteja ja katsauksia
05/12/15 12
Liiketoiminnan odotukset IT:lle (Tallon & Kraemer 2007)
Kuutioiden mallinnus - OLAP (online analytical processing)
05/12/15 13
Tuote
Aika
Markkinat
image Athanasios Kastanidis
”1980-1990” Mm. ERP
OLAP-kuutioiden perusidea
• OLAP-tekniikka poikkeaa perinteisestä tilastoinnista ja raportoinnista siten, että käyttäjä voi vaihtaa näkökulmaa tiedontarpeensa mukaan.
• Esimerkiksi analyytikko voi lähteä 1) tarkastelemaan tuoteryhmien myyntiä maittain, 2) filtteröidä aineisto tiettyihin maihin 3) joista löytää jotain esimerkiksi myyntitavoitteista poikkeavaa. Tämän jälkeen 4) porautua esimerkiksi myyntiin tietyissä kaupungeissa. 5) Vaihtaa näkökulmaa liikevoittoon tuoteryhmittäin, jne.
05/12/15 14
”1980-1990”
Liiketoimintatiedon hallinnan ulottuvuudet
05/12/15 15
Organisaation sisäinen
Organisaation ulkoinen TIEDON
KOHDE
Määrällinen
Laadullinen
TIEDON TYYPPI
Organisaation sisäinen
Organisaation ulkoinen
TIEDON LÄHDE
(Hannula 2005; image Athanasios Kastanidis)
”1989-2005”
Tiedon tasot esimerkein avattuna
17
Informaatio Data Tietämys Ymmärrys
A X1 X2
1 1 300
2 0 159
… … …
100 1 501
A X1 X2
1 1 300
2 0 159
… … …
100 1 501
A = asiakasnumero
X1 = sukupuoli (0=nainen, 1=mies)
X2 = kk-ostot
• ”Meillä on tietokannassamme 100 asiakkuutta”
• ”85% asiakkaistamme on naisia”
• ”Keskimääräiset kk-ostot ovat 250€”
• ”Suurin osa asiakkaistamme on naisia, vaikka tuotteemme ovat suunnattu pääasiassa miehille -?!@%!”
Väisänen 2011
Tiedonhallinnan tasot
18
Innovoiva
Erottuva
Arkistoiva
Mallinnus Visualisointi
Ennustaminen Optimointi
Raportointi
”Löytyisikö täältä jotain?”
”Tiedän mitä tarvitsen mutta haluan tehdä sen kilpailijoita paremmin"
”Tätä tarvitaan mutta tällä ei erotuta"
(Informaatiosta kilpailuetua teollisuusyrityksiin, Valli & Ahlgren 2013)
tieto, joka on tallennettava esimerkiksi määräysten perusteella
tieto, jonka avulla voidaan edistää ja parantaa nykyistä liiketoimintaa
tieto, jonka avulla voidaan innovoida uutta liiketoimintaa
Visualisointi, Broad Street, Lontoo 1854 Koleraepidemia, John Snow (vrt. myös Jukka Huhtamäki)
19
Kuva Robin Wilson
Organisaation tietoresurssien tarve
Tiedetään, että tiedetään
05/12/15 20
Ei tiedetä, että ei tiedetä
Ei tiedetä, että tiedetään
Tiedetään, että ei tiedetä
P. Virtanen
Mitä seuraavista keinoista hyödynnät pyrkiessäsi tunnistamaan asiakkaiden kriittiset tietotarpeet? (N=79) (1 = ei lainkaan, 5 = erittäin paljon)
Kunnari 2014 tietojohtamisen erikoistyö
Liiketoimintatiedon hallinnan prosessimalli ja keskeiset tehtävät
05/12/15 22
Tietojohtaminen (Laihonen et al. 2013)
Tiedonlouhinta, knowledge discovery in databases (KDD) ”1990-2007”
05/12/15 23
10-20 % 20-30 % 50-70 % 10-20 % 10-20 % 5-10 %
1. Liiketoiminnan ymmärtäminen
2. Datan ymmärtäminen
3. Datan valmistelu
3. Mallinnus, tiedonlouhinta
5. Arviointi
6. Tulosten julkaisu
(The CRISP-DM Model; Shearer 2000, Aho 2014)
Analytiikka ”2005-2010”
• Deskriptiivinen analytiikka
• Diagnostiivinen analytiikka
• Prediktiivinen analytiikka
• Preskriptiivinen analytiikka
• Päätöksentekoa tukeva analytiikka
05/12/15 24
(Big Data and Analytics, Kaisler et al. 2014)
Arvioi seuraavien analyysimenetelmien ja -työkalujen tärkeyttä omassa työssäsi. (N=78)
(1 = ei lainkaan tärkeä, 5 = erittäin tärkeä) Kunnari 2014 tietojohtamisen erikoistyö
Käytettyjä järjestelmiä (esim. ERP, DW, …)? (N=61)
• ERP (SAP) • DW • ETL • DB • Business warehouse • Office-työkalut • Qlikview • CRM • Cognos
• Data mining • Sharepoint • Hadoop • Nosql • ennakoiva analytiikka • Kaupankäyntijärjestelmät • HR-järjestelmä • Master-data
Kunnari 2014 tietojohtamisen erikoistyö
Kuinka paljon hyödynnät seuraavia menetelmiä tietojärjestelmistä saatavien tietojen analysoinnissa? (N=78)
(1 = ei lainkaan, 5 = erittäin paljon) Kunnari 2014 tietojohtamisen erikoistyö
Big Data ”2010-”
05/12/15 28
Volyymi Vauhti Variaatio Varmuus
Data at Rest Data in Motion Data in Many Forms Data in Doubt
Terabittejä olemassa olevaa dataa
prosessoitavaksi
Striimattua dataa, nopea vasteaika millisekunneista
sekunteihin
Strukturoitua, ei-strukturoitua, ja
semistrukturoitua dataa
Epävarmuutta liittyen datan epätäydellisyyteen,
puutteellisuuteen, tai virheellisyyteen
(Breuker 2014; Laney, Meta Group 2001 (3V:tä))
Big Data transaktioista interaktioihin
05/12/15 29
WEB
BIG DATA
(mukaillen Yli-Pietilä & Backman 2013; Valli & Ahlgren 2013)
ERP
CRM
ostotiedot maksutiedot
segmentointi tarjoustiedot asiakaskohtaamiset tukikontaktit
weblogit
tarjoushistoria A/B testaaminen
Dynaaminen hinnoittelu
Hakukonemarkkinointi ja optimointi
Mainosverkostot
Käyttäytymispohjainen kohdentaminen Dynaamiset funnellit
Sentimentti
Ulkopuolinen demografia
Kuvat ja videot
Puheen muuttaminen tekstiksi
Feedit
Anturi/sensoridata
Tuote / palvelu logit
SMS/MMS
Sosiaaliset verkostot
Sosiaalinen media
Käyttäjien luoma sisältö Mobiilidata
Klikkivirran analyysi
Sijaintidata
Datan lajeja Datan laji Muoto Volyymi Kuvaus Esimerkkejä
Master Data Strukturoitu Matala Yritystason dataa jolla on strategista arvoa organisaatiolle
Asiakas, tuote, toimittaja
Transaktiodata Struktoroitu & semi-strukturoitu
Keskinkertainen - korkea
Transaktiot joita syntyy liiketoiminta-prosesseissa
Tilaukset, ostot, maksut
Referenssidata Struktoroitu & semi-strukturoitu
Matala – keskin-kertainen
Faktoja jotka tukevat organisaation kykyä tehokkaasti prosessoida transaktioita, hallita masterdataa ja tukea päätöksiä
Demografiset kentät
Metadata Strukturoitu Matala ”Dataa datasta” Datan nimi, datan dimensiot tai yksiköt, ym.
Analytiikkadata Strukturoitu Keskinkertainen - korkea
Liiketoimintaoperaatiosta tai transaktioista jalostettua tietoa raportoinnin ja analytiikan tarpeisiin
Data joka sijaitsee tietovarastoissa ja päätöksenteon tukijärjestelmissä
Big Data Struktoroitu, semi-strukturoitu ja ei strukturoitu
Korkea Isoja data settejä, joita on haastava tallentaa, etsiä, jakaa, visualisoida ja analysoida
Ihmisten ja koneiden luomaa dataa sosiaalisesta mediasta, webistä, mobiililaitteista, sensoreista, ym.
05/12/15 30
(Big Data and Analytics, Kaisler et al. 2014)
Kuinka liiketoimintatiedon hallinta on muuttunut massadatan myötä?
Massadata Business analytiikka Liiketoimintatiedon hallinta
Vanhaa • Relaatiotietokannat • SQL • Tietovarastot
• Tiedonlouhinta • Kvantitatiivinen
analyysi • Tilastotiede • Operaatiotutkimus
• Päätöksenteon tukijärjestelmät
• Johdon tietojärjestelmät
• OLAP
Uutta • 4V:tä • Monimuotoista dataa • Vähemmän struktuuria • Big Data teknologiat
(MapReduce, Hadoop, NoSQL, ym.)
• Ei strukturoitua dataa • Dataa monesta
lähteestä • Monimuotoista dataa • Data liikkeessä • Tekstianalytiikka • Visuaalinen analytiikka • Sosiaalisen median
analytiikka
• Helppokäyttöisyys • Visuaalisuus • Dynaamisuus • Kattaa organisaation
prosessit • Koneoppiminen • RTAP
05/12/15 31 (mukailtu Introduction to Big Data, Kaisler et al. 2014)
Lähteitä • Breuker, D. 2014. Towards Model-Driven Engineering for Big Data Analytics – An Exploratory Analysis of Domain-
Specific Languages for Machine Learning. 47th Hawaii International Conference on System Sciences. • Davenport, T. H., Patil, D. J. 2012. Data Scientist. The Sexiest Job of the 21st Century. Harvard Business Review.
October 2012. • Davenport, T. H. 2014. Big Data at Work: Dispelling the Myths, Uncovering the Opportunities. Harvard Business
Review. • Kaisler, S. H., Armour, F. J., Espinosa, A., Money, W. H. Introduction to Big Data. Presented at HICSS-47, January
6, 2014, Waikoloa, Hawai’i. • Kaisler, S. H., Armour, F. J., Espinosa, A., Money, W. H. Big Data and Analytics. Presented at HICSS-47, January
6, 2014, Waikoloa, Hawai’i. • Kaisler, S. H., Armour, F. J., Espinosa, A., Money, W. H. Advanced Analytics – Issues and Challenges in the Global
Environment. 47th Hawaii International Conference on System Sciences. • Hannula, M. 2005. Tieto- ja liiketoiminta. Tekniset välineet ja sovellukset. Luento 23.10.2005. • Laihonen, H., Hannula, M; Helander, N; Ilvonen, I; Jussila, J; Kukko, M; Kärkkäinen, H; Lönnqvist, A; Myllärniemi,
J; Pekkola, S; Virtanen, P; Vuori, V; Yliniemi, T. 2013. Tietojohtaminen. Laitosraportti. Tampereen teknillinen yliopisto. http://dspace.cc.tut.fi/dpub/bitstream/handle/123456789/21534/tietojohtaminen.pdf
• Laney, D. 3D Data Management: Controlling Data Volume, Velocity and Variety. Gartner. Retrieved 6 February 2001.
• Loukides, M. 2010. What is Data Science? O’ Reilly, Cambridge. http://www.kiwidatascience.it/wp-content/uploads/2013/05/What_Is_Data_Science.pdf
• Yli-Pietilä & Backman 2013. Management by analytics. Commercial and technical applications in the Big Data era. Teradata
• Valli, K., Alhgren 2013. Informaatiosta kilpailuetua teollisuusyrityksiin. Teknologiateollisuus. http://www.teknologiateollisuus.fi/file/16270/Informaatiostakilpailuetua.pdf.html
• Vilminko-Heikkinen, R., Pekkola, S. 2013. Establishing an Organization’s Master Data Management Function: A Step-wise Approach. 46th Hawaii International Conference on System Sciences.
05/12/15 32
Tiedolla johtaminen
• Toiminnan kehittämisen eri ulottuvuudet, mihin kaikkeen data ja analytiikka taipuvat
• Verkon ja sosiaalisen median analytiikka esimerkkejä
05/12/15 33
Analytiikan eri muodot
05/12/15 34
Analyysi
Informaatio
Mitä on tapahtumassa?
Miksi se tapahtui? Mitä tulee
todennäköisesti tapahtumaan?
Mitä minun pitäisi tehdä sille?
Prediktiivinen analytiikka Diagnostiivinen analytiikka
Deskriptiivinen analytiikka Preskriptiivinen analytiikka
Lähde: Gartner
Analytiikan muodot yritysten (liike)toiminnassa
05/12/15 35
Raportit
RAPORTOIDAAN MITÄ
tapahtui?
ANALYSOIDAAN MIKSI
se tapahtui?
Ad hoc BI työkalut
ENNUSTETAAN MITÄ TULEE
tapahtumaan?
Ennustavat mallit
OPERATIONALISOIDAAN MITÄ ON
tapahtumassa nyt?
Linkki operatiivisiin järjestelmiin
AKTIVOIDAAN PISTETÄÄN tapahtumaan
Automaattiset linkitykset
STRATEGINEN ÄLYKKYYS
OPERATIONAALINEN ÄLYKKYYS
Lähde: mukaillen Yli-Pietilä & Backman 2013
Louhian Mika Laukkasen näkökulma prediktiiviseen analytiikkaan
• Millä ohjelmistoilla ennakoiva analytiikka onnistuu ja millä ei? – Onnistuu: RapidMiner, SAS, SPSS, MS analysis services, R, AnyLogic.. – Ei onnistu: IBM Cognos, Qlikview, Business Objects, MS reporting services,
Tableau, Oracle OBIEE…
• Vinkkinä ennustemenetelmiä ovat muun muassa seuraavat: – Luokittelumuuttujille - naive bayes, neuroverkko, logistinen regressio,
päätöspuut.. – Jatkuville muuttujille - erilaiset regressioanalyysit, neuroverkot..
• Jos näitä ominaisuuksia ei löydy, niin kyseessä on raportointiin / (päätöksentekoa tukevaan) visualisointiin tarkoitettu ohjelmisto
• Milloin kannattaisi investoida prediktiiviseen analytiikkaan? Silloin kun sinulla on edellytyksiä hyödyntää sen tuloksia, esim.
• Voit toteuttaa ennakoivan huollon ennen laitteen vikaantumista • Voit torjua asiakaspoistumaa tai ostoskorin hylkäämistä aktiivisilla toimenpiteillä • Kykenet kohdistettuun myyntiin ja markkinointiin
05/12/15 39 Muokattu lähteestä: [Louhia]
Prediktiivinen analytiika, esim. päätöspuut • Yhdistetään regressio ja klusterointi
– Jaetaan havaintoja osajoukkoihin (klusterointi) tietyn ennustettavan muuttujan mukaan (regressio)
• Käytetään usein asiakkaiden luokitteluun, kun tiedetään, minkä ominaisuuden mukaan halutaan luokitella – Puhelinoperaattorilla tiedossa, että 70 % asiakkaista maksaa
laskunsa myöhässä, ja nyt halutaan tietää, keitä nämä ihmiset oikein ovat, ja miten voidaan ennustaa, maksaako uusi asiakas mahdollisesti laskunsa ajoissa
– Asiakastiedoista valitaan ne muuttujat, joiden arvellaan olevan keskeisessä roolissa. Oletetaan, että seuraavat muuttujat voisivat vaikuttaa siihen, maksaako asiakas laskunsa ajoissa (0= ei maksa ajoissa, 1= maksaa ajoissa)
1. Keskimääräinen puhelimen käyttöaste (min/kk) 2. Ikä (1 = alle, 30v. 2 = yli 30v.) 3. Siviilisääty (1 = naimaton, 2 = naimisissa)
05/12/15 40
05/12/15 41
• Puhelinoperaattoriesimerkki jatkuu… – Alussa meillä on kaikki havainnot (10 000) yhdessä, joista
siis 3 000 maksaa laskunsa ajoissa
– Puumalli jaottelee kaikki 10 000 havaintoa parhaiten kohdemuuttujaa (laskun ajoissa maksu) luokittelevalla muuttujalla
1: 30% 3000
0: 70% 7000
Yht. 100% 10000
1: 30% 3000
0: 70% 7000
Yht. 100% 10000
1: 11.7% 460
0: 88.3% 3480
Yht. 100% 3940
1: 41.9% 2540
0: 58.1% 3520
Yht. 100% 6060
Ikä 2 1
Ikä (1 = alle, 30v. 2 = yli 30v.)
Päätöspuut
1 = maksaa ajoissa 0 = ei maksa ajoissa
1 = maksaa ajoissa 0 = ei maksa ajoissa
05/12/15 42
1: 30% 3000
0: 70% 7000
Yht. 100% 10000
1: 11.7% 460
0: 88.3% 3480
Yht. 100% 3940
1: 41.9% 2540
0: 58.1% 3520
Yht. 100% 6060 2 1
1: 67.1% 490
0: 32.9% 240
Yht. 100% 730
1: 38.5% 2050
0: 61.5% 3280
Yht. 100% 5330
1: 9.3% 310
0: 90.7% 3030
Yht. 100% 3340
1: 25.0% 150
0: 75.0% 450
Yht. 100% 600
Puh. käyttö
Ikä
Siviili-sääty
1 2 1 2
• Puhelinoperaattoriesimerkki jatkuu… • Lopullinen malli voi näyttää tältä
Siviilisääty (1 = naimaton, 2 = naimisissa)
Ikä (1 = alle, 30v. 2 = yli 30v.)
Keskimääräinen puhelimen käyttöaste (1 = <300, 2 = >300 )
Päätöspuut
1 = maksaa ajoissa 0 = ei maksa ajoissa
1 = maksaa ajoissa 0 = ei maksa ajoissa
1 = maksaa ajoissa 0 = ei maksa ajoissa
1 = maksaa ajoissa 0 = ei maksa ajoissa
Päätöspuut
• Mitä saatiin selville? – 91 % alle kolmekymppisistä naimattomista ei
maksa laskuaan ajoissa – Ainoa ryhmä, joka maksaa laskunsa
ennemmin ajoissa kuin myöhässä on yli kolmekymppiset alle 300min/kk puhujat
– Ikä on silti tärkein kriteeri
05/12/15 43
Asiakaspoistuman korjaamiseen telekommunikaatioalalla opas PwC:ltä: Curing Customer Churn
Preskriptiivinen analytiikka
• Suosittelujärjestelmät, esim. Amazonin automaattiset tuotesuositukset
• Vakutuusalalla esimerkiksi ajoneuvovakuutusten hinnoittelussa pyritään tunnistamaan tekijät, jotka ennustavat, mitä tietylle kuljettaja-ajoneuvo-yhdistelmälle tulee ensi vuonna tapahtumaan. Käytännössä jokaiselle asiakkaalle tulee eri hinta. (Timo Ahvonen, Vakuutusyhtiö Fennia)
05/12/15 44
CRISP-DM referenssimalli CRISP-DM referenssimallin tehtävät
Liiketoiminnan ymmärtäminen
Datan ymmärtäminen
Datan valmistelu
Mallinnus, tiedonlouhinta
Arviointi Tulosten julkaisu
Määritä liiketoiminnan tavoitteet Tee tilannearvio Määritä tiedonlouhinnan tavoitteet Laadi projektisuunnitelma
Kerää alustava data Kuvaa data Tutki dataa Varmista datan laatu
Datasetin kuvaus Datan valinta Datan siivous Datan rakentaminen Datan integrointi Datan formatointi
Valitse mallinnus menetelmä Suunnittele koe Rakenna malli Arvioi mallia
Arvioi tuloksia Arvioi ja varmista tiedonlouhintaprosessin laatu Määrittele seuraavat stepit
Suunnittele mallin julkaisu (esim. verkkosivuna) asiakkaalle Suunnittele mallin ylläpito Laadi loppuraportti Arvioi projekti
05/12/15 46
Lähde: The CRISP-DM Model (Shearer 2000), ks. myös CRISP-DM 1.0 Step-by-step data mining guide: https://the-modeling-agency.com/crisp-dm.pdf
Analytiikkasykli 1. Määrittele liiketoimintaongelma tai kysymys johon haluat vastauksen 2. Tunnista, kerää, siivoa ja valmistele data kysymyksen vastausta varten 3. Deskriptiivinen analytiikka
– Perehdy dataan (descriptives, correlations, factor analysis, cluster analysis, ym.)
– Luo mahdollisia hypoteeseja (data mining ym.) 4. Prediktiivinen analytiikka
– Muodosta hypoteesit – Tunnista soveltuvimmat analytiikkamenetelmät – Kehitä analyyttiset mallit (multivariate regression, logistic regression,
forecasting, non-linear models, decision trees, ym.) – Aja mallit ja luo ennusteet
5. Preskriptiivinen analytiikka – Kehitä päätös- ja optimointimallit – Hyödynnä koneoppimista päätöksien ohjelmointiin
6. Kirjoita johtopäätökset ja suositukset
05/12/15 47
Lähde: Introduction to Big Data (Kaisler et al. 2014)
Analytiikkaan pohjautuva päätöksenteko: 6 vaihetta
48/6
Liiketoiminta- ongelman tai –kysymyksen tunnistaminen
Aikaisempien löydöksien läpikäynti
1. 2. 3. 4. 5. 6.
Ratkaisun mallintaminen ja muuttujien
valinta
Datan kerääminen
Datan analysointi
Tuloksien esittäminen
ja niiden pohjalta
toimiminen
Kun käytetään big dataa päätöksenteossa, liiketoimintaihmisten (”non-quants”) pitäisi keskittyä prosessin ensimmäiseen ja viimeiseen vaiheeseen. Numeroihmiset tyypillisesti hoitaa yksityiskohdat välissä, mutta (viisaat) liiketoimintaihmiset esittävät paljon kysymyksiä matkan varrella.
Analytics-Based Decision Making – in Six Key Steps (Daveport, 2013) Analytiikka liiketoiminnassa
Tiedonlouhinnan menetelmiä
05/12/15 49
Suunnattu
Ei-suunnattu
Ad Hoc Strateginen suunnittelu
Ennustaminen Segmentointi
Klusterointi
Visualisointi
OLAP
Neuroverkot
Regressio
Lähde: (Kudyba & Hoptroff, 2001; Väisänen, 2011])
Klusterointi • Kuvailevaa tiedonlouhintaa / deskriptiivistä analytiikkaa • Tavoitteena klusteroida (luokitella) datamatriisin
havainnot siten, että jokaisen klusterin sisällä olevat havainnot ovat mahdollisimman homogeenisia, ja jokainen klusteri mahdollisimman heterogeeninen muiden klusterien kanssa
• Yleisiä käyttötarkoituksia – asiakkaiden segmentointi – myymälöiden ryhmittely menestyksen mukaan esimerkiksi
kolmeen ryhmään: menestyjiin, keskinkertaisiin ja huonoihin (Niemijärvi 2013)
05/12/15 50
Esimerkki hierarkkisesta klusteroinnista
05/12/15 51
Klusterien lukumäärä
Klusterit
5 (1) (2) (3) (4) (5)
4 (1,2) (3) (4) (5)
3 (1,2) (3,4) (5)
2 (1,2) (3,4,5)
1 (1,2,3,4,5)
1 2 3 4 5
Lähde: (Väisänen, 2011)
Assosiaatiosäännöt • Prediktiivistä analytiikkaa • Tarkoituksena löytää havaintoja, jotka esiintyvät yhdessä
useammin kuin muut • Usein käytettyjä sovelluksia
– Ostoskorianalyysi, engl. market basket analysis (MBA), ks. Esim. (Niemijärvi 2014); (Ollikainen 2013)
– Klikkivirran analyysi, engl. web clickstream analysis (WCA) (Paananen 2006)
• Normaaleista tietokannoista poiketen assosiaatiosääntöjä tarkastellaan transaktio- ei asiakaspohjaisesti – MBA:ssa yksi datamatriisin rivi vastaa yhtä kassalla käyntiä – WCA:ssa yksi datamatriisin rivi vastaa yhtä vierailua
verkkosivuille
05/12/15 52
Assosiaatiosäännöt • Assosiaatiosääntö on todennäköisyyteen perustuva
lausuma tiettyjen tapahtumien samanaikaisesta tapahtumisesta: • JOS A=1 ja B=1, NIIN (tietyllä todennäköisyydellä p) C=1 • Todennäköisyys, että ostetaan tavara X, kun tavara Y on ostettu:
X → Y • Esim. (Maito & Tee) → Keksejä (assosioaatiosääntö) • Säännön oikealla puolella yleensä vain yksi tekijä • Säännön vasemmalla puolella harvoin kolmea tekijää enempää (3.
asteen sääntö) • Todennäköisyydet tavaroiden ostamiselle saadaan jakamalla
ostotapahtumien esiintymistiheys kaikkien ostotapahtumien lukumäärällä
05/12/15 53
Lähde: (Väisänen, 2011)
• Tuki (”Support”) {A → B} = P(A ja B) – Todennäköisyys, että tuotteet A ja B löytyvät satunnaisesta ostoskorista. Jos 40%
ostoksista sisältää sekä maitoa että leipää, tuki {maitoa→ leipää} = 0.4 • Symmetrinen, eli tuki {leipää → juustoa} = tuki {juustoa → leipää} • Jos tuki kovin alhainen, ei säännöllä välttämättä ole kovin suurta käytännön
merkitystä
• Luottamus (”Confidence”) {A → B} = tuki {A → B} / tuki {A} – Todennäköisyys, että satunnaisesta ostoskorista löytyy tuote B, jos siellä on tuote A – Jos 80 % ostoksista sisältää leipää, mutta vain 40 % sisältää sekä leipää että maitoa,
luottamus {leipää → maitoa} = 0.4 / 0.8 = 0.5 – Luku ei välttämättä ole symmetrinen
• Noste (”Lift”) {A → B} = luottamus {A → B} / tuki {B} – Normalisoitu luku, joka ilmaisee, kuinka paljon tuotteen A ostaminen vaikuttaa tuotteen
B ostamiseen – Jos luottamus {leipää → maitoa} = 0.5 ja 40 % ostoksista sisältää maitoa, noste {leipää → maitoa} = 0.5 / 0.4 = 1.25
– Eli henkilöt, jotka ostelevat leipää, ostelevat 1.25-kertaisesti maitoa verrattuna koko porukkaan
05/12/15 54
Assosiaatiosäännöt
Lähde: (Väisänen, 2011)
Regressio • Lineaarinen regressio auttaa ennustamaan
toisen muuttujan arvoja toisen muuttujan arvoilla • Logistisen regression avulla voidaan selittää/
ennustaa binääristä muuttujaa • Kuinka mallinnuksen avulla ennustetaan
asiakkaan ostotodennäköisyys? (esim.Ollikainen 2014)
05/12/15 55
BI-prosessimallit 1/5, tiedon jalostumisprosessi
P. Virtanen 57 Hannula & Pirttimäki 2005
Aiempi tieto
Aiempi tietämys
Informaatio (maksaa…)
Data (0, 0, 1, 0, 1, 0, ..)
Tieto (hintakehitys…)
Tietämys (kannattaa…) Jalostumisprosessi
BI-prosessimallit 2/5
P. Virtanen 58
Tietotarpeet Tiedon organisointi ja
varastointi
Tiedon hankinta
Tietotuotteet ml. -palvelut
Tiedon jakaminen Tiedon käyttö
Toiminnan mukauttaminen
Choo 2001
BI-prosessimallit 3/5
P. Virtanen 59
2. Tiedon
tunnistus
1. Tietotarve ja määrittely
3. Työkalujen
valinta
4. Käyttöön-
otto
5. Käyttö
TOTEUTUS
5. Hyötykäyttö
6. Analysointi ja seuranta
9. Muutokset
toiminnassa
8. Päätöksen-
teko
7. Vaihto- ehtojen muotoilu
KÄYTTÖ
Hannula 2011
BI-prosessimallit 4/5
P. Virtanen 60 Chaudhuri & Dayal, 1997
Valvonta ja hallinto
Metadata
ETL, Extract Transform Load (refresh)
DWH
Datamartit
Datan lähteet
Operatiiviset tietokannat
Ulkoiset lähteet
Kyselyt ja raportit
Analyysi
OLAP palvelimet
toimittaa
Tiedon louhinta
DWH
Loppukäyttö
BI-prosessimallit 5/5
P. Virtanen 61 Myllärniemi et al. 2009
tietomassa ymmärrys ja toiminta
tiedon lähteiden määrittely ja etsintä
prosessoitu tieto tietotuote
5. Tiedon hyödyntäminen ja palaute
1. Tietotarpeiden määrittely
3. Tiedon prosessointi
2. Tiedon kerääminen
4. Tiedon jakaminen
BI-prosessimalli käytännössä
P. Virtanen 62
Potilasvirrat Potilasvirrat Potilasvirrat
Henkilöstö
Potilasdata
Resurssit
Tilat
Laitteet
Materiaalit
Aineeton po
Mahdollistaa
Tuottaa
Syötteenä
Muuntaa
Päätöksenteon tukena
Potilasvirtojen hallinnan
tehostaminen
Raportointi
Mallinnus ja simulointi
Potilas- informaation
käyttö
Väihinpää et al. 2008
Kulttuurin luominen • 5 hyvää käytäntöä analytiikkakulttuurin
luomiseksi: 1. Tunnista (liike-)toimintaongelmat ja alueet, jotka
hyötyisivät analytiikkatyökaluista ja/tai –strategiasta 2. Johdon asetettavat selkeät odotukset (ja insentiivit) 3. Aloita pienestä ja rakenna iteratiivisesti à kevyet
lähdöt 4. Rakenna/tue/rekrytoi asian puolestapuhujia
(champions) ja juhli pieniä voittoja 5. Tunnusta että epäonnistumiset ovat hyväksyttävä
tapa oppia
05/12/15 63
Helms 2015. Five Myths and Five Ways to Create an Analytics Culture. http://www.businessofgovernment.org/blog/business-government/five-myths-and-five-ways-create-analytics-culture
Mitä voidaan oppia parhailta?
05/12/15 64
Raportti saatavissa: https://hbr.org/resources/pdfs/tools/17568_HBR_SAS
%20Report_webview.pdf
Analytiikkajohtajat käyttävät oikeanlaisia mittareita
05/12/15 65
Lähde: Harvard Business Review 2012. The Evolution of Decision Making: How Leading Organizations Are Adopting a Data-Driven Culture
Mitkä ovat analytiikkajohtajien keskeisiä piirteitä? Ø Ylin johto edellyttää analytiikan käyttöä ja hyvin
määriteltyjä päätöksentekoprosesseja Ø Analytiikkajohtajat käyttävät oikeanlaisia mittareita Ø Analytiikkajohtajat korostavat päätöksenteon
läpinäkyvyyttä Ø Analytiikkajohtajat jakavat KPIt läpi organisaation Ø Analytiikkajohtajat panostavat koulutukseen Ø Analytiikkajohtajilla on analytiikka-ammattilaisia
organisaation eri tasoilla ja funktioissa
05/12/15 66
Lähde: Harvard Business Review 2012. The Evolution of Decision Making: How Leading Organizations Are Adopting a Data-Driven Culture