tutustuminen data-analytiikan ja big datan maailmaan

66
Tutustuminen data-analytiikan ja Big Datan maailmaan Pasi Hellsten & Jari Jussila @PasiHellsten & @jjussila @EdutechTUT # Data4BizTraining 26.11.2015

Upload: jari-jussila

Post on 09-Jan-2017

1.501 views

Category:

Business


7 download

TRANSCRIPT

Tutustuminen data-analytiikan ja

Big Datan maailmaan

Pasi Hellsten & Jari Jussila @PasiHellsten & @jjussila

@EdutechTUT #Data4BizTraining

26.11.2015

”Suomen talouspolitiikkaa tehdään pahasti vanhentuneiden tietojen varassa, käytännössä sokkona.”

Kansanedustaja Jyrki J. J. Kasvi, TkT, Tieken tutkimus- ja kehitysjohtaja, ‘Tietoasiantuntija’-lehti 4/2015 (02.11.2015) https://t.co/piwBtps9Zn

”90 % maailman datasta on tuotettu kahden viime vuoden aikana*. Mutta pystymmekö me hyödyntämään kaikkea tätä dataa, muuttamaan sen informaatioksi, tiedoksi ja päätöksiksi?” ”..suuri osa meidän tietovarannoistamme on niin heikkolaatuisia, ettei niitä voi käyttää mihinkään muuhun kuin siihen tarkoitukseen, jota varten tiedot on alun perin kerätty.” ”Vanhoja tietojärjestelmiä ei ole suunniteltu big datan tarpeisiin, minkä seurauksena tietoaineistot ovat epäyhdenmukaisia ja vanhentuneita, ja määritelmät ja metadata ovat puutteellisia.”

* vrt. Mooren laki, 1965 (1975)

Liiketoimintatiedonhallinta

•  Liiketoimintatiedon hallinnalla tarkoitetaan toimintaa, jossa –  tietoisesti kerätään omaan liiketoimintaan ja liiketoimintaympäristöön

liittyvää tietoa, –  tulkitaan ja –  analysoidaan sitä, –  arvioidaan tiedon merkitystä ja –  käytetään analysoitua tietoa päätöksenteon tukena.

(Hannula 2003)

05/12/15 3

Kurssin kannalta keskeisiä termejä ja niiden väliset suhteet

P. Virtanen 4

Ulkoinen

Sisäinen

Tiedon luonne Kilpailutiedon

hallinta

Kilpailijatiedon hallinta

Laaja Kapea Tiedon keräämisen näkökulma

Pirttimäki 2007

Liiketoimintatiedon hallinta

Business (and competitive) intelligence, B(C)I

Competitive intelligence, CI

Competitor intelligence

Lähtökohtaisesti..

-  Ei ole olemassa kahta samanlaista organisaatiota. à  päätöksenteon tueksi organisaatiossa tarvitaan aina erilaista tietoa. -  Päätöksenteon nopeus kilpailuedun tuottajana on korostunut yritysten

nykyisessä toimintaympäristössä (tietotalous) -  Saatavilla olevan tiedon määrä on suuri, mutta sen tyyppi ja laatu

vaihtelevat -  Kaikkea tarpeellista tietoa ei kuitenkaan ole saatavilla (..helposti/halvalla/..) -  Kaikki tieto ei ole tarpeellista (infoähky) -  Haasteena on, miten löytää oikea tieto, analysoida ja hyödyntää sitä

Tiedolla johtamista ja tiedon johtamista

•  Tietojohtaminen voidaan jakaa tiedon johtamiseen ja tiedolla johtamiseen:

P. Virtanen 6

•  Tiedon johtaminen •  organisaatioiden tietovirtojen ohjaus •  tietotuotteiden kehittäminen •  tietojärjestelmien hyödyntäminen •  jne.

•  Tiedolla johtaminen

•  strateginen johtaminen ja arvonluonti •  suorituksen johtaminen ja tehokkaampi organisaatio •  jne.

Esitetty jako ei ole ehdoton, vaan pikemminkin tarkastelutapa. Vrt. kolikon kaksi puolta.

•  Liiketoimintatiedon hallinta käytännön tasolla –  Ilmiö pitää ymmärtää –  Tilaajan/päätöksentekijän toimintaa pitää ymmärtää (myös

oikea tahtotila) –  Sitten käytetään työkaluja

05/12/15 7

05/12/15 8

TOP Business Intelligence and Analytics Platforms

Lähde: Gartner 2015 http://www.gartner.com/technology/reprints.do?id=1-2ACLP1P&ct=150220&st=sb

05/12/15 9

TOP Advanced Analytics Platforms

Lähde: Gartner 2015 http://www.gartner.com/technology/reprints.do?id=1-2AHPOU0&ct=150225&st=sb

Johdanto

•  Termit haltuun ja uudet mahdollisuudet –  Big Datan ja analytiikkamaailman käsitteiden läpikäyminen

•  Tiedolla johtaminen –  Toiminnan kehittämisen eri ulottuvuudet, mihin kaikkeen data ja

analytiikka taipuvat •  Kulttuurin luominen ja organisointi

05/12/15 10

Datan käyttö ja analysointi; terminologiaa Termi Ajanjakso Kuvaus

Päätöksenteon tuki [Decision Support Systems]

1970-1985 Hyödynnetään data-analyysiä tukemaan päätöksentekoa

Johdon tukijärjestelmät [Executive Support/Information Systems]

1980-1990 Fokus data-analyysissä ylemmän johdon tueksi

Kuutioiden mallinnus [Online Analytical Processing, OLAP]

1990-2000 Ohjelmistoja multidimensionaalisten datataulujen analysointiin

Liiketoimintatiedon hallinta [Business Intelligence]

1989-2005 Työkaluja tukemaan datalähtöistä päätöksentekoa, painopiste raportoinnissa

Analytiikka [Analytics]

2005-2010 Fokus tilastollisessa ja matemaattisessa analyysissä päätöksenteon tueksi

Massadata [Big Data]

2010- Fokus erittäin isossa, monimuotoisessa ja nopeasti liikkuvassa datassa

11 (Big Data at Work, Davenport, 2014)

Päätöksenteon tukijärjestelmät ja johdon tietojärjestelmät ”1970-1990” •  Säästetään kustannuksia, optimoidaan tiettyä toimintaa,..

•  Tuotannonohjaus (Material Requirements Planning) •  Laajempi tuotannon ohjaus (Manufacturing Resources Planning, MRP II) •  Toiminnanohjaus (Enterprise Resource Planning) •  Erilaiset toimintokohtaiset järjestelmät

à Raportteja ja katsauksia

05/12/15 12

Liiketoiminnan odotukset IT:lle (Tallon & Kraemer 2007)

Kuutioiden mallinnus - OLAP (online analytical processing)

05/12/15 13

Tuote

Aika

Markkinat

image Athanasios Kastanidis

”1980-1990” Mm. ERP

OLAP-kuutioiden perusidea

•  OLAP-tekniikka poikkeaa perinteisestä tilastoinnista ja raportoinnista siten, että käyttäjä voi vaihtaa näkökulmaa tiedontarpeensa mukaan.

•  Esimerkiksi analyytikko voi lähteä 1) tarkastelemaan tuoteryhmien myyntiä maittain, 2) filtteröidä aineisto tiettyihin maihin 3) joista löytää jotain esimerkiksi myyntitavoitteista poikkeavaa. Tämän jälkeen 4) porautua esimerkiksi myyntiin tietyissä kaupungeissa. 5) Vaihtaa näkökulmaa liikevoittoon tuoteryhmittäin, jne.

05/12/15 14

”1980-1990”

Liiketoimintatiedon hallinnan ulottuvuudet

05/12/15 15

Organisaation sisäinen

Organisaation ulkoinen TIEDON

KOHDE

Määrällinen

Laadullinen

TIEDON TYYPPI

Organisaation sisäinen

Organisaation ulkoinen

TIEDON LÄHDE

(Hannula 2005; image Athanasios Kastanidis)

”1989-2005”

Tiedon arvoketju liiketoimintatiedon hallinnan näkökulmasta

05/12/15 16

(Myllärniemi 2012)

Tiedon tasot esimerkein avattuna

17

Informaatio Data Tietämys Ymmärrys

A X1 X2

1 1 300

2 0 159

… … …

100 1 501

A X1 X2

1 1 300

2 0 159

… … …

100 1 501

A = asiakasnumero

X1 = sukupuoli (0=nainen, 1=mies)

X2 = kk-ostot

• ”Meillä on tietokannassamme 100 asiakkuutta”

• ”85% asiakkaistamme on naisia”

• ”Keskimääräiset kk-ostot ovat 250€”

• ”Suurin osa asiakkaistamme on naisia, vaikka tuotteemme ovat suunnattu pääasiassa miehille -?!@%!”

Väisänen 2011

Tiedonhallinnan tasot

18

Innovoiva

Erottuva

Arkistoiva

Mallinnus Visualisointi

Ennustaminen Optimointi

Raportointi

”Löytyisikö täältä jotain?”

”Tiedän mitä tarvitsen mutta haluan tehdä sen kilpailijoita paremmin"

”Tätä tarvitaan mutta tällä ei erotuta"

(Informaatiosta kilpailuetua teollisuusyrityksiin, Valli & Ahlgren 2013)

tieto, joka on tallennettava esimerkiksi määräysten perusteella

tieto, jonka avulla voidaan edistää ja parantaa nykyistä liiketoimintaa

tieto, jonka avulla voidaan innovoida uutta liiketoimintaa

Visualisointi, Broad Street, Lontoo 1854 Koleraepidemia, John Snow (vrt. myös Jukka Huhtamäki)

19

Kuva Robin Wilson

Organisaation tietoresurssien tarve

Tiedetään, että tiedetään

05/12/15 20

Ei tiedetä, että ei tiedetä

Ei tiedetä, että tiedetään

Tiedetään, että ei tiedetä

P. Virtanen

Mitä seuraavista keinoista hyödynnät pyrkiessäsi tunnistamaan asiakkaiden kriittiset tietotarpeet? (N=79) (1 = ei lainkaan, 5 = erittäin paljon)

Kunnari 2014 tietojohtamisen erikoistyö

Liiketoimintatiedon hallinnan prosessimalli ja keskeiset tehtävät

05/12/15 22

Tietojohtaminen (Laihonen et al. 2013)

Tiedonlouhinta, knowledge discovery in databases (KDD) ”1990-2007”

05/12/15 23

10-20 % 20-30 % 50-70 % 10-20 % 10-20 % 5-10 %

1. Liiketoiminnan ymmärtäminen

2. Datan ymmärtäminen

3. Datan valmistelu

3. Mallinnus, tiedonlouhinta

5. Arviointi

6. Tulosten julkaisu

(The CRISP-DM Model; Shearer 2000, Aho 2014)

Analytiikka ”2005-2010”

•  Deskriptiivinen analytiikka

•  Diagnostiivinen analytiikka

•  Prediktiivinen analytiikka

•  Preskriptiivinen analytiikka

•  Päätöksentekoa tukeva analytiikka

05/12/15 24

(Big Data and Analytics, Kaisler et al. 2014)

Arvioi seuraavien analyysimenetelmien ja -työkalujen tärkeyttä omassa työssäsi. (N=78)

(1 = ei lainkaan tärkeä, 5 = erittäin tärkeä) Kunnari 2014 tietojohtamisen erikoistyö

Käytettyjä järjestelmiä (esim. ERP, DW, …)? (N=61)

•  ERP (SAP) •  DW •  ETL •  DB •  Business warehouse •  Office-työkalut •  Qlikview •  CRM •  Cognos

•  Data mining •  Sharepoint •  Hadoop •  Nosql •  ennakoiva analytiikka •  Kaupankäyntijärjestelmät •  HR-järjestelmä •  Master-data

Kunnari 2014 tietojohtamisen erikoistyö

Kuinka paljon hyödynnät seuraavia menetelmiä tietojärjestelmistä saatavien tietojen analysoinnissa? (N=78)

(1 = ei lainkaan, 5 = erittäin paljon) Kunnari 2014 tietojohtamisen erikoistyö

Big Data ”2010-”

05/12/15 28

Volyymi Vauhti Variaatio Varmuus

Data at Rest Data in Motion Data in Many Forms Data in Doubt

Terabittejä olemassa olevaa dataa

prosessoitavaksi

Striimattua dataa, nopea vasteaika millisekunneista

sekunteihin

Strukturoitua, ei-strukturoitua, ja

semistrukturoitua dataa

Epävarmuutta liittyen datan epätäydellisyyteen,

puutteellisuuteen, tai virheellisyyteen

(Breuker 2014; Laney, Meta Group 2001 (3V:tä))

Big Data transaktioista interaktioihin

05/12/15 29

WEB

BIG DATA

(mukaillen Yli-Pietilä & Backman 2013; Valli & Ahlgren 2013)

ERP

CRM

ostotiedot maksutiedot

segmentointi tarjoustiedot asiakaskohtaamiset tukikontaktit

weblogit

tarjoushistoria A/B testaaminen

Dynaaminen hinnoittelu

Hakukonemarkkinointi ja optimointi

Mainosverkostot

Käyttäytymispohjainen kohdentaminen Dynaamiset funnellit

Sentimentti

Ulkopuolinen demografia

Kuvat ja videot

Puheen muuttaminen tekstiksi

Feedit

Anturi/sensoridata

Tuote / palvelu logit

SMS/MMS

Sosiaaliset verkostot

Sosiaalinen media

Käyttäjien luoma sisältö Mobiilidata

Klikkivirran analyysi

Sijaintidata

Datan lajeja Datan laji Muoto Volyymi Kuvaus Esimerkkejä

Master Data Strukturoitu Matala Yritystason dataa jolla on strategista arvoa organisaatiolle

Asiakas, tuote, toimittaja

Transaktiodata Struktoroitu & semi-strukturoitu

Keskinkertainen - korkea

Transaktiot joita syntyy liiketoiminta-prosesseissa

Tilaukset, ostot, maksut

Referenssidata Struktoroitu & semi-strukturoitu

Matala – keskin-kertainen

Faktoja jotka tukevat organisaation kykyä tehokkaasti prosessoida transaktioita, hallita masterdataa ja tukea päätöksiä

Demografiset kentät

Metadata Strukturoitu Matala ”Dataa datasta” Datan nimi, datan dimensiot tai yksiköt, ym.

Analytiikkadata Strukturoitu Keskinkertainen - korkea

Liiketoimintaoperaatiosta tai transaktioista jalostettua tietoa raportoinnin ja analytiikan tarpeisiin

Data joka sijaitsee tietovarastoissa ja päätöksenteon tukijärjestelmissä

Big Data Struktoroitu, semi-strukturoitu ja ei strukturoitu

Korkea Isoja data settejä, joita on haastava tallentaa, etsiä, jakaa, visualisoida ja analysoida

Ihmisten ja koneiden luomaa dataa sosiaalisesta mediasta, webistä, mobiililaitteista, sensoreista, ym.

05/12/15 30

(Big Data and Analytics, Kaisler et al. 2014)

Kuinka liiketoimintatiedon hallinta on muuttunut massadatan myötä?

Massadata Business analytiikka Liiketoimintatiedon hallinta

Vanhaa •  Relaatiotietokannat •  SQL •  Tietovarastot

•  Tiedonlouhinta •  Kvantitatiivinen

analyysi •  Tilastotiede •  Operaatiotutkimus

•  Päätöksenteon tukijärjestelmät

•  Johdon tietojärjestelmät

•  OLAP

Uutta •  4V:tä •  Monimuotoista dataa •  Vähemmän struktuuria •  Big Data teknologiat

(MapReduce, Hadoop, NoSQL, ym.)

•  Ei strukturoitua dataa •  Dataa monesta

lähteestä •  Monimuotoista dataa •  Data liikkeessä •  Tekstianalytiikka •  Visuaalinen analytiikka •  Sosiaalisen median

analytiikka

•  Helppokäyttöisyys •  Visuaalisuus •  Dynaamisuus •  Kattaa organisaation

prosessit •  Koneoppiminen •  RTAP

05/12/15 31 (mukailtu Introduction to Big Data, Kaisler et al. 2014)

Lähteitä •  Breuker, D. 2014. Towards Model-Driven Engineering for Big Data Analytics – An Exploratory Analysis of Domain-

Specific Languages for Machine Learning. 47th Hawaii International Conference on System Sciences. •  Davenport, T. H., Patil, D. J. 2012. Data Scientist. The Sexiest Job of the 21st Century. Harvard Business Review.

October 2012. •  Davenport, T. H. 2014. Big Data at Work: Dispelling the Myths, Uncovering the Opportunities. Harvard Business

Review. •  Kaisler, S. H., Armour, F. J., Espinosa, A., Money, W. H. Introduction to Big Data. Presented at HICSS-47, January

6, 2014, Waikoloa, Hawai’i. •  Kaisler, S. H., Armour, F. J., Espinosa, A., Money, W. H. Big Data and Analytics. Presented at HICSS-47, January

6, 2014, Waikoloa, Hawai’i. •  Kaisler, S. H., Armour, F. J., Espinosa, A., Money, W. H. Advanced Analytics – Issues and Challenges in the Global

Environment. 47th Hawaii International Conference on System Sciences. •  Hannula, M. 2005. Tieto- ja liiketoiminta. Tekniset välineet ja sovellukset. Luento 23.10.2005. •  Laihonen, H., Hannula, M; Helander, N; Ilvonen, I; Jussila, J; Kukko, M; Kärkkäinen, H; Lönnqvist, A; Myllärniemi,

J; Pekkola, S; Virtanen, P; Vuori, V; Yliniemi, T. 2013. Tietojohtaminen. Laitosraportti. Tampereen teknillinen yliopisto. http://dspace.cc.tut.fi/dpub/bitstream/handle/123456789/21534/tietojohtaminen.pdf

•  Laney, D. 3D Data Management: Controlling Data Volume, Velocity and Variety. Gartner. Retrieved 6 February 2001.

•  Loukides, M. 2010. What is Data Science? O’ Reilly, Cambridge. http://www.kiwidatascience.it/wp-content/uploads/2013/05/What_Is_Data_Science.pdf

•  Yli-Pietilä & Backman 2013. Management by analytics. Commercial and technical applications in the Big Data era. Teradata

•  Valli, K., Alhgren 2013. Informaatiosta kilpailuetua teollisuusyrityksiin. Teknologiateollisuus. http://www.teknologiateollisuus.fi/file/16270/Informaatiostakilpailuetua.pdf.html

•  Vilminko-Heikkinen, R., Pekkola, S. 2013. Establishing an Organization’s Master Data Management Function: A Step-wise Approach. 46th Hawaii International Conference on System Sciences.

05/12/15 32

Tiedolla johtaminen

•  Toiminnan kehittämisen eri ulottuvuudet, mihin kaikkeen data ja analytiikka taipuvat

•  Verkon ja sosiaalisen median analytiikka esimerkkejä

05/12/15 33

Analytiikan eri muodot

05/12/15 34

Analyysi

Informaatio

Mitä on tapahtumassa?

Miksi se tapahtui? Mitä tulee

todennäköisesti tapahtumaan?

Mitä minun pitäisi tehdä sille?

Prediktiivinen analytiikka Diagnostiivinen analytiikka

Deskriptiivinen analytiikka Preskriptiivinen analytiikka

Lähde: Gartner

Analytiikan muodot yritysten (liike)toiminnassa

05/12/15 35

Raportit

RAPORTOIDAAN MITÄ

tapahtui?

ANALYSOIDAAN MIKSI

se tapahtui?

Ad hoc BI työkalut

ENNUSTETAAN MITÄ TULEE

tapahtumaan?

Ennustavat mallit

OPERATIONALISOIDAAN MITÄ ON

tapahtumassa nyt?

Linkki operatiivisiin järjestelmiin

AKTIVOIDAAN PISTETÄÄN tapahtumaan

Automaattiset linkitykset

STRATEGINEN ÄLYKKYYS

OPERATIONAALINEN ÄLYKKYYS

Lähde: mukaillen Yli-Pietilä & Backman 2013

Deskriptiivinen analytiikka

05/12/15 36 http://www.tableau.com/solutions/data-discovery

Diagnostiivinen analytiikka

05/12/15 37

Lähde: McDaniel 2009

Mitä on tapahtunut?

Miksi?

Prediktiivinen analytiikka

05/12/15 38

Predicting the future: IBM:n 4 osainen sarja

Louhian Mika Laukkasen näkökulma prediktiiviseen analytiikkaan

•  Millä ohjelmistoilla ennakoiva analytiikka onnistuu ja millä ei? –  Onnistuu: RapidMiner, SAS, SPSS, MS analysis services, R, AnyLogic.. –  Ei onnistu: IBM Cognos, Qlikview, Business Objects, MS reporting services,

Tableau, Oracle OBIEE…

•  Vinkkinä ennustemenetelmiä ovat muun muassa seuraavat: –  Luokittelumuuttujille - naive bayes, neuroverkko, logistinen regressio,

päätöspuut.. –  Jatkuville muuttujille - erilaiset regressioanalyysit, neuroverkot..

•  Jos näitä ominaisuuksia ei löydy, niin kyseessä on raportointiin / (päätöksentekoa tukevaan) visualisointiin tarkoitettu ohjelmisto

•  Milloin kannattaisi investoida prediktiiviseen analytiikkaan? Silloin kun sinulla on edellytyksiä hyödyntää sen tuloksia, esim.

•  Voit toteuttaa ennakoivan huollon ennen laitteen vikaantumista •  Voit torjua asiakaspoistumaa tai ostoskorin hylkäämistä aktiivisilla toimenpiteillä •  Kykenet kohdistettuun myyntiin ja markkinointiin

05/12/15 39 Muokattu lähteestä: [Louhia]

Prediktiivinen analytiika, esim. päätöspuut •  Yhdistetään regressio ja klusterointi

–  Jaetaan havaintoja osajoukkoihin (klusterointi) tietyn ennustettavan muuttujan mukaan (regressio)

•  Käytetään usein asiakkaiden luokitteluun, kun tiedetään, minkä ominaisuuden mukaan halutaan luokitella –  Puhelinoperaattorilla tiedossa, että 70 % asiakkaista maksaa

laskunsa myöhässä, ja nyt halutaan tietää, keitä nämä ihmiset oikein ovat, ja miten voidaan ennustaa, maksaako uusi asiakas mahdollisesti laskunsa ajoissa

–  Asiakastiedoista valitaan ne muuttujat, joiden arvellaan olevan keskeisessä roolissa. Oletetaan, että seuraavat muuttujat voisivat vaikuttaa siihen, maksaako asiakas laskunsa ajoissa (0= ei maksa ajoissa, 1= maksaa ajoissa)

1.  Keskimääräinen puhelimen käyttöaste (min/kk) 2.  Ikä (1 = alle, 30v. 2 = yli 30v.) 3.  Siviilisääty (1 = naimaton, 2 = naimisissa)

05/12/15 40

05/12/15 41

•  Puhelinoperaattoriesimerkki jatkuu… –  Alussa meillä on kaikki havainnot (10 000) yhdessä, joista

siis 3 000 maksaa laskunsa ajoissa

–  Puumalli jaottelee kaikki 10 000 havaintoa parhaiten kohdemuuttujaa (laskun ajoissa maksu) luokittelevalla muuttujalla

1: 30% 3000

0: 70% 7000

Yht. 100% 10000

1: 30% 3000

0: 70% 7000

Yht. 100% 10000

1: 11.7% 460

0: 88.3% 3480

Yht. 100% 3940

1: 41.9% 2540

0: 58.1% 3520

Yht. 100% 6060

Ikä 2 1

Ikä (1 = alle, 30v. 2 = yli 30v.)

Päätöspuut

1 = maksaa ajoissa 0 = ei maksa ajoissa

1 = maksaa ajoissa 0 = ei maksa ajoissa

05/12/15 42

1: 30% 3000

0: 70% 7000

Yht. 100% 10000

1: 11.7% 460

0: 88.3% 3480

Yht. 100% 3940

1: 41.9% 2540

0: 58.1% 3520

Yht. 100% 6060 2 1

1: 67.1% 490

0: 32.9% 240

Yht. 100% 730

1: 38.5% 2050

0: 61.5% 3280

Yht. 100% 5330

1: 9.3% 310

0: 90.7% 3030

Yht. 100% 3340

1: 25.0% 150

0: 75.0% 450

Yht. 100% 600

Puh. käyttö

Ikä

Siviili-sääty

1 2 1 2

•  Puhelinoperaattoriesimerkki jatkuu… •  Lopullinen malli voi näyttää tältä

Siviilisääty (1 = naimaton, 2 = naimisissa)

Ikä (1 = alle, 30v. 2 = yli 30v.)

Keskimääräinen puhelimen käyttöaste (1 = <300, 2 = >300 )

Päätöspuut

1 = maksaa ajoissa 0 = ei maksa ajoissa

1 = maksaa ajoissa 0 = ei maksa ajoissa

1 = maksaa ajoissa 0 = ei maksa ajoissa

1 = maksaa ajoissa 0 = ei maksa ajoissa

Päätöspuut

•  Mitä saatiin selville? – 91 % alle kolmekymppisistä naimattomista ei

maksa laskuaan ajoissa – Ainoa ryhmä, joka maksaa laskunsa

ennemmin ajoissa kuin myöhässä on yli kolmekymppiset alle 300min/kk puhujat

–  Ikä on silti tärkein kriteeri

05/12/15 43

Asiakaspoistuman korjaamiseen telekommunikaatioalalla opas PwC:ltä: Curing Customer Churn

Preskriptiivinen analytiikka

•  Suosittelujärjestelmät, esim. Amazonin automaattiset tuotesuositukset

•  Vakutuusalalla esimerkiksi ajoneuvovakuutusten hinnoittelussa pyritään tunnistamaan tekijät, jotka ennustavat, mitä tietylle kuljettaja-ajoneuvo-yhdistelmälle tulee ensi vuonna tapahtumaan. Käytännössä jokaiselle asiakkaalle tulee eri hinta. (Timo Ahvonen, Vakuutusyhtiö Fennia)

05/12/15 44

Miten analytiikkaa tehdään? Mikä avuksi?

05/12/15 45

CRISP-DM referenssimalli CRISP-DM referenssimallin tehtävät

Liiketoiminnan ymmärtäminen

Datan ymmärtäminen

Datan valmistelu

Mallinnus, tiedonlouhinta

Arviointi Tulosten julkaisu

Määritä liiketoiminnan tavoitteet Tee tilannearvio Määritä tiedonlouhinnan tavoitteet Laadi projektisuunnitelma

Kerää alustava data Kuvaa data Tutki dataa Varmista datan laatu

Datasetin kuvaus Datan valinta Datan siivous Datan rakentaminen Datan integrointi Datan formatointi

Valitse mallinnus menetelmä Suunnittele koe Rakenna malli Arvioi mallia

Arvioi tuloksia Arvioi ja varmista tiedonlouhintaprosessin laatu Määrittele seuraavat stepit

Suunnittele mallin julkaisu (esim. verkkosivuna) asiakkaalle Suunnittele mallin ylläpito Laadi loppuraportti Arvioi projekti

05/12/15 46

Lähde: The CRISP-DM Model (Shearer 2000), ks. myös CRISP-DM 1.0 Step-by-step data mining guide: https://the-modeling-agency.com/crisp-dm.pdf

Analytiikkasykli 1.  Määrittele liiketoimintaongelma tai kysymys johon haluat vastauksen 2.  Tunnista, kerää, siivoa ja valmistele data kysymyksen vastausta varten 3.  Deskriptiivinen analytiikka

–  Perehdy dataan (descriptives, correlations, factor analysis, cluster analysis, ym.)

–  Luo mahdollisia hypoteeseja (data mining ym.) 4.  Prediktiivinen analytiikka

–  Muodosta hypoteesit –  Tunnista soveltuvimmat analytiikkamenetelmät –  Kehitä analyyttiset mallit (multivariate regression, logistic regression,

forecasting, non-linear models, decision trees, ym.) –  Aja mallit ja luo ennusteet

5.  Preskriptiivinen analytiikka –  Kehitä päätös- ja optimointimallit –  Hyödynnä koneoppimista päätöksien ohjelmointiin

6.  Kirjoita johtopäätökset ja suositukset

05/12/15 47

Lähde: Introduction to Big Data (Kaisler et al. 2014)

Analytiikkaan pohjautuva päätöksenteko: 6 vaihetta

48/6

Liiketoiminta- ongelman tai –kysymyksen tunnistaminen

Aikaisempien löydöksien läpikäynti

1. 2. 3. 4. 5. 6.

Ratkaisun mallintaminen ja muuttujien

valinta

Datan kerääminen

Datan analysointi

Tuloksien esittäminen

ja niiden pohjalta

toimiminen

Kun käytetään big dataa päätöksenteossa, liiketoimintaihmisten (”non-quants”) pitäisi keskittyä prosessin ensimmäiseen ja viimeiseen vaiheeseen. Numeroihmiset tyypillisesti hoitaa yksityiskohdat välissä, mutta (viisaat) liiketoimintaihmiset esittävät paljon kysymyksiä matkan varrella.

Analytics-Based Decision Making – in Six Key Steps (Daveport, 2013) Analytiikka liiketoiminnassa

Tiedonlouhinnan menetelmiä

05/12/15 49

Suunnattu

Ei-suunnattu

Ad Hoc Strateginen suunnittelu

Ennustaminen Segmentointi

Klusterointi

Visualisointi

OLAP

Neuroverkot

Regressio

Lähde: (Kudyba & Hoptroff, 2001; Väisänen, 2011])

Klusterointi •  Kuvailevaa tiedonlouhintaa / deskriptiivistä analytiikkaa •  Tavoitteena klusteroida (luokitella) datamatriisin

havainnot siten, että jokaisen klusterin sisällä olevat havainnot ovat mahdollisimman homogeenisia, ja jokainen klusteri mahdollisimman heterogeeninen muiden klusterien kanssa

•  Yleisiä käyttötarkoituksia –  asiakkaiden segmentointi –  myymälöiden ryhmittely menestyksen mukaan esimerkiksi

kolmeen ryhmään: menestyjiin, keskinkertaisiin ja huonoihin (Niemijärvi 2013)

05/12/15 50

Esimerkki hierarkkisesta klusteroinnista

05/12/15 51

Klusterien lukumäärä

Klusterit

5 (1) (2) (3) (4) (5)

4 (1,2) (3) (4) (5)

3 (1,2) (3,4) (5)

2 (1,2) (3,4,5)

1 (1,2,3,4,5)

1 2 3 4 5

Lähde: (Väisänen, 2011)

Assosiaatiosäännöt •  Prediktiivistä analytiikkaa •  Tarkoituksena löytää havaintoja, jotka esiintyvät yhdessä

useammin kuin muut •  Usein käytettyjä sovelluksia

–  Ostoskorianalyysi, engl. market basket analysis (MBA), ks. Esim. (Niemijärvi 2014); (Ollikainen 2013)

–  Klikkivirran analyysi, engl. web clickstream analysis (WCA) (Paananen 2006)

•  Normaaleista tietokannoista poiketen assosiaatiosääntöjä tarkastellaan transaktio- ei asiakaspohjaisesti –  MBA:ssa yksi datamatriisin rivi vastaa yhtä kassalla käyntiä –  WCA:ssa yksi datamatriisin rivi vastaa yhtä vierailua

verkkosivuille

05/12/15 52

Assosiaatiosäännöt •  Assosiaatiosääntö on todennäköisyyteen perustuva

lausuma tiettyjen tapahtumien samanaikaisesta tapahtumisesta: •  JOS A=1 ja B=1, NIIN (tietyllä todennäköisyydellä p) C=1 •  Todennäköisyys, että ostetaan tavara X, kun tavara Y on ostettu:

X → Y •  Esim. (Maito & Tee) → Keksejä (assosioaatiosääntö) •  Säännön oikealla puolella yleensä vain yksi tekijä •  Säännön vasemmalla puolella harvoin kolmea tekijää enempää (3.

asteen sääntö) •  Todennäköisyydet tavaroiden ostamiselle saadaan jakamalla

ostotapahtumien esiintymistiheys kaikkien ostotapahtumien lukumäärällä

05/12/15 53

Lähde: (Väisänen, 2011)

•  Tuki (”Support”) {A → B} = P(A ja B) –  Todennäköisyys, että tuotteet A ja B löytyvät satunnaisesta ostoskorista. Jos 40%

ostoksista sisältää sekä maitoa että leipää, tuki {maitoa→ leipää} = 0.4 •  Symmetrinen, eli tuki {leipää → juustoa} = tuki {juustoa → leipää} •  Jos tuki kovin alhainen, ei säännöllä välttämättä ole kovin suurta käytännön

merkitystä

•  Luottamus (”Confidence”) {A → B} = tuki {A → B} / tuki {A} –  Todennäköisyys, että satunnaisesta ostoskorista löytyy tuote B, jos siellä on tuote A –  Jos 80 % ostoksista sisältää leipää, mutta vain 40 % sisältää sekä leipää että maitoa,

luottamus {leipää → maitoa} = 0.4 / 0.8 = 0.5 –  Luku ei välttämättä ole symmetrinen

•  Noste (”Lift”) {A → B} = luottamus {A → B} / tuki {B} –  Normalisoitu luku, joka ilmaisee, kuinka paljon tuotteen A ostaminen vaikuttaa tuotteen

B ostamiseen –  Jos luottamus {leipää → maitoa} = 0.5 ja 40 % ostoksista sisältää maitoa, noste {leipää → maitoa} = 0.5 / 0.4 = 1.25

–  Eli henkilöt, jotka ostelevat leipää, ostelevat 1.25-kertaisesti maitoa verrattuna koko porukkaan

05/12/15 54

Assosiaatiosäännöt

Lähde: (Väisänen, 2011)

Regressio •  Lineaarinen regressio auttaa ennustamaan

toisen muuttujan arvoja toisen muuttujan arvoilla •  Logistisen regression avulla voidaan selittää/

ennustaa binääristä muuttujaa •  Kuinka mallinnuksen avulla ennustetaan

asiakkaan ostotodennäköisyys? (esim.Ollikainen 2014)

05/12/15 55

Kulttuurin luominen ja organisointi

05/12/15 56

BI-prosessimallit 1/5, tiedon jalostumisprosessi

P. Virtanen 57 Hannula & Pirttimäki 2005

Aiempi tieto

Aiempi tietämys

Informaatio (maksaa…)

Data (0, 0, 1, 0, 1, 0, ..)

Tieto (hintakehitys…)

Tietämys (kannattaa…) Jalostumisprosessi

BI-prosessimallit 2/5

P. Virtanen 58

Tietotarpeet Tiedon organisointi ja

varastointi

Tiedon hankinta

Tietotuotteet ml. -palvelut

Tiedon jakaminen Tiedon käyttö

Toiminnan mukauttaminen

Choo 2001

BI-prosessimallit 3/5

P. Virtanen 59

2. Tiedon

tunnistus

1. Tietotarve ja määrittely

3. Työkalujen

valinta

4. Käyttöön-

otto

5. Käyttö

TOTEUTUS

5. Hyötykäyttö

6. Analysointi ja seuranta

9. Muutokset

toiminnassa

8. Päätöksen-

teko

7. Vaihto- ehtojen muotoilu

KÄYTTÖ

Hannula 2011

BI-prosessimallit 4/5

P. Virtanen 60 Chaudhuri & Dayal, 1997

Valvonta ja hallinto

Metadata

ETL, Extract Transform Load (refresh)

DWH

Datamartit

Datan lähteet

Operatiiviset tietokannat

Ulkoiset lähteet

Kyselyt ja raportit

Analyysi

OLAP palvelimet

toimittaa

Tiedon louhinta

DWH

Loppukäyttö

BI-prosessimallit 5/5

P. Virtanen 61 Myllärniemi et al. 2009

tietomassa ymmärrys ja toiminta

tiedon lähteiden määrittely ja etsintä

prosessoitu tieto tietotuote

5. Tiedon hyödyntäminen ja palaute

1. Tietotarpeiden määrittely

3. Tiedon prosessointi

2. Tiedon kerääminen

4. Tiedon jakaminen

BI-prosessimalli käytännössä

P. Virtanen 62

Potilasvirrat Potilasvirrat Potilasvirrat

Henkilöstö

Potilasdata

Resurssit

Tilat

Laitteet

Materiaalit

Aineeton po

Mahdollistaa

Tuottaa

Syötteenä

Muuntaa

Päätöksenteon tukena

Potilasvirtojen hallinnan

tehostaminen

Raportointi

Mallinnus ja simulointi

Potilas- informaation

käyttö

Väihinpää et al. 2008

Kulttuurin luominen •  5 hyvää käytäntöä analytiikkakulttuurin

luomiseksi: 1.  Tunnista (liike-)toimintaongelmat ja alueet, jotka

hyötyisivät analytiikkatyökaluista ja/tai –strategiasta 2.  Johdon asetettavat selkeät odotukset (ja insentiivit) 3.  Aloita pienestä ja rakenna iteratiivisesti à kevyet

lähdöt 4.  Rakenna/tue/rekrytoi asian puolestapuhujia

(champions) ja juhli pieniä voittoja 5.  Tunnusta että epäonnistumiset ovat hyväksyttävä

tapa oppia

05/12/15 63

Helms 2015. Five Myths and Five Ways to Create an Analytics Culture. http://www.businessofgovernment.org/blog/business-government/five-myths-and-five-ways-create-analytics-culture

Mitä voidaan oppia parhailta?

05/12/15 64

Raportti saatavissa: https://hbr.org/resources/pdfs/tools/17568_HBR_SAS

%20Report_webview.pdf

Analytiikkajohtajat käyttävät oikeanlaisia mittareita

05/12/15 65

Lähde: Harvard Business Review 2012. The Evolution of Decision Making: How Leading Organizations Are Adopting a Data-Driven Culture

Mitkä ovat analytiikkajohtajien keskeisiä piirteitä? Ø Ylin johto edellyttää analytiikan käyttöä ja hyvin

määriteltyjä päätöksentekoprosesseja Ø Analytiikkajohtajat käyttävät oikeanlaisia mittareita Ø Analytiikkajohtajat korostavat päätöksenteon

läpinäkyvyyttä Ø Analytiikkajohtajat jakavat KPIt läpi organisaation Ø Analytiikkajohtajat panostavat koulutukseen Ø Analytiikkajohtajilla on analytiikka-ammattilaisia

organisaation eri tasoilla ja funktioissa

05/12/15 66

Lähde: Harvard Business Review 2012. The Evolution of Decision Making: How Leading Organizations Are Adopting a Data-Driven Culture