loomuliku keele töötlus pythonis · 2016. 9. 14. · suhtlus. andmeteaduse suunad avastav...

Post on 24-Jan-2021

5 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Loomuliku keele töötlus Pythonis

(6 EAP)

Eelmisel korral...

● Kodeeringud● Optimeerimine

Kus me oleme?

läbitud

tehniline

keeleline

andmeteaduslik

Andmeteadus ja töövoog

Andmeteaduse tagamaad

● Andmed ja nende loomine odav● Uued andmed + vanade andmete digitaliseerimine● IBM hinnangul 90% andmetest loodud 2 viimase aasta

jooksul● Analüüsi võimaldavate meetodite ja tehnika olemasolu ja

arenemine

Miks andmeteadus?

● USA-s 16. enimtasustatud töö● Pikaks ajaks piiramatult kohti● Ettevõtete konkurents

○ innovaatilisus● Relevantsed tulemused

● Ettekujutus andmetest● Võime andmeid tõlgendada ja esitada

Kriitika

“Andmeteadus (masinõpe) on statistikute õigustus rohkem raha nõuda.”

Sven Laur, PhD

Rohkem kui buzzword

Andmeteadus - kus?

Meditsiin

Põllumajandus

Ärijuhtimine IOT

Smart city

Poed

SisekaitseMängud

Pangandus

Valitsus

Kindlustus

Biotehnoloogia

Tootmine

Turism

Suhtlus

Andmeteaduse suunad

● Avastav○ analüüs

● Rakendav○ tarkvaralahendus

Andmeteaduse üldine töövoog

Andmete kogumine

Andmete töötlemine Arvutamine Tulemuste

esitamine

Andmeteaduse üldine töövoog

Andmete kogumine

Andmete töötlemine Arvutamine Tulemuste

esitamine

Korratavus

Pipeline● Iga samm eraldi● Iga sammu tulemus peab olema hiljem ligipääsetav

Veebist sisutõmbamine

Ühte formaati viimine

Tunnuste eraldamine

Ebaolulisteandmete

eemaldamine

Andmete parandamine

Statistiliste meetodite

rakendamine

Väljundi tõlgendus ja

visualiseerimine

Pipeline praktikas● Dokumenteeritud● Analüüsil

○ Seatud tervikuks terminaliskriptina○ Komponendid dokumenteeritud skriptidena

■ Püütonis nt argparse

● Süsteemis○ Ühendatud nt klassi abil○ Komponendid

■ Klassid● Nt sklearn’i Pipeline

■ Skriptid● subprocess

Pipeline praktikas● Vahetulemused

○ Failides■ xml, csv

○ Andmebaasis○ Mälus

● Korrastatus!○ Sammude kaustad nummerdatud○ Kaustades vahesammude ja koodi alamkaustad

■ Analysis● 0_initial

○ data● 1_cleaned

○ data○ scripts

Arvutamine

Arvutamine

● Dashboard’i statistikud● Masinõpe

Masinõppe süsteem

MudelDokument Vastus

Masinõppe süsteemi treenimine

Masinõppe meetod

Dokument 1

Dokument 2

Dokument 3

Mudel

Valime parameetrid

Oleme tüdinud?

EiValime

uue meetodi

Jah

Tulemuse esitamine

top related