in1140: introduksjon til språkteknologi [3ex] forelesning #1 · in1140: introduksjon til...

Post on 29-Jun-2020

34 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

IN1140: Introduksjon til Språkteknologi

IN1140: Introduksjon til språkteknologi

Forelesning #1

Lilja Øvrelid

Universitetet i Oslo

22. august 2019

Tema for i dag

I IntroduksjonI Hva er språkteknologi?I Hva er IN1140?I Praktiske detaljer

I GrupperI ObligerI LærebøkerI KontaktI m.m.

2

Screencasting

I Tar opp screencast for hver forelesning (lyd + foiler).I Egen YouTube-kanal:

https://www.youtube.com/channel/UCElIhV-Q-PuAkg2Fb35OMIQ

I Ment som et supplement, for repetisjon.

3

Hei

ForelesereI Samia Touileb (samiat@ifi.uio.no)I Lilja Øvrelid (liljao)I Fra språkteknologigruppa (LTG)

GruppelærereI Tania-Adelina Bulz (taniaadb)I Annika Willoch Olstad (annikaol)

Tid & stedI Gruppe 1: man. 10:15–12:00, Datastue Limbo.I Gruppe 2: ons. 08:15–10:00, Datastue Limbo.I Forelesninger: tors. 12:15–14:00 i Caml (Ole-Johan Dahls hus / IFI).I NB! Første gruppetime er mandag 2 september

4

Hei

ForelesereI Samia Touileb (samiat@ifi.uio.no)I Lilja Øvrelid (liljao)I Fra språkteknologigruppa (LTG)

GruppelærereI Tania-Adelina Bulz (taniaadb)I Annika Willoch Olstad (annikaol)

Tid & stedI Gruppe 1: man. 10:15–12:00, Datastue Limbo.I Gruppe 2: ons. 08:15–10:00, Datastue Limbo.I Forelesninger: tors. 12:15–14:00 i Caml (Ole-Johan Dahls hus / IFI).I NB! Første gruppetime er mandag 2 september

4

Hei

ForelesereI Samia Touileb (samiat@ifi.uio.no)I Lilja Øvrelid (liljao)I Fra språkteknologigruppa (LTG)

GruppelærereI Tania-Adelina Bulz (taniaadb)I Annika Willoch Olstad (annikaol)

Tid & stedI Gruppe 1: man. 10:15–12:00, Datastue Limbo.I Gruppe 2: ons. 08:15–10:00, Datastue Limbo.I Forelesninger: tors. 12:15–14:00 i Caml (Ole-Johan Dahls hus / IFI).I NB! Første gruppetime er mandag 2 september

4

Spørsmål og hjelp

I Gruppetimene: Gruppelærerene er der for å hjelpe og veilede.

I Piazza (diskusjonsforum):https://piazza.com/uio.no/fall2019/in1140/NB! litt ventetid på svar

I in1140-hjelp [at] ifi.uio.no: Felles adresse til fag-/gruppelærere.

5

Beskjeder

I Husk å sjekke UiO-eposten din og beskjedlisten på semestersiden.

I http://www.uio.no/studier/emner/matnat/ifi/IN1140/h19/

6

Hva er språkteknologi?

I Mål: å få datamaskiner til å‘forstå’ naturlige språk.

I Aka:I computational linguistics(datalingvistikk)

I language technologyI language engineeringI natural language processing(NLP)

7

Eksempler på språkteknologi?

8

Eksempler på språkteknologi?

9

Språkteknologi og tverrfaglighet

NLP er et tverrfaglig feltI LingvistikkI InformatikkI StatistikkI MaskinlæringI Logikk, Filosofi, Psykologi, . . .

I Del av det bredere feltet kunstig intelligens (AI).

10

Turingtesten

I Alan Turing i 1950:

I I propose to consider thequestion, ‘Can machinesthink?’

I Definisjonsspørsmål. Skulleavgjøres ved Turingtesten.

11

IN1140 og tverrfaglighet

I Stoffet vi dekker i IN1140 tar også for seg stoff fra flere ulike felt.I Innføring i lingvistikk,I grunnleggende sannsynlighetsregning,I programmering, ogI språkteknologiske anvendelser.

I Gjør deg godt rustet for flere viderekommende emner, f.eksI IN2110 – Språkteknologiske metoderI IN3050 – Kunstig intelligens og maskinlæringI IN3120 – SøketeknologiI og mange flere!

12

IN1140 og tverrfaglighet

I Stoffet vi dekker i IN1140 tar også for seg stoff fra flere ulike felt.I Innføring i lingvistikk,I grunnleggende sannsynlighetsregning,I programmering, ogI språkteknologiske anvendelser.

I Gjør deg godt rustet for flere viderekommende emner, f.eksI IN2110 – Språkteknologiske metoderI IN3050 – Kunstig intelligens og maskinlæringI IN3120 – SøketeknologiI og mange flere!

12

Pensumlitteratur

I An Introduction to Languageav Fromkin, Rodman & Hyams

I Utvalgte deler (ca 5 kapitler)

13

Pensumlitteratur

I Speech and Language Processingav Jurafsky & Martin

I Utvalgte deler

I Gratis nettbok:https://web.stanford.edu/

~jurafsky/slp3/

14

Pensumlitteratur

I Natural Language Processingwith Python,av Bird, Klein & Loper

I Oppdatert for Python 3 ogNLTK 3 (Natural LanguageToolkit)

I Utvalgte deler

I Gratis nettbok:http://www.nltk.org/book/

15

Python

I Progammering lærer dere først og fremst i IN1000, ikke IN1140.I Forelesningene i IN1140 kommer til fokusere på teori.I Samtidig ønsker vi å implementere stoffet i praksis, i Python.I Implementasjon blir fokus på gruppene og innleveringene.I Kræsjkurs i Python-programmering på de første gruppetimene.I Viktig med en del egeninnsats i starten for å henge med.

16

Hvorfor er språkforståelse utfordrende?

I Språk er vagt, ulike tolkninger mulig.I Flertydighet overalt.I Gir kompakt kommunikasjon:I Samme uttrykk kan brukes i ulikekontekster.

I Flertydighetene er stort sett usynlige for oss, vi finner den intendertetolkningen nærmest ubevisst.

I For maskiner er det motsatt: lett å finne alle mulige tolkninger, menvanskelig å se hvilken som er riktig.

17

Eksempel: Flertydighet på ordnivåI Norsk: rett.I Engelsk: ?I Flertydig ift betydning + ordklasse (verb, subst., adj., adv.).I Vi trenger kontekst for å avgjøre.

avgrenset av en rett linje tvers over kanalen straightHva er rett svar? correct, right

lovbestemt rett til innsyn rightDenne rett avsa enstemmig dom i saken 4. juli 1980 courtNorsk rett tilpasses EUs regelverk law

Vennligst rett disse prøvene! grade, correctDet bar rett i fengsel directly, straight

De spiste en deilig rett av grønnsaker. meal, dishhan var rett utenfor, rett nå just

Slikt skjer rett som det er. må omskrives

18

Eksempel: Flertydighet på ordnivåI Norsk: rett.I Engelsk: ?I Flertydig ift betydning + ordklasse (verb, subst., adj., adv.).I Vi trenger kontekst for å avgjøre.

avgrenset av en rett linje tvers over kanalen straightHva er rett svar? correct, right

lovbestemt rett til innsyn rightDenne rett avsa enstemmig dom i saken 4. juli 1980 courtNorsk rett tilpasses EUs regelverk law

Vennligst rett disse prøvene! grade, correctDet bar rett i fengsel directly, straight

De spiste en deilig rett av grønnsaker. meal, dishhan var rett utenfor, rett nå just

Slikt skjer rett som det er. må omskrives

18

Eksempel: Flertydighet i referanse

19

Flertydighet på setningsnivå

Jeg spiser sushi med pinner .

Jeg spiser sushi med laks .

20

Flertydighet på setningsnivå

Jeg spiser sushi med pinner .

Jeg spiser sushi med laks .

20

Flertydighet på setningsnivå

Jeg spiser sushi med pinner .

Jeg spiser sushi med laks .

20

Flertydighet på setningsnivå

Jeg spiser sushi med pinner .

Jeg spiser sushi med laks .

20

Flertydighet på setningsnivå

Jeg spiser sushi med pinner .

Jeg spiser sushi med laks .

20

Flertydighet på setningsnivå

Jeg spiser sushi med pinner .

Jeg spiser sushi med laks .

20

Språkforståelse er vanskelig!

The main lesson of thirty-five years of AI research is that the hard problemsare easy and the easy problems are hard. The mental abilities of afour-year-old that we take for granted — recognizing a face, lifting apencil, walking across a room, answering a question — in fact solve someof the hardest engineering problems ever conceived. . . As the newgeneration of intelligent devices appears, it will be the stock analysts andpetrochemical engineers and parole board members who are in danger ofbeing replaced by machines. The gardeners, receptionists, and cooks aresecure in their jobs for decades to come.

Steven Pinker, The language instinct

I En robot som bretter et håndkle (videoen er 50 ganger normalhastighet): http://www.youtube.com/watch?v=gy5g33S0Gzo

21

Språkforståelse er vanskelig!

The main lesson of thirty-five years of AI research is that the hard problemsare easy and the easy problems are hard. The mental abilities of afour-year-old that we take for granted — recognizing a face, lifting apencil, walking across a room, answering a question — in fact solve someof the hardest engineering problems ever conceived. . . As the newgeneration of intelligent devices appears, it will be the stock analysts andpetrochemical engineers and parole board members who are in danger ofbeing replaced by machines. The gardeners, receptionists, and cooks aresecure in their jobs for decades to come.

Steven Pinker, The language instinctI En robot som bretter et håndkle (videoen er 50 ganger normalhastighet): http://www.youtube.com/watch?v=gy5g33S0Gzo

21

Entydiggjøring

I Vi mennesker tolker språklige uttrykk basert på delt bakgrunnskunnskapog gjensidige forventninger i en gitt kontekst.

I Språkforståelse handler mye om entydiggjøring.

I Språkteknologi, og IN1140, handler i stor grad om strategier forhvordan maskiner kan takle dette.

22

Språkteknologiske metoder

→ 2000-tallet: manuelt utformede regeler og leksikon

23

Språkteknologiske metoder

→ 2000-tallet: manuelt utformede regeler og leksikon

24

Språkteknologiske metoder

I 2000-tallet →: empirisk revolusjonI Maskinlæring

I Datamaskiner kan lære fra data: fange opp mønstre og generalisere tilnye eksempler

25

Hva kan vi bruke språkteknologi til?

26

Informasjonsekstraksjon

27

Sentiment Analyse

Automatisk analyse av subjektivt språk

28

Medieovervåkning

29

Maskinoversettelse

30

Dialogsystemer

31

Obligatoriske innleveringer

I 3 obliger.I Oblig 1 har to deler (a + b).I Dvs. 4 innleveringer tilsammen: 1a + 1b, 2, 3.I Alle obligene må bestås for å kunne ta eksamen.I Ingen omlevering.

PoengsystemetI Man kan oppnå opptil 100 poeng per innleveringI For å bestå kreves minst 100 poeng (av 200 mulige) for oblig 1(a+b),og 50 poeng (av 100 mulige) for oblig 2 og 3.

I Eksempel:I 37 poeng på 1aI 68 poeng på 1bI = 105 poeng på oblig 2 (= bestått).

32

Mer om obligene

I Absolutte frister:

I Utsettes kun ved egenmelding (opptil 3 dager) eller legeerklæring.

I Kopiering/plagiat godtas ikke. Sett deg inn i reglene.

I Husk at hvis du distribuerer løsningsforslaget ditt på nett (f.eks viaGithub), kan du bidra til juks. Styr unna.

I Benytt deg av gruppeundervisningen, og planlegg tiden din.I Tidsregnskap:

I Arbeidsinnsats (minimum): 37,5 / 3 = 12,5 timerI Etter forelesning+gruppe: 9,5 timer

I Konkurranse: den/de som får flest poeng tilsammen på obligenegjennom semesteret får en premie (overraskelse)!

33

Eksamen

I Skriftlig (digital) eksamen på fire timerI 27 november kl. 14:30

I Pensumlitteratur + forelesningsnotaterI NB! Ikke en programmeringseksamen.I Fokus på teoretiske konsepter.

34

Suksessoppskrift

I Emnesiden: timeplan, pensum, lesehenvisninger, beskjeder etc.I Lesehenvisninger: forbered deg til forelesningI Still spørsmålI Gruppetimer:

I forbered degI delta aktivtI gjør oppgaver (også de ikke-obligatoriske!)

I Benytt deg av medstudentene dine

lese

gråte

forstå

35

Suksessoppskrift

I Emnesiden: timeplan, pensum, lesehenvisninger, beskjeder etc.I Lesehenvisninger: forbered deg til forelesningI Still spørsmålI Gruppetimer:

I forbered degI delta aktivtI gjør oppgaver (også de ikke-obligatoriske!)

I Benytt deg av medstudentene dine

lese

gråte

forstå

35

top related