inf2820 datalingvistikk – v2015 · • computer science3. språkteknologi • artificial...
TRANSCRIPT
INF2820 Datalingvistikk – V2015 Jan Tore Lønning
INF2820 Datalingvistikk
21. januar 2015 2
I dag:
1. Time: • Datalingvistikk:
motivasjon og eksempler • Praktisk informasjon
2. Time: • Endelige tilstandsteknikker
• OBS:
• Lov å stille spørsmål underveis
• Computer science • Artificial intelligence (AI)
• NLP
1. Computational linguistics
The game of the name
• Navnene har litt forskjellig opphav og tradisjon, eks. • I dag brukes navnene til dels om hverandre
21. januar 2015 4
1. Datalingvistikk 2. Natural language
processing
3. (Human) Language Technology
2.Språkprosessering/ prosessering av naturlige språk
3. Språkteknologi
The name of the game
• Datalingvistikk • Prosessering av naturlige språk • Språkteknologi
• Språk: • Norsk, arabisk,
japansk, … • Naturlige:
• Oppstått • Ikke oppfunnet
• Data • Prosessering • Teknologi
21. januar 2015 5
Hvorfor datalingvistikk?
• Visjonen om kunstig intelligens • Modeller av mennesker
• Forstå • Erstatte
• Nyttig, anvendelser:
• Supplere mennesker
Skjønner datamaskinen hva jeg sier?
• Visjon: • Intelligente
maskiner • Maskiner som
forstår • Roboter
• En slik maskin må: • Kunne snakke • og lytte
• Ingen intelligens uten språk
Turingtesten
• Kommunikasjon i naturlig språk
2011-sensasjon: Watson på Jeopardy
Se: https://www.youtube.com/watch?v=yJptrlCVDHI
Watson • Litt om oppbygning:
https://www.youtube.com/watch?v=_Xcmh1LQB9I • Mulige anvendelser: Aftenposten 19.1.2015
http://www.aftenposten.no/fakta/innsikt/Den-nye-ekspertlegen-er-en-maskin-7859090.html
21. januar 2015 10
Nytte, eks.: oversettelse
• Drømmen fra 17 år siden
• Ikke i 2003, men hvor er vi i dag? • Tekstoversettelse • Oversettelse av tale
Menneske-maskininteraksjon
• Visjon: • Kommunisere med
datamaskinen som til et menneske:
• Eks.: ”2001 en romodyssé”
• 2011: Siri • Basert på langsiktig
grunnforskning: SRI
Språkteknologi 2015 • Fra visjon til virkelighet • Integrert i en rekke
applikasjoner • Drevet av:
• Internett • Mobilteknologi
Anvendelser: • Stave- og grammatikkontroll • Talegjenkjenning, diktering • Syntetisk tale, eks. GPS
• Maskinoversettelse • Dialogsystemer
• Søk i tekst (innholdsrelaterte) • Analyse av store tekstmengder • Analyse av internett • Overvåkning
Modell
• Typisk tre trinn • Analyse (syntaktisk, semantisk, …) • Utføring av oppgave (finn svar, transfer,
…) • Generer svar
• Rundt dette et større system: dialoghåndtering mm.
Talegjen- kjenning
Syntaktisk og semantisk analyse
Generering Tale- syntese
Fra NLTK
21. januar 2015 16 Flertydighet https://www.youtube.com/watch?v=_429UIzN1JM&feature=channel
Hva skal vi gjøre i INF2820?
Fokusere på grunnleggende teknikker: • Språk: naturlige og formelle språk • Endelige tilstandsteknikker for nat.spr. • Kontekstfrie grammatikker • Parsing av kontekstfrie grammatikker for
naturlige språk • Unifikasjonsgrammatikker • Semantikk
Verktøy
NLTK: The Natural Language Toolkit • Programmer for ulike typer NLP-
oppgaver • Kan kombinere med egen kode • Vekt på opplæring:
• Men også brukt for større oppgaver • Bok, dokumentasjon
Endelige tilstandsteknikker • De første ukene
21. januar 2015 18
Python • Gode strukturer for tekst:
• Strenger • Lister
• Read-eval-print-loop • Lesbar, strukturert kode:
• Kompakt, nesten ”pseudokode” • Gir gode programmeringsvaner • Lett å lære
• Objektorientert • Mye brukt: tilgjengelig, bibliotek, grensesnitt • Nyttig senere i livet: scripting
21. januar 2015 19
Læremidler • Deler av Bøker:
• Jurafsky og Martin, • Speech and Language Processing
• S. Bird, E. Klein and E. Loper: • Natural Language Processing with
Python • (Finnes på nett)
• Kode • Presentasjoner som blir lagt ut
på nett • Supplerende • Erstatter ikke bøker
• Noen artikler/web-sider/utdelt materiale 21. januar 2015 20
OBS: Samme bok!
Forelesninger
• Jan Tore Lønning, [email protected], • Forelesninger:
• Mandag 14.15-16 • Sted: Caml • 15-16 uker
21. januar 2015 21
Gruppeundervisning • Bo Bjerke-Lindstrøm • Onsdag10.15-14 • Sted: Fortress 3468
• (Noen ganger flyttet til sem.rom.)
• Første gang 28. jan.
21. januar 2015 22
The place to be: • Rom 3467 Fortran
Programstue: - Informatikk: språk og kommunikasjon - (IT: språk, logikk, psykologi)
Arbeidsformer og arbeidsmengde
• Forelesninger 2 t/uke • Gruppe 2 t/uke
• +9 t/u samlet i gj.snitt • Obligatoriske oppgaver:
• 4 sett, alle må bestås • Men:
• også ikkeobligatoriske oppgaver er eksamensstoff
• Undervisningen er eksamensrelevant selv om den ikke er obligatorisk
21. januar 2015 23
I
I
Pensumlesning
Terminalarbeid Teorioppgaver
13