college taal & spraaktechnologie arjan van hessen
DESCRIPTION
Slides van het college van Arjan van Hessen over Taal- en SpraaktechnologieTRANSCRIPT
Arjan van Hessen
Onderzoek naar Mens-Machine Interactie (Embodied Agents) en de ontsluiting van
gesproken documenten mbv Taal- en Spraaktechnologie
Selfservice via de telefoon en de ontsluiting van gesproken
documenten mbv Taal- en Spraaktechnologie
Het standaardiseren (van zowel data als tools om hiermee om te gaan) van talige,
wetenschappelijke data voor de geesteswetenschappen.
• Inleiding
– Hoe zit het met de menselijke Taal en Spraak?
– Wat is Taal- en Spraaktechnologie (TST)?
• Werkende applicaties
– Klassieke spraakherkenning
– Geavanceerde spraakherkenning
– Self-service
– Spraakanalyse
• (Nabije) toekomst
De ontwikkeling van de menselijke taal (of spraak) is waarschijnlijk 100.000 jaar geleden begonnen.
Daar vóór hadden de menselijke kaak, de mond en de larynx de verkeerde vorm om woorden te vormen. Iets dat we nu nog bij de apen zien.
• Het pictografische schrift (3300 AD Sumer, Mesopotamië) is voor zover bekend, de oudste geschreven taal.
-3300 schrift
-10.000 landbouw
-100.000 spraak
NU
Communicatie
Geur Lichaamstaal Geluiden
Taal (abstract)
Spraak
Schrift
Dieren
Mensen
• Het menselijke communicatie systeem kenmerkt zich door een hoge mate van redundantie. We kunnen woorden weglaten, verkeerde woorden uitspreken, mompelen. Ook kunnen we spreken op feestjes met veel achtergrondlawaai. Toch lukt het communiceren meestal wel.
• Willen we natuurlijk met machines kunnen communiceren, dan moeten we dit gedrag (tenminste deels) inbouwen.
• In een steeds complexere wereld waarin het belang van snel juiste informatie krijgen of geven steeds groter wordt en waarin de overvloed aan informatie voor een soort informatie-infarct zorgt, is TST een noodzakelijkheid geworden.
• Gebruikers gaan er steeds meer vanuit dat ze altijd toegang kunnen krijgen tot “hun bestanden”. Uiteraard via het Web maar ook via de telefoon.
• Lang wachten, frequent doorverbinden, het herhalen van eerder gegeven informatie en andere “vervelende” zaken worden steeds minder geaccepteerd.
• Het herkennen van de beller wordt gezien als een standaard commodity: zit immers op elke mobiel.
TAAL- & SPRAAKTECHNOLOGIE
Hoe werkt het en wat kun je ermee?
OCR ASR
interpretatie
actie
CR-tekst
Optical
Character
Recognition
Automatic
Speech
Recognition
OCR ASR
interpretatie
actie
CR-tekst
Twente Nieuws Corpus: >600M woorden uit 10-jaar PCM-kranten, Autocues, Tijdschriften
Spraak is meer dan de omzetting van een reeks klanken in letters
Wat zegt U? Wat bedoelt U?
/A/ /p/ /@/ /l/ /A/ /p/ /@/ /l/ /t/ /j/ /@/
appel appeltje
• Internet zal veranderen van een opzoek medium in een antwoordgevend medium
Web
1.0/2.0
Marietje
24 jaar Wierden
Artiest
marietje@roodhaar.
org
0621 888 146
Etc.
Vuurrode/rode haren/haar van de meisjes/vrouwen/dames/wijven
Mooie /schitterende /wonderschone /prachtige Ferrari
het rode haar van het meisje
Rode Ferrari, mooie meisje
Web 3.0
(QA)
herkennen
genereren
begrijpen
1950-2000
2000 - nu
TAAL- & SPRAAKTECHNOLOGIE
Werkende en bijna werkende TST-toepassingen
Dictation
Voice
Information Retrieval
Mens-Machine-Communicatie
Emotie detectie:Lachen/Huilen
Spoken Document Retrieval
Web
Mobile
ContactCenter
Natural Language Search
TST
Identificatie / verificatie
Taal- en
Spraaktechnologie
• Desktop
– Dictation
– Handsfree Command&Control
– Warehouse applications
Tekst processing
Originele script TV uitzending
Conversie naar sound only
Spraak/niet-spraak
Oplijning
Spreker clustering
Dag schat, hard gewerkt vandaag?
Uit te spreken tekst
0
50
100
150
200
250
300
350
1 2 3 4 5 6 7 8 9 10
0
50
100
150
200
250
300
350
400
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
OT-tijd
ER-tijd
0
50
100
150
200
250
300
350
400
1 2 3 4 5 6 7
OT-tijd
NEON-tijd
ER-tijd
NEON manier
Klassieke manier
NEON manier Klassieke manier
Buchenwald
H.M. Koningin
Wilhelmina
Tweede feministische golf
Herinneringen aan Indonesië WFH
Joods Historisch
Veteranen Instituut
Iedere dag wordt het 8-uurjournaal opgenomen en,
na afloop, door de spraakherkenner gehaald. De
herkende tekst kan doorzocht worden. Wordt een
woord gevonden, dan wordt het bijbehorende
fragment met een screendump getoond. Er kan
alleen gezocht worden in de journaals van de laatste
twee weken.
Beluisterde fragmenten kunnen op hun beurt
gekoppeld worden aan kranten artikelen van
Volkskrant, NRC, Trouw en Parool.
KlantContact
van nummer tot toestel van klant tot agent
IVR SPRAAK IP-Telefonie
29
10.000.000 x Selfservice
Zoeken in Video en Audio
Analyse van gesprekken/spraak
Postcode huisnummer spraakherkenning
Plaats, gemeente en
stationsnamen
Open vraag spraakherkenning 2.000.000
Classificaties
50.000 uur spraakanalyse
200.000 uur Spraakherkenning
60.000 woorden Nederlands
14+netnummer 100 gemeenten
mobiel, vast?
Internet of Telefoon?
088, 090x, 0800 of 14xyz
wie?
waarom?
wat mag?
Selfservice of live?
CTI en Kennis
waarvoor?
hoe was het?
Van?
Via?
Naar?
Identificatie :
Classificatie :
Ruling :
Routeren :
Werkplek :
Registratie :
KTO :
van klant
tot agent
1
2
3
4
5
6
7
“Spreek de gemeentenaam in”
Iedere gemeente is straks bereikbaar via 14+netnummer
1 Bereikbaar onder 1 nummer
14 033
Amersfoort
Nijkerk
Bunschoten
Scherpenzeel
Leusden
Woudenberg
0900 8844
‘’Uw abonnement moet worden verlengd we hebben nu een speciale actie…’’
2
‘’ Mijn postcode
is 7521 PT ’’
2
3 NL taal 60.000
woorden
Zorg en verzekering
termen
CZ tekst Internet folders
Welkom bij de gemeente. Zegt u het maar! In de Open vraag spraakherkenning DEMO worden alle vragen waarvoor burgers bellen naar de gemeente
herkend en naar de juiste afdeling worden doorverbonden. Denkt u daarbij aan onderstaande onderwerpen:
• Adres- en contactgegevens • Afvalstoffen • Bestemmingsplan • Gemeentelijke belastingen • Hondenbelasting • Afvalstoffenheffing • Rioolheffing • Paspoorten
• Rijbewijzen • Identiteitskaarten • Melding openbare ruimte • Openingstijden • Persoonsadministratie • Bouwvergunningen • Parkeervergunningen • Kapvergunningen
• Koopzondagen • WMO • WOZ • Inkomen en bijstand • Ongediertebestrijding • Schuldhulpverlening • Verkiezingen • Woonruimte
053 demo 80 35
3
• Snellere en betere classificatie t.o.v. keuzemenu’s
• Betere benutting van bestaande en nieuwe selfservice applicaties
• Verbetering van de (eerste) routering /vermindering herroutering
• Klanten hoeven niet te onthouden wat ze ook al weer moesten doen/zeggen
• Positief effect op de One Call Resolution
• Positieve invloed op de klanttevredenheid en werknemerstevredenheid
• Snel inspelen op ad hoc ontwikkelingen en calamiteiten
• Geeft bellers de mogelijkheid om in eigen woorden een vraag te stellen
• Kosten efficiënt
4
CTI en Kennis
“Heeft mijn reisverzekering een annuleringsdekking vanwege de aswolk?”
naam Jan jansen
adres Colosseum 42
7521 PT Enschede
telefoon 053 488 99 00
e-mail [email protected]
Polis nr. 123456789
Product Reisverzekering
CRM
5
kennis
A. Loonontwikkeling
B. 55-plussers
C. Metaalbouw
D. Nederland
E. Geboren
Loonontwikkeling
55-plussers
Metaalbouw
Nederland
Geboren
QA1
QA2
QA3
…
…
QAN
QA12
AQ3
QA9
QA8
QA6
QA2 QA10
QA5
QA4
mens
Extra vraag
mobiel, vast?
Internet of Telefoon?
088, 090x, 0800 of 14xyz
wie?
waarom?
wat mag?
Selfservice of live?
CTI en Kennis
waarvoor?
hoe was het?
Van?
Via?
Naar?
Identificatie :
Classificatie :
Ruling :
Routeren :
Toestel :
Registratie :
KTO :
van klant
tot agent 6
7
Vooronderzoek Go /NoGo Ontwerp
ImplementatieGefaseerde
uitrolFinetuning
Het project
Datum en
tijd CLI nummer
vd beller
DDI nummer
gebeld
IVR Keuzes
WACHT tijd
Agent tijd
Inhoud TEXT
Emotie
6
Ik heb een vraag over mijn studie
financiering?
Telefonie netwerk
Contact center Centrale ACD
Voice Recorder
1 2
U spreekt met OCW DUO waarmee kan
ik u helpen?
Datum en
tijd
CLI nummer
vd beller
DDI nummer
gebeld IVR Keuzes
WACHT tijd
Agent tijd
Inhoud TEXT
‘Emotie’
Spraak Analyse
DB
“Welkom. Voor vragen over uw studiefinanciering toets 1…”
“een ogenblik geduld nog. …”
“Goedendag u spreekt met DUO Waarmee kan ik u helpen?”
“Ja met Jansen, kunt u me meer vertellen over de
studie loting………… …………………………………………………………………………………………
……………………………..…..”
Wachtmuziek
een Live medewerker
IVR teksten DTMF toontjes
Wachtmuziek en melding
het gesprek van klant en
agent
IVR Keuzes
WACHT tijd
Agent tijd
Inhoud TEXT
Signaalanalyse +1 - Piek +1 - Cross talk +1 - Stilte
‘Emotie’ score
60.000 Woorden en dialoog NL
IB-Groep DUO jargon
IB-Groep DUO Contact
statistiek
E-mail Gesprekken
Taalmodel
DUO IB-Groep
Site
Letterlijk gesproken tekst (handmatig getranscribeerd)
“Uh ik ben ingeschreven en uh
Krijg ik vanaf augustus nu al studiefinanciering?
En wat is het bedrag dan precies?”
Door de spraakherkenner herkend.
“euro heb ingeschreven en
u krijg vanavond augustus al studiefinanciering
En wat hut bedrag dan premies”
7
Open vraag spraakherkenning Met een groot aantal producten en de wens om één nummer te gaan communiceren, was een traditioneel keuzemenu voor AEGON niet meer toereikend. Klanten kunnen daarom tegenwoordig hun vraag aan AEGON inspreken, waarna ze direct met de juiste medewerker worden doorgeschakeld. In deze presentatie wordt u meegenomen in het proces van het idee tot een succesvolle implementatie van deze open vraag spraakherkenning oplossing.
RechtSpraakHerkenning: Taal- en spraaktechnologie in de Nederlandse rechtbanken In de Nederlandse rechtbanken worden regelmatig geluidsopnames gemaakt van de rechtszittingen ter ondersteuning van de rechters en de griffiers. In het STEVIN project RechtSpraakHerkenning laten we zien dat met behulp van taal- en spraaktechnologie de rechters, griffiers en officieren van justitie hun werk efficiënter kunnen uitvoeren. De griffiers worden ondersteund bij het uitwerken van de processen-verbaal en rechters en officieren van justitie krijgen gereedschappen om snel te zoeken en navigeren in de gemaakte opnames, waarbij zelfs automatisch een gesproken samenvatting kan worden gegenereerd.
Oplijnen van ondertitels in TV programma's bij de NPO en VRT Van de uitgezonden Nederlandstalige TV programma’s moet het overgrote deel voorzien worden van ondertiteling. Het oplijnen ofwel het plaatsen van de juiste teksten op het juiste moment is een uitermate tijdrovend proces. Bij de NPO en de VRT is een project uitgevoerd om dit proces te optimaliseren. Door het toepassen van geavanceerde taal- en spraaktechnologie blijkt dat dit proces maar liefst 40% efficiënter kan.
Spraakanalyse in het Contact Center van DUO voorheen IB-Groep Met behulp van Spraakanalyse krijgen organisaties meer inzicht in de inhoud van telefonisch klantcontact. Met Spraakanalyse worden telefoongesprekken in het contact center opgenomen en met taal- en spraaktechnologie verwerkt en geanalyseerd op basis van de inhoud en “emotie” van het gesprek. Deze kennis kan worden gebruikt om de klantinteractieprocessen te optimaliseren en de klantvriendelijkheid te vergroten. Aan de hand van de ‘DUO - IBGroep casus’ laten we de onbegrensde mogelijkheden van Spraakanalyse zien.
WAT VINDEN DE KLANTEN/GEBRUIKERS ER EIGENLIJK VAN?
‘’ Mijn postcode
is 7521 PT ’’
1.4M
service- calls /jaar
Bezorg 61%
Anders 39%
klachten
685K
incidentele klachten /jaar
Service niveau op 0900-8844 is bepalend voor het eindoordeel
0900-8844 8844
De Politie over spraakherkenning bij 0900-8844: •Een concept dat schittert in zijn eenvoud •Een verrassend snelle implementatie •Een uitkomst die direct al een groot succes is •Een besparing die oploopt tot acht ton op jaarbasis •Een mooi succes in tijden waarin we het geld goed kunnen gebruiken (aldus korpschef politie - Intake en Noodhulp) •De druk op de centrale van het KLPD is daarmee aanzienlijk – ik zou bijna zeggen: rigoureus – verminderd.
Kans op fouten sterk verkleind
Op 7 mei is er achter vier van de 14+netnummers Antwoord© een sterk verbeterde spraakkeuze techniek geïntroduceerd: Drechtsteden (14 078), Deventer/Olst-Wijhe (14 0570), regio Nijmegen (14 024) en Breda/Etten-Leur (14 076). De kans op fouten in de herkenning van de gemeentenamen die door burgers worden ingesproken als zij het 14+netnnummer Antwoord© bellen, is hiermee sterk verkleind. Uitgebreide tests door de gemeenten lieten een erg positief beeld zien. Ook na het openstellen van de nummers voor burgers is de eerste indruk dat er inderdaad sprake is van een grote verbetering in de herkenning. Burgers komen hierdoor sneller en makkelijker dan voorheen bij de goede gemeente terecht.
Gemeenten werken hard aan hun bereikbaarheid. In het kader van de telefonische bereikbaarheid is een landelijk nummer ingevoerd, dat bestaat uit 14 en het netnummer. Dit nummer zorgt ervoor dat alle gemeenten één herkenbare telefonische ingang krijgen. Voor de gemeente Heumen draait u dus het nummer 14 024. Dat geldt ook voor andere gemeenten met dit netnummer, zoals Nijmegen, Wijchen en Beuningen. U wordt dan verbonden met een spraakcomputer, die u vraagt duidelijk de gemeentenaam in te spreken. Er is uitvoerig getest met de spraakcomputer en de resultaten zijn nagenoeg perfect. Mocht er onverhoopt toch iets misgaan met de spraakherkenning, dan wordt u automatisch doorverbonden met de gemeente Nijmegen, die u weer doorverbindt naar de gemeente van uw keuze.
14 XYZ
• Multimodaliteit
• Verschillende modaliteiten (telefoon, spoken-chat, text-chat, mail,
web-form) zullen steeds meer doorelkaar gebruikt worden, hoewel
ieder medium zijn eigen gebruikers EN zijn eigen gebruik zal kennen.
• CC-agents zullen in toenemende mate de verschillende modaliteiten
(door elkaar) moeten kunnen gebruiken.
• Uiteindelijk communiceren we met tekst, spraak, video, links en
documenten door elkaar heen. Goede agents moeten zich dus in
woord EN spraak goed kunnen uitdrukken.
• Wordt er door elkaar gesproken?
• Wordt de luidheid van de spraak snel hoger?
• Worden er onwelvoegelijke woorden gebruikt?
• Vragen worden herleid tot de N-best passende voorbeeld vragen. Deze worden teruggegeven en de gebruiker kiest dan de juiste vraag.
• It’s not speech Recognition
• It’s not searching
• It’s Artificial Intelligence
• Jeopardy
– Verzin de juiste vraag die bij een gegeven antwoord hoort
– IBM’s Watson liep rondjes rond de ex-wereldkampioen en degene die tot nu toe er het meeste geld mee had gewonnen
Geheel natuurlijke Mens-Machine
Interactie
Gesproken en visueel overdraagbare
informatie
Band mens-avatar
Stel dat een computer
zo reageert….
VRAGEN?
Einde, klaar, finito, ready, fin, ende