hergebruik van taal - en spraakdata in e-health
DESCRIPTION
Hergebruik van taal - en spraakdata in e-health. Remco van Veenendaal projectleider TST-Centrale Ehealth4com Nijmegen 3 oktober 2013. Onderzoek. Wie van u … Maakt of verzamelt taal - en spraakdata ? ( Bijv . teksten , spraakopnames , videomateriaal ) - PowerPoint PPT PresentationTRANSCRIPT
Hergebruik van taal- en spraakdata in e-health
Remco van Veenendaalprojectleider TST-Centrale
Ehealth4comNijmegen
3 oktober 2013
Onderzoek• Wie van u…
• Maakt of verzamelt taal- en spraakdata?– (Bijv. teksten, spraakopnames,
videomateriaal)
• Deelt taal- en spraakdata met anderen of hergebruikt taal- en spraakdata van anderen?
Neelie Kroes: “Data zijn het nieuwe goud.”
Waarom hergebruik?
Daan Roosegaarde: “Delen is het nieuwe hebben.”
Ehealth4com en hergebruik• Symposiumwebsite:
– “Ontwikkelingen in de taal- en spraaktechnologie dragen bij aan toepassingen voor de behandeling en ondersteuning van mensen met een communicatieve beperking. (…) Speciale aandacht gaat uit naar het verzamelen van taal- en spraakdata om geavanceerde e-healthtoepassingen te ontwikkelen, gericht op diagnostiek en behandeling van communicatieve beperkingen.”
• Anders, concreter:– U kunt door de behandeling en ondersteuning van mensen met
een communicatieve beperking bijdragen aan ontwikkelingen in de taal- en spraaktechnologie, bijvoorbeeld door speciale aandacht te schenken aan het verzamelen van taal- en spraakdata.
• En:– De TST-Centrale kan u daarbij helpen. Samen zorgen we er zo
voor dat er geavanceerde e-healthtoepassingen ontwikkeld kunnen worden.
Ja, maar…• Geen Big Science
– Big budgets– Big staffs– Big machines – Big laboratories
• Maar “Small Science”– Beperkte budgetten– Kleine organisaties– Geringe commerciële interesse – Grote diversiteit aan behoeften
De Taalunie schept kansen• Samenwerking Nederland,
Vlaanderen en Suriname• STEVIN: onderzoek naar en
basistaalmaterialen voor taal- en spraaktechnologie (TST)
• TST-Centrale– Advisering– Beheer en onderhoud– Beschikbaarstelling en
ondersteuning
Advisering• Makelen en schakelen: wat is elders
(al) beschikbaar?• Welke standaarden en (open)
formaten?• Welke afspraken met uw
“leveranciers”?– Contracten, sprekerformulieren
• Welke afspraken tussen u en ons?– Samenwerkingsovereenkomst
• Welke afspraken met gebruik(ers)?– Gebruikerslicenties
Beheer en onderhoud• Beheer (medio 2013)• Voorbeelden
onderhoud– Updates van
formaatversies– Verbetering
(online) zoekapplicaties
– Aanvulling en verbetering (‘bugfixing’) van data
Beschikbaarstelling en ondersteuning
• Licenties (medio 2013)– Excl. webapplicaties– Incl. Google
• Voorbeeldenondersteuning– Gastcolleges– Data op maat– Hulp bij contract met uitgever
Beschikbaarstelling ook via Europese CLARIN
• CLARIN werkt aan makkelijke en duurzame toegang tot digitale taaldata en geavanceerde taaltools, waar deze zich ook bevinden
• Taalunie lid van CLARIN ERIC• TST-Centrale verzorgt Nederlands-Vlaams
knooppunt in CLARIN-infrastructuur
Taal- en spraakdata voor e-healthtoepassingen
• Corpus Gesproken Nederlands– Trainen spraakherkenning en spraaksynthese– Computerprogramma dat ondersteuning biedt bij het
lezen, spreken en schrijven– Woordvoorspeller bij spreken, voor mensen met een
communicatieve beperking• Cornetto: tekst-naar-pictogram-omzetter
(poster Vandeghinste en Schuurman)• SoNaR: algoritmen uit andere talen testen
met Nederlandstalige data• Zie ook rapporten “TST en communicatieve
beperkingen” (beschikbaar online en in onze stand)
Meer taal- en spraakdata (e-health)
• SPACE (IWT-SBO-project Vlaanderen)– Universiteiten Leuven, Gent, Brussel en Antwerpen)
• COPAS (Corpus Pathologische en Normale Spraak)– Opnames Dutch Intelligibility Assessment (DIA),
voorgelezen tekstpassages, zinnen en spontane spraak.
– Geannoteerde opnames van bijna 200 Vlaamse pathologische sprekers en 122 Vlaamse controlesprekers.
• CHOREC (Children's Oral Reading Corpus)– 130 uur spraak afkomstig van 400 Vlaamse
kinderen die teksten en woordenlijsten voorlezen voor leesvaardigheidsontwikkeling en -toetsen.
– Leesstrategie en soorten leesfouten geannoteerd.
Meer taal- en spraakdata (kinderen)
• JASMIN-spraakcorpus – Aanvulling op Corpus Gesproken Nederlands – Jongeren, anderstaligen en senioren– Voorgelezen teksten en mens-machinedialogen– STEVIN-project van Radboud Universiteit, K.U. Leuven
en TalkingHome
• BasiLex – wat lezen basisschoolleerlingen? – NWO-project van universiteiten Radboud,
Tilburg, Amsterdam en Leiden)• BasiScript – hoe schrijven
basisschoolleerlingen?– NWO-project van universiteiten Radboud,
Tilburg, Groningen en Amsterdam)
Samenvatting• Door bij uw werk aandacht te besteden
aan het verzamelen, bewaren en delen van taal- en spraakdata …
• … kan de taal- en spraaktechnologie zich blijven ontwikkelen …
• … en kunnen toepassingen ontwikkeld worden die bijdragen aan de diagnostiek, behandeling en ondersteuning van mensen met een communicatieve beperking.
• Wij helpen u graag, zodat u vooral ook uw werk goed kunt blijven doen.
NederlandBezoekadres Lange Voorhout 212514 EB Den Haag PostadresTST-Centralep/a NTUPostbus 105952501 HN Den HaagNederland
België BezoekadresUniversiteit Antwerpen - Stadscampus (gebouw R)Kamer R2.21Rodestraat 142000 AntwerpenPostadresTST-Centralep/a Universiteit Antwerpen CST, R2.21Prinsstraat 132000 AntwerpenBelgië
Vragen of opmerkingen?
Spreek ons gerust aan of kom langs in onze stand.
Contact@tstcentrale
+31 70 346 95 48http://tst-centrale.org