hergebruik van taal - en spraakdata in e-health

Hergebruik van taal- en spraakdata in e-health

Remco van Veenendaalprojectleider TST-Centrale

Ehealth4comNijmegen

3 oktober 2013

Onderzoek• Wie van u…

• Maakt of verzamelt taal- en spraakdata?– (Bijv. teksten, spraakopnames,

videomateriaal)

• Deelt taal- en spraakdata met anderen of hergebruikt taal- en spraakdata van anderen?

Neelie Kroes: “Data zijn het nieuwe goud.”

Waarom hergebruik?

Daan Roosegaarde: “Delen is het nieuwe hebben.”

Ehealth4com en hergebruik• Symposiumwebsite:

– “Ontwikkelingen in de taal- en spraaktechnologie dragen bij aan toepassingen voor de behandeling en ondersteuning van mensen met een communicatieve beperking. (…) Speciale aandacht gaat uit naar het verzamelen van taal- en spraakdata om geavanceerde e-healthtoepassingen te ontwikkelen, gericht op diagnostiek en behandeling van communicatieve beperkingen.”

• Anders, concreter:– U kunt door de behandeling en ondersteuning van mensen met

een communicatieve beperking bijdragen aan ontwikkelingen in de taal- en spraaktechnologie, bijvoorbeeld door speciale aandacht te schenken aan het verzamelen van taal- en spraakdata.

• En:– De TST-Centrale kan u daarbij helpen. Samen zorgen we er zo

voor dat er geavanceerde e-healthtoepassingen ontwikkeld kunnen worden.

Ja, maar…• Geen Big Science

– Big budgets– Big staffs– Big machines – Big laboratories

• Maar “Small Science”– Beperkte budgetten– Kleine organisaties– Geringe commerciële interesse – Grote diversiteit aan behoeften

De Taalunie schept kansen• Samenwerking Nederland,

Vlaanderen en Suriname• STEVIN: onderzoek naar en

basistaalmaterialen voor taal- en spraaktechnologie (TST)

• TST-Centrale– Advisering– Beheer en onderhoud– Beschikbaarstelling en

ondersteuning

http://taalunieversum.org/

http://www.stevin-tst.org/

http://tst-centrale.org/

Advisering• Makelen en schakelen: wat is elders

(al) beschikbaar?• Welke standaarden en (open)

formaten?• Welke afspraken met uw

“leveranciers”?– Contracten, sprekerformulieren

• Welke afspraken tussen u en ons?– Samenwerkingsovereenkomst

• Welke afspraken met gebruik(ers)?– Gebruikerslicenties

Beheer en onderhoud• Beheer (medio 2013)• Voorbeelden

onderhoud– Updates van

formaatversies– Verbetering

(online) zoekapplicaties

– Aanvulling en verbetering (‘bugfixing’) van data

http://www.appenbutlerhill.com/

Beschikbaarstelling en ondersteuning

• Licenties (medio 2013)– Excl. webapplicaties– Incl. Google

• Voorbeeldenondersteuning– Gastcolleges– Data op maat– Hulp bij contract met uitgever

http://tst-centrale.org/nl/over-de-tst-centrale/nieuws/nieuwsberichten/112-tekstenverzameling-verbetert-google-vertalen

Beschikbaarstelling ook via Europese CLARIN

• CLARIN werkt aan makkelijke en duurzame toegang tot digitale taaldata en geavanceerde taaltools, waar deze zich ook bevinden

• Taalunie lid van CLARIN ERIC• TST-Centrale verzorgt Nederlands-Vlaams

knooppunt in CLARIN-infrastructuur

http://www.clarin.eu/

Taal- en spraakdata voor e-healthtoepassingen

• Corpus Gesproken Nederlands– Trainen spraakherkenning en spraaksynthese– Computerprogramma dat ondersteuning biedt bij het

lezen, spreken en schrijven– Woordvoorspeller bij spreken, voor mensen met een

communicatieve beperking• Cornetto: tekst-naar-pictogram-omzetter

(poster Vandeghinste en Schuurman)• SoNaR: algoritmen uit andere talen testen

met Nederlandstalige data• Zie ook rapporten “TST en communicatieve

beperkingen” (beschikbaar online en in onze stand)

http://tst-centrale.org/producten/corpora/corpus-gesproken-nederlands/6-17

http://taalunieversum.org/publicaties/taal-en-spraaktechnologie-en-communicatieve-beperkingen-0




Meer taal- en spraakdata (e-health)

• SPACE (IWT-SBO-project Vlaanderen)– Universiteiten Leuven, Gent, Brussel en Antwerpen)

• COPAS (Corpus Pathologische en Normale Spraak)– Opnames Dutch Intelligibility Assessment (DIA),

voorgelezen tekstpassages, zinnen en spontane spraak.

– Geannoteerde opnames van bijna 200 Vlaamse pathologische sprekers en 122 Vlaamse controlesprekers.

• CHOREC (Children's Oral Reading Corpus)– 130 uur spraak afkomstig van 400 Vlaamse

kinderen die teksten en woordenlijsten voorlezen voor leesvaardigheidsontwikkeling en -toetsen.

– Leesstrategie en soorten leesfouten geannoteerd.

http://www.iwt.be/

http://tst-centrale.org/nl/producten/corpora/corpus-pathologische-en-normale-spraak-copas/6-46

http://www.esat.kuleuven.be/psi/spraak/projects/SPACE/

Meer taal- en spraakdata (kinderen)

• JASMIN-spraakcorpus – Aanvulling op Corpus Gesproken Nederlands – Jongeren, anderstaligen en senioren– Voorgelezen teksten en mens-machinedialogen– STEVIN-project van Radboud Universiteit, K.U. Leuven

en TalkingHome

• BasiLex – wat lezen basisschoolleerlingen? – NWO-project van universiteiten Radboud,

Tilburg, Amsterdam en Leiden)• BasiScript – hoe schrijven

basisschoolleerlingen?– NWO-project van universiteiten Radboud,

Tilburg, Groningen en Amsterdam)

http://tst-centrale.org/nl/producten/corpora/jasmin-spraakcorpus/6-32



http://www.basilex.nl/

http://www.basilex.nl/

http://www.basiscript.nl/

http://www.basiscript.nl/

Samenvatting• Door bij uw werk aandacht te besteden

aan het verzamelen, bewaren en delen van taal- en spraakdata …

• … kan de taal- en spraaktechnologie zich blijven ontwikkelen …

• … en kunnen toepassingen ontwikkeld worden die bijdragen aan de diagnostiek, behandeling en ondersteuning van mensen met een communicatieve beperking.

• Wij helpen u graag, zodat u vooral ook uw werk goed kunt blijven doen.

NederlandBezoekadres Lange Voorhout 212514 EB Den Haag PostadresTST-Centralep/a NTUPostbus 105952501 HN Den HaagNederland

België BezoekadresUniversiteit Antwerpen - Stadscampus (gebouw R)Kamer R2.21Rodestraat 142000 AntwerpenPostadresTST-Centralep/a Universiteit Antwerpen CST, R2.21Prinsstraat 132000 AntwerpenBelgië

Vragen of opmerkingen?

Spreek ons gerust aan of kom langs in onze stand.

Contact@tstcentrale

+31 70 346 95 48http://tst-centrale.org

[email protected]



mailto:[email protected]

mailto:[email protected]

hergebruik van taal - en spraakdata in e-health

Documents