d-square (d-kwadraat)

Download D-square (D-kwadraat)

If you can't read please download the document

Upload: leif

Post on 09-Jan-2016

38 views

Category:

Documents


3 download

DESCRIPTION

D-square (D-kwadraat). Digital Databases and Tools for Dutch Dialect Dictionaries. Jos Swanenberg, Folkert de Vriend & Roeland van Hout. Topics. Historical background Overview of project phases Conversion procedures New encoding for data End user access to the data. - PowerPoint PPT Presentation

TRANSCRIPT

  • D-square(D-kwadraat)

    Digital Databases and Tools for Dutch Dialect DictionariesJos Swanenberg, Folkert de Vriend & Roeland van Hout

    InSTIL 2000, University of Abertay Dundee, 29-08-00

  • TopicsHistorical backgroundOverview of project phasesConversion procedures New encoding for dataEnd user access to the data

    InSTIL 2000, University of Abertay Dundee, 29-08-00

  • Macro structure WBD & WLDVolumesAgricultural terminologyOther technical or craft terminologiesCommon vocabulary

    InSTIL 2000, University of Abertay Dundee, 29-08-00

  • Micro structure WBD & WLDConstituents:Lexical meaning (title, description of the concept)Lexical form (dutchified entry)Phonetic form Sources-Geographical code (+ map)

    InSTIL 2000, University of Abertay Dundee, 29-08-00

  • WBD & WLDExample of WLD, volume 1:

    InSTIL 2000, University of Abertay Dundee, 29-08-00

  • History of automation1960-1980Filing cards1985-1995Word processor, Genoveva1995-2007Databases + word proc.2002Online database WBD2003 -2007D-square

    InSTIL 2000, University of Abertay Dundee, 29-08-00

  • WBD & WLDFiling cards:

    InSTIL 2000, University of Abertay Dundee, 29-08-00

  • WBD & WLDExample of WLD, volume 1:

    InSTIL 2000, University of Abertay Dundee, 29-08-00

  • Online database WBD

    www.ru.nl/dialect

    InSTIL 2000, University of Abertay Dundee, 29-08-00

  • Example from database: Meikever (Eng: maybug)

    InSTIL 2000, University of Abertay Dundee, 29-08-00

  • Example of WBD, volume 3

    InSTIL 2000, University of Abertay Dundee, 29-08-00

  • Online database, query

    InSTIL 2000, University of Abertay Dundee, 29-08-00

  • Online database, query result

    InSTIL 2000, University of Abertay Dundee, 29-08-00

  • Deel IIIMS-Word(parts of)Vol. I+IIMS-Word Filing cards WebsiteWBD/WLDwith tools forsearching andcartographyEnricheddataXMLRaw dataFileM ProVol. I+IIMacWriteQuestionnaires Nijmegen and LeuvenQuestionnaires (chiefly) MeertensRaw dataVol. I + IIVol. IIIEdited dataSpecializedprint editions (dialect atlas or local dictionary)Online DB WBD(Polderland)Edited dataXMLVol. IIIFileM ProSGV on CD(Polderland)Vol. III

    Editors

    /

    Management

    UsersAnalogDigitalDigitalAnalog

    InSTIL 2000, University of Abertay Dundee, 29-08-00

  • Overview phases D-squareConversion to a new formatEnd user access to dataEnrichment of dataData management

    InSTIL 2000, University of Abertay Dundee, 29-08-00

  • Phase 1: Conversion to a new format

    InSTIL 2000, University of Abertay Dundee, 29-08-00

  • Reasoning behind new encodingXML, not relational databaseTailored to WBD and WLDFlexible enough to be used for other dialect dictionaries Based on standard: LMF (ISO TC 37/SC 4)

    InSTIL 2000, University of Abertay Dundee, 29-08-00

  • Example from WBD, meikever

    InSTIL 2000, University of Abertay Dundee, 29-08-00

  • Example from database: Meikever (Eng: maybug)

    InSTIL 2000, University of Abertay Dundee, 29-08-00

  • Example XML-encoding

    Meikever Bakkertje bakkerkebakkrk K 178

    InSTIL 2000, University of Abertay Dundee, 29-08-00

  • Example from WALD

    InSTIL 2000, University of Abertay Dundee, 29-08-00

  • Example from dictionary of the dialects of Zeeland

    InSTIL 2000, University of Abertay Dundee, 29-08-00

  • Phase 2: end user access to data

    InSTIL 2000, University of Abertay Dundee, 29-08-00

  • Small scale survey

    - Tools: Search engine, Cartographic tool, Format conversions. Enrichment: POS, morphemes (syllables)- Links to other resources: Other dictionaries, questionnaires, FAND, MAND.

    InSTIL 2000, University of Abertay Dundee, 29-08-00

  • Difficulties to overcome

    Search engine Getting from question to query (coaching needed). Is SmartMatch (fuzzy matching) helpful in this regard? Speed of XML searching Cartography Availability of base maps Links to other resourcesDifferences in interpretation

    InSTIL 2000, University of Abertay Dundee, 29-08-00

  • Information about D-squarewww.ru.nl/dialect

    InSTIL 2000, University of Abertay Dundee, 29-08-00

  • Questions?

    InSTIL 2000, University of Abertay Dundee, 29-08-00

    Wel kun je nog steeds noemen:systematische (= thematische) opzet naar woordvelden (was destijds schijnbaar speciaal), in drie delen.

    En het onderscheid tussen macro- en microstructuur blijft ook wel aardig. (kunnen in artikel voor naar artikel Joep verwijzen)fascicle 6, Farm

    fascicle 6, Farm

    De reden dat de materiaalbases voor het WBD on line is gezet was dat vanaf deel III van het WBD er (met name) twee dingen waren veranderd aan de presentatie van de dialectgegevens:De fonetische opgaven zijn niet meer opgenomen.Wanneer de frequentie van een fonetische opgave boven een bepaalde drempel uitkomt voor verschillende plaatsen dan worden de voorkomens niet meer per plaats genoteerd maar per gebied. Wanneer een opgave dus veel voorkomt in zowel Empel. Lith als Maren-Kessel dan wordt dat genoteerd als veel voorkomend Maaskants (of zoiets)

    Om de gebruikers van de woordenboeken toegang te kunne n blijven bieden tot de fonetische opgaven en de opgaven per plaats is de materiaalbasis on line gezet.

    Wat in het boek zit zit ook in de on line database. Andersom niet.Three kinds of conversion needed:Paper -> OCR -> XML (layout) -> XML ()Word Processor -> XML ()Database -> XML

    Vragenlijsten Nijmegen en Leuven zijn: SGV, Nijmeegse vragenlijst, ZNDVragenlijsten Meertens (en andere instituten) zijn: DC en +/- 10 andere enquetes. Zijn wel gebruikt voor de woordenboeken maar worden niet binnen D-kwadraat gedigitaliseerd.

    - De website van Polderland bevat naast de gehele inhoud van de FilemakerPro db van Deel III, alleen nog de SGV-enquete uit het ruwe materiaal. Een deel van die SGV-enquete wordt ook uitgebracht op CD. (bij een boek)Ill go into more detail about phase 1 and 2 in the rest of this presentation. Phase 3 (POS and morpheme-boundaries). Phase 4 (Our preference is the TST-centrale.)

    Onder punt 2 in slide 13 heb je nog een vraagteken staan. Het gaat daar denk ik om de ontwikkeling van het gereedschap om de data te benaderen search engine, smart match, semantische taxonomie), om het presenteren (hoe lees ik mijn query-resultaten op het scherm, cartografische applicaties) en evt. om de omlijsting op internet (design).Ill go into more detail about phase 1 and 2 in the rest of this presentation. Phase 3 (POS and morpheme-boundaries). Phase 4 (Our preference is the TST-centrale.)

    Onder punt 2 in slide 13 heb je nog een vraagteken staan. Het gaat daar denk ik om de ontwikkeling van het gereedschap om de data te benaderen search engine, smart match, semantische taxonomie), om het presenteren (hoe lees ik mijn query-resultaten op het scherm, cartografische applicaties) en evt. om de omlijsting op internet (design).XML: better archive format. Intuitive when encoding hierarchicaly structured documents.

    Binnen REWO inventarisatie uitgevoerd van datastructuren.Verschillen op macro en op microniveau.

    (for differences see next couple of slides. Trouble is not the encoding but the interpretation of the data by different editors) Not only WBD and WLD, but also dictionaries of

    LEXUS tool Max Planck (LMF-based) can also perform searches.We take bakkertje as an example.There is more information available in the database. There we also see the phonetic transcription. The place name had been translated from Kloeke-code to a real placename: Prinsenhage.Reasoning behind the XML encoding:Encoding tailored to WBD and WLDEncoding flexible enough to also encode other dialect dictionaries (for differences see next couple of slides. Trouble is not the encoding but the interpretation of the data by different editors) Translate categories to categories in DCR and the Lexicon Modelling framework: advantages: ISO-standard.

    Uitgangspunt voor codering is dat voor alle dialectwoordenboeken in beginsel geldt dat je een variant hebben, welke is opgetekend voor een bepaalde plaats en dat deze fonetische variant vervolgens wordt ingedeeld bij een categorie van een hogere orde: een andere variant. Deze variant functioneert soms als trefwoord. De concepten/begrippen zijn in een metataal opgesteld (In bijna alle gevallen is dat het Nederlandse. Bij het WALD echter zijn beschreven taal en metataal beiden het Achterhoeks).

    Problematische blijft echter de vraag hoe de gebruiker met het materiaal als n geheel zal kunnen werken. Met een zelfde basiscodering alleen ben je er namelijk nog niet. Dit komt door de volgende variaties op macro- en microniveau:

    Op macroniveau hebben we te maken met variatie in de ordening van het materiaal. Deze ordening is alfabetisch van aard bijvoorbeeld bij het Zeeuws woordenboek (zie scan). De ordening is echter thematisch van opzet bij o.a. het WBD, WLD, WVD en WALD (zie scan). Daar wordt een semantische indeling gebruikt welke de gebruiker uiteindelijk bij een begrip brengt. Dit begrip heeft de functie van lemmatitel.Willen we de gebruiker toegang bieden tot alle dialectwoordenboeken via n overkoepelend thematisch systeem van ordening zoals bij WBD en WLD dan zal er veel werk gestoken moeten worden in het opbouwen van zon ontologie waarin begripshirarchien en synoniemenrelaties voor alle woordenboeken samenkomen.

    Op microniveau hebben we te maken met een ander probleem dat interpratatie van de data als n geheel bemoeilijkt: het probleem dat de vertrefwoording van fonetische varianten vaak volgens andere principes is uitgevoerd bij de verschillende woordenboeken. Het maalder/mulder probleem in WBD en WVD. (Dit probleem blijkt zich ook voor te doen bij het vergelijken van het WBD en WLD)

    Beide problemen zullen niet binnen D-kwadraat opgelost worden. De algemeen bruikbare XML-codering en tools die binnen D-kwadraat ontwikkeld zullen worden zijn wel een eerste stap in de richting voor een oplossing.

    (Let op: deel III van het WBD is afwijkend omdat er geen fonetische varianten gepubliceerd werden, maar alleen een tussenvorm: de lexicale variant. Echter, in de materiaalbases is die koppeling nog wel voor handen. We zullen bij D-kwadraat daarom voor deel III gebruik maken van de materiaalbases. Eventueel kan de extra informatie die in de gepubliceerde woordenboek van deel III ligt, worden toegevoegd. Dat hangt af van de vraag of het zinnig is om naast de fonetische varianten ook nog de door de redactie genterpreteerde lexicale varianten beschikbaar te stellen.)

    Thematicaly/systematicaly organised AND all meta language in the language of the dialect. A concept with a description and several variants (type=lexical) and the locations found for those variants.Alphabeticaly organisedOne variant, a concept, an example (also meta), locations belonging to the one variant.Ill go into more detail about phase 1 and 2 in the rest of this presentation. Phase 3 (POS and morpheme-boundaries). Phase 4 (Our preference is the TST-centrale.)

    Onder punt 2 in slide 13 heb je nog een vraagteken staan. Het gaat daar denk ik om de ontwikkeling van het gereedschap om de data te benaderen search engine, smart match, semantische taxonomie), om het presenteren (hoe lees ik mijn query-resultaten op het scherm, cartografische applicaties) en evt. om de omlijsting op internet (design).Xquery: voorziene moeilijkheden: snelheid (oplossing XML Database?). Met XQuery kun je complexe queries formuleren waarbij je gebruik kunt maken van de XML-structuur en van reguliere expressies. Moelijkheid: hoe maak je een interface voor zoekmodule waarbij zoveel mogelijk is. Oplossing kan zijn: expert en novice veries van de zoekinterface.SmartMatch: introduceert fuzziness. Maar op een manier die niet te doorgronden is voor de gebruiker. Is een nadeel voor de expert user. Voor de novice wegen de voordelen (je laten verrassen, meerder schijfwijzen leiden ONDER ANDERE tot de bedoelde schrijfwijze (maar ook tot een hoop andere die NIET de juiste schrijfwijze zijn)) misschien op tegen de nadelen. Zou een gebruikersonderzoekje naar gedaan kunnen worden.LEXUS tool:Voor linguistische beschrijving op het niveau van dokumentelementen zoals woorden, database velden etc., wordt op dit moment een canonische set van datakategorieen geformuleerd binnen ISO TC37/SC4. Deze set zal het resultaat zijn van een vergelijking van vroegere standaardisatie-initiatieven zoals TEI (http://www.tei-c.org/P4X/) en EAGLES (http://www.ilc.cnr.it/EAGLES96/browse.html).

    Indices: systematic/thematic or alphabetic.Na zoekopdracht of ontologiegebaseerd browsen beland je op een bepaald niveau in de data. Vanaf het begripsniveau zou je moeten kunnen kiezen voor een lijst met trefwoorden of voor een kaart als presentatievorm

    - Tools: Search engine (complex queries, retrograde, reg exp.), Cartographic tool (different base maps), Conversion to KIPA or IPA- Enrichment: POS, syllables and morphemes (of headwords and/or lexical variants)- Links to other resources: Other dictionaries, questionnaires, FAND (speech samples), MAND)

    Xquery: voorziene moeilijkheden: snelheid (oplossing XML Database?). Met XQuery kun je complexe queries formuleren waarbij je gebruik kunt maken van de XML-structuur en van reguliere expressies. Moelijkheid: hoe maak je een interface voor zoekmodule waarbij zoveel mogelijk is. Oplossing kan zijn: expert en novice veries van de zoekinterface.SmartMatch: introduceert fuzziness. Maar op een manier die niet te doorgronden is voor de gebruiker. Is een nadeel voor de expert user. Voor de novice wegen de voordelen (je laten verrassen, meerder schijfwijzen leiden ONDER ANDERE tot de bedoelde schrijfwijze (maar ook tot een hoop andere die NIET de juiste schrijfwijze zijn)) misschien op tegen de nadelen. Zou een gebruikersonderzoekje naar gedaan kunnen worden.- LEXUS tool:Voor linguistische beschrijving op het niveau van dokumentelementen zoals woorden, database velden etc., wordt op dit moment een canonische set van datakategorieen geformuleerd binnen ISO TC37/SC4. Deze set zal het resultaat zijn van een vergelijking van vroegere standaardisatie-initiatieven zoals TEI (http://www.tei-c.org/P4X/) en EAGLES (http://www.ilc.cnr.it/EAGLES96/browse.html).Onze vragen voor de vragenrondes:Query-tools in xml (loss of speed)Gis-applications based on xml-data (gml)Experience in xml-conversionMapping of differently structured dataLayering of maps (scales, vectors)Availability of suitable mapsDCR?