uporaba odprtokodnih rešitev pri zagotavljanju podatkovne … · 2013-05-23 · tomaž erjavec ....
TRANSCRIPT
Tomaž Erjavec Odsek za tehnologije znanja Institut „Jožef Stefan“ Ljubljana
Uporaba odprtokodnih rešitev pri zagotavljanju podatkovne infrastrukture
Delavnica
Napredne tehnologije za vzpostavitev raziskovalne podatkovne infrastrukture v Sloveniji 22. 5. 2013
Pregled predavanja 1. Vsebine na strežniku nl.ijs.si 2. Uporabljena odprtokodna orodja 3. Prednosti
Odprtokodne rešitve 2
nl.ijs.si • Spletni strežnik deluje od ~1995 • „infrastruktura“ za področje (slovenskih) jezikovnih virov
• priporočila in podatkovne množice za jezikovne tehnologije • korpusi za empirično jezikoslovje • slovarji, registri • digitalne knjižnice
Odprtokodne rešitve 3
Priporočila MULTEXT-East
Odprtokodne rešitve 4
Podatkovne množice za JT-sl
Odprtokodne rešitve 5
Korpusi
Odprtokodne rešitve 6
Slovarji
Odprtokodne rešitve 7
Leksikoni, registri
Odprtokodne rešitve 8
Digitalne knjižnice
Odprtokodne rešitve 9
Osnovna programska oprema: LAMP • operacijski sistem Linux • strežnik spletnih dokumentov Apache • podatkovna baza mySQL • programski jezik Perl • … • (GIT, Jenkins)
Odprtokodne rešitve 10
Zapis jezikovnih podatkov • W3C XML et al. • ISO: 639, 8601, … • TEI P5
Odprtokodne rešitve 11
<body xml:lang="sl-bohoric"> <pb n="1" facs="#ZRC_00002-001" xml:id="pb.001"/> <div type="part"> <head> <s> <w lemma="na" ana="Sa">NA</w> <c> </c> <choice> <orig><w>NOVIGA</w></orig> <reg> <w lemma="nov" ana="Agpnsg">novega</w> </reg> </choice> <c> </c> <choice> <orig><w>LEJTA</w></orig> <reg> <w lemma="leto" ana="Ncnsg">leta</w> </reg> </choice>
Dostopnost • vse prosto
dostopno za pregledovanje
• večina prosto dostopna za prenos
• Creative Commons: • CC-BY • CC-BY-SA • CC-BY-NC • CC-BY-NC-SA
Odprtokodne rešitve 12
Programska oprema za dostop do vsebin 1. Predstavitev vsebin:
Statični HTML • npr. MULTEXT-East, eZISS, IMP
2. Predstavitev vsebin in iskanje po njih: Fedora Commons • npr. SBL, NRSS
3. Iskanje in analiza korpusov: noSketchEngine, CUWI • vsi korpusi
4. Prenos: Apache, (GIT) • npr. MULTEXT-East, JOS
Odprtokodne rešitve 13
Prednosti • Ideja odprtosti • Odprta koda: brezplačna, možnost popravljanja napak in
dograjevanja • Odprti standardi: jasen, dobro dokumentiran, od
implementacije neodvisen in trajen način zapisa besedil • Odprte licence: enostavna in predvsem čim širša
nadaljnja uporaba razvitih (jezikovnih) virov, zgrajenih z državnim financiranjem.
Odprtokodne rešitve 14