centrum technologii językowych...

27
CLARIN-PL Centrum Technologii Jzykowych CLARIN-PL: deponowanie i upowszechnianie zasobw oraz narzdzi jzykowych dla jzyka polskiego Maciej Piasecki, Tomasz Walkowiak Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Katedra Informatyki Technicznej [email protected] 2015-04-13

Upload: others

Post on 07-Jul-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Centrum Technologii Językowych CLARIN-PLclarin-pl.eu/wp-content/uploads/2015/05/CTJ-deponowanie...wirtualne kolekcje Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL CLARIN ERIC:

CLARIN-PL

Centrum Technologii Jezykowych CLARIN-PL: deponowanie i upowszechnianie zasobow oraz narzedzi jezykowych dla jezyka polskiego

Maciej Piasecki, Tomasz Walkowiak Politechnika Wrocławska

Katedra Inteligencji Obliczeniowej

Grupa Naukowa G4.19

Katedra Informatyki Technicznej

[email protected] 2015-04-13

Page 2: Centrum Technologii Językowych CLARIN-PLclarin-pl.eu/wp-content/uploads/2015/05/CTJ-deponowanie...wirtualne kolekcje Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL CLARIN ERIC:

CLARIN

CLARIN =

Common Language Resources and Technology Infrastructure

Wspólne zasoby językowe i infrastruktura technologiczna

Część

europejskiej mapy drogowej infrastruktury naukowej

(European Roadmap for Research Infrastructures)

ESFRI (European Strategy Forum on Research

Infrastructures)

Polskiej Mapy Drogowej Infrastruktury Badawczej

Cel

połączenie zasobów i narzędzi językowych dla wszystkich

języków europejskich w ramach jednej wspólnej sieciowej

infrastruktury naukowej

Obszar działania: nauki humanistyczne i społeczne

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Page 3: Centrum Technologii Językowych CLARIN-PLclarin-pl.eu/wp-content/uploads/2015/05/CTJ-deponowanie...wirtualne kolekcje Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL CLARIN ERIC:

CLARIN

CLARIN ERIC konsorcjum naukowe typu ERIC (European Research Infrastructure

Consortium)

Członkowie założyciele

Austria, Bułgaria, Czechy, Dania, Estonia, Holandia, Niemcy, Polska, Dutch Language Union (organizacja międzypaństwowa)

Pozostali członkowie

Grecja, Litwa, Portugalia, Szwecja

Obserwatorzy

Norwegia

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Page 4: Centrum Technologii Językowych CLARIN-PLclarin-pl.eu/wp-content/uploads/2015/05/CTJ-deponowanie...wirtualne kolekcje Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL CLARIN ERIC:

Podstawowe pojęcia

Zasoby językowe

zbiory danych i bazy danych opisujące język naturalny oraz jego

użycie

sformalizowany opis wybranych aspektów języka naturalnego

Narzędzia językowe

programy komputerowe do przetwarzania tekstu i mowy na różnych

poziomach analizy języka naturalnego

automatyczna analiza struktur językowych, np. analiza składniowa

zastosowania użytkowe, np. rozpoznawanie i klasyfikacja nazw

własnych

Technologia językowa = zasoby + narzędzia + infrastruktura

Infrastruktura językowa

wspólna baza technologiczna zapewniająca połączenie

zróżnicowanych narzędzi i zasobów językowych

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Page 5: Centrum Technologii Językowych CLARIN-PLclarin-pl.eu/wp-content/uploads/2015/05/CTJ-deponowanie...wirtualne kolekcje Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL CLARIN ERIC:

Bariery w dostępie

Fizyczna

narzędzia i zasoby nie są dostępne w sieci

Informacyjna

brak opisu narzędzi i zasobów

brak katalogów i możliwości łatwego odnalezienia

Technologiczna

brak standardów, możliwości łączenia elementów technologii

brak wspólnej platformy – różnorodność rozwiązań technologicznych

brak sprzętu o określonych parametrach

Wiedzy

wymagane umiejętności programistyczne

wymagana wiedza z zakresu inżynierii języka naturalnego

Prawna

licencje ograniczające dostęp i wykorzystanie

szczególnie w odniesieniu do korpusów

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Page 6: Centrum Technologii Językowych CLARIN-PLclarin-pl.eu/wp-content/uploads/2015/05/CTJ-deponowanie...wirtualne kolekcje Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL CLARIN ERIC:

Infrastruktura językowa

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Page 7: Centrum Technologii Językowych CLARIN-PLclarin-pl.eu/wp-content/uploads/2015/05/CTJ-deponowanie...wirtualne kolekcje Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL CLARIN ERIC:

Usługi CLARIN

Wspólna europejska sieć technologii językowej

tj. narzędzi i zasobów językowych oraz aplikacji

Centrum Technologii Językowych CLARIN-PL

repozytorium do przechowywania i udostępniania zasobów

językowych

usługi do analizy tekstów i mowy na różnych poziomach

aplikacje badawcze, np. do półautomatycznej anotacji

semantycznej tekstu lub semantycznego porównywania

korpusów

Aplikacje skojarzone z CLARIN-PL, np. rozszerzenia do

przeszukiwania NKJP

Centrum Wiedzy – zapewniające wsparcie dla

użytkowników CLARIN

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Page 8: Centrum Technologii Językowych CLARIN-PLclarin-pl.eu/wp-content/uploads/2015/05/CTJ-deponowanie...wirtualne kolekcje Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL CLARIN ERIC:

Wspólna europejska sieć

technologii językowych

Jeden, własny login z macierzystej jednostki naukowej przy

dostępie do całej sieci

Jeden system trwałych identyfikatorów dla zasobów

Połączona sieć centrów

centralne przeszukiwanie treści: Federated Content Search

bezpieczeństwo danych (certyfikaty i kopie danych)

Wspólny standard metadanych

centralne wyszukiwanie po wszystkich zasobach

Virtual Language Observatory

wspólny słownik atrybutów, wartości i relacji w meta-danych

wirtualne kolekcje

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Page 9: Centrum Technologii Językowych CLARIN-PLclarin-pl.eu/wp-content/uploads/2015/05/CTJ-deponowanie...wirtualne kolekcje Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL CLARIN ERIC:

CLARIN ERIC: usługi centralne

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Page 10: Centrum Technologii Językowych CLARIN-PLclarin-pl.eu/wp-content/uploads/2015/05/CTJ-deponowanie...wirtualne kolekcje Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL CLARIN ERIC:

Wyszukiwanie zasobów po meta-

danych w formacie CMDI

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Page 11: Centrum Technologii Językowych CLARIN-PLclarin-pl.eu/wp-content/uploads/2015/05/CTJ-deponowanie...wirtualne kolekcje Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL CLARIN ERIC:

Wyszukiwanie zasobów po meta-

danych w formacie CMDI

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Fasetowe wyszukiwanie

Atrybuty i ich zakresy wartości są odczytywane z meta-danych

Wspólny standard: CMDI (Componet Metadata Infrastructure)

Page 12: Centrum Technologii Językowych CLARIN-PLclarin-pl.eu/wp-content/uploads/2015/05/CTJ-deponowanie...wirtualne kolekcje Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL CLARIN ERIC:

Centralne przeszukiwanie treści

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Page 13: Centrum Technologii Językowych CLARIN-PLclarin-pl.eu/wp-content/uploads/2015/05/CTJ-deponowanie...wirtualne kolekcje Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL CLARIN ERIC:

Centrum Technologii Językowych

CLARIN-PL

www.clarin-pl.eu

Zlokalizowane na Politechnice Wrocławskiej, w ramach Grupy Naukowej G4.19

Zapewnia funkcje sieciowe infrastruktury CLARIN

Udostępnia

repozytorium

usługi do analizy tekstu (i mowy) w języku polskim

zestaw wybranych aplikacji zbudowanych we współpracy z użytkownikami

wsparcie dla użytkowników – naukowców, jako Centrum Wiedzy

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Page 14: Centrum Technologii Językowych CLARIN-PLclarin-pl.eu/wp-content/uploads/2015/05/CTJ-deponowanie...wirtualne kolekcje Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL CLARIN ERIC:

Funkcje CTJ CLARIN-PL

Rozproszona identyfikacja i autoryzacja użytkowników

oparta na federacjach narodowych

zasada jednego konta i jednego logowania

Odpowiedni system składowania (repozytoryjny)

trwałość danych (system archiwizacji)

jednoznaczny opis danych za pomocą trwałych identyfikatorów (Persistent Identifiers)

metadane o złożonej strukturze (CMDI)

zarządzanie metadanymi zgodnie z przyjętymi standardami, np. CCR (CLARIN Concept Registry), RELcat

wirtualne kolekcje oparte na metadanych

Integracja zasobów i usług

w oparciu o usługi sieciowe (Web Services)

dostęp poprzez aplikacje sieciowe

brak konieczności ściągania i instalowania

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Page 15: Centrum Technologii Językowych CLARIN-PLclarin-pl.eu/wp-content/uploads/2015/05/CTJ-deponowanie...wirtualne kolekcje Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL CLARIN ERIC:

Repozytorium DSpace

Repozytorium cyfrowe Clarin-PL oparte jest o

otwarty system DSpace. Zapisuje, przechowuje,

opisuje, indeksuje i udostępnia materiały cyfrowe

Platforma udostępnia otwarte zasoby naukowe oraz integruje narzędzia

Clarin-PL z Clarin ERIC

Wsparcie dla systemu CNRI Handle System [handle.net]

pozwala na swobodną zmianę adresów/serwerów

Zasoby są widoczne Virtual Language

Observatory, który łączy repozytoria z

różnych centrów w Europie https://catalog.clarin.eu/vlo/search?1&fq=collection:CLARIN-PL

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Page 16: Centrum Technologii Językowych CLARIN-PLclarin-pl.eu/wp-content/uploads/2015/05/CTJ-deponowanie...wirtualne kolekcje Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL CLARIN ERIC:

Repozytorium DSpace

Clarin-PL DSpace posiada liczne rozszerzenia pozwalające

na udostępnianie zasobów instytucjom będącym w

federacjach tożsamości (AAI) takich jak eduGain

AAI to proste logowanie za pomocą jednego loginu i hasła

(autoryzuje jednostka macierzysta, nie potrzebne jest

przechowywanie haseł)

Polska federacja to https://aai.pionier.net.pl/

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Page 17: Centrum Technologii Językowych CLARIN-PLclarin-pl.eu/wp-content/uploads/2015/05/CTJ-deponowanie...wirtualne kolekcje Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL CLARIN ERIC:

Polska federacja uwierzytelniania

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Page 18: Centrum Technologii Językowych CLARIN-PLclarin-pl.eu/wp-content/uploads/2015/05/CTJ-deponowanie...wirtualne kolekcje Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL CLARIN ERIC:

Polska federacja uwierzytelniania

Federacja PIONIER.Id adresowana jest do środowiska

naukowo-akademickiego

Połączenie z siecią PIONIER albo bezpośrednie, albo za

pośrednictwem jednej z sieci członków Konsorcjum PIONIER

Warunki techniczne Federacji:

https://aai.pionier.net.pl/dokumenty/PIONIER_Id_Tech.pdf

Istnieje możliwość przystąpienia do infrastruktury testowej, aby w

praktyce sprawdzić działanie mechanizmów federacji

Podpisanie Deklaracji Członkowskiej i przesłanie jej do Operatora

Federacji

Po zweryfikowaniu wszystkich warunków formalnych i technicznych,

Operator podejmie decyzję o akceptacji Deklaracji

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Page 19: Centrum Technologii Językowych CLARIN-PLclarin-pl.eu/wp-content/uploads/2015/05/CTJ-deponowanie...wirtualne kolekcje Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL CLARIN ERIC:

Usługi sieciowe

Narzędzia językowe

aplikacje zbudowane w różnorodnych technologiach

złożony proces instalacji

różnorodne interfejsy

trudność w tworzeniu potoków przetwarzania

„Wszystko jest usługą sieciową”

Komponent oprogramowanie o ustandaryzowanym interfejsie,

dostępny poprzez protokół internetowy

UI – przeglądarka internetowa

Aplikacje dostępowe oparte o przeglądarki

internetowe

Łączenie usług w potoki

Wizualizacja

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Page 20: Centrum Technologii Językowych CLARIN-PLclarin-pl.eu/wp-content/uploads/2015/05/CTJ-deponowanie...wirtualne kolekcje Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL CLARIN ERIC:

Usługi sieciowe - architektura

20

NLPWorkersNLPServices

RESTSOAP

Serwer

NFS

Worker 1(WCRFT2)

Worker 2(Liner2)

Worker 3(WSD)

Worker n+1(Serel)

NLPEngine

Monitoring

Internal network

G4.19Web

applications

Wydajność

przetwarzanie równoległe

chmura prywatne, skalowanie

Identyfikatory plików

na wej./wyj. narzędzi

Page 21: Centrum Technologii Językowych CLARIN-PLclarin-pl.eu/wp-content/uploads/2015/05/CTJ-deponowanie...wirtualne kolekcje Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL CLARIN ERIC:

Elastyczność

złożone potoki przetwarzania

narzędzia z obszaru

maszynowego uczenia

Usługi sieciowe - choreografia

21

WCRFT LINER2 SEREL

SuperMatrix

WCRFT LINER2 SEREL

Page 22: Centrum Technologii Językowych CLARIN-PLclarin-pl.eu/wp-content/uploads/2015/05/CTJ-deponowanie...wirtualne kolekcje Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL CLARIN ERIC:

Usługi sieciowe

Zaimplementowane usługi

Konwersja: any2txt

Narzędzia NLP: wcrft2, chunker, chunkrel, serel, liner2, wosedon

Generacja wektorów cech: fextor

Klasyfikacja: stylo, cluto, SVM

Komunikacja (pliki, URL, e-mail), integracja z DSpace

Prace

Konwertery, monitorowanie

Aplikacje pod konkretne zastosowania

Możliwości podpięcia innych narzędzi

Wirtualna maszyna w centrum + proste API

Przekierowanie do zewnętrznych usług (WebLicht, Multiservice)

22

Page 23: Centrum Technologii Językowych CLARIN-PLclarin-pl.eu/wp-content/uploads/2015/05/CTJ-deponowanie...wirtualne kolekcje Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL CLARIN ERIC:

Zintegrowane środowisko

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Repozytorium jest

zintegrowane z

narzędziami NLP

Proste przygotowanie

korpusu dla narzędzi

typu Inforex

Ten sam użytkownik do

wszystkich narzędzi i do

DSpace

Potok przetwarzania

WS1 WS2 WS3

D-SPACE

Narzędzia NLP API

Dane tymczasowe Zasoby / dane

Wywołanie

z DSpace

Inforex

Dane przygotowane

Page 24: Centrum Technologii Językowych CLARIN-PLclarin-pl.eu/wp-content/uploads/2015/05/CTJ-deponowanie...wirtualne kolekcje Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL CLARIN ERIC:

Zintegrowane środowisko

Jak skorzystać z DSpace

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Page 25: Centrum Technologii Językowych CLARIN-PLclarin-pl.eu/wp-content/uploads/2015/05/CTJ-deponowanie...wirtualne kolekcje Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL CLARIN ERIC:

Aplikacje badawcze

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Page 26: Centrum Technologii Językowych CLARIN-PLclarin-pl.eu/wp-content/uploads/2015/05/CTJ-deponowanie...wirtualne kolekcje Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL CLARIN ERIC:

Aplikacje badawcze

Narzędzia wysokiego poziomu nie wymagające wiedzy z

dziedziny inżynierii języka lub technologii językowych

Techniki załadowania własnych danych

Bezpośrednie załadowanie plików w interfejsie webowym

Lokalny plik, URL

Różnorodność formatów

txt – różnorodne kodowanie znaków

doc, docx (pptx, xlslx), odt, rtf, html, pdf

zip

Uprzednie załadowanie plików do repozytorium – zalecane

Identyfikacja poprzez trwały identyfikator

Wstępnie przetworzone

Zasoby obliczeniowe są zawsze ograniczone

Warsztaty CLARIN-PL

Warszawa

13-15 IV 2015

CLARIN-PL

Page 27: Centrum Technologii Językowych CLARIN-PLclarin-pl.eu/wp-content/uploads/2015/05/CTJ-deponowanie...wirtualne kolekcje Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL CLARIN ERIC:

CLARIN-PL

Dziękuję bardzo za uwagę