centrum technologii językowych...
TRANSCRIPT
CLARIN-PL
Centrum Technologii Jezykowych CLARIN-PL: deponowanie i upowszechnianie zasobow oraz narzedzi jezykowych dla jezyka polskiego
Maciej Piasecki, Tomasz Walkowiak Politechnika Wrocławska
Katedra Inteligencji Obliczeniowej
Grupa Naukowa G4.19
Katedra Informatyki Technicznej
[email protected] 2015-04-13
CLARIN
CLARIN =
Common Language Resources and Technology Infrastructure
Wspólne zasoby językowe i infrastruktura technologiczna
Część
europejskiej mapy drogowej infrastruktury naukowej
(European Roadmap for Research Infrastructures)
ESFRI (European Strategy Forum on Research
Infrastructures)
Polskiej Mapy Drogowej Infrastruktury Badawczej
Cel
połączenie zasobów i narzędzi językowych dla wszystkich
języków europejskich w ramach jednej wspólnej sieciowej
infrastruktury naukowej
Obszar działania: nauki humanistyczne i społeczne
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
CLARIN
CLARIN ERIC konsorcjum naukowe typu ERIC (European Research Infrastructure
Consortium)
Członkowie założyciele
Austria, Bułgaria, Czechy, Dania, Estonia, Holandia, Niemcy, Polska, Dutch Language Union (organizacja międzypaństwowa)
Pozostali członkowie
Grecja, Litwa, Portugalia, Szwecja
Obserwatorzy
Norwegia
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Podstawowe pojęcia
Zasoby językowe
zbiory danych i bazy danych opisujące język naturalny oraz jego
użycie
sformalizowany opis wybranych aspektów języka naturalnego
Narzędzia językowe
programy komputerowe do przetwarzania tekstu i mowy na różnych
poziomach analizy języka naturalnego
automatyczna analiza struktur językowych, np. analiza składniowa
zastosowania użytkowe, np. rozpoznawanie i klasyfikacja nazw
własnych
Technologia językowa = zasoby + narzędzia + infrastruktura
Infrastruktura językowa
wspólna baza technologiczna zapewniająca połączenie
zróżnicowanych narzędzi i zasobów językowych
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Bariery w dostępie
Fizyczna
narzędzia i zasoby nie są dostępne w sieci
Informacyjna
brak opisu narzędzi i zasobów
brak katalogów i możliwości łatwego odnalezienia
Technologiczna
brak standardów, możliwości łączenia elementów technologii
brak wspólnej platformy – różnorodność rozwiązań technologicznych
brak sprzętu o określonych parametrach
Wiedzy
wymagane umiejętności programistyczne
wymagana wiedza z zakresu inżynierii języka naturalnego
Prawna
licencje ograniczające dostęp i wykorzystanie
szczególnie w odniesieniu do korpusów
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Infrastruktura językowa
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Usługi CLARIN
Wspólna europejska sieć technologii językowej
tj. narzędzi i zasobów językowych oraz aplikacji
Centrum Technologii Językowych CLARIN-PL
repozytorium do przechowywania i udostępniania zasobów
językowych
usługi do analizy tekstów i mowy na różnych poziomach
aplikacje badawcze, np. do półautomatycznej anotacji
semantycznej tekstu lub semantycznego porównywania
korpusów
Aplikacje skojarzone z CLARIN-PL, np. rozszerzenia do
przeszukiwania NKJP
Centrum Wiedzy – zapewniające wsparcie dla
użytkowników CLARIN
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Wspólna europejska sieć
technologii językowych
Jeden, własny login z macierzystej jednostki naukowej przy
dostępie do całej sieci
Jeden system trwałych identyfikatorów dla zasobów
Połączona sieć centrów
centralne przeszukiwanie treści: Federated Content Search
bezpieczeństwo danych (certyfikaty i kopie danych)
Wspólny standard metadanych
centralne wyszukiwanie po wszystkich zasobach
Virtual Language Observatory
wspólny słownik atrybutów, wartości i relacji w meta-danych
wirtualne kolekcje
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
CLARIN ERIC: usługi centralne
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Wyszukiwanie zasobów po meta-
danych w formacie CMDI
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Wyszukiwanie zasobów po meta-
danych w formacie CMDI
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Fasetowe wyszukiwanie
Atrybuty i ich zakresy wartości są odczytywane z meta-danych
Wspólny standard: CMDI (Componet Metadata Infrastructure)
Centralne przeszukiwanie treści
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Centrum Technologii Językowych
CLARIN-PL
www.clarin-pl.eu
Zlokalizowane na Politechnice Wrocławskiej, w ramach Grupy Naukowej G4.19
Zapewnia funkcje sieciowe infrastruktury CLARIN
Udostępnia
repozytorium
usługi do analizy tekstu (i mowy) w języku polskim
zestaw wybranych aplikacji zbudowanych we współpracy z użytkownikami
wsparcie dla użytkowników – naukowców, jako Centrum Wiedzy
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Funkcje CTJ CLARIN-PL
Rozproszona identyfikacja i autoryzacja użytkowników
oparta na federacjach narodowych
zasada jednego konta i jednego logowania
Odpowiedni system składowania (repozytoryjny)
trwałość danych (system archiwizacji)
jednoznaczny opis danych za pomocą trwałych identyfikatorów (Persistent Identifiers)
metadane o złożonej strukturze (CMDI)
zarządzanie metadanymi zgodnie z przyjętymi standardami, np. CCR (CLARIN Concept Registry), RELcat
wirtualne kolekcje oparte na metadanych
Integracja zasobów i usług
w oparciu o usługi sieciowe (Web Services)
dostęp poprzez aplikacje sieciowe
brak konieczności ściągania i instalowania
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Repozytorium DSpace
Repozytorium cyfrowe Clarin-PL oparte jest o
otwarty system DSpace. Zapisuje, przechowuje,
opisuje, indeksuje i udostępnia materiały cyfrowe
Platforma udostępnia otwarte zasoby naukowe oraz integruje narzędzia
Clarin-PL z Clarin ERIC
Wsparcie dla systemu CNRI Handle System [handle.net]
pozwala na swobodną zmianę adresów/serwerów
Zasoby są widoczne Virtual Language
Observatory, który łączy repozytoria z
różnych centrów w Europie https://catalog.clarin.eu/vlo/search?1&fq=collection:CLARIN-PL
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Repozytorium DSpace
Clarin-PL DSpace posiada liczne rozszerzenia pozwalające
na udostępnianie zasobów instytucjom będącym w
federacjach tożsamości (AAI) takich jak eduGain
AAI to proste logowanie za pomocą jednego loginu i hasła
(autoryzuje jednostka macierzysta, nie potrzebne jest
przechowywanie haseł)
Polska federacja to https://aai.pionier.net.pl/
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Polska federacja uwierzytelniania
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Polska federacja uwierzytelniania
Federacja PIONIER.Id adresowana jest do środowiska
naukowo-akademickiego
Połączenie z siecią PIONIER albo bezpośrednie, albo za
pośrednictwem jednej z sieci członków Konsorcjum PIONIER
Warunki techniczne Federacji:
https://aai.pionier.net.pl/dokumenty/PIONIER_Id_Tech.pdf
Istnieje możliwość przystąpienia do infrastruktury testowej, aby w
praktyce sprawdzić działanie mechanizmów federacji
Podpisanie Deklaracji Członkowskiej i przesłanie jej do Operatora
Federacji
Po zweryfikowaniu wszystkich warunków formalnych i technicznych,
Operator podejmie decyzję o akceptacji Deklaracji
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Usługi sieciowe
Narzędzia językowe
aplikacje zbudowane w różnorodnych technologiach
złożony proces instalacji
różnorodne interfejsy
trudność w tworzeniu potoków przetwarzania
„Wszystko jest usługą sieciową”
Komponent oprogramowanie o ustandaryzowanym interfejsie,
dostępny poprzez protokół internetowy
UI – przeglądarka internetowa
Aplikacje dostępowe oparte o przeglądarki
internetowe
Łączenie usług w potoki
Wizualizacja
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Usługi sieciowe - architektura
20
NLPWorkersNLPServices
RESTSOAP
Serwer
NFS
Worker 1(WCRFT2)
Worker 2(Liner2)
Worker 3(WSD)
Worker n+1(Serel)
NLPEngine
Monitoring
Internal network
G4.19Web
applications
Wydajność
przetwarzanie równoległe
chmura prywatne, skalowanie
Identyfikatory plików
na wej./wyj. narzędzi
Elastyczność
złożone potoki przetwarzania
narzędzia z obszaru
maszynowego uczenia
Usługi sieciowe - choreografia
21
WCRFT LINER2 SEREL
SuperMatrix
WCRFT LINER2 SEREL
Usługi sieciowe
Zaimplementowane usługi
Konwersja: any2txt
Narzędzia NLP: wcrft2, chunker, chunkrel, serel, liner2, wosedon
Generacja wektorów cech: fextor
Klasyfikacja: stylo, cluto, SVM
Komunikacja (pliki, URL, e-mail), integracja z DSpace
Prace
Konwertery, monitorowanie
Aplikacje pod konkretne zastosowania
Możliwości podpięcia innych narzędzi
Wirtualna maszyna w centrum + proste API
Przekierowanie do zewnętrznych usług (WebLicht, Multiservice)
22
Zintegrowane środowisko
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Repozytorium jest
zintegrowane z
narzędziami NLP
Proste przygotowanie
korpusu dla narzędzi
typu Inforex
Ten sam użytkownik do
wszystkich narzędzi i do
DSpace
Potok przetwarzania
WS1 WS2 WS3
D-SPACE
Narzędzia NLP API
Dane tymczasowe Zasoby / dane
Wywołanie
z DSpace
Inforex
Dane przygotowane
Zintegrowane środowisko
Jak skorzystać z DSpace
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Aplikacje badawcze
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Aplikacje badawcze
Narzędzia wysokiego poziomu nie wymagające wiedzy z
dziedziny inżynierii języka lub technologii językowych
Techniki załadowania własnych danych
Bezpośrednie załadowanie plików w interfejsie webowym
Lokalny plik, URL
Różnorodność formatów
txt – różnorodne kodowanie znaków
doc, docx (pptx, xlslx), odt, rtf, html, pdf
zip
Uprzednie załadowanie plików do repozytorium – zalecane
Identyfikacja poprzez trwały identyfikator
Wstępnie przetworzone
Zasoby obliczeniowe są zawsze ograniczone
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
CLARIN-PL
Dziękuję bardzo za uwagę