centrum(technologii(językowych(clarin;pl:(...

29
CLARIN-PL Centrum Technologii Językowych CLARINPL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego Maciej Piasecki, Tomasz Walkowiak Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Katedra Informatyki Technicznej [email protected] 20150518

Upload: others

Post on 07-Jul-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

CLARIN-PL

Centrum  Technologii  Językowych  CLARIN-­‐PL:  deponowanie  i  upowszechnianie  zasobów    oraz  narzędzi  językowych  dla  języka  polskiego  

Maciej  Piasecki,  Tomasz  Walkowiak  Politechnika  Wrocławska  

Katedra  Inteligencji  Obliczeniowej  Grupa  Naukowa  G4.19  

Katedra  Informatyki  Technicznej  [email protected]  

2015-­‐05-­‐18  

CLARIN

§  CLARIN = §  Common Language Resources and Technology Infrastructure §  Wspólne zasoby językowe i infrastruktura technologiczna

§  Część §  europejskiej mapy drogowej infrastruktury naukowej

(European Roadmap for Research Infrastructures) ESFRI (European Strategy Forum on Research Infrastructures)

§  Polskiej Mapy Drogowej Infrastruktury Badawczej §  Cel

§  połączenie zasobów i narzędzi językowych dla wszystkich języków europejskich w ramach jednej wspólnej sieciowej infrastruktury naukowej

§  Obszar działania: nauki humanistyczne i społeczne

Warsztaty CLARIN-PL Wrocław

18-20 V 2015

CLARIN-PL

CLARIN

§  CLARIN ERIC §  konsorcjum naukowe typu ERIC (European Research Infrastructure

Consortium) §  Członkowie założyciele

§  Austria, Bułgaria, Czechy, Dania, Estonia, Holandia, Niemcy, Polska, Dutch Language Union (organizacja międzypaństwowa)

§  Pozostali członkowie §  Grecja, Litwa, Portugalia, Słowenia, Szwecja

§  Obserwatorzy §  Norwegia

Warsztaty CLARIN-PL Wrocław

18-20 V 2015

CLARIN-PL

Podstawowe pojęcia

§  Zasoby językowe §  zbiory danych i bazy danych opisujące język naturalny oraz jego

użycie §  sformalizowany opis wybranych aspektów języka naturalnego

§  Narzędzia językowe §  programy komputerowe do przetwarzania tekstu i mowy na różnych

poziomach analizy języka naturalnego §  automatyczna analiza struktur językowych, np. analiza składniowa §  zastosowania użytkowe, np. rozpoznawanie i klasyfikacja nazw

własnych §  Technologia językowa = zasoby + narzędzia + infrastruktura §  Infrastruktura językowa

§  wspólna baza technologiczna zapewniająca połączenie zróżnicowanych narzędzi i zasobów językowych

Warsztaty CLARIN-PL Wrocław

18-20 V 2015

CLARIN-PL

Bariery w dostępie

§  Fizyczna §  narzędzia i zasoby nie są dostępne w sieci

§  Informacyjna §  brak opisu narzędzi i zasobów §  brak katalogów i możliwości łatwego odnalezienia

§  Technologiczna §  brak standardów, możliwości łączenia elementów technologii §  brak wspólnej platformy – różnorodność rozwiązań

technologicznych §  brak sprzętu o określonych parametrach

§  Wiedzy §  wymagane umiejętności programistyczne §  wymagana wiedza z zakresu inżynierii języka naturalnego

§  Prawna §  licencje ograniczające dostęp i wykorzystanie §  szczególnie w odniesieniu do korpusów

Warsztaty CLARIN-PL Wrocław

18-20 V 2015

CLARIN-PL

Infrastruktura językowa Warsztaty CLARIN-PL

Wrocław 18-20 V 2015

CLARIN-PL

Usługi CLARIN

§  Wspólna europejska sieć technologii językowej §  tj. narzędzi i zasobów językowych oraz aplikacji

§  Centrum Technologii Językowych CLARIN-PL §  repozytorium do przechowywania i udostępniania zasobów

językowych §  usługi do analizy tekstów i mowy na różnych poziomach §  aplikacje badawcze, np. do półautomatycznej anotacji

semantycznej tekstu lub semantycznego porównywania korpusów

§  Aplikacje skojarzone z CLARIN-PL, np. rozszerzenia do przeszukiwania NKJP

§  Centrum Wiedzy – zapewniające wsparcie dla użytkowników CLARIN

Warsztaty CLARIN-PL Wrocław

18-20 V 2015

CLARIN-PL

Wspólna europejska sieć technologii językowych

§  Jeden, własny login z macierzystej jednostki naukowej przy dostępie do całej sieci

§  Jeden system trwałych identyfikatorów dla zasobów §  Połączona sieć centrów

§  centralne przeszukiwanie treści: Federated Content Search §  bezpieczeństwo danych (certyfikaty i kopie danych)

§  Wspólny standard metadanych §  centralne wyszukiwanie po wszystkich zasobach §  Virtual Language Observatory §  wspólny słownik atrybutów, wartości i relacji w meta-danych §  wirtualne kolekcje

Warsztaty CLARIN-PL Wrocław

18-20 V 2015

CLARIN-PL

CLARIN ERIC: usługi centralne Warsztaty CLARIN-PL

Wrocław 18-20 V 2015

CLARIN-PL

Wyszukiwanie zasobów po meta-danych w formacie CMDI

Warsztaty CLARIN-PL Wrocław

18-20 V 2015

CLARIN-PL

Wyszukiwanie zasobów po meta-danych w formacie CMDI

Warsztaty CLARIN-PL Wrocław

18-20 V 2015

CLARIN-PL

§  Fasetowe wyszukiwanie §  Atrybuty i ich zakresy wartości są

odczytywane z meta-danych §  Wspólny standard: CMDI

(Componet Metadata Infrastructure)

Centralne przeszukiwanie treści Warsztaty CLARIN-PL

Wrocław 18-20 V 2015

CLARIN-PL

Centrum Technologii Językowych CLARIN-PL

www.clarin-pl.eu

§  Zlokalizowane na Politechnice Wrocławskiej, w ramach Grupy Naukowej G4.19

§  Zapewnia funkcje sieciowe infrastruktury CLARIN §  Udostępnia

§  repozytorium §  usługi do analizy tekstu (i mowy) w języku polskim §  zestaw wybranych aplikacji zbudowanych we współpracy

z użytkownikami §  wsparcie dla użytkowników – naukowców, jako Centrum

Wiedzy

Warsztaty CLARIN-PL Wrocław

18-20 V 2015

CLARIN-PL

Funkcje CTJ CLARIN-PL

§  Rozproszona identyfikacja i autoryzacja użytkowników §  oparta na federacjach narodowych §  zasada jednego konta i jednego logowania

§  Odpowiedni system składowania (repozytoryjny) §  trwałość danych (system archiwizacji) §  jednoznaczny opis danych za pomocą trwałych identyfikatorów

(Persistent Identifiers) §  metadane o złożonej strukturze (CMDI) §  zarządzanie metadanymi zgodnie z przyjętymi standardami, np.

CCR (CLARIN Concept Registry), RELcat §  wirtualne kolekcje oparte na metadanych

§  Integracja zasobów i usług §  w oparciu o usługi sieciowe (Web Services) §  dostęp poprzez aplikacje sieciowe §  brak konieczności ściągania i instalowania

Warsztaty CLARIN-PL Wrocław

18-20 V 2015

CLARIN-PL

Repozytorium DSpace

§  Repozytorium cyfrowe Clarin-PL oparte jest o otwarty system DSpace. Zapisuje, przechowuje, opisuje, indeksuje i udostępnia materiały cyfrowe

§  Platforma udostępnia otwarte zasoby naukowe oraz integruje narzędzia

Clarin-PL z Clarin ERIC

§  Wsparcie dla systemu CNRI Handle System [handle.net] §  pozwala na swobodną zmianę adresów/serwerów

§  Zasoby są widoczne Virtual Language Observatory, który łączy repozytoria z różnych centrów w Europie https://catalog.clarin.eu/vlo/search?1&fq=collection:CLARIN-PL

Warsztaty CLARIN-PL Wrocław

18-20 V 2015

CLARIN-PL

Repozytorium DSpace

§  Clarin-PL DSpace posiada liczne rozszerzenia pozwalające na udostępnianie zasobów instytucjom będącym w federacjach tożsamości (AAI) takich jak eduGain

§  AAI to proste logowanie za pomocą jednego loginu i hasła (autoryzuje jednostka macierzysta, nie potrzebne jest przechowywanie haseł)

§  Polska federacja to https://aai.pionier.net.pl/

Warsztaty CLARIN-PL Wrocław

18-20 V 2015

CLARIN-PL

Polska federacja uwierzytelniania Warsztaty CLARIN-PL

Wrocław 18-20 V 2015

CLARIN-PL

Polska federacja uwierzytelniania

§  Federacja PIONIER.Id adresowana jest do środowiska naukowo-akademickiego

§  Połączenie z siecią PIONIER albo bezpośrednie, albo za pośrednictwem jednej z sieci członków Konsorcjum PIONIER

§  Warunki techniczne Federacji: §  https://aai.pionier.net.pl/dokumenty/PIONIER_Id_Tech.pdf

§  Istnieje możliwość przystąpienia do infrastruktury testowej, aby w praktyce sprawdzić działanie mechanizmów federacji

§  Podpisanie Deklaracji Członkowskiej i przesłanie jej do Operatora Federacji

§  Po zweryfikowaniu wszystkich warunków formalnych i technicznych, Operator podejmie decyzję o akceptacji Deklaracji

Warsztaty CLARIN-PL Wrocław

18-20 V 2015

CLARIN-PL

Usługi sieciowe

§  Narzędzia językowe §  aplikacje zbudowane w różnorodnych technologiach §  złożony proces instalacji §  różnorodne interfejsy §  trudność w tworzeniu potoków przetwarzania

§  „Wszystko jest usługą sieciową” §  Komponent oprogramowanie o ustandaryzowanym interfejsie,

dostępny poprzez protokół internetowy

§  UI – przeglądarka internetowa §  Aplikacje dostępowe oparte o przeglądarki

internetowe §  Łączenie usług w potoki §  Wizualizacja

Warsztaty CLARIN-PL Wrocław

18-20 V 2015

CLARIN-PL

Usługi sieciowe - architektura

20

NLPWorkersNLPServices

RESTSOAP

Serwer

NFS

Worker  1(WCRFT2)

Worker  2(Liner2)

Worker  3(WSD)

Worker  n+1(Serel)

NLPEngine

MonitoringInternal  network

G4.19Web  

applications

§  Wydajność §  przetwarzanie równoległe §  chmura prywatne, skalowanie §  Identyfikatory plików

na wej./wyj. narzędzi

Warsztaty CLARIN-PL Wrocław

18-20 V 2015

CLARIN-PL

§ Elastyczność §  złożone potoki przetwarzania §  narzędzia z obszaru

maszynowego uczenia

Usługi sieciowe - choreografia

21

WCRFT LINER2 SEREL

SuperMatrix

WCRFT LINER2 SEREL

Warsztaty CLARIN-PL Wrocław

18-20 V 2015

CLARIN-PL

Usługi sieciowe

§  Zaimplementowane usługi §  Konwersja: any2txt §  Narzędzia NLP: wcrft2, chunker, chunkrel, serel, liner2, wosedon §  Generacja wektorów cech: fextor §  Klasyfikacja: stylo, cluto, SVM §  Komunikacja (pliki, URL, e-mail), integracja z DSpace

§  Prace §  Konwertery, monitorowanie §  Aplikacje pod konkretne zastosowania

§  Możliwości podpięcia innych narzędzi §  Wirtualna maszyna w centrum + proste API §  Przekierowanie do zewnętrznych usług (WebLicht, Multiservice)

22

Warsztaty CLARIN-PL Wrocław

18-20 V 2015

CLARIN-PL

Zintegrowane środowisko Warsztaty CLARIN-PL

Wrocław 18-20 V 2015

CLARIN-PL

§  Repozytorium jest zintegrowane z narzędziami NLP

§  Proste przygotowanie korpusu dla narzędzi typu Inforex

§  Ten sam użytkownik do wszystkich narzędzi i do DSpace

Potok przetwarzania

WS1 WS2 WS3

D-SPACE

Narzędzia NLP API

Dane tymczasowe Zasoby / dane

Wywołanie z DSpace

Inforex

Dane przygotowane

Zintegrowane środowisko

§  Jak skorzystać z DSpace

Warsztaty CLARIN-PL Wrocław

18-20 V 2015

CLARIN-PL

Aplikacje badawcze Warsztaty CLARIN-PL

Wrocław 18-20 V 2015

CLARIN-PL

Aplikacje badawcze

§  Narzędzia wysokiego poziomu nie wymagające wiedzy z dziedziny inżynierii języka lub technologii językowych

§  Techniki załadowania własnych danych §  Bezpośrednie załadowanie plików w interfejsie webowym

§  Lokalny plik, URL §  Różnorodność formatów

§  txt – różnorodne kodowanie znaków §  doc, docx (pptx, xlslx), odt, rtf, html, pdf §  zip

§  Uprzednie załadowanie plików do repozytorium – zalecane §  Identyfikacja poprzez trwały identyfikator §  Wstępnie przetworzone

§  Zasoby obliczeniowe są zawsze ograniczone

Warsztaty CLARIN-PL Wrocław

18-20 V 2015

CLARIN-PL

CLARIN-PL

Dziękuję bardzo za uwagę

Usługi sieciowe - chmura prywatna

§  Zalety §  Konsolidacja serwerów §  Elastyczne wykorzystanie zasobów §  Ułatwione zarządzanie wieloma

serwerami §  Zwiększenie niezawodności §  Szybkie tworzenie nowych środowisk

testowych i deweloperskich §  Zapewnienie ciągłości działania

§  Problemy §  Przetwarzanie NLP jest zasobożerne §  Źle współdzielone zasoby

§  pamięć §  przepustowość sieci/dysków

§  Sposób przetwarzania: centralizacja, przetwarzanie na żądanie

Warsztaty CLARIN-PL Wrocław

18-20 V 2015

CLARIN-PL

Repozytorium DSpace

§  Metadane: CMDI w Clarin-PL

Warsztaty CLARIN-PL Wrocław

18-20 V 2015

CLARIN-PL