word embeddings: reprezentacje właściwościowe słów

23
Word embeddings: reprezentacje właściwościowe słów Szymon Rutkowski (Uniwersytet Warszawski) [email protected]

Upload: szrutkowski

Post on 07-Jan-2017

284 views

Category:

Engineering


2 download

TRANSCRIPT

Page 1: Word embeddings: reprezentacje właściwościowe słów

Word embeddings:reprezentacje właściwościowe słów

Szymon Rutkowski (Uniwersytet Warszawski)[email protected]

Page 2: Word embeddings: reprezentacje właściwościowe słów

Intuicja

chłopiec ≈ niedorosły człowiek płci męskiej

dziewczynka ≈ niedorosły człowiek płci żeńskiej

mężczyzna ≈ dorosły człowiek płci męskiej

kotka ≈ kot płci żeńskiej

● Znaczenia słów nie są jednorodne, tylko złożone z mniejszych jednostek.

● Można spróbować przyporządkować słowom ograniczoną liczbę skalarnych właściwości semantycznych i gramatycznych.

Page 3: Word embeddings: reprezentacje właściwościowe słów

Plan prezentacji

● Omówienie Bengio et al., 2003, gdzie połączono reprezentacje semantyczne z sieciami neuronowymi.

● Przykładowe zastosowania tej techniki.● Obserwacje lingwistyczne.

Page 4: Word embeddings: reprezentacje właściwościowe słów

„Neuronowy probabilistyczny model języka”

Page 5: Word embeddings: reprezentacje właściwościowe słów

Przekleństwo złożoności (curse of dimensionality)

● Jak modelować wzajemną dystrybucję wielu niezależnych zmiennych?

● Przykład: modelowanie ciągu 10 słów przy słowniku o 100 tys. pozycji daje potencjalnie 100 00010 – 1 = 1050 – 1 zmiennych.

● Pojawia się problem reprezentowania takiej liczby parametrów np. w sieci neuronowej, a tym bardziej uczenia ich się.

Page 6: Word embeddings: reprezentacje właściwościowe słów

Metoda n-gramów

● Warunkowe prawdopodobieństwo wystąpienia w tekście jakiegoś słowa na t-tej pozycji, biorąc pod uwagę wszystkie poprzednie słowa można przybliżyć przez prawdopodobieństwo biorące pod uwagę tylko n poprzednich słów.

● W praktyce zakłada się, że często występujące w korpusie bigramy (trigramy itd.) mają największe prawdopodobieństwo wystąpienia w przyszłości.

● Ale jesteśmy więźniami bezpośredniego kontekstu. Jest bardzo możliwe, że poprawna kombinacja nie wystąpiła nigdy w korpusie.

Page 7: Word embeddings: reprezentacje właściwościowe słów

Podobne-niepodobne zdania

● The cat is walking in the bedroom.● A dog was running in a room.● A cat is creeping into the closet.● …

Page 8: Word embeddings: reprezentacje właściwościowe słów

Trzypunktowy program

1. Powiążmy z każdym wyrazem w słowniku wektor właściwości w przestrzeni Rm (tzn. złożony z m cech rzeczywistych – m to liczba zakładanych właściwości słów).

2. Niech funkcja wyrażająca prawdopodobieństwo ciągu słów przyjmuje ich wektory właściwościowe.

3. Uczmy jednocześnie wektorów właściwościowych oraz parametrów tejże funkcji.

Page 9: Word embeddings: reprezentacje właściwościowe słów

Podobieństwa „funkcji” słów

● The cat is walking in the bedroom.● A dog was running in a room.● A cat is creeping into the closet.● …

Słowa o podobnych funkcjach semantycznych i gramatycznych otrzymają podobne wektory właściwościowe.

Page 10: Word embeddings: reprezentacje właściwościowe słów

Funkcja obliczana przez sieć

1. Przyporządkowanie C od każdego elementu i w V (zbiorze wyrazów tworzących słownik) do wektora C(i) ∈ Rm, gdzie m to liczba wymiarów wektora (= liczba zakładanych właściwości słów).

2. Funkcja g przypisuje ciągowi wektorów (C(wt-n+1), …, C(wt-1)) dystrybucję prawdopodobieństwa wśród słów w V dla następnego słowa wt.

Page 11: Word embeddings: reprezentacje właściwościowe słów

Schemat sieci neuronowej

Page 12: Word embeddings: reprezentacje właściwościowe słów

Uczenie sieci

● Maksymalizujemy zlogarytmowane prawdopodobieństwo korpusu treningowego:

● θ – wagi i progi połączeń sieci neuronów oraz przyporządkowanie C● Stochastic gradient ascent:

po każdej iteracji● ε – szybkość uczenia● Autorzy uzyskali wynik o 33% lepszy od metod n-gramowych.

Page 13: Word embeddings: reprezentacje właściwościowe słów

Zastosowania

Page 14: Word embeddings: reprezentacje właściwościowe słów

Relacje międzywyrazowe

● Nauczono sieć podobnego modelu semantycznego.

● Model koduje relacje gramatyczne, takie jak stopień przymiotnika, czas czasownika itd., a także semantyczne: męska/żeńska wersja słowa, całość/część.

● Sprawdzamy hipotezy w formacie „a ma się do b, jak c do d” (szukamy d).(Mikolov et al., 2013a)

Page 15: Word embeddings: reprezentacje właściwościowe słów

Relacje międzywyrazowe

● Odpowiedzią jest funkcja oparta na równaniu wektorów xd

= xb − x

a + x

c

● Autorzy osiągnęli trafność przewidywań na poziomie 39,6%.

Page 16: Word embeddings: reprezentacje właściwościowe słów

Relacje międzywyrazowe

● W Mikolov et al. 2013b osiągnięto trafność ok. 50%, przy korpusie 783-milionowym i 600-wymiarowych wektorach (w 2013a: 320 mln i 1600 wymiarów).

● Wprowadzono także nową architekturę sieci „skip-gramów”.

Page 17: Word embeddings: reprezentacje właściwościowe słów

Zdania: badanie sentymentu

● Parser stanfordzki tworzy drzewa składniowe dla zdań z korpusu recenzji Rotten Tomatoes.

● W rekursywnych modelach neuronowych każdy węzeł w drzewie (czyli faktycznie n-gram o rosnącej długości) jest oceniany na podstawie wektorów jego dzieci.

● Wektory właściwościowe n-gramów są takie same, jak wektory pojedynczych słów. (Sacher et al., 2011?)

Page 18: Word embeddings: reprezentacje właściwościowe słów

Zdania: badanie sentymentu

Powierzchownie podobne zdania, z poprawnie zaklasyfikowanym odmiennym sentymentem.

Page 19: Word embeddings: reprezentacje właściwościowe słów

W kierunku tłumaczenia maszynowego

● Posługujemy się korpusem odpowiadających sobie dokumentów (Parlament Europejski, wystąpienia TED).

● Dla każdego dokumentów składamy kompozycyjnie jego reprezentację semantyczną, od słów, przez zdania itd.

● Uczenie odbywa się przez porównywanie reprezentacji dwóch analogicznych dokumentów i backpropagating do poszczególnych słów w obu językach.(Hermann et al., 2014)

Page 20: Word embeddings: reprezentacje właściwościowe słów

W kierunku tłumaczenia maszynowego

Page 21: Word embeddings: reprezentacje właściwościowe słów

Wnioski dla badań języka

Page 22: Word embeddings: reprezentacje właściwościowe słów

Wnioski dla badań języka

● Na pewno nie ma prostej odpowiedniości z procesami w umyśle.

● Ale modele oparte na wektorach właściwościowych pokazują możliwość semantyki opartej na czystych stosunkach między jednostkami języka.

● Możliwość przedstawiania słów w wielowymiarowej przestrzeni.

Page 23: Word embeddings: reprezentacje właściwościowe słów

Bibliografia

● Y. Bengio, R. Ducharme, P. Vincent, and C. Janvin. 2003. A neural probabilistic language model. Journal of Machine Learning Research, 3:1137–1155, March.

● colah.github.io/posts/2014-07-NLP-RNNs-Representations/● K.M. Hermann, Ph. Blunsom. 2014. Multilingual Distributed

Representations without Word Alignment. In Proceedings of ICLR.● T. Mikolov, W. Yih, G. Zweig. 2013a. Linguistic regularities in continuous

spaceword representations. In Proceedeings of HLT-NAACL.● T. Mikolov, K. Chen, G.S. Corrado, J. Dean. 2013b. Efficient Estimation

of Word Representations in Vector Space. Proceedings of ICLR.● R. Socher, A. Perelygin, J.Y. Wu, J. Chuang, C.D. Manning, A.Y. Ng, C.

Potts. 2013. Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank. In Proceedings of EMNLP.