word embeddings: reprezentacje właściwościowe słów

Word embeddings:reprezentacje właściwościowe słów

Szymon Rutkowski (Uniwersytet Warszawski)[email protected]

Intuicja

chłopiec ≈ niedorosły człowiek płci męskiej

dziewczynka ≈ niedorosły człowiek płci żeńskiej

mężczyzna ≈ dorosły człowiek płci męskiej

kotka ≈ kot płci żeńskiej

● Znaczenia słów nie są jednorodne, tylko złożone z mniejszych jednostek.

● Można spróbować przyporządkować słowom ograniczoną liczbę skalarnych właściwości semantycznych i gramatycznych.

Plan prezentacji

● Omówienie Bengio et al., 2003, gdzie połączono reprezentacje semantyczne z sieciami neuronowymi.

● Przykładowe zastosowania tej techniki.● Obserwacje lingwistyczne.

„Neuronowy probabilistyczny model języka”

Przekleństwo złożoności (curse of dimensionality)

● Jak modelować wzajemną dystrybucję wielu niezależnych zmiennych?

● Przykład: modelowanie ciągu 10 słów przy słowniku o 100 tys. pozycji daje potencjalnie 100 00010 – 1 = 1050 – 1 zmiennych.

● Pojawia się problem reprezentowania takiej liczby parametrów np. w sieci neuronowej, a tym bardziej uczenia ich się.

Metoda n-gramów

● Warunkowe prawdopodobieństwo wystąpienia w tekście jakiegoś słowa na t-tej pozycji, biorąc pod uwagę wszystkie poprzednie słowa można przybliżyć przez prawdopodobieństwo biorące pod uwagę tylko n poprzednich słów.

● W praktyce zakłada się, że często występujące w korpusie bigramy (trigramy itd.) mają największe prawdopodobieństwo wystąpienia w przyszłości.

● Ale jesteśmy więźniami bezpośredniego kontekstu. Jest bardzo możliwe, że poprawna kombinacja nie wystąpiła nigdy w korpusie.

Podobne-niepodobne zdania

● The cat is walking in the bedroom.● A dog was running in a room.● A cat is creeping into the closet.● …

Trzypunktowy program

1. Powiążmy z każdym wyrazem w słowniku wektor właściwości w przestrzeni Rm (tzn. złożony z m cech rzeczywistych – m to liczba zakładanych właściwości słów).

2. Niech funkcja wyrażająca prawdopodobieństwo ciągu słów przyjmuje ich wektory właściwościowe.

3. Uczmy jednocześnie wektorów właściwościowych oraz parametrów tejże funkcji.

Podobieństwa „funkcji” słów

● The cat is walking in the bedroom.● A dog was running in a room.● A cat is creeping into the closet.● …

Słowa o podobnych funkcjach semantycznych i gramatycznych otrzymają podobne wektory właściwościowe.

Funkcja obliczana przez sieć

1. Przyporządkowanie C od każdego elementu i w V (zbiorze wyrazów tworzących słownik) do wektora C(i) ∈ Rm, gdzie m to liczba wymiarów wektora (= liczba zakładanych właściwości słów).

2. Funkcja g przypisuje ciągowi wektorów (C(wt-n+1), …, C(wt-1)) dystrybucję prawdopodobieństwa wśród słów w V dla następnego słowa wt.

Schemat sieci neuronowej

Uczenie sieci

● Maksymalizujemy zlogarytmowane prawdopodobieństwo korpusu treningowego:

● θ – wagi i progi połączeń sieci neuronów oraz przyporządkowanie C● Stochastic gradient ascent:

po każdej iteracji● ε – szybkość uczenia● Autorzy uzyskali wynik o 33% lepszy od metod n-gramowych.

Zastosowania

Relacje międzywyrazowe

● Nauczono sieć podobnego modelu semantycznego.

● Model koduje relacje gramatyczne, takie jak stopień przymiotnika, czas czasownika itd., a także semantyczne: męska/żeńska wersja słowa, całość/część.

● Sprawdzamy hipotezy w formacie „a ma się do b, jak c do d” (szukamy d).(Mikolov et al., 2013a)


● Odpowiedzią jest funkcja oparta na równaniu wektorów xd

= xb − x

a + x

c

● Autorzy osiągnęli trafność przewidywań na poziomie 39,6%.


● W Mikolov et al. 2013b osiągnięto trafność ok. 50%, przy korpusie 783-milionowym i 600-wymiarowych wektorach (w 2013a: 320 mln i 1600 wymiarów).

● Wprowadzono także nową architekturę sieci „skip-gramów”.

Zdania: badanie sentymentu

● Parser stanfordzki tworzy drzewa składniowe dla zdań z korpusu recenzji Rotten Tomatoes.

● W rekursywnych modelach neuronowych każdy węzeł w drzewie (czyli faktycznie n-gram o rosnącej długości) jest oceniany na podstawie wektorów jego dzieci.

● Wektory właściwościowe n-gramów są takie same, jak wektory pojedynczych słów. (Sacher et al., 2011?)

Zdania: badanie sentymentu

Powierzchownie podobne zdania, z poprawnie zaklasyfikowanym odmiennym sentymentem.

W kierunku tłumaczenia maszynowego

● Posługujemy się korpusem odpowiadających sobie dokumentów (Parlament Europejski, wystąpienia TED).

● Dla każdego dokumentów składamy kompozycyjnie jego reprezentację semantyczną, od słów, przez zdania itd.

● Uczenie odbywa się przez porównywanie reprezentacji dwóch analogicznych dokumentów i backpropagating do poszczególnych słów w obu językach.(Hermann et al., 2014)

W kierunku tłumaczenia maszynowego

Wnioski dla badań języka

Wnioski dla badań języka

● Na pewno nie ma prostej odpowiedniości z procesami w umyśle.

● Ale modele oparte na wektorach właściwościowych pokazują możliwość semantyki opartej na czystych stosunkach między jednostkami języka.

● Możliwość przedstawiania słów w wielowymiarowej przestrzeni.

Bibliografia

● Y. Bengio, R. Ducharme, P. Vincent, and C. Janvin. 2003. A neural probabilistic language model. Journal of Machine Learning Research, 3:1137–1155, March.

● colah.github.io/posts/2014-07-NLP-RNNs-Representations/● K.M. Hermann, Ph. Blunsom. 2014. Multilingual Distributed

Representations without Word Alignment. In Proceedings of ICLR.● T. Mikolov, W. Yih, G. Zweig. 2013a. Linguistic regularities in continuous

spaceword representations. In Proceedeings of HLT-NAACL.● T. Mikolov, K. Chen, G.S. Corrado, J. Dean. 2013b. Efficient Estimation

of Word Representations in Vector Space. Proceedings of ICLR.● R. Socher, A. Perelygin, J.Y. Wu, J. Chuang, C.D. Manning, A.Y. Ng, C.

Potts. 2013. Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank. In Proceedings of EMNLP.

word embeddings: reprezentacje właściwościowe słów

Engineering