word embeddings: reprezentacje właściwościowe słów
TRANSCRIPT
Word embeddings:reprezentacje właściwościowe słów
Szymon Rutkowski (Uniwersytet Warszawski)[email protected]
Intuicja
chłopiec ≈ niedorosły człowiek płci męskiej
dziewczynka ≈ niedorosły człowiek płci żeńskiej
mężczyzna ≈ dorosły człowiek płci męskiej
kotka ≈ kot płci żeńskiej
● Znaczenia słów nie są jednorodne, tylko złożone z mniejszych jednostek.
● Można spróbować przyporządkować słowom ograniczoną liczbę skalarnych właściwości semantycznych i gramatycznych.
Plan prezentacji
● Omówienie Bengio et al., 2003, gdzie połączono reprezentacje semantyczne z sieciami neuronowymi.
● Przykładowe zastosowania tej techniki.● Obserwacje lingwistyczne.
„Neuronowy probabilistyczny model języka”
Przekleństwo złożoności (curse of dimensionality)
● Jak modelować wzajemną dystrybucję wielu niezależnych zmiennych?
● Przykład: modelowanie ciągu 10 słów przy słowniku o 100 tys. pozycji daje potencjalnie 100 00010 – 1 = 1050 – 1 zmiennych.
● Pojawia się problem reprezentowania takiej liczby parametrów np. w sieci neuronowej, a tym bardziej uczenia ich się.
Metoda n-gramów
● Warunkowe prawdopodobieństwo wystąpienia w tekście jakiegoś słowa na t-tej pozycji, biorąc pod uwagę wszystkie poprzednie słowa można przybliżyć przez prawdopodobieństwo biorące pod uwagę tylko n poprzednich słów.
● W praktyce zakłada się, że często występujące w korpusie bigramy (trigramy itd.) mają największe prawdopodobieństwo wystąpienia w przyszłości.
● Ale jesteśmy więźniami bezpośredniego kontekstu. Jest bardzo możliwe, że poprawna kombinacja nie wystąpiła nigdy w korpusie.
Podobne-niepodobne zdania
● The cat is walking in the bedroom.● A dog was running in a room.● A cat is creeping into the closet.● …
Trzypunktowy program
1. Powiążmy z każdym wyrazem w słowniku wektor właściwości w przestrzeni Rm (tzn. złożony z m cech rzeczywistych – m to liczba zakładanych właściwości słów).
2. Niech funkcja wyrażająca prawdopodobieństwo ciągu słów przyjmuje ich wektory właściwościowe.
3. Uczmy jednocześnie wektorów właściwościowych oraz parametrów tejże funkcji.
Podobieństwa „funkcji” słów
● The cat is walking in the bedroom.● A dog was running in a room.● A cat is creeping into the closet.● …
Słowa o podobnych funkcjach semantycznych i gramatycznych otrzymają podobne wektory właściwościowe.
Funkcja obliczana przez sieć
1. Przyporządkowanie C od każdego elementu i w V (zbiorze wyrazów tworzących słownik) do wektora C(i) ∈ Rm, gdzie m to liczba wymiarów wektora (= liczba zakładanych właściwości słów).
2. Funkcja g przypisuje ciągowi wektorów (C(wt-n+1), …, C(wt-1)) dystrybucję prawdopodobieństwa wśród słów w V dla następnego słowa wt.
Schemat sieci neuronowej
Uczenie sieci
● Maksymalizujemy zlogarytmowane prawdopodobieństwo korpusu treningowego:
● θ – wagi i progi połączeń sieci neuronów oraz przyporządkowanie C● Stochastic gradient ascent:
po każdej iteracji● ε – szybkość uczenia● Autorzy uzyskali wynik o 33% lepszy od metod n-gramowych.
Zastosowania
Relacje międzywyrazowe
● Nauczono sieć podobnego modelu semantycznego.
● Model koduje relacje gramatyczne, takie jak stopień przymiotnika, czas czasownika itd., a także semantyczne: męska/żeńska wersja słowa, całość/część.
● Sprawdzamy hipotezy w formacie „a ma się do b, jak c do d” (szukamy d).(Mikolov et al., 2013a)
Relacje międzywyrazowe
● Odpowiedzią jest funkcja oparta na równaniu wektorów xd
= xb − x
a + x
c
● Autorzy osiągnęli trafność przewidywań na poziomie 39,6%.
Relacje międzywyrazowe
● W Mikolov et al. 2013b osiągnięto trafność ok. 50%, przy korpusie 783-milionowym i 600-wymiarowych wektorach (w 2013a: 320 mln i 1600 wymiarów).
● Wprowadzono także nową architekturę sieci „skip-gramów”.
Zdania: badanie sentymentu
● Parser stanfordzki tworzy drzewa składniowe dla zdań z korpusu recenzji Rotten Tomatoes.
● W rekursywnych modelach neuronowych każdy węzeł w drzewie (czyli faktycznie n-gram o rosnącej długości) jest oceniany na podstawie wektorów jego dzieci.
● Wektory właściwościowe n-gramów są takie same, jak wektory pojedynczych słów. (Sacher et al., 2011?)
Zdania: badanie sentymentu
Powierzchownie podobne zdania, z poprawnie zaklasyfikowanym odmiennym sentymentem.
W kierunku tłumaczenia maszynowego
● Posługujemy się korpusem odpowiadających sobie dokumentów (Parlament Europejski, wystąpienia TED).
● Dla każdego dokumentów składamy kompozycyjnie jego reprezentację semantyczną, od słów, przez zdania itd.
● Uczenie odbywa się przez porównywanie reprezentacji dwóch analogicznych dokumentów i backpropagating do poszczególnych słów w obu językach.(Hermann et al., 2014)
W kierunku tłumaczenia maszynowego
Wnioski dla badań języka
Wnioski dla badań języka
● Na pewno nie ma prostej odpowiedniości z procesami w umyśle.
● Ale modele oparte na wektorach właściwościowych pokazują możliwość semantyki opartej na czystych stosunkach między jednostkami języka.
● Możliwość przedstawiania słów w wielowymiarowej przestrzeni.
Bibliografia
● Y. Bengio, R. Ducharme, P. Vincent, and C. Janvin. 2003. A neural probabilistic language model. Journal of Machine Learning Research, 3:1137–1155, March.
● colah.github.io/posts/2014-07-NLP-RNNs-Representations/● K.M. Hermann, Ph. Blunsom. 2014. Multilingual Distributed
Representations without Word Alignment. In Proceedings of ICLR.● T. Mikolov, W. Yih, G. Zweig. 2013a. Linguistic regularities in continuous
spaceword representations. In Proceedeings of HLT-NAACL.● T. Mikolov, K. Chen, G.S. Corrado, J. Dean. 2013b. Efficient Estimation
of Word Representations in Vector Space. Proceedings of ICLR.● R. Socher, A. Perelygin, J.Y. Wu, J. Chuang, C.D. Manning, A.Y. Ng, C.
Potts. 2013. Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank. In Proceedings of EMNLP.