semântica e similaridade de palavras: parte iii: matriz...
TRANSCRIPT
![Page 1: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/1.jpg)
1
Semântica e similaridade de palavras:Parte III: Matriz termo-contexto
MCZA017-13Processamento de Linguagem Natural
Prof. Jesús P. Mena-Chalco
2Q-2019
![Page 2: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/2.jpg)
2
Da aula anterior...
![Page 3: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/3.jpg)
3
Matriz de co-ocorrência: termo-documento
Dois documentos são similares (semantica) se os vetores são similares
A dimensão do vetor éo tamanho do vocabulário: N|V|
V
![Page 4: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/4.jpg)
4
Duas palavras são similares (semantica) se os vetores são similares
A dimensão do vetor éo número de documentos: N|D|
Abordagem simples mas quais seriam os problemas?
Matriz de co-ocorrência: termo-documento
![Page 5: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/5.jpg)
5
Matriz: termo-documento
A similaridade entre palavras considera todas as palavras presentes em todos os documentos.
Os vetores tem muitos elementos nulos (vetores esparsos)
O tamanho do vetor depende do número de documentos.
![Page 6: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/6.jpg)
6
Matriz esparsa
![Page 7: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/7.jpg)
7
Matriz esparsa
Dimensão |V| x |D| Dimensão |V| x |D|
![Page 8: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/8.jpg)
8
Uso de estruturas de dados mais sofisticadas ...
X
X
X
![Page 9: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/9.jpg)
9
Matriz termo-documento
O mais natural seria considerar:
Matriz termo-termo.Matriz palavra-palavra.Matriz termo-contexto.
Dimensão |V| x |V|
Cada celula da matriz registra o número de vezes que a palavra (da linha) co-ocorre com outra palavra (da coluna) em um contexto, dado em um corpus de treinamento.
Sinônimos
O contexto poderia ser o documento:Cada celula representa o número de vezes que duas palavras estão presentes no documento
![Page 10: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/10.jpg)
10
Matriz termo-contexto
Por que não usar um contexto menor?
Por exemplo: parâgrafos.Por exemplo: usar 4 palavras antes e depois de uma determinada palavra.
Obras similares estão “geralmente” próximas.
Palavras que estão em contextos similares, tendem a ser semanticamente similares
w
![Page 11: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/11.jpg)
11
Matriz termo-contexto
Exemplo de contexto local de palavras:
O carro é rápido? Sim, ele é muito veloz!
O manuscrito é longo. Geralmente o tamanho é menor.
![Page 12: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/12.jpg)
12
Matriz termo-contexto
Exemplo de contexto local de palavras:
O carro é rápido? Sim, ele é muito veloz!
O manuscrito é longo. Geralmente o tamanho é menor.
rápido veloz
longo tamanho
![Page 13: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/13.jpg)
13
Quatro exemplos: Corpus Brown
sugar, a sliced lemon, a tablespoonful of apricot preserve or jam, a pinch each of,
their enjoyment. Cautiously she sampled her first pineapple and another fruit whose taste she likened
well suited to programming on the digital computer. In finding the optimal R-stage policy from
for the purpose of gathering data and information necessary for the study authorized in the
![Page 14: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/14.jpg)
14
Corpus Brown: 1960
Criado na decada dos 1960 é um corpus geral que contem 500 amostras em inglês.
Ao todo 1,014,312 palavras de trabalhos publicacos nos Estados Unidos em 1961 (500 fontes), organizado em 15 categorias.
É um corpus pioneiro na área de linguística computacional.
The Brown University Standard Corpus of Present-Day American English
https://the.sketchengine.co.uk/open/
![Page 15: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/15.jpg)
15
Corpus Brown: 1960
O corpus está composto de 500 textos, cada um contendo mais de 2000 palavras:
1) PRESS: REPORTAGE (44 texts)
2) PRESS: EDITORIAL (27 texts)
3) PRESS: REVIEWS (17 texts)
4) RELIGION (17 texts)
5) SKILL AND HOBBIES (36 texts)
6) POPULAR LORE (48 texts)
7) BELLES-LETTRES (75 texts)
8) MISCELLANEOUS: GOVERNMENT & HOUSE ORGANS (30 texts)
9) LEARNED (80 texts)
10) FICTION: GENERAL (29 texts)
11) FICTION: MYSTERY (24 texts)
12) FICTION: SCIENCE (6 texts)
13) FICTION: ADVENTURE (29 texts)
14) FICTION: ROMANCE (29 texts)
15) HUMOR (9 texts)
![Page 16: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/16.jpg)
16
Outros corpora
https://www.kaggle.com/datasets?search=corpus
![Page 17: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/17.jpg)
17
Quatro exemplos: Corpus Brown
sugar, a sliced lemon, a tablespoonful of apricot preserve or jam, a pinch each of,
their enjoyment. Cautiously she sampled her first pineapple and another fruit whose taste she likened
well suited to programming on the digital computer. In finding the optimal R-stage policy from
for the purpose of gathering data and information necessary for the study authorized in the
+- 7 palavras
![Page 18: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/18.jpg)
18
Matriz termo-contexto (+-7 palavras)
Uma palavra é representada por um vetorde números que consideram um contexto
No exemplo temos um vetor de tamanho 6,mas a dimensão é proporcional ao tamanho do vocabulário considerado
Apricot = [ 0, 0, 0, 1, 0, …, 3, 0, 0, 0, 0, 0, 1, 1, …, 0, 0, 0, …]
A estrutura de dados deve ser a mais eficiente possível para armazenar um vetor esparso de tamanho ~20 ou 50 mil elementos.
![Page 19: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/19.jpg)
19
Matriz termo-contexto: Janelas de tamanho 1, 3, ..., 7
w
Contexto total de 15 palavras
w
w
...
...
Similaridade mais sintática
Similaridade mais semântica
![Page 20: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/20.jpg)
20
Teste1.py
![Page 21: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/21.jpg)
21
Teste1.py
![Page 22: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/22.jpg)
22
notícias
![Page 23: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/23.jpg)
23
Teste1.py - sete notícias
118 ser ['trapaça', 'esportiva', 'pode', 'engano', 'jogador', 'alguns']119 engano ['esportiva', 'pode', 'ser', 'jogador', 'alguns', 'simplesmente']120 jogador ['pode', 'ser', 'engano', 'alguns', 'simplesmente', 'talentosos']121 alguns ['ser', 'engano', 'jogador', 'simplesmente', 'talentosos', 'bons']122 simplesmente ['engano', 'jogador', 'alguns', 'talentosos', 'bons', 'pontaria']123 talentosos ['jogador', 'alguns', 'simplesmente', 'bons', 'pontaria', 'têm']124 bons ['alguns', 'simplesmente', 'talentosos', 'pontaria', 'têm', 'muita']125 pontaria ['simplesmente', 'talentosos', 'bons', 'têm', 'muita', 'tempo']126 têm ['talentosos', 'bons', 'pontaria', 'muita', 'tempo', 'disse']127 muita ['bons', 'pontaria', 'têm', 'tempo', 'disse', 'miller']128 tempo ['pontaria', 'têm', 'muita']129 disse ['têm', 'muita', 'tempo']130 miller ['muita', 'tempo', 'disse']
Numero de documentos : 7Tamanho do vocabulario: 1580Numero de stopwords: 212
![Page 24: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/24.jpg)
24
Teste1.py
python3 teste1.py noticias/
k=3 k=10
![Page 25: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/25.jpg)
25
Teste2.py (k=3)
python3 teste2.py noticias/
![Page 26: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/26.jpg)
26
Teste2.py (k=10)
python3 teste2.py noticias/
![Page 27: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/27.jpg)
27
Teste2.py (k=3)
python3 teste2.py machado-db/
![Page 28: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/28.jpg)
28
Teste2.py (k=10)
python3 teste2.py machado-db/
![Page 29: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/29.jpg)
29
Similaridade baseada em distribuição de palavras
Na literatura isso é conhecido como:Distributional semantics.
Vector semantics.
Vector-space semantics.
O significado de uma palavra é calculada a partir da distribuição de palavras que ao redor dela.
Em tópicos anteriores uma palavra era representada por um índice em um vocabulário.
Nesta abordagem: as palavras são representadas como um vetor de números. (embedding into a vector)
![Page 30: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/30.jpg)
30
Matriz termo-contexto
|V|
|V|
0 0 0 2 0 5 0 0 0 3 0 0 1 0 0 0 … 0 0 0 0 0 0 0 30 0 0 wi
Cada célula indica uma frequência
![Page 31: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/31.jpg)
31
Matriz termo-contexto
|V|
|V|
0 0 0 2 0 5 0 0 0 3 0 0 1 0 0 0 … 0 0 0 0 0 0 0 30 0 0 wi
Apenas contagem de palavras não éboa escolha para determinar se 2palavras são similares.Ex. “de” e “em” são muito frequentes, epodem não ajudar em discriminarsimilaridade entre palavras.
![Page 32: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/32.jpg)
32
Pointwise Mutual Information (PMI)Positive Pointwise Mutual Information (PPMI)
Ambas medidas permitem mensurar quão informativa é a palavra de contexto, dada uma palavra (alvo)
![Page 33: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/33.jpg)
33
Similaridade por acaso?
As palavras: “de”, “em”, “para”, “quem”, “está”, “eles”, “nossos”…
Não são informativas pois estão presentes em quase todos os contextos.
A melhor ponderação ou medida de associação entre palavras deve nos dizer com que frequência mais do que o acaso as duas palavras co-ocorrem.
![Page 34: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/34.jpg)
34
Similaridade por acaso?
Em um contexto de pesquisa científica, as palavras: “método”, “proposta”, “metodologia”, “análise”, “estudo”…
Não são informativas pois estão presentes em quase todos os contextos de pesquisa.
![Page 35: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/35.jpg)
35
Pointwise Mutual Information (PMI)
É uma medida baseada na medida de Informação Mútua:
Informação Mútua:
é uma medida que representa a quantidade de informação que uma variável aleatória contém sobre outra variável aleatória.
é uma medida de dependência entre variáveis aleatórias.
é uma medida da sobreposição de informações entre duas variáveis aleatórias.
![Page 36: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/36.jpg)
36
Pointwise Mutual Information (PMI)
PMI é uma medida de associação que mede quão frequente dois eventos (x e y) ocorrem se ambos são independentes:
Para palavras mede o quanto 2 palavras estão associadas.
A razão entre a prob. Conjuntados eventos e suas prob. separadas
![Page 37: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/37.jpg)
37
Pointwise Mutual Information (PMI)
PMI terá valores entre [-∞, +∞]:
Negativos: implica que as coisas estão ocorrendo com menos frequência do que esperávamos por acaso.
Valores não confiáveis para corpus pequeno!
Se <1 o PMI será negativo
![Page 38: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/38.jpg)
38
Pointwise Mutual InformationPositive Pointwise Mutual Information
O mais comum é substituir os valores negativos do PMI por zero.
![Page 39: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/39.jpg)
39
Calculando PPMI em uma matriz termo-contexto
Seja F a matriz com W linhas (palavras) e C colunas (contextos)
W
C
wi
Número de vezes que wi ocorre
no contexto cj
![Page 40: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/40.jpg)
40
Atividade 1
Calcule: PPMI(w=information, c=data)
da seguinte matriz termo-contexto
![Page 41: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/41.jpg)
41
Atividade 1
Calcule: PPMI(w=information, c=data)
da seguinte matriz termo-contexto
P(w=information, c=data) = 6/19 = 0.32
P(w=information) = 11/19 = 0.58
P(c=data) = 7/19 = 0.37
PPMI(w=information, c=data) = log2(0.32/(0.58*0.37)) = 0.5764
1.49
![Page 42: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/42.jpg)
42
-0.63
![Page 43: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/43.jpg)
43
O PPMI tem valores altos para eventos pouco frequentes (palavras muito raras)
Uma maneira de reduzir esse viés é considerar:
![Page 44: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/44.jpg)
44
Levy, O., Goldberg, Y., & Dagan, I. (2015). Improving distributional similarity with lessons learned from word embeddings. Transactions of the Association for Computational Linguistics, 3, 211-225.
Quando c é raro, esta expressão permite diminuir o PPMI
![Page 45: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/45.jpg)
45
Uma alternativa é usar uma estratégia que tenha um efeito similar:
Suavisação: Add-k smoothingLaplace smoothing
![Page 46: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/46.jpg)
46
![Page 47: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/47.jpg)
47
test3.py
![Page 48: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/48.jpg)
48
test3.py
![Page 49: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/49.jpg)
49
test3.py
python3 teste3.py noticias
![Page 50: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/50.jpg)
50
test3.py
python3 teste3.py ufabc-bcc
![Page 51: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/51.jpg)
51
machado-db
![Page 52: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/52.jpg)
52
machado-db
![Page 53: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/53.jpg)
53
Outras medidas de similaridade?
![Page 54: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/54.jpg)
54
Desafio 2: Bônus +0.5 na MF
Resumo de uma publicação descrita na lista https://en.wikipedia.org/wiki/List_of_important_publications_in_computer_science
Resumo nos mesmos moldes dos resumos de aula.
Porque o trabalho é considerado importante para a área de computação?
Envio pelo tidia (seção atividades).
![Page 55: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/55.jpg)
55
Desafio 2 (para o final de quadri)
![Page 56: Semântica e similaridade de palavras: Parte III: Matriz ...professor.ufabc.edu.br/.../pln-2q-2019/PLN-aula10.pdf · Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz](https://reader030.vdocuments.net/reader030/viewer/2022041103/5f0268017e708231d4041eef/html5/thumbnails/56.jpg)
56
Desafio 2 (para o final de quadri)
Sugestão de artigos