introdução ao processamento de línguas naturais · ... (ainda) não é possível ... não muito...
TRANSCRIPT
![Page 1: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/1.jpg)
1
Introdução ao Processamento de
Línguas Naturais
Thiago A. S. Pardo
Núcleo Interinstitucional de Linguística Computacional (NILC)Departamento de Ciências de Computação
Instituto de Ciências Matemáticas e de ComputaçãoUniversidade de São Paulo
EBRALC 2017
![Page 2: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/2.jpg)
Agenda
1. Conceitos básicos
2. Níveis de conhecimento: recursos,
ferramentas e aplicações relacionados
3. PLN no Brasil e no mundo
2
![Page 3: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/3.jpg)
Conceitos básicos
3
![Page 4: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/4.jpg)
4
Meta de PLN
HAL 9.000 (Heuristically programmed ALgorithmic Computer)
1968
![Page 5: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/5.jpg)
5
Para construir um computador como
HAL
Requer um volume enorme de conhecimento de uma dada língua Reconhecimento (faz até leitura labial) e síntese de fala (fonética e
fonologia)
Conhecimento das palavras envolvidas (morfologia e vocabulário)
Significado (semântica) e como combinam (uso das palavras)
Como grupos de palavras de juntam (sintaxe)
Manter um diálogo (discurso)
É educado responder... mesmo que você queira matar alguém (HAL)
É educado ser cooperativo... mesmo que esteja fingindo (HAL)
O uso de língua natural também pressupõe conhecimento do mundo e de senso comum
![Page 6: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/6.jpg)
6
Língua Natural
Língua humana
Em oposição às linguagens artificiais
Matemática, lógica, linguagens de programação
de computadores
![Page 7: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/7.jpg)
7
PLN
Processamento de Língua Natural
Linguística Computacional
Processamento de Linguagem Natural
Na Computação, tradicionalmente visto como subárea da
Inteligência Artificial
Habilidade linguística é um tipo de inteligência
![Page 8: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/8.jpg)
8
PLN
Instruir o computador a lidar com a língua (Jurafsky e Martin, 2009)
Entendimento Análise morfológica e sintática, semântica e discursiva
Geração, síntese Tradução, produção de resumos
Correção gramatical
Busca de respostas para perguntas
Recuperação de informação da Internet
Auxílio a escrita e ao aprendizado de línguas
Etc.
Multidisciplinar, envolvendo principalmente Computação
Linguística
![Page 9: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/9.jpg)
9
PLN: um pouco de história
Nascimento na 2ª guerra mundial
Tradução automática
Possíveis nomes
Computational Linguistics
Mechanolinguistics
Automatic Language Data Processing
Natural Language Processing
![Page 10: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/10.jpg)
10
PLN: um pouco de história
Trajetória da Inteligência Artificial
Primeiros trabalhos grande expectativa
resultados pobres desilusão e hibernação da
área novos horizontes
Relatório da ALPAC (Automatic Language Processing
Advisory Committee): Languages and Machines –
computers in translation and linguistics
![Page 11: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/11.jpg)
11
PLN: um pouco de história
Globalização, internet, tecnologia da
informação, Google
Mais recentemente, web 2.0, redes sociais,
smartphones, big data
![Page 12: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/12.jpg)
12
PLN
Auxílio às tarefas humanas
Não substitui o humano (ainda)
Não é possível (ainda) “automatizar” totalmente a
língua, apenas aspectos dela
O computador (ainda) é uma máquina estúpida!
![Page 13: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/13.jpg)
13
Primórdios do PLN: Eliza
Programa psicólogo dos anos 60 Muitas versões na Internet
Parece muito esperto, mas se perde depois de algum tempo de conversa Muitas pessoas foram enganadas pelo programa!!!
Muito simples Se baseia na fala da pessoa para formular sua
pergunta/resposta
![Page 14: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/14.jpg)
Eliza (Jackson e Moulinier, 2002)
Eliza: como vai você hoje?
P: não muito bem
Eliza: por que você diz não muito bem?
P: eu estou com alergia
Eliza: interessante
P: eu fico com manchas vermelhas
Eliza: acho que não sei do que você está falando
P: manchas vermelhas no meu rosto
Eliza: seu rosto
P: isso mesmo
Eliza: é isso mesmo?
14
![Page 15: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/15.jpg)
Eliza (Jackson e Moulinier, 2002)
P: você é um programa, não é?
Eliza: te agrada pensar que eu sou um programa?
P: com certeza
Eliza: eu percebo
P: ok
Eliza: um pouco antes você falou de seu rosto
P: e sobre o seu rosto?
Eliza: o que é que você realmente quer saber?
P: você é meu tipo de garota?
15
![Page 16: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/16.jpg)
Eliza (Jackson e Moulinier, 2002)
Eliza: talvez em suas fantasias eu seja seu tipo de garota
P: em minhas fantasias você é loira
Eliza: o que te faz pensar que sou loira?
P: não sei
Eliza: você realmente não sabe?
P: não
Eliza: você está dizendo não apenas para ser negativo?
P: não
Eliza: você está sendo um pouco negativo
P: não, não estou
Eliza: por quanto tempo você não tem estado?
16
![Page 17: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/17.jpg)
Desde então...
Avanços consideráveis
Infiltrados em nosso dia a dia
Revisão ortográfica e gramatical (MS Word), Google
Translate, Siri, etc.
Algumas vezes, sem percebermos!
17
![Page 18: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/18.jpg)
WolframAlpha
18
![Page 19: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/19.jpg)
Qwiki
19
![Page 20: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/20.jpg)
Qwiki
Sumariza informação da web
Não há armazenamento de informação
Sintetiza voz
Busca informação relacionada
“Experiência de informação”
Inspiração no computador de bordo de Wall-E
Vídeo
20
![Page 21: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/21.jpg)
START
Natural Language Question Answering System
http://start.csail.mit.edu/index.php
21
![Page 22: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/22.jpg)
Watson (IBM)
Venceu os melhores participantes humanos no show de perguntas e respostas Jeopardy!
“more than 100 different techniques are used to analyze natural language, identify sources, find and generate hypotheses, find and score evidence, and merge and rank hypotheses”
“sources of information include encyclopedias, dictionaries, thesauri, newswire articles, and literary works. Watson also used databases, taxonomies, and ontologies. Specifically, DBPedia, WordNet, and Yago were used”
22
![Page 23: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/23.jpg)
Siri (Apple)
23
![Page 24: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/24.jpg)
24
PLN
“Conversar” com uma máquina não é tão
difícil
Fazer a máquina “entender” é um grande
desafio
Muitas pesquisas
Programas especializados
Recursos linguísticos e linguístico-computacionais
![Page 25: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/25.jpg)
Níveis de conhecimento
25
![Page 26: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/26.jpg)
26
PLN
Vários níveis de conhecimento
Tradicionalmente distinguidos em PLN, apesar
dos limites entre eles serem nebulosos na
maioria dos casos
Pragmática / Discurso
Semântica
Sintaxe
Morfologia
Abstração &
Complexidade
Fonética / Fonologia
![Page 27: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/27.jpg)
27
Morfologia
Pragmática / Discurso
Semântica
Sintaxe
Morfologia
Palavra: construção, componentes de formação
Morfema, raiz, afixo (prefixo, sufixo, etc.), flexão,
derivação, etc.
![Page 28: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/28.jpg)
Aplicações
Novas palavras, neologismos
Criações próprias, importação, etc.
Pré-processamento em geral
Lematização, radicalização, nominalização, etc.
Gentílicos
Antunes (2017) “Gramado” “gramadense” (e não gramadiano)
28
![Page 29: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/29.jpg)
Recursos e ferramentas relacionados
Unitex-PB (Muniz, 2004)
Lematizador do NILC
Projeto Snowball: radicalizadores, stoplists, etc.
29
![Page 30: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/30.jpg)
30
Morfossintaxe
Pragmática / Discurso
Semântica
Sintaxe
Morfologia
Interação entre morfologia e sintaxe: classes
gramaticais ou etiquetas morfossintáticas
Substantivo/nome, verbo, adjetivo, advérbio, pronome,
preposição, conjunção, interjeição, etc.
![Page 31: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/31.jpg)
31
Exemplo
Ele queria jogar
tênis com Janete,
mas também queria
jantar com Suzana.
Sua indecisão o
deixou louco.
Pragmática / Discurso
Semântica
Sintaxe
Morfologia
Ele [ele] PERS M 3S NOM
queria [querer] <fmc> V IMPF 3S IND VFIN
jogar [jogar] V INF
tênis [tênis] N M S/P
com [com] PRP
Janete [Janete] PROP M/F S
,
mas "mas" <co-vfin> <co-fmc> KC
também [também] ADV
queria [querer] <fmc> V IMPF 3S IND VFIN
jantar [jantar] V INF
com [com] PRP
Suzana [Suzana] PROP F S
.
Sua [seu] <poss 3S> DET F S
indecisão [indecisão] N F S
o [ele] PERS M 3S ACC
deixou [deixar] <fmc> V PS 3S IND VFIN
louco [louco] ADJ M S
.
![Page 32: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/32.jpg)
Analisadores
MXPOST (Aires et al., 2000)
PALAVRAS (Bick, 2000)
LX-Tagger (Branco e Silva, 2004)
Semântica distribucional (Fonseca e Rosa, 2013)
Etc.
32
![Page 33: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/33.jpg)
Aplicações
Em praticamente todas as iniciativas, em
algum nível
Revisores gramaticais
Tradutores automáticos
Sumarizadores de textos
Extração de termos
Extração de aspectos de opinião (Vargas e
Pardo, 2017)
Etc.
33
![Page 34: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/34.jpg)
Aspectos de opinião
34
![Page 35: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/35.jpg)
Córpus anotado
Mac-Morpho (Aluísio et al., 2003)
1,1 milhão de palavras manualmente anotadas
35
![Page 36: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/36.jpg)
36
Sintaxe
Pragmática / Discurso
Semântica
Sintaxe
Morfologia
Como as sentenças são formadas, como as
palavras podem se combinar
Função/dependência: sujeito, predicado, objetos,
predicativos, etc.
Estruturação/constituição: sintagma nominal, sintagma
verbal, etc.
![Page 37: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/37.jpg)
37
Exemplo
Ele queria jogar
tênis com Janete,
mas também
queria jantar com
Suzana. Sua
indecisão o
deixou louco.
Pragmática / Discurso
Semântica
Sintaxe
Morfologia
![Page 38: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/38.jpg)
Analisadores
PALAVRAS (Bick, 2000)
Curupira (Martins et al., 2003)
Selva (Almeida et al., 2003)
MSTParser (Wing e Baldridge, 2006)
LX-Parser (Silva et al., 2010)
Etc.
38
![Page 39: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/39.jpg)
Aplicações
Diversas aplicações
Revisão gramatical
Tradução automática
Sumarização compressiva
Simplificação textual (Cândido Jr. et al.
2009)
Etc.
39
![Page 40: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/40.jpg)
Simplificação Textual
40
![Page 41: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/41.jpg)
Córpus
Bosque, subconjunto da Floresta
Sintá(c)tica (Afonso et al., 2001) revisado
manualmente
9.368 sentenças
CINTIL Treebank (Branco e Costa, 2008)
10.039 sentenças
41
![Page 42: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/42.jpg)
Universal Dependenciesuniversaldependencies.org
Iniciativa de uniformização dos níveis da morfossintaxe e da
sintaxe para diferentes línguas (Nivre et al., 2016)
Experiências prévias de Stanford, Google, etc.
Inclui português
42
![Page 43: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/43.jpg)
43
Semântica
Pragmática / Discurso
Semântica
Sintaxe
Morfologia
Significado
Palavras, expressões, orações, sentenças,
textos
![Page 44: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/44.jpg)
44
Semântica
Pragmática / Discurso
Semântica
Sintaxe
Morfologia
Traços semânticos
Mesa Cavalo Garota Mulher
Animado - + + +
Humano - - + +
Fêmea - - + +
Adulto - + - +
![Page 45: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/45.jpg)
45
Semântica
Pragmática / Discurso
Semântica
Sintaxe
Morfologia
Classificações ontológicas
Desambiguação lexical de sentido
Wikificação
![Page 46: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/46.jpg)
46
Semântica
Pragmática / Discurso
Semântica
Sintaxe
Morfologia
Papéis semânticos/temáticos
Agente, tema, instrumento, experienciador,
fonte, etc.
[O menino]AGENTE chutou [a bola]TEMA
![Page 47: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/47.jpg)
47
Semântica
Pragmática / Discurso
Semântica
Sintaxe
Morfologia
Classes/categorias/tipos semânticos
Humano, local, data, organização, etc.
O [menino]HUMANO chutou a bola
Entidades nomeadas
![Page 48: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/48.jpg)
48
Semântica
Pragmática / Discurso
Semântica
Sintaxe
Morfologia
Relações “lexicais”
Sinonímia, antonímia, hiperonímia/hiponímia,
meronímia/holonímia, etc.
![Page 49: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/49.jpg)
49
Semântica
Pragmática / Discurso
Semântica
Sintaxe
Morfologia
Diversos fenômenos
Metáforas, expressões idiomáticas, polissemia
Qual a diferença entre polissemia e homonímia?
Banco (assento vs. instituição financeira) é
polissêmico, mas manga (camisa vs. fruta) não é
![Page 50: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/50.jpg)
50
Semântica
Ele queria jogar tênis com Janete, mas também queria
jantar com Suzana. Sua indecisão o deixou louco.
Pragmática / Discurso
Semântica
Sintaxe
Morfologia
“Ele”, “Janete” e “Suzana” = humanos.
Jogar tênis = praticar o esporte tênis ≠ arremessar o calçado.
...
Semântica sentencial
![Page 51: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/51.jpg)
51
Semântica
Pragmática / Discurso
Semântica
Sintaxe
Morfologia
Semântica sentencial
queria(exper(ele),objetivo(jogar(tênis),comutativo(Janete)))...
Ele queria jogar tênis com Janete, mas também queria
jantar com Suzana. Sua indecisão o deixou louco.
![Page 52: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/52.jpg)
Semântica
Inspiração no modelo do espaço vetorial de Salton (1971), originalmente aplicado para Recuperação de Informação
Word embeddings
Sofisticação e eficiência recentes
Grande poder computacional disponível
Grande volume de dados para “aprendizado”
52
![Page 53: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/53.jpg)
Semântica
Palavras que ocorrem no mesmo
contexto tendem a ter o mesmo
sentido
53
A bottle of tesgüino is on the table
Everybody likes tesgüino
Tesgüino makes you drunk
We make tesgüino out of corn.
bebida alcóolica
![Page 54: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/54.jpg)
Semântica
Ocorrência de palavras em 4 obras literárias
Cada documento é representado por um vetor
54
Matriz termo-documento
Dois documentos são similares se seus vetores são similares
![Page 55: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/55.jpg)
Semântica
Para representar palavras, entretanto, é mais usual
ter matriz termo-contexto, ou termo-termo
55
Palavras são similares se seus contextos são similares!
![Page 56: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/56.jpg)
Semântica
Até então, vetores muito esparsos Muito grandes (20.000 a 50.000 elementos nas
linhas e colunas... podendo haver muito mais), com muitos zeros
Tentativas de torna-los mais densos Eficiência de representação: apenas
“termos”/“dimensões” mais significativas 200 a 1.000 termos, aproximadamente
Eficiência computacional
Muitas variações disponíveis
56
![Page 57: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/57.jpg)
Métodos
3 abordagens tradicionais
SVD – Singular Value Decomposition LSA (Deerwester et al., 1990)
Redes neurais (Bengio et al., 2003) e modelos preditivos Skip-grams e continuous bag of words (Mikolov et al., 2013)
Métodos incorporados no pacote word2vec
Concorrente: GloVe (Pennington et al., 2014), que não é preditivo, mas baseado em “contagem”
Brown clustering (Brown et al., 1992)57
![Page 58: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/58.jpg)
Exemplos
Mikolov et al. (2013)
58
Exemplos famosos
• vector(‘king’) - vector(‘man’) + vector(‘woman’) ≈ vector(‘queen’)
• vector(‘Paris’) - vector(‘France’) + vector(‘Italy’) ≈ vector(‘Rome’)
![Page 59: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/59.jpg)
Recursos e ferramentas
OntoLP: Portal de Ontologiashttp://ontolp.inf.pucrs.br
59
![Page 60: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/60.jpg)
Recursos e ferramentas
TeP 2.0 (Maziero et al., 2008) e Wordnet.Br (Dias da Silva, 2003)
Wordnets para o português e variantes (de Paiva et al., 2016)
Onto.PT
Wordnet.PT
MultiWordNet.PT
OpenWordNet.PT
PAPEL
Etc.
60
![Page 61: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/61.jpg)
Recursos e ferramentas
PALAVRAS (Bick, 2000)
Rembrandt (Cardoso, 2008)
REPENTINO (Sarmento et al., 2006)
Babelfy (Moro et al., 2014)
SRL Brazilis (Hartmann et al., 2016)
61
![Page 62: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/62.jpg)
Recursos e ferramentas
PropBank.Br e VerboBrasil (Duran e Aluísio, 2012)
VerbNet.Br (Scarton e Aluísio, 2012)
FrameNet.Br (Chishman e Bertoldi, 2012; Salomão et al., 2013)
LIWC (Balage Filho et al., 2013)
LX-DSemVectors (Rodrigues et al., 2016),NILC-Embeddings
CSTNews (Cardoso et al., 2011)
“O Pequeno Príncipe” em Abstract MeaningRepresentation (AMR) (Baranescu et al., 2013 )
Etc.62
![Page 63: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/63.jpg)
Aplicações
Diversas aplicações
Extração de informação
Recuperação de informação
Sumarização automática
Tradução automática
Classificação de polaridade (Avanço e
Nunes, 2014)
Etc.
63
![Page 64: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/64.jpg)
Classificação de polaridade
64
![Page 65: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/65.jpg)
65
Discurso
Pragmática / Discurso
Semântica
Sintaxe
Morfologia
Discurso
Aquilo que está além da sentença
Semântica textual
Relacionamento proposicional, correferência e expressões
referenciais, marcadores textuais, intenções,
tópicos/subtópicos, componentes retóricos, etc.
![Page 66: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/66.jpg)
66
Discurso
Ele queria jogar tênis com Janete, mas também queria
jantar com Suzana. Sua indecisão o deixou louco.
Pragmática / Discurso
Semântica
Sintaxe
Morfologia
![Page 67: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/67.jpg)
67
Discurso
Ele queria jogar tênis com Janete, mas também queria
jantar com Suzana. Sua indecisão o deixou louco.
Pragmática / Discurso
Semântica
Sintaxe
Morfologia
![Page 68: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/68.jpg)
68
Discurso
Ele queria jogar tênis com Janete, mas também queria
jantar com Suzana. Sua indecisão o deixou louco.
Pragmática / Discurso
Semântica
Sintaxe
Morfologia
(Intend E (Believe L “o desejo
de fazer duas coisas
incompatíveis o deixou louco”))
![Page 69: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/69.jpg)
Analisadores
DiZer 2.0, CSTParser e variantes (Maziero et al., 2014, 2015)
Relações discursivas mono e multidocumento
69
![Page 70: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/70.jpg)
Analisadores
Coh-Metrix-Port (Scarton e Aluísio, 2010): coesão, coerência e
dificuldade de compreensão textual
Inteligibilidade
70
![Page 71: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/71.jpg)
Analisadores
Delimitação de subtópicos (Cardoso et al., 2017)
71
![Page 72: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/72.jpg)
Analisadores
CORP – Coreference Resolution for Portuguese(Fonseca et al., 2017)
72
![Page 73: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/73.jpg)
Aplicações
Auxílio à escrita
Tradução automática
Reconhecimento de autoria
Análise de sentimentos
Sumarização automática (Cardoso et
al., 2015)
Etc.
73
![Page 74: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/74.jpg)
Aplicações
Análise e seleção de segmentos textuais mais relevantes
74
![Page 75: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/75.jpg)
Córpus
CSTNews (Cardoso et al., 2011)
140 textos jornalísticos, com diversas camadas de anotação: relações discursivas, correferências, subtópicos, aspectos informativos, etc.
Summ-it (Collovini et al., 2007)
50 textos jornalísticos, com relações discursivas e correferências
Etc.
75
![Page 76: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/76.jpg)
76
Pragmática
Pragmática / Discurso
Semântica
Sintaxe
Morfologia
Pragmática
Língua em uso, interação, contexto
Fatores como força, educação, hierarquia, crença,
cooperação, atitude
Estilos de escrita e de fala
Suposições sobre produtor e receptor, nível de
conhecimento, interesses
Modelagem do usuário
![Page 77: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/77.jpg)
77
PLN
Considerações para uso por um computador
Os níveis de conhecimento precisam ser representados (formalizados) e manipulados automaticamente
Interação entre os níveis Morfologia e sintaxe
Sintaxe e semântica
Semântica e discurso
![Page 78: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/78.jpg)
78
PLN
Considerações para uso por um computador
Os níveis de conhecimento precisam ser representados (formalizados) e manipulados automaticamente
Interação entre níveis mais distantes Morfologia e semântica (goleiro e porteiro vs. padeiro)
Morfologia e pragmática (são carlense vs. são carlino, laranjada e limonada vs. cajuada)
Sintaxe e discurso (subordinadas)
![Page 79: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/79.jpg)
79
PLN
Trabalho em PLN (Dias da Silva, 2006)
Fase
linguística
Fase
representacional
Fase
implementacional
![Page 80: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/80.jpg)
80
PLN
Trabalho em PLN (Dias da Silva, 2006)
Fase
linguística
Fase
representacional
Fase
implementacional
Resumos de artigos
de jornais
Formalização das
regras para resumir
Desenvolvimento do
sumarizador automático
Tradução espanhol-
português
Regras de tradução,
dicionários bilíngues
Desenvolvimento do
tradutor automático
![Page 81: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/81.jpg)
81
PLN
Trabalho em PLN (Dias da Silva, 2006)
Aspectos da língua que são possíveis capturar e
automatizar
Muitas teorias linguísticas são sofisticadas demais para o
PLN... alguns recursos também (exemplo?)
Fase
linguística
Fase
representacional
Fase
implementacional
Teorias e dados
linguísticos
Formalismos/esquemas
de representação
Métodos e modelos
computacionais
![Page 82: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/82.jpg)
82
PLN & IA
Classificações... nem sempre triviais
Critérios Paradigmas
Uso de conhecimento
linguístico
Superficial, profundo e
híbrido
Representação do
conhecimento
Simbólico, não-
simbólico e híbrido
Obtenção do
conhecimento
Manual, automática e
híbrida
![Page 83: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/83.jpg)
Superficial vs. profundo
Superficial Mais fácil aplicação e desenvolvimento, mais robusto Resultados piores, normalmente
Profundo De mais difícil modelagem e aquisição Resultados melhores, para domínios limitados, muitas vezes
Híbrido: como fazer?
Métodos profundos “explicam” a língua, mas alguns métodos superficiais são muito bons Por exemplo, sumarização de notícias jornalísticas
“Métodos cada vez mais sofisticados para fazer a mesma coisa” Dilema da sumarização automática
83
![Page 84: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/84.jpg)
Simbolismo vs. estatística
Regras são muito “rígidas” para a fluidez e flexibilidade da língua Por exemplo, regras gramaticais para boa
formação de sentenças
Padrões mais frequentes de organização da língua podem ser aprendidos (estatisticamente)
Mas alguns tipos de regras são muito bons Regras de formação de sintagmas nominais
84
![Page 85: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/85.jpg)
Abordagens conflitantes
Simbolismo/profundidade e a validação de teorias e modelos
Explicitação do conhecimento
Grande utilidade da estatística
O conhecimento está lá... “codificado”(controverso)
Dilemas da TA estatística
Funciona melhor que outras abordagens, codifica conhecimento, conhecimento pode estar errado (quem se importa?)
85
![Page 86: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/86.jpg)
História do PLN
Direcionada por correntes filosófico-
linguísticas
Às vezes complementares
Às vezes rivais até a morte
86
![Page 87: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/87.jpg)
Racionalismo
1960-1985: racionalismo entre linguistas, informatas, etc. Racionalismo: crença de que parte significativa do
conhecimento humano não vem dos sentidos, mas é herdada geneticamente
Noam Chomsky Linguagem inata
Argumento: muito pouco estímulo para um aprendizado muito eficiente de algo complexo Como é possível aprender tanto a partir de tão pouca evidência
linguística?
IA: sistemas com muito conhecimento manualmente fornecido e com mecanismos de inferência
87
![Page 88: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/88.jpg)
Empirismo
1920-1960: empirismo Mente não vem com princípios e procedimentos
pré-determinados
Mas vem com operações gerais de associação, reconhecimento de padrões e generalizações Importância do estímulo sensorial para o aprendizado
da língua
Ressurgimento na atualidade Córpus
Aprendizado da estrutura da linguagem com modelos de língua parametrizáveis
88
![Page 89: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/89.jpg)
Abordagens: PLN
Eric Laporte (2012) - linguista
Dualidade córpus/introspecção
89
![Page 90: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/90.jpg)
História do PLN
Marcada por dicotomias
Simbolismo vs. estatística
Abordagens superficiais vs. profundas
Racionalismo vs. empirismo
90
![Page 91: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/91.jpg)
Resumo da história de PLN
Avanços da área no tempo (Jurafsky e Martin, 2009)
1940-56: fundação da área Máquinas de estados finitos, gramáticas e modelos probabilísticos
1957-70: dois campos Simbolismo vs. estatística e os primeiros córpus on-line
1970-83: quatro paradigmas Estocástico, lógico, interpretação textual, discurso
1983-93: empirismo Probabilidades, avaliação, geração textual
1994-99: fortalecimento da área Modelos baseados em dados, exploração comercial, web
2000-atual: aprendizado de máquina Semissupervisão e não supervisão, aprendizado sem fim, aprendizado profundo
Competições e grandes conjuntos de dados
Modelos distribucionais 91
![Page 92: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/92.jpg)
PLN
Classificação
Recursos
Ferramentas
Aplicações
92
![Page 93: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/93.jpg)
93
Recursos
Córpus Anotação: humana e/ou automática
XML, XCES, TEI, etc.
Paralelo, comparável, alinhado, etc.
Dicionários monolíngues e bilíngues Machine readable vs. machine tractable
Léxicos Vários paradigmas
![Page 94: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/94.jpg)
94
Ferramentas
Segmentadores textuais: palavras (tokenizador), sentenças, parágrafos, tópicos
Stemmers, lematizadores, nominalizadores
Etiquetadores morfossintáticos (taggers)
Analisadores sintáticos shallow (chunkers) e deep (parsers)
Analisadores semânticos e discursivos
Alinhadores textuais: lexicais, sentenciais, etc.
Concordanceadores, word counting, etc.
![Page 95: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/95.jpg)
95
Aplicações
Tradutores automáticos
Revisores ortográficos e gramaticais
Ferramentas de auxílio à escrita
Sumarizadores automáticos
Simplificadores textuais
![Page 96: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/96.jpg)
96
Recursos, ferramentas e aplicações
Atenção
Classificação difusa, às vezes
Dependente do uso Sumarizador como passo intermediário para
recuperação da informação ferramenta
Dicionário eletrônico para consulta aplicação
![Page 97: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/97.jpg)
No Brasil e no mundo
PLN
97
![Page 98: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/98.jpg)
98
Comissão Especial de PLN
Responsável pela condução da área e representação nacional
www.sbc.org.br/ce-pln Não precisa ser membro da SBC
![Page 99: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/99.jpg)
99
![Page 100: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/100.jpg)
100
![Page 101: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/101.jpg)
101
![Page 102: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/102.jpg)
102
![Page 103: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/103.jpg)
103
Outras iniciativas
ACL anthology, listas de discussão, wiki
Linguateca Oficialmente finalizado
forum-lp
Toolkits NLTK, GATE, nlpnet, AntMover, etc.
Metashare
Etc.
![Page 104: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/104.jpg)
Finalizando...
104
![Page 105: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/105.jpg)
Atenção
O mundo é muito maior!
O que foi apresentado é apenas um recorte
para introdução à área
Apenas um ponto de partida!
105
![Page 106: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/106.jpg)
GloboNews/Mundo SAReportagem de 13/03/2017
Sugestão para ver em casa
A indústria por trás do uso da inteligência
artificial
http://globosatplay.globo.com/globonews/v/57
22142/
106
![Page 107: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/107.jpg)
Introdução ao Processamento de
Línguas Naturais
Na parte da tarde
Uma aplicação: introdução à análise de
sentimentos
107
EBRALC 2017
![Page 108: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/108.jpg)
Referências
Aires, R.V.X.; Aluísio, S.M.; Kuhn, D.C.S.; Andreeta, M.L.B.; Oliveira Jr., O.N. (2000). Combining Multiple Classifiers to Improve Part of Speech Tagging: A Case Study for Brazilian Portuguese. In the Proceedings of the Brazilian Artificial Intelligence Symposium (SBIA).
Afonso, S.; Bick, E.; Haber, R.; Santos, D. (2001). Floresta sintá(c)tica: um treebank para o português. In Anais do XVII Encontro da Associação Portuguesa de Linguística.
Almeida, S.; Carvalho, A.; Fantin, L.; Stolfi, J. (2003). Selva: A New Syntactic Parser for Portuguese. In the Proceedings of the 6th International Conference on Computational Processing of the Portuguese Language (PROPOR), pp. 102-109.
Aluísio, S.M.; Pelizzoni, J.M.; Marchi, A.R.; de Oliveira, L.; Manenti, R.; Marquiafável, V. (2003). An account of the challenge of tagging a reference corpus for Brazilian Portuguese. In the Proceedings of the 6th International Conference on Computational Processing of the Portuguese Language (PROPOR), pp. 110-117.
Antunes, R.A.M.R. (2017) Formação de Gentílicos a partir de Topônimos: Proposta de geração automática. Dissertação de Mestrado. Universidade Federal de São Carlos.
Avanço, L.V. and Nunes, M.G.V. (2014). Lexicon-based Sentiment Analysis for Reviews of Products in Brazilian Portuguese. In Proceedings of the Brazilian Conference on Intelligent Systems, pp. 277-281.
Balage Filho, P.P.; Aluísio, S.M.; Pardo, T.A.S. (2013). An Evaluation of the Brazilian Portuguese LIWC Dictionary for Sentiment Analysis. In the Proceedings of the 9th Brazilian Symposium in Information and Human Language Technology, pp. 215-219.
Banarescu, L.; Bonial, C.; Cai, S.; Georgescu, M.; Griffitti, K.; Hermjakob, U.; Knight, K.; Koehn, P.; Palmer, M.; Schneider, N. (2013). Abstract Meaning Representation for Sembanking. In the Proceedings of Linguistic Annotation Workshop, pp. 178-186.
Bengio, Y.; Ducharme, R.; Vincent, P.; Janvin, C. (2003). A neural probabilistic language model. Journal of Machine Learning Research, Vol. 3, pp. 1137-1155.
Bick, E. (2000). The parsing system “Palavras”. Automatic Grammatical Analysis of Portuguese in a Constraint Grammar Framework. Aarhus Univ. Press.
108
![Page 109: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/109.jpg)
ReferênciasBranco, A. and Silva, J. (2004). Evaluating Solutions for the Rapid Development of State-of-the-Art POS Taggers for Portuguese. In the Proceedings of the 4th International Conference on Language Resources and Evaluation (LREC), pp. 507-510.
Branco, A. and Costa, F. (2008). A computational grammar for deep linguistic processing of Portuguese: LXGram. Technical Report DI-FCUL-TR-08-17, University of Lisbon.
Brown, P.F.; Della Pietra, V.J.; Souza, P.V.; Lai, J.C.; Mercer, R.L. (1992). Class-based n-gram models of natural language. Computational Linguistics, Vol. 18, N. 4, pp. 467-479.
Cândido Jr. A.; Maziero E.; Gasperin, C.; Pardo, T.A.S.; Specia, L.; Aluisio, S.M. (2009). Supporting the Adaptation of Texts for Poor Literacy Readers: a Text Simplification Editor for Brazilian Portuguese. In the Proceedings of the NAACL HLT Workshop on Innovative Use of NLP for Building Educational Applications, pp. 34-42.
Cardoso, N. (2008). REMBRANDT - Reconhecimento de Entidades Mencionadas Baseado em Relações e ANálise Detalhada do Texto. In C. Mota and D. Santos (eds.), Desafios na avaliação conjunta do reconhecimento de entidades mencionadas: O Segundo HAREM, pp. 195-211.
Cardoso, P.C.F.; Maziero, E.G.; Castro Jorge, M.L.R.; Seno, E.M.R.; Di Felippo, A.; Rino, L.H.M.; Nunes, M.G.V.; Pardo, T.A.S. (2011). CSTNews - A Discourse-Annotated Corpus for Single and Multi-Document Summarization of News Texts in Brazilian Portuguese. In the Proceedings of the 3rd RST Brazilian Meeting, pp. 88-105.
Cardoso, P.C.F.; Castro Jorge, M.L.R.; Pardo, T.A.S. (2015). Exploring the Rhetorical Structure Theory for Multi-document Summarization. In the Proceedings of the 5th Workshop RST and Discourse Studies, pp. 1-10.
Cardoso, P.C.F.; Pardo, T.A.S.; Taboada, M. (2017). Subtopic annotation and automatic segmentation for news texts in BrazilianPortuguese. Corpora, Vol. 12, N. 1, pp. 23-54. Edinburgh University Press.
Chishman, R.L.O. and Bertoldi, A. (2012). A Semântica de Frames e os Recursos Lexicais Computacionais: da teoria à aplicação. A Cognição na Linguagem, pp. 140-160.
Collovini, S.; Carbonel, T.I.; Fuchs, J.T.; Coelho, J.C.; Rino, L.H.M.; Vieira, R. (2007). Summ-it: Um corpus anotado com informações discursivas visando a sumarização automática. In Anais do V Workshop em Tecnologia da Informação e da Linguagem Humana, pp. 1605-1614.
de Paiva, V.; Real, L.; Oliveira, H.G.; Rademaker, A.; Freitas, C.; Simões, A. (2016). An overview of Portuguese WordNets. In the Proceedings of the Global Wordnet Conference.
109
![Page 110: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/110.jpg)
Referências
Deerwester, S.C.; Dumais, S.T.; Landauer, T.K.; Furnas, G.W.; Harshman, R.A. (1990). Indexing by latent semantics analysis. Journal of the American Society for Information Science, Vol. 41, N. 6, pp. 391-407.
Dias da Silva, B.C. (2006). O estudo Lingüístico-Computacional da Linguagem. Letras de Hoje, Vol. 41. N. 2, pp. 103-138.
Dias da Silva, B.C. (2003). Human language technology research and the development of the Brazilian Portuguese wordnet. In the Proceedings of the 17th International Congress of Linguists, pp. 1-12
Duran, M.S. and Aluísio, S.M. (2012). Propbank-Br: a Brazilian Treebank annotated with semantic role labels. In the Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC), pp. 1862-1867.
Fonseca, E.R. and Rosa, J.L.G. (2013). Mac-Morpho Revisited: Towards Robust Part-of-Speech Tagging. In the Proceedings of the 9th Brazilian Symposium in Information and Human Language Technology, pp. 98-107.
Fonseca, E.; Sesti, V.; Antonitsch, A.; Vanin, A.; Vieira, R. (2017). CORP: Uma Abordagem Baseada em Regras e Conhecimento Semântico para a Resolução de Correferências. LinguaMÁTICA, Vol. 9, N. 1, pp. 3-18.
Hartmann, N.S.; Duran, M.S.; Aluísio, S.M. (2016). Automatic Semantic Role Labeling on Non-revised Syntactic Trees of Journalistic Texts. In the Proceedings of the International Conference on the Computational Processing of Portuguese (PROPOR), pp. 202-212.
Jackson, P. and Moulinier, I. (2002). Natural Language Processing for Online Applications: Text retrieval, extraction and categorization. John Benjamins Publishing Company.
Jurafsky, D. and Martin, J.H. (2009). Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. Prentice Hall.
Martins, R.T.; Hasegawa, R.; Nunes, M.G.V. (2003). Curupira: a functional parser for Brazilian Portuguese. In the Proceedings of the 6th International Conference on Computational Processing of the Portuguese Language (PROPOR), pp. 179-183.
110
![Page 111: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/111.jpg)
ReferênciasMaziero, E.G.; Pardo, T.A.S.; Di Felippo, A.; Dias-da-Silva, B.C. (2008). A Base de Dados Lexical e a Interface Web do TeP 2.0 -Thesaurus Eletrônico para o Português do Brasil. In Anais do VI Workshop em Tecnologia da Informação e da Linguagem Humana (TIL), pp. 390-392.
Maziero, E.G.; Castro Jorge, M.L.R.; Pardo, T.A.S. (2014). Revisiting Cross-document Structure Theory for multi-document discourseparsing. Information Processing & Management, Vol. 50, N. 2, pp. 297-314.
Maziero, E.G.; Hirst, G.; Pardo, T.A.S. (2015). Semi-Supervised Never-Ending Learning in Rhetorical Relation Identification. In the Proceedings of the Recent Advances in Natural Language Processing - RANLP, pp. 436-442.
Mikolov, T.; Sutskever, I.; Chen, K.; Corrado, G.; Dean, J. (2013). Distributed representations of words and phrases and their compositionality. In the Proceedings of the 26th International Conference on Neural Information Processing Systems (NIPS), pp. 3111-3119.
Moro, A.; Raganato, A.; Navigli, R. (2014). Entity Linking meets Word Sense Disambiguation: a Unified Approach. Transactions of the Association for Computational Linguistics, Vol. 2, pp. 231-244.
Muniz, M.C.M. (2004). A construção de recursos lingüístico-computacionais para o português do Brasil: o projeto de Unitex-PB. Dissertação de Mestrado. Instituto de Ciências Matemáticas de São Carlos, Universidade de São Paulo.
Nivre, J.; Marneffe, M.C.; Ginter, F.; Goldberg, Y.; Hajič, J.; Manning, C.D.; McDonald, R.; Petrov, S.; Pyysalo, S.; Silveira, N.; Tsarfaty, R.; Zeman, D. (2016). Universal Dependencies v1: A Multilingual Treebank Collection. In the Proceedings of the Tenth International Conference on Language Resources and Evaluation, pp. 1659-1666.
Oliveira, H.G. and Gomes, P (2014). ECO and Onto.PT: A flexible approach for creating a Portuguese wordnet automatically. Language Resources and Evaluation, Vol. 48, N. 2, pp. 373-393.
Pennington, J.; Socher, R.; Manning, C.D. (2014). Glove: Global vectors for word representation. In the Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 1532-1543.
Rodrigues, J.; Branco, A.; Neale, S.; Silva. J. (2016). LX-DSemVectors: Distributional Semantics Models for Portuguese. In the Proceedings of the International Conference on the Computational Processing of Portuguese (PROPOR), pp. 259-270.
111
![Page 112: Introdução ao Processamento de Línguas Naturais · ... (ainda) Não é possível ... não muito bem Eliza: por que você diz não muito bem? P: ... deixou [deixar]](https://reader034.vdocuments.net/reader034/viewer/2022052309/5be6550009d3f28a428db84c/html5/thumbnails/112.jpg)
Referências
Salomão, M.M.M.; Torrent, T.T.; Sampaio, T.F. (2013). A Linguística de Corpus Encontra a Linguística Computacional: Notícias do
Projeto FrameNet Brasil. Cadernos de Estudos Linguísticos, Vol. 55, N. 1, pp. 7-34.
Salton, G. (1971). The SMART Retrieval System: Experiments in Automatic Document Processing. Prentice Hall.
Sarmento, L.; Pinto, A.S.; Cabral, L. (2006). REPENTINO - A Wide-Scope Gazetteer for Entity Recognition in Portuguese. In the
Proceedings of the International Conference on Computational Processing of the Portuguese Language (PROPOR), pp. 31-40.
Scarton, C.E. and Aluísio, S.M. (2010). Análise da Inteligibilidade de textos via ferramentas de Processamento de Língua Natural:
adaptando as métricas do Coh-Metrix para o Português. LinguaMÁTICA, Vol. 2, N.1, pp. 45-61.
Scarton, C. and Aluísio, S. (2012). Towards a cross-linguistic VerbNet-style lexicon to Brazilian Portuguese. In the Proceedings of the
LREC Workshop on Creating Cross-language Resources for Disconnected Languages and Styles, pp. 11-18.
Silva, J.; Branco, A.; Castro, S.; Reis, R. (2010). Out-of-the-Box Robust Parsing of Portuguese. In the Proceedings of the 9th
International Conference on the Computational Processing of Portuguese (PROPOR), pp. 75–85.
Vargas, F.A. and Pardo, T.A.S. (2017). Clustering and hierarchical organization of opinion aspects: a corpus study. In Anais do XIV
Encontro de Linguística de Corpus (ELC). Em publicação.
Wing, B. and Baldridge, J. (2006). Adaption of Data and Models for Probabilistic Parsing of Portuguese. In the Proceedings of the 7th
Workshop on Computational Processing of Written and Spoken Portuguese (PROPOR), pp. 140-149.
112