harem 2.0 proposta luís sarmento e cristina mota

17
HAREM 2.0 Proposta Luís Sarmento e Cristina Mota •Objectivos •Pistas •Tarefas •Constituição das colecções de trabalho •Metodologia de avaliação

Upload: risa-sargent

Post on 30-Dec-2015

30 views

Category:

Documents


9 download

DESCRIPTION

HAREM 2.0 Proposta Luís Sarmento e Cristina Mota. Objectivos Pistas Tarefas Constituição das colecções de trabalho Metodologia de avaliação. Objectivos. (Reconhecemos a importância do HAREM para o desenvolvimento na área em português). - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: HAREM 2.0 Proposta Luís Sarmento e Cristina Mota

HAREM 2.0Proposta

Luís Sarmento e Cristina Mota

•Objectivos•Pistas•Tarefas •Constituição das colecções de trabalho•Metodologia de avaliação

Page 2: HAREM 2.0 Proposta Luís Sarmento e Cristina Mota

Objectivos

• Abrir a discussão à comunidade relativamente ao futuro do REM

• Estabelecer um roteiro com objectivos em termos de extracção de informação

• Propor um conjunto de extensões e de alterações que nos parecem realistas e alcançáveis no prazo de um ano

(Reconhecemos a importância do HAREM para o desenvolvimento na área em português)

Page 3: HAREM 2.0 Proposta Luís Sarmento e Cristina Mota

Pista Robusta 1

• Descrição– Detecção e Classificação de EM em textos sem

capitalização• Motivações

– Permitir REM sobre texto que não possui originalmente informação acerca da grafia ou a grafia é irregular:

• gerado por um reconhecedor de voz• mails, blogs, etc.

– Obrigar à definição/caracterização de EM sem recorrer ao uso da capitalização

• [m|M]inistro dos Negócios Estrangeiros• [c|C]onstante de Planck

Page 4: HAREM 2.0 Proposta Luís Sarmento e Cristina Mota

Pista Robusta 1 [Implicações]

• Levanta imensos problemas na determinação da delimitação das EM, sendo necessário caracterizar com maior precisão a tarefa

• A identificação terá de ser mais inteligente– análise do contexto muito mais importante– utilização de certos recursos lexicais para “identificar”

inícios / fins…– Poderá diluir a diferença entre “Identificar” e

“Classificar”

Page 5: HAREM 2.0 Proposta Luís Sarmento e Cristina Mota

Pista Robusta 2

• Descrição– Teste dos sistemas em várias colecções datadas de

forma diferente mas do mesmo género e domínio

• Motivação– Verificar de que forma os sistemas se comportam

quando expostos a variações na dimensão temporal

– Ajudar a testar a importância da actualização (ou não) dos almanaques ou das regras

Page 6: HAREM 2.0 Proposta Luís Sarmento e Cristina Mota

Pista Robusta 2 [Problemas]

• Será que a definição actual das tarefas é apropriada à realidade de outras épocas?

• Como isolar o impacto prático das variações no eixo tempo?

• Como garantir que a colecção permite isolar o factor tempo?

Page 7: HAREM 2.0 Proposta Luís Sarmento e Cristina Mota

Tarefas

• Identificação

• Classificação Semântica

• Classificação Morfológica

• Papel semântico

• Extra: Capitalização (Pista Robusta)

Page 8: HAREM 2.0 Proposta Luís Sarmento e Cristina Mota

Tarefa Extra [Capitalização]

• Descrição– Corrigir/uniformizar a capitalização de entidades

mencionadas em textos sem capitalização

• Motivação – Tarefa essencial de pós-processamento em sistemas de

reconhecimento de fala, como por exemplo sistemas de ditado e legendagem

Page 9: HAREM 2.0 Proposta Luís Sarmento e Cristina Mota

Tarefa “Alargada”

• Descrição: – Marcação de todas as menções a uma entidade, sejam, nomes próprios, nominais ou

pronominais • Ergónimos, nacionalidades, “categorias”:

– … <Diana Santos>, {investigadora portuguesa}…– A {multinacional americana} <Microsoft>…– A <Fundação Oriente> ... porque nesta {instituição} ...– <Pauleta> afirma ... até porque a equipa nao {o} apoiou.

• Motivações: – Estes elementos são muito importante para:

• Extracção de Informação (factoides, definições)• RAP: a resposta pode não ser uma EM mas algo muito relacionado e “fácil” de marcar

– Preparação para uma futura tarefa [Harem 3.0] que inclua a detecção de co-referência

– Aguçar o apetite para tarefas de “chunking”

Page 10: HAREM 2.0 Proposta Luís Sarmento e Cristina Mota

Mas não é complicado?

• Em certos casos não, porque pode já estar incluído na regra de classificação da EM:

• … <Diana Santos>, {investigadora portuguesa}…

• Noutros casos é porque as categorias podem ser abertas… mas pode ser muito interessante começar a produzir corpora com toda esta marcação

Page 11: HAREM 2.0 Proposta Luís Sarmento e Cristina Mota

Tarefa “3 em 1”

• Até agora considerou-se 2 tipos de marcação:– Morfológica– Semântica (2 níveis: classe e tipo)

• Durante a discussão das regras houve bastante polémica acerca da filosofia da marcação

• Mas pensamos que toda a gente concordará a vantagem de marcar as entidades como elas são “mencionadas”– O HAREM foi mais longe que outras avaliações

Page 12: HAREM 2.0 Proposta Luís Sarmento e Cristina Mota

Tarefa “3 em 1”

• Contudo, houve na nossa opinião uma mistura de dois factores na marcação semântica:– Classificação & Papel Semântico

• “Portugal acusa Bruxelas de ser parcial na atribuição de verbas aos países membros” – Como deve ser marcado semanticamente “Portugal”?– ORG? Segundo as regras do HAREM sim…– Depreende-se que “Portugal” está a substituir “Governo

Português” que é uma Organização mas este salto ontológico é “arriscado”

• Porque…

Page 13: HAREM 2.0 Proposta Luís Sarmento e Cristina Mota

Porque…• Qual será a pergunta natural?…

1. “Quem acusou Bruxelas de ser parcial…?”

2. “Que país acusou Bruxelas de ser parcial…?”

• “Portugal, o país produtor de Vinho do Porto, acusa Bruxelas de ser parcial na atribuição de verbas aos países membros”

Page 14: HAREM 2.0 Proposta Luís Sarmento e Cristina Mota

Então…

• Porque não decompor a classificação semântica em dois eixos:

1. Classificação semântica “intrínsica”2. Papel Semântico

• “Portugal acusa Bruxelas de ser parcial na atribuição de verbas aos países membros”

• Portugal: 1. GEOPOL::País (não arrisco dizer LOC ou ORG)2. Papel: Agente

Page 15: HAREM 2.0 Proposta Luís Sarmento e Cristina Mota

Um esclarecimento

• Note-se que não há “perda” da noção de “forma de menção”: ainda estamos a falar de “entidades mencionadas”

• Pode haver vários papéis:– “agente”– “paciente” / “objecto”…

• Podem ser acrescentados / especializados há medida que se torne interessantes

Page 16: HAREM 2.0 Proposta Luís Sarmento e Cristina Mota

Implicações…

• Pode levar a ter que repensar a estrutura de classificação do HAREM

• Pode ser que se resolvam algumas “ambiguidades”… e que se criem outras?

• Permite olhar para a marcação de uma forma mais rica.

• Obriga a uma análise mais profunda, provavelmente implica análise sintáctica e semântica

Page 17: HAREM 2.0 Proposta Luís Sarmento e Cristina Mota

Metodologia de Avaliação

• Várias Colecções Douradas– pretende-se analisar a consitência do resultado de cada

em sistema em diversas colecções cujas propriedades são neste momento complexas de caracterizar e que portanto podem ter idiossincrasia especificias

– Será que os sistemas apresentam oscilações significativas em diferentes colecções.