he[ eee ]sit[u]aÇÃo modelos de hesitação para o português
DESCRIPTION
Seminários@CELGA FLUC, 17 Fevereiro 2011. HE[ eee ]SIT[u]AÇÃO Modelos de Hesitação para o Português. Sara Candeias Fernando Perdigão Carla Alexandra Lopes Arlindo Oliveira da Veiga. Sumário. Introdução Objeto de estudo Objetivos Plano e métodos Corpus Análise Perspetivas. - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: HE[ eee ]SIT[u]AÇÃO Modelos de Hesitação para o Português](https://reader035.vdocuments.net/reader035/viewer/2022070422/568165f5550346895dd91adb/html5/thumbnails/1.jpg)
© 2005, it - instituto de telecomunicações. Todos os direitos reservados.
Sara CandeiasFernando Perdigão
Carla Alexandra LopesArlindo Oliveira da Veiga
HE[eee]SIT[u]AÇÃOModelos de Hesitação para o Português
Seminários@CELGAFLUC, 17 Fevereiro 2011
![Page 2: HE[ eee ]SIT[u]AÇÃO Modelos de Hesitação para o Português](https://reader035.vdocuments.net/reader035/viewer/2022070422/568165f5550346895dd91adb/html5/thumbnails/2.jpg)
2Seminários@CELGA: Fevereiro 17, 2011
Sumário
Introdução Objeto de estudo Objetivos
Plano e métodos Corpus Análise
Perspetivas
![Page 3: HE[ eee ]SIT[u]AÇÃO Modelos de Hesitação para o Português](https://reader035.vdocuments.net/reader035/viewer/2022070422/568165f5550346895dd91adb/html5/thumbnails/3.jpg)
3
Objeto de Estudo Eventos de hesitação (disfluências)
Pausas preenchidas Segmentos fonéticos do sistema português não
ocorrentes no âmbito do vocábulo: uum, mm, amm, aa Extensões
Prolongamentos fonéticos no âmbito de vocábulos Vocábulos cortados Repetições
de de, para a para a
Seminários@CELGA: Fevereiro 17, 2011
Preenchimentos com vocábulos pá, ok, …
![Page 4: HE[ eee ]SIT[u]AÇÃO Modelos de Hesitação para o Português](https://reader035.vdocuments.net/reader035/viewer/2022070422/568165f5550346895dd91adb/html5/thumbnails/4.jpg)
4
Objetivos
Modelar eventos de hesitação presentes no português falado em contínuo Identificar características linguísticas pertinentes e regulares
Descrever os fenómenos de hesitação existentes no português falado Propriedades acústico-fonéticas Propriedades morfológicas e sintácticas
Caracterizar modelos linguísticos e acústicos das hesitações para identificação e anotação automática dos eventos na fala
contínua
Seminários@CELGA: Fevereiro 17, 2011
Anotar uma base de dados de fala contínua em termos de eventos de hesitação
![Page 5: HE[ eee ]SIT[u]AÇÃO Modelos de Hesitação para o Português](https://reader035.vdocuments.net/reader035/viewer/2022070422/568165f5550346895dd91adb/html5/thumbnails/5.jpg)
5
Plano de Trabalho
Criação e anotação de base de dadosIdentificação automática de hesitaçõesEstudo linguístico e caracterização de hesitações
Seminários@CELGA: Fevereiro 17, 2011
corpora: Tecnovoz Noticiários
Centenas de locutores40 horas de fala lidaAnotado ortograficamente
Centenas de horasNão anotadoFerramentas para anotação automática de:
jingles e música mudança de locutor, reportagens no exterior
![Page 6: HE[ eee ]SIT[u]AÇÃO Modelos de Hesitação para o Português](https://reader035.vdocuments.net/reader035/viewer/2022070422/568165f5550346895dd91adb/html5/thumbnails/6.jpg)
6
Eventos de Hesitação
Primeiros passos… Eventos encontrados manualmente Uso do Transcriber
Seminários@CELGA: Fevereiro 17, 2011
Sub-corpora: Inferem-se as primeiras características (surface structure)
que permitam a deteção automática dos eventos
![Page 7: HE[ eee ]SIT[u]AÇÃO Modelos de Hesitação para o Português](https://reader035.vdocuments.net/reader035/viewer/2022070422/568165f5550346895dd91adb/html5/thumbnails/7.jpg)
7
Deteção Automática de Hesitações
Seminários@CELGA: Fevereiro 17, 2011
Problemas:
Ficheiros muito longos; qualidade do áudio variável; muitos locutores: necessidade de tratamento automático.
Inexistência de modelos acústicos para hesitação.
Caracterização acústica/fonética dos eventos:
Tom constante e mais baixo que o usual?
Formantes diferentes? Vibrante múltipla?
Quais as características a usar?
Deteção de repetições:
Uso de técnicas de reconhecimento de fala/fones.
![Page 8: HE[ eee ]SIT[u]AÇÃO Modelos de Hesitação para o Português](https://reader035.vdocuments.net/reader035/viewer/2022070422/568165f5550346895dd91adb/html5/thumbnails/8.jpg)
8
Deteção Automática de Hesitações
Seminários@CELGA: Fevereiro 17, 2011
Solução preliminar:
Apenas deteção de pausas preenchidas e extensões.
Uso de modelos acústicos de fones. Modelos estatísticos de fones com “misturas de Gaussianas”, GMM.
Regra: existe uma hesitação se for detetada uma vogal longa (>350ms) ou repetições de um mesmo fone por mais que 350ms.
Permitir mais falsas aceitações que falsas rejeições.
Verificação manual dos eventos detectados.
Exemplos
![Page 9: HE[ eee ]SIT[u]AÇÃO Modelos de Hesitação para o Português](https://reader035.vdocuments.net/reader035/viewer/2022070422/568165f5550346895dd91adb/html5/thumbnails/9.jpg)
9
Processo de Anotação
Sistemas propostos: Levelt (1983; 1989) Nakatani & Hirschberg (1994) Shriberg (1994)
Seminários@CELGA: Fevereiro 17, 2011
material a corrigirmomentos de interrupção
acompanhados (ou não) de pausasmaterial reposto
Mostra voos de Lisboa na umm de Londres na terça.
Interruption Point
Reparandum Interregnum Repair
SimpleMDE_v6.2: Simple Metadata Annotation Specification Linguistic Data Consortium
![Page 10: HE[ eee ]SIT[u]AÇÃO Modelos de Hesitação para o Português](https://reader035.vdocuments.net/reader035/viewer/2022070422/568165f5550346895dd91adb/html5/thumbnails/10.jpg)
10
Exemplos de Anotação
Seminários@CELGA: Fevereiro 17, 2011
Venho de Lisboa aaaa de Co- Coimbra.
IP
* [ ] Reparandum FP Repair
[ ] Reparandum
Repair
É necessário gastar para renovar para renovar renová-lo.
IP
* [ ] Reparandum Repair
[ ] Reparandum
Repair
IP
*
![Page 11: HE[ eee ]SIT[u]AÇÃO Modelos de Hesitação para o Português](https://reader035.vdocuments.net/reader035/viewer/2022070422/568165f5550346895dd91adb/html5/thumbnails/11.jpg)
11
Caracterização de Hesitações Estruturas subjacentes:
reparandum, interruption point, (explicit) editing phase, repair,
fronteiras (frases, vocábulos, sílabas)
Características fonéticas:
contornos da onda sonora
valores de F0 para onset e offset dos eventos
valores de formantes das vogais
duração dos segmentos
…
Características sintáticas e morfológicas (dos eventos e dos elementos adjacentes)
Seminários@CELGA: Fevereiro 17, 2011
Informação estatística
![Page 12: HE[ eee ]SIT[u]AÇÃO Modelos de Hesitação para o Português](https://reader035.vdocuments.net/reader035/viewer/2022070422/568165f5550346895dd91adb/html5/thumbnails/12.jpg)
12
Perspetivas
Seminários@CELGA: Fevereiro 17, 2011
Identificação de regularidades no âmbito
da sintaxe e da morfologia
da prosódia
???
![Page 13: HE[ eee ]SIT[u]AÇÃO Modelos de Hesitação para o Português](https://reader035.vdocuments.net/reader035/viewer/2022070422/568165f5550346895dd91adb/html5/thumbnails/13.jpg)
© 2005, it - instituto de telecomunicações. Todos os direitos reservados.
Fim
Obrigados