construção, manutenção e disponibilização de corpora marcelo muniz, kleber infante, fernando...
of 31
/31
Construção, Manutenção e Disponibilização de Corpora Marcelo Muniz, Kleber Infante, Fernando Muniz Sandra Aluísio III Workshop do Projeto PLN-BR - 9/5/2008 – ICMC-USP
Embed Size (px)
TRANSCRIPT
- Slide 1
- Construo, Manuteno e Disponibilizao de Corpora Marcelo Muniz, Kleber Infante, Fernando Muniz Sandra Alusio III Workshop do Projeto PLN-BR - 9/5/2008 ICMC-USP
- Slide 2
- Atividades do sub-projeto 1. Definio dos Protocolos e Padres de Representao dos Documentos 2. Disponibilizao dos Crpus de Treinamento 3. Construo da Plataforma de Acesso aos Crpus o Portal de Crpus PLUS: disponibilizao do crpus global (PLN-BR FULL - 29.014.089 tokens ) no ambiente Philologic: http://moodle.icmc.usp.br/philologic-plnbr1/ http://moodle.icmc.usp.br/philologic-plnbr2/ http://moodle.icmc.usp.br/philologic-plnbr3/
- Slide 3
- Definio dos Protocolos e Padres de Representao dos Documentos 1.1 Adotamos o padro XCES para anotao: dos cabealhos dos textos dos crpus da estrutura geral (pargrafos e sentenas) 1.2 Essas 2 ltimas foram geradas automaticamente com a ajuda do segmentador sentencial SENTER, citado acima. 1.3 A anotao stand-off, mas oferecemos tambm a intercalada, realizada por uma ferramenta disponibilizada pelo projeto do American National Corpus (ANC) Estamos trabalhando na criao de um script independente que gere as 3 anotaes (marcao lgica de pargrafos, de sentenas e cabealho XCES mnimo) para ser usado fora do ambiente do Portal Um RT est para sair e deve descrever tanto as anotaes estruturais quanto lingsticas
- Slide 4
- Updates Estamos trabalhando na criao de um script independente que gere as 3 anotaes (marcao lgica de pargrafos, de sentenas e cabealho XCES mnimo) para ser usado fora do ambiente do Portal Um RT est para sair e deve descrever tanto as anotaes estruturais quanto lingsticas Dois RT: Alusio, S. M., Muniz, F.A.M., Infante, K.M. (2007). Projeto Pln-Br: O Cabealho em Xml para os Textos do Crpus e o Editor Web de Cabealhos. Nilc-Tr-07-05, Junho 2007, 69 p. Alusio, S. M., Muniz, F.A.M. (2007). Instalao e Administrao do Portal de Crpus do Projeto PLN-BR. Nilc-Tr-07-12, Outubro 2007, 17 p.
- Slide 5
- Disponibilizao dos Crpus de Treinamento Crpus Gold Standard (PLN-BR GOLD - 338.441 tokens) - Pblico amostra aleatria estratificada e proporcional distribuio do crpus global do projeto PLN-BR com relao aos textos dos cadernos. Ela formada por 1% dos textos do crpus maior e possui somente notcias e reportagens (o que equivale a 1.024 textos). Crpus para treinamento de classificadores de contedo (PLN-BR CATEG - 9.780.220 tokens) Restrito aos membros Amostra com 29.999 textos, seguindo o mesmo tipo de amostra do Crpus Gold Standard
- Slide 6
- Updates GOLD receber a ltima verso das anotaes POS, Phrases, WORDS, vinda do Palavras via script criado pelo grupo de Renata.
- Slide 7
- Construo da Plataforma de Acesso aos Crpus o Portal de Crpus [1] A plataforma possui: um Editor Web de Cabealhos que preenche um banco de dados (BD) com informaes dos cabealhos dos textos. Com os dados dos textos no BD h a possibilidade de: vrias formas de pesquisa aos textos dos crpus e montagem de sub- crpus. O sub-crpus criado com as pesquisas: disponibilizado para download seguindo o padro XCES, a partir dos dados do banco de dados e em texto cr pode ainda ser consultado via uma ferramenta de explorao grfica o PEx-Corpus Tool [2] O PEx-Corpus uma adaptao do projeto Projection Explorer (PEx) que permite inspecionar visualmente um subcrpus para explorar o seu contedo e criar outros subcrpus com base numa seleo de tpicos. [1][1] http://www.nilc.icmc.usp.br:8180/portal/ [2] http://www.lcad.icmc.usp.br/~paulovic/pex/
- Slide 8
- Updates: Resultados de Pesquisa, Divulgao S 1 artigo sobre o Portal precisamos divulgar melhor o projeto que pode beneficiar muitos pesquisadores Disponibilizao do cdigo do Portal na Incubadora Fapesp timo para divulgao e facilidade de acesso Uso do Portal em 2 mestrados: Filipi Silveira (Vera Strube) agregou funcionalidades de compilao de crpus a partir de vrios formatos e funcionalidades para anlise de crpus e vai deixar disponvel publicamente o Entrelinhas Fernando Muniz (Sandra Alusio) vai integrar o Portal num ambiente colaborativo de gerao de produtos terminolgicos e-termos, integrar mtodos prontos para extrao de termos (do mestrado de Junior, aluno de Renata???) e trabalhar com o tema normatizao de manuais de software, via simplificao textual
- Slide 9
- Proposta de pesquisa - artigos Mostrar como o Portal pode ser integrado em projetos maiores de compilao/uso de crpus via 2 estudos de caso: Entrelinhas (Vera Strube) E-Termos + Mtodos de Extrao de Termos (Sandra, Gladis e Renata) Mostrar usos do PLN-BR FULL para Glosagem da Wordnet.Br e sua Indexao WordNet de Princeton (Bento) Aprendizagem Automtica de Informaes Lexicais (Violeta)
- Slide 10
- Coisas que no sei No sei como os crpus foram usados pelos subprojetos: Sumarizao Automtica e Recuperao da Informao Textual Representao do Conhecimento Textual Mas adoraria saber ;)
- Slide 11
- Fernando Muniz Vai explicar a parte tcnica do Portal
- Slide 12
- Portal de Crpus do Projeto PLN-BR Marcelo Muniz, Fernando Paulovich, Rosane Minghim, Kleber Infante, Fernando Muniz, Renata Vieira, Sandra Alusio
- Slide 13
- O Portal de Crpus Desenvolvido usando tecnologias open source Arquitetura Cliente-Servidor Um portal de Crpus compatvel com XCES Baseado em um banco de dados que mapeia o formato XCES em entidades relacionais para permitir consultas rpidas Acesso pblico em: http://www.nilc.icmc.usp.br:8180/portal/ Download do Portal disponvel na Incubadora Fapesp: http://incubadora.fapesp.br/projects/portal-corpus/
- Slide 14
- Client Side Server Side Browser (Portal) Web server (servlet container) MySQL Header Editor + Corpus Uploader (java applet) PEx-Corpus Tool (java applet) texts XCES Senter + ANC Tools XCES, text, annotations search results Portal de Crpus client/server architecture
- Slide 15
- Portal de Crpus Caractersticas Acesso controlado Crpus pblico ou privado Inserir/Editar informaes de cabealho (Header editor) Inserir/Editar anotaes stand-off (Header editor) Funes de busca para construir subcorpora o Text type, keywords, Bibliographic data, newspaper sections PEx-corpus tool (visual document map)
- Slide 16
- Efetuando buscas Efetuar login Selecionar crpus Selecionar tipo de Busca Fazer download do resultado Mapeamento de documentos atravs da ferramenta PEx-Corpus
- Slide 17
- Slide 18
- Slide 19
- Efetuando buscas
- Slide 20
- Efetuando buscas - resultado
- Slide 21
- Slide 22
- Header Editor Acesso restrito Usurio, senha, endereo do servidor, nome da base de dados Possui uma interface grfica (java applet) que permite ao usurio criar, manter e visualizar informaes do cabealho de textos que esto armazenados em um banco de dados MySQL Cada crpus armazenado em um base de dados diferente Opo de inserir vrios textos de uma vez
- Slide 23
- Slide 24
- Conexo com o banco de dados
- Slide 25
- Slide 26
- Administrao do portal Administrao de usurios Administrao de Crpus Criar, desativar, alterar Atualizao do portal com notcias Configuraes gerais Links, arquivos, pginas do portal www.nilc.icmc.usp.br:8180/portal/admincp/index.jsp
- Slide 27
- Slide 28
- Recomendaes A utilizao da ferramenta de busca e do PEx- Crpus pode ser feita a partir de qualquer computador com acesso internet e um navegador web disponvel. A utilizao do Header Editor preferencialmente deve ser feita em ambiente de INTRANET.
- Slide 29
- Portal Interno Acesso restrito Cadastro independente do Portal de Crpus Endereo: http://www.nilc.icmc.usp.br:8180/portalinterno/ Crpus disponveis: PLN-BR CATEG (30.000) PLN-BR FULL (100.000)
- Slide 30
- PLN-BR FULL no Philologic Acesso restrito Parte 1 - 1994-1997 http://moodle.icmc.usp.br/philologic-plnbr1/ http://moodle.icmc.usp.br/philologic-plnbr1/ Parte 2 - 1998-2001 http://moodle.icmc.usp.br/philologic-plnbr2/ http://moodle.icmc.usp.br/philologic-plnbr2/ Parte 3 - 2002-2005 http://moodle.icmc.usp.br/philologic-plnbr3/ http://moodle.icmc.usp.br/philologic-plnbr3/
- Slide 31
- Obrigado! contato [email protected]