metodologia de pré-processamento textual voltada à extração de informação em artigos...
TRANSCRIPT
![Page 1: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/1.jpg)
Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio
Biomédico
Aluno: Pablo Freire MatosOrientador: Dr. Ricardo Rodrigues Ciferri
Área: Banco de Dados
Universidade Federal de São Carlos - UFSCarDepartamento de Computação - DC
Programa de Pós-Graduação em Ciência da Computação - PPGCC
![Page 2: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/2.jpg)
Roteiro Introdução
Contextualização Objetivos Hipótese e Contribuições Justificativa
Revisão Literária Mineração de Textos Extração Automática Trabalhos Correlatos
Proposta de DissertaçãoQualificação27/04/09 2/46
![Page 3: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/3.jpg)
Roteiro Introdução
Contextualização Objetivos Hipótese e Contribuições Justificativa
Revisão Literária Proposta de Dissertação
Qualificação27/04/09 3/46
![Page 4: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/4.jpg)
Contextualização Quantidade imensa de informação disponível
Humanos não são capazes de assimilar todo esse conteúdo
Informação via e-mail, blogs, wikis, artigos... + de 80% das informações estão em formato de texto
Qualificação
Tan (1999) e Chen (2001)
27/04/09 4/46
Grantz (2007)
![Page 5: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/5.jpg)
Contextualização PubMed
+ de 18 milhões de artigos (desde 1966) MEDLINE (área de ciências + biomedicina)
Entrez - Sistema integrado do NCBI 35 bases com 350 milhões de registros Sickle Cell Anemia
15.748 registros do PubMed (citações e resumos) 3.463 do PubMed Central (artigos completos)
Qualificação27/04/09 5/46
![Page 6: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/6.jpg)
Contextualização Infinidade de meios de publicação
American Journal of Hematology, Blood, British Journal of Haematology, Haematologica, The New England Journal of Medicine
Leva tempo para ler e identificar as principais informações do artigo
Solução: Mineração de Textos
Qualificação27/04/09 6/46
![Page 7: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/7.jpg)
Contextualização Domínio biomédico
Anemia Falciforme
Em conjunto com Ribeirão Preto: Universidade de São Paulo e
Fundação Hemocentro França: Université Paris Diderot-Paris 7 e Hôpital
Robert Debré
Informações sobre equipe de trabalho Docentes: 5, Mestrandos: 2, Graduandos: 3
Qualificação27/04/09 7/46
![Page 8: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/8.jpg)
O que é Anemia Falciforme (AF)?
Qualificação
Hemácias Normais
Hemácias Falciformes bloqueando o fluxo sanguíneo
Hemácias passam livremente pelos vasos sanguíneos
Hemácias Falciformes
Adaptado de National Institute of Health (2008)27/04/09 8/46
![Page 9: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/9.jpg)
Objetivos Identificar e extrair informações novas, úteis e
interessantes em artigos científicos sobre a doença Anemia Falciforme
Foco: efeitos positivos e negativos (do tratamento) paciente - trabalho correlato sintoma, tratamento e fator de risco - futuros trabalhos
Organização e armazenamento de informação em um BD para posterior mineração
Qualificação27/04/09 9/46
![Page 10: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/10.jpg)
BD
Exemplo de Extração de Termos
Qualificação
Efeito Positivo
she died during the second year of therapy from acute severe anemia during an episode of splenic sequestration
Efeito Negativo
in some adolescents poor compliance was evidentOutros
BD
ecnos c-786 alleles are associated a decreased risk of acute chest syndrome
decreased risk of acute chest syndromeepisode of splenic sequestration
27/04/09 10/46
![Page 11: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/11.jpg)
Hipótese e Contribuições Hipótese:
É possível extrair informações que auxiliem o médico e complementem seu conhecimento atual
Contribuições teóricas Conhecimento do domínio Metodologia de extração de informação
Contribuições práticas Criação e disponibilização de recursos: coleção de
documentos, dicionário e base de regras Criação e disponibilização de ferramentas: Extrator de
informação (SCAeXtractor), conversor e etiquetador de formatos (SCAtRanslator)
Qualificação
Artigos Completos
27/04/09 11/46
![Page 12: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/12.jpg)
Justificativa Por que extrair informação
de artigos completos?
Benefícios + da metade da informação encontra-se no corpo do artigo + seção + informação a ser extraída
Problemas Conversão formato + tempo de processamento copyright
Qualificação
Localização no documento (%)Nº d
e re
gist
ros
enco
ntra
dos
Schuemie et al. (2004)
Gene e Proteína
Corney et al. (2004)
27/04/09 12/46
![Page 13: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/13.jpg)
Roteiro
Introdução Revisão Literária
Mineração de Textos Extração Automática Trabalhos Correlatos
Proposta de Dissertação
Qualificação27/04/09 13/46
![Page 14: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/14.jpg)
Mineração de Textos (MT)
Extrair informações úteis em documentos no formato textual não-estruturado através da identificação de conhecimento e exploração de padrões
Qualificação
Hearst (1999)
27/04/09 14/46
![Page 15: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/15.jpg)
Processo de MT
Qualificação
Imamura (2001) Martins (2003)Feldman e Sanger (2007)
27/04/09 15/46
![Page 16: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/16.jpg)
Áreas utilizadas neste trabalho Extração de Informação Aprendizado de Máquina Processamento de Língua Natural
Qualificação27/04/09 16/46
![Page 17: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/17.jpg)
Extração de Informação
Métodos para extração de informação relevantes Regras Dicionário/Glossário Templates
Qualificação27/04/09 17/46
![Page 18: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/18.jpg)
Aprendizado de Máquina
Qualificação
Adaptado de Monard e Baranauskas (2003)27/04/09 18/46
![Page 19: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/19.jpg)
Categorização
Qualificação
Adaptado de Dörre, Gerstl e Seiffert (1999)27/04/09 19/46
![Page 20: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/20.jpg)
Processamento de Língua Natural Recursos e ferramentas de processamento
da língua Stemming x lematização Segmentadores textuais Etiquetador morfossintático (POS) Extratores de termos
Qualificação
cantaremos→cantcantaremos→cantar
27/04/09 20/46
![Page 21: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/21.jpg)
Roteiro
Introdução Revisão Literária
Mineração de Textos Extração Automática Trabalhos Correlatos
Proposta de Dissertação
Qualificação27/04/09 21/46
![Page 22: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/22.jpg)
Reconhecimento Automático de Termo Desafio na literatura biomédica
Novos termos (neologismos) Variações léxicas: sinônimos e homônimos Falta de padronização
Terminologia abrange aspectos extração, variação de termo, classificação e
mapeamento
Qualificação
Krauthammer e Nenadic (2004)
27/04/09 22/46
![Page 23: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/23.jpg)
Abordagens para Extração de InformaçãoAbordagem Vantagem Desvantagem Referências
Dicionário
•Casamento de padrão com informações armazenadas no dicionário
•Limitação de nomes•Variações de nome (baixa revocação)•Nomes curtos causam falsos positivos (diminui a precisão)
•Krauthammer et al. (2000)•Ono et al. (2001)•Tsuruoka et al. (2004)•Egorov et al. (2004)•Kou et al. (2005)•Schuemie et al. (2007)
Regras
•Melhor precisão •Requer tempo•Restrito a um domínio•Exclui termos que não correspondem aos padrões predefinidos (diminui a revocação)
•Fukuda et al. (1998)•Franzén et al. (2002)•Hu et al. (2005)
Aprendizado de Máquina
•Independência de domínio•Alto desempenho para predição
•Grande quantidade de dados de treinamento•Re-treinamento após o advento de novos dados•Classificação é prejudicada com uma classe minoritária
•Nobata, Collier e Tsujii (1999)•Collier, Nobata e Tsujii (2000)•Kazama et al. (2002)
Qualificação27/04/09 23/46
![Page 24: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/24.jpg)
Roteiro
Introdução Revisão Literária
Mineração de Textos Extração Automática Trabalhos Correlatos
Proposta de Dissertação
Qualificação27/04/09 24/46
![Page 25: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/25.jpg)
Trabalhos Correlatos – Resumos
Qualificação27/04/09 25/46
![Page 26: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/26.jpg)
Trabalhos Correlatos – Artigos Completos
Qualificação27/04/09 26/46
![Page 27: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/27.jpg)
Trabalhos Correlatos – Artigos Completos
Qualificação27/04/09 27/46
![Page 28: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/28.jpg)
Roteiro
Introdução Revisão Literária Proposta de Dissertação
Qualificação27/04/09 28/46
![Page 29: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/29.jpg)
Processo de MT
Qualificação
É uma das fases mais críticas Feldman e Sanger (2007)
27/04/09 29/46
![Page 30: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/30.jpg)
Pré-processamento Textual
Qualificação27/04/09 30/46
![Page 31: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/31.jpg)
Metodologia de Pré-processamento
Qualificação27/04/09 31/46
![Page 32: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/32.jpg)
Esquema Conceitual EER
Qualificação27/04/09 32/46
![Page 33: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/33.jpg)
Processo Geral de Extração de Informação
Qualificação27/04/09 33/46
![Page 34: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/34.jpg)
Processo Geral de Extração de Informação
Qualificação27/04/09 34/46
![Page 35: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/35.jpg)
Categorização
Qualificação
MOVER
Saída
Treinamento
Efeito Negativo
Efeito Positivo
Outros
Teste
Diversos arquivos com sentenças de efeito positivo
Diversos arquivos com sentenças de efeito negativo
Diversos arquivos com sentenças de outros
Novo textoTXT
Conjunto desentençasclassificadas em classes
Cla
sses Anthony e
Lashkia (2003)
Precisão de 86%
27/04/09 35/46
![Page 36: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/36.jpg)
Sentenças classificadas - Mover
Qualificação27/04/09 36/46
![Page 37: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/37.jpg)
Extração de Informação
Regras Identificação e extração de efeitos Podendo usar ou não um dicionário
Qualificação27/04/09 37/46
![Page 38: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/38.jpg)
Repositório de Dicionário de Termos
Efeitos
Positivo (benefício) Negativo (complicação)
Cure acute chest syndrome
decrease the rate of painful events acute lun injury
no adverse events due transfusion vasooclusive crisesdecrease of the number of days of hospitalization intracranion hemorrhage
transfusion prevents ACS splenic sequestration
Qualificação
Termos predefinidos por especialistas do domínio Repositório é incremental (Adição é semiautomática)
27/04/09 38/46
![Page 39: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/39.jpg)
Dicionário + Regras1. Identificar verdadeiro positivo (efeito positivo)2. Eliminar falso positivo (fator de risco)3. Elaborar como recuperar falsos negativos
Qualificação
reductions in the frequency of chest syndrome and the number of transfusions strengthen the conclusion that hydroxyurea is a useful agent in sickle cell anemia
1
in scd children hydroxyurea has been shown to decrease the rate and the intensity of painful events and the number of days of hospitalization
2
hydroxyurea therapy can ameliorate the clinical course of sickle cell anemia in some adults with three or more painful crises per year
3
treatment was also stopped in another patient because of the first occurrence of pathological tcd velocities
4
27/04/09 39/46
![Page 40: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/40.jpg)
Análise dos Resultados
Qualificação27/04/09 40/46
![Page 41: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/41.jpg)
Análise dos Resultados - Mover Taxa de Precisão (P)
Baseline ≤ P ≤ Topline Baseline: Erro majoritário (acerto mínimo) Topline: Taxa de precisão humana
50 a 100 (efeito positivo, efeito negativo e outros)
Kappa (Anotadores) 77,58% (gene, proteína ou RNAm)
Hatzivassiloglou, Duboue e Rzhetsky (2001 apud Schuemie et al., 2007)
Qualificação27/04/09 41/46
![Page 42: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/42.jpg)
Análise dos Resultados - Extração Precisão, Revocação e Medida-F (Extração
de Informação)
Comparação com outros trabalhos
Qualificação27/04/09 42/46
![Page 43: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/43.jpg)
Quatro Experimentos
1. Regras2. Regras e Dicionário3. AM e Regras4. AM, Regras e Dicionário
Qualificação27/04/09 43/46
![Page 44: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/44.jpg)
Ferramentas a serem utilizadas Mover PostgreSQL 8.3 NetBeans IDE Jude Community 5.4.1 Linguagem R
Qualificação27/04/09 44/46
![Page 45: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/45.jpg)
Considerações Finais
Investigar melhor a forma de representação dos dados extraídos Modelo relacional BD XML BD OO
Como organizar os dados para facilitar O processo de mineração de dados posterior
Qualificação27/04/09 45/46
![Page 46: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/46.jpg)
Cronograma de Atividades
Qualificação
Defesa do exame de qualificaçãoClassificação manual (anotadores: 3 médicos e 3 leigos) em três classes de 100 sentenças e cálculo da medida de concordância KappaTreinamento e teste no classificador Mover de 500 a 1.500 sentenças identificadas manualmente nos artigos. Calcular a taxa de precisão.Desenvolvimento do módulo de extração de efeitos da AF(abordagem baseada em regras e dicionário)Avaliar a extração de informação com as medidas de precisão, revocação e Medida-FRedação e submissão de artigo aos encontros qualificados de Ciência da ComputaçãoConcepção e projeto da ferramenta SCAeXtractor, integrando o classificador Mover e o módulo de extração nesta ferramenta para o processo de extração de informação ser realizado de forma transparente e automática
Realização dos quatros testes propostos na análise dos resultadosPossibilitar ao especialista do domínio visualizar e validar o resultado da extração de informaçãoRedação da dissertação de mestrado
Preparação e defesa da dissertação
27/04/09 46/46
![Page 47: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/47.jpg)
Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio
Biomédico
Aluno: Pablo Freire MatosOrientador: Dr. Ricardo Rodrigues Ciferri
Área: Banco de Dados
Universidade Federal de São Carlos - UFSCarDepartamento de Computação - DC
Programa de Pós-Graduação em Ciência da Computação - PPGCC
Dúvidas?
![Page 48: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/48.jpg)
Referências ANTHONY, L.; LASHKIA, G. V. Mover: a machine learning tool to assist in the
reading and writing of technical papers. IEEE Transactions on Professional Communication, v. 46, n. 3, p. 185-193, 2003.
ARANHA, C. N. Uma abordagem de pré-processamento automático para mineração de textos em português: sob o enfoque da inteligência computacional. 144 f. Tese (Doutorado em Engenharia Elétrica) – Departamento de Engenharia Elétrica, Pontifícia Universidade Católica do Rio de Janeiro, Rio de Janeiro, 2007.
BREMER, E. G. et al. Text mining of full text articles and creation of a knowledge base for analysis of microarray data. In: KNOWLEDGE EXPLORATION IN LIFE SCIENCE INFORMATICS (KELSI), 2004, Milan, Italy. Proceedings... 2004. p. 84-95.
CHEN, H. Knowledge management systems: a text mining perspective. Tucson, AZ: University of Arizona, 2001.
CORNEY, D. P. A. et al. BioRAT: extracting biological information from full-length papers. Bioinformatics, v. 20, n. 17, p. 3206-3213, 2004.
Qualificação27/04/09 48/46
![Page 49: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/49.jpg)
Referências (cont. 1) FELDMAN, R.; DAGAN, I. Knowledge discovery in textual databases (KDT). In:
INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING (KDD), 1995, Montréal, Québec. Proceedings... Menlo Park, CA: AAAI Press, 1995. p. 112-117.
FELDMAN, R.; SANGER, J. The text mining handbook: advanced approaches in analyzing unstructured data. New York: Cambridge University Press, 2007. 391 p.
GARTEN, Y.; ALTMAN, R. Pharmspresso: a text mining tool for extraction of pharmacogenomic concepts and relationships from full text. BMC Bioinformatics, v. 10, p. S6, 2009. Suppl. 2.
GANTZ, J. F. et al. The expanding digital universe: a forecast of worldwide information growth through 2010. IDC Whitepaper, 2007.
HEARST, M. A. Untangling text data mining. In: ANNUAL MEETING OF THE ASSOCIATION OF COMPUTATIONAL LINGUISTICS, 37th, 1999, College Park, Maryland. Proceedings... Morristown, NJ: Association for Computational Linguistics, 1999. p. 3-10.
Qualificação27/04/09 49/46
![Page 50: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/50.jpg)
Referências (cont. 2) IMAMURA, C. Y.-M. Pré-processamento para extração de conhecimento de
bases textuais. 103 f. Dissertação (Mestrado em Ciência de Computação e Matemática Computacional) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2001.
MARTINS, C. A. Uma abordagem para pré-processamento de dados textuais em algoritmos de aprendizado. 174 f. Tese (Doutorado em Ciência de Computação e Matemática Computacional) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2003.
MINISTÉRIO DA SAÚDE. Doença falciforme e outras hemoglobinopatias: anemia falciforme. 2008.
NATIONAL CENTER FOR BIOTECHNOLOGY INFORMATION. PubMed. 2009. Disponível em: <http://www.ncbi.nlm.nih.gov/pubmed/>. Acesso em: 16 mar. 2009.
NATIONAL CENTER FOR BIOTECHNOLOGY INFORMATION. Entrez, the life sciences search engine. 2009. Disponível em: <http://www.ncbi.nlm.nih.gov/Entrez/>. Acesso em: 26 mar. 2009.
SCHUEMIE, M. J. et al. Distribution of information in biomedical abstracts and full-text publications. Bioinformatics, v. 20, n. 16, p. 2597-2604, 2004.
Qualificação27/04/09 50/46
![Page 51: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/51.jpg)
Referências (cont. 3) ______. Evaluation of techniques for increasing recall in a dictionary approach
to gene and protein name identification. Journal of Biomedical Informatics, v. 40, n. 3, p. 316-324, 2007.
TAN, A.-H. Text mining: the state of the art and the challenges. In: KNOWLEDGE DISCOVERY FROM ADVANCED DATABASES (KDAD), 1999, Beijing, China. Proceedings... PAKDD, 1999. p. 71-76.
TANABE, L.; WILBUR, W. J. Tagging gene and protein names in biomedical text. Bioinformatics, v. 18, n. 8, p. 1124-1132, 2002a.
______. Tagging gene and protein names in full text articles. In: WORKSHOP ON NATURAL LANGUAGE PROCESSING IN THE BIOMEDICAL DOMAIN, 2002, Phildadelphia, Pennsylvania. Proceedings... Morristown, NJ: Association for Computational Linguistics, 2002b. p. 9-13.
Qualificação27/04/09 51/46
![Page 52: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/52.jpg)
Apêndice
![Page 53: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/53.jpg)
Modelo Relacional PAPER (Paper_ID, Paper_Title, Paper_Journal, Paper_Year, Authors, PDF, HTML,
XML, Total_Patient, Concluded_Patient)
SYMPTOM (Symptom_ID, Symptom_Name, Symptom_Acronym, Symptom_Desc) PAPER_SYMPTOM (Paper_ID, Symptom_ID, Page, Paragraph, Sentence,
Patient_Number)
EFFECT (Effect_ID, Effect_Name, Effect_Acronym, Effect_Desc, Effect_Type) Effect_Type: Positive (Complication), Negative (Benefit)
PAPER_EFFECT (Paper_ID, Effect_ID, Page, Paragraph, Sentence, Patient_Number)
TREATMENT (Treatment_ID, Treatment_Name, Treatment_Acronym, Treatment_Desc, Treatment_Type) Treatment_Type: Drug, Therapy
PAPER_TREATMENT (Paper_ID, Treatment_ID, Page, Paragraph, Sentence, Patient_Number)
RISK_FACTOR (Risk_ID, Risk_Name, Risk_Acronym, Risk_Desc)
Qualificação27/04/09 53/46
![Page 54: Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:](https://reader037.vdocuments.net/reader037/viewer/2022102810/5706385d1a28abb8238fe1f1/html5/thumbnails/54.jpg)
Diagrama de Classes
Qualificação27/04/09 54/46