recolha, tratamento e apresentação de...
TRANSCRIPT
RECOLHA, TRATAMENTO E
APRESENTAÇÃO DE DADOS: elementos chave
Carla Patrocínio
Núcleo de Estatística e Prospectiva
INTRODUÇÃO À TEMÁTICA
… apenas discutir alguns aspetos essenciais sobre
recolha e apresentação de dados
… sensibilizar para a interpretação do universo de
números que nos rodeia diariamente
… com exemplos práticos
… em nada substitui a aprendizagem académica e
cientifica sobre a estatística
2
INTRODUÇÃO À TEMÁTICA
O nosso mundo é repleto de números, estatísticas, dados…
“As estatísticas são um instrumento poderoso de conhecimento da sociedade, essenciais à tomada de decisão, à definição e avaliação de estratégias e até ao próprio debate político“
Aníbal Cavaco Silva, Presidente da República, 2007
… mas podem ser (in)devidamente usadas
“A fronteira para o terreno da manipulação é mínima e, pior, na maioria dos casos é, também, invisível.“
António Gomes Mota, Artigo de Opinião no Diário Económico de 28/05/2009
Exemplo (banal):
uma família tem um frango, outra não tem nenhum … em média cada uma tem meio frango e 50% tem 1 frango…
3
INTRODUÇÃO À TEMÁTICA
Sensibilizar para a necessidade do
conhecimento do assunto sobre o qual
vamos falar, estudar,
apresentar…
Discutir a razão pela qual a recolha e o tratamento de dados é essencial e tipicamente uma das partes de um
trabalho que demora tanto tempo
a realizar!
Genericamente perceber que tipos de dados com que usualmente nos confrontamos e
alternativas para os tratar…
Por fim, debater um pouco alternativas para apresentação de resultados e a forma como elas influenciam a mensagem a transmitir…
4
Neste workshop vamos:
No fim deste workshop, vamos tentar ser mais críticos sobre
o “tsunami” de números que fazem parte da nossa vida
A IMPORTÂNCIA DA DEFINIÇÃO DO OBJETO DE ESTUDO E DOS
OBJETIVOS A ALCANÇAR
Quando o nosso trabalho (profissional/académico)
envolve a análise, tratamento e apresentação de
resultados é essencial … o conhecimento do
assunto que vamos tratar
5
Porque razão é tão importante este conhecimento?
A IMPORTÂNCIA DA DEFINIÇÃO DO OBJETO DE ESTUDO E DOS
OBJETIVOS A ALCANÇAR
Exemplo 1: Taxa de desemprego por sexo (%)
6
8
Fonte: PORDATA (http://www.pordata.pt/)
Análise prévia da forma como são calculadas e as mudanças ocorridas no tempo na forma de apuramento, permite explicar descontinuidades das series em análise…
A IMPORTÂNCIA DA DEFINIÇÃO DO OBJETO DE ESTUDO E DOS
OBJETIVOS A ALCANÇAR Exemplo 2: ainda o desemprego…. Dados sobre a taxa de desemprego e o nº de desempregados…vêm todas da mesma fonte? São comparaveis?
9
Aprofundamento dos vários conceitos sobre a mesma temática
é essencial …
A IMPORTÂNCIA DA DEFINIÇÃO DO OBJETO DE ESTUDO E DOS
OBJETIVOS A ALCANÇAR
Exemplo 4: A (cor)relação entre variáveis
11
Nº
Pu
bli
caçõ
es C
ien
tífi
cas
Nº Casamentos
Indicador Fontes de Dados: Fonte: Última
atualização:
Publicações
científicas
DGEEC/MEC a partir de
Thomson Reuters - InCitesTM,
Thomson Reuters (2013) PORDATA 21-02-2014
Casamentos INE - Estatísticas de
Casamentos PORDATA 30-04-2013
A IMPORTÂNCIA DA DEFINIÇÃO DO OBJETO DE ESTUDO E DOS
OBJETIVOS A ALCANÇAR
Exemplo 5: A (cor)relação entre variáveis (cont.)
12
Nº
Casam
en
tos
Indicador Fontes de Dados: Fonte: Última
atualização:
Gasolina Super com
Chumbo ou Aditiva
(Euro/litro) DGEG/MEE PORDATA 11-03-2014
Casamentos INE - Estatísticas de
Casamentos PORDATA 30-04-2013
Preço Gasolina Super com
Chumbo ou Aditiva (Euro/litro)
Nem todas as variáveis aparentemente
“correlacionadas” estão de facto relacionadas,
e só com um conhecimento efetivo do tema e
dos eventos subjacentes se podem selecionar
as variáveis adequadas (e explicáveis ) e
perceber o que faz ou sentido….
A IMPORTÂNCIA DA DEFINIÇÃO DO OBJETO DE ESTUDO E DOS
OBJETIVOS A ALCANÇAR Exemplo 6: Nº Alunos do IST 2012/13
13
?
10143
10689
11232
11778
Nº Alunos do IST de 1º e 2º ciclo com
vista à obtenção de um grau
Nº Alunos do IST
de 1º-3º ciclo
(incluindo alunos
em programas de
intercâmbio)
Nº Alunos do IST de 1º, 2º e 3º ciclo
com vista à obtenção de um grau
Nº Alunos do IST de
1º e 2º ciclo (incluindo
alunos em programas
de intercâmbio)
A IMPORTÂNCIA DA DEFINIÇÃO DO OBJETO DE ESTUDO E DOS
OBJETIVOS A ALCANÇAR
14
Em suma, é necessário (ESSENCIAL)
conhecermos bem o assunto sobre o qual vamos
nos vamos debruçar, não só para podermos
explicar as descontinuidades e justificarmos as
inflexões (ou a estabilidade das séries), como
também para pedirmos os dados que
efetivamente precisamos e chegarmos à
confirmação ou infirmação da nossa hipótese de
trabalho
(ou meramente para ganharmos uma discussão entre amigos !)
MECANISMOS DE RECOLHA DE DADOS E FONTES DE
INFORMAÇÃO
Hoje em dia vivemos na era da informação e com o acesso facilitado a dados, a informação…
A internet permite rapidamente aceder a um conjunto vasto de informação, a bases de dados bastante completas…
A grande questão hoje em dia consiste em selecionar a informação que se pretende (se já existe), estabelecer mecanismos de relacionar as várias fontes de informação, e como complementar, se possível, os elementos que dispomos
15
MECANISMOS DE RECOLHA DE DADOS E FONTES DE
INFORMAÇÃO
Fontes de informação devem ser oficiais e fidedignas. Exemplos mais genéricos:
INE – Instituto Nacional Estatística
DGEEC - Direcção-Geral de Estatísticas da Educação e Ciência
DGES - Direção-Geral de Ensino Superior
PORDATA
…
Eurostat
Eurydice Network
OECD - Organisation for Economic Co-operation and Development
….
Podemos usar outras Fontes de informação (e.g. dados recolhidos nos websites das instituições), mas apenas para controle da nossa informação “oficial” e perceber as variações possíveis…
16
MECANISMOS DE RECOLHA DE DADOS E FONTES DE
INFORMAÇÃO
Relação entre as várias fontes de informação:
idealmente ter um identificador único que permita estabelecer essa ligação (numérico
ou alfanumérico e sem espaços)
Por exemplo:
17
Dados Exames Português por
Concelho (JNE)
Densidade Populacional e Nº
Escolas por Concelho (INE)
Existe um identificador do concelho (código)?????
É o mesmo em ambas as fontes????
E se não for ou não existir??
Podemos relacionar através do nome?
Então e os acentos? Espaços? Mais que um concelho com o mesmo nome…
Não tendo….conforme a dimensão das bases de dados e tempo/recursos disponíveis
relacionar manualmente!
(…particular atenção com o volume de erros de imputação associado…)
MECANISMOS DE RECOLHA DE DADOS E FONTES DE
INFORMAÇÃO
Forma complementar de recolher informação: inquérito
Existem vários tipos de inquérito, várias formas de conduzir os inquéritos, as quais não são objeto deste workshop, mas em qualquer formato adotado existem aspetos chave:
Definir o público-alvo e a viabilidade de obtenção da base de dados dos contactos (e, por conseguinte, a viabilidade de aplicabilidade do inquérito)
Definir muito claramente os objetivos do inquérito e se o seu conteúdo responde na integra às hipóteses de trabalho em análise (se nos esquecermos de uma pergunta, não vamos voltar a aplicar um inquérito só com essa questão)
Caso existam outras fontes de informação, avaliar se poderemos posteriormente relacionar com a informação que estamos a recolher via inquérito, ou se esta pode servir de base para reduzir o tamanho do inquérito (anonimato, aumento taxa de resposta)
Independentemente do mecanismo de aplicação do inquérito (online, papel, entrevistas), é importante salvaguardar a correta imputação dos dados recolhidos…
mas sobre isto falaremos mais adiante…!
18
TIPOS DE DADOS E METODOLOGIAS DE TRATAMENTO DA
INFORMAÇÃO
Tipos de dados e tratamento a fazer….
Tipos mais comummente usados: Quantitativas: discretas, contínuas
Qualitativas: nominais/categóricas e ordinais
O tipo de dados deve determinar o tratamento e os indicadores a construir:
As variáveis discretas deve ter-se algum cuidado com os indicadores a construir (vamos ver um exemplo mais adiante)
As variáveis contínuas têm um leque maior de indicadores possíveis, podendo inclusive ser agregadas para facilitar a apresentação do seu conteúdo (embora se perca a riqueza da informação disponível)
Se as variáveis foram nominais/categóricas, mesmo codificadas com um código numérico, não se devem calcular algumas medidas
No caso das ordinais e tratando-se de uma escala de likert com vários pontos por vezes usa-se a média como apoio à interpretação, mas requer algum cuidado (especialmente em trabalhos de investigação)
Em qualquer uma das situações é extremamente importante saber a escala de cada variável, não só para perceber potenciais erros na análise ou na prévia imputação dos dados, como também um melhor entendimento dos resultados
19
TIPOS DE DADOS E METODOLOGIAS DE TRATAMENTO DA
INFORMAÇÃO
Vários softwares tratamento dados (SPSS, R,
SAS, STATA, Excel, etc.), consoante as
necessidades, alguns podem ser mais uteis ou
potentes
Em qualquer um dos softwares existem alguns
aspetos a ter cuidado: sort’s (sem incluir todas as
colunas), filtros, imputação de dados, find/replace’s
Um ponto que é independente do software usado é
a importância de uma análise exploratória de todas
as variáveis envolvidas na análise …. Deteção de
erros imputação de dados, “outliers”, compreensão
e explicação do fenómeno em estudo
20
TIPOS DE DADOS E METODOLOGIAS DE TRATAMENTO DA
INFORMAÇÃO
Exemplo 1: Estudar os resultados das aprovações em 3
exames da mesma disciplina
21
Escala dos
resultados:
[10;20]
Indicadores Exame 1 Exame 2 Exame 3
Minimo 10 10 10
Máximo 20 20 20
Média 16 16 16
Mediana 17 15 16
Desvio padrão 2,0 1,9 2,7
Exame 1 Exame 2 Exame 3
TIPOS DE DADOS E METODOLOGIAS DE TRATAMENTO DA
INFORMAÇÃO
Exemplo 2: Analisar a distribuição da variável (fictícia)
“Tempo (em minutos) demorado no trajeto entre salas de
aula”
22
Curso A Curso B
Tem
po
(em
min
uto
s)
dem
ora
do
no
tra
jeto
en
tre s
ala
s d
e a
ula
TIPOS DE DADOS E METODOLOGIAS DE TRATAMENTO DA
INFORMAÇÃO
Exemplo 3: Analisar os resultados de um questionário com 3
perguntas
23
Escala dos Resultados em cada
pergunta:
1 - Pouco Satisfeito
2 – Satisfeito
3 - Muito satisfeito
Indivíduo Pergunta 1 Pergunta 2 Pergunta 3
A1 1 1 3
A2 1 1 2
A3 2 2 1
A4 2 2 1
A5 2 2 1
A6 5 2 1
A7 3 2 3
A8 3 3 1
A9 3 3 1
A10 3 3 3
N 10 10 10
Minimo 1 1 1
Máximo 5 3 3
Média 2,5 2,1 1,7
Mediana 2,5 2 1
Desvio Padrão 1,1 0,7 0,9
Moda 3 2 1
% Pouco Satisfeito 20% 20% 60%
% Satisfeito 30% 50% 10%
% Muito Satisfeito 40% 30% 30%
TIPOS DE DADOS E METODOLOGIAS DE TRATAMENTO DA
INFORMAÇÃO
24
Os cuidados a ter com os dados com os quais vamos trabalhar revelam-se de elevada importância, assim como o tratamento que lhe fazemos
APRESENTAÇÃO DE RESULTADOS
Existem muitas formas de apresentar os resultados
As mais comuns: gráficos e tabelas!
As tabelas tipicamente são mais “monótonas” do ponto
de vista do grafismo, e não permitem facilmente
analisar tendências
Os gráficos, quando bem construídos, podem ser
importantes para apresentar uma tendência, ou
evidenciar um resultado, ou simplesmente uma forma
mais atrativa de apresentar resultados
Qualquer uma destas formas pode influenciar/manipular
a interpretação dos resultados
25
APRESENTAÇÃO DE RESULTADOS
26
Exemplo 1: Analisar a % mulheres praticantes em cada desporto
Modalidade Total Praticantes Nº Mulheres % Mulheres
Desporto 1 15 5 33%
Desporto 2 3 0 0%
Desporto 3 150 120 80%
Desporto 4 30 2 7%
Desporto 5 50 50 100%
Desporto 6 1 1 100%
Tamanho bolha
=
Nº Mulheres
Modalidade % Mulheres
Desporto 1 33%
Desporto 2 0%
Desporto 3 80%
Desporto 4 7%
Desporto 5 100%
Desporto 6 100%
APRESENTAÇÃO DE RESULTADOS
27
Exemplo 2: Análise Satisfação Utentes de um serviço com base em 6 perguntas, ao qual responderam 180 participantes
APRESENTAÇÃO DE RESULTADOS
28
Exemplo 3: Inquérito sobre o Algarve, com 250 respondentes
Pergunta 7 - Escolha de entre as seguintes opções as razões para fazer férias no Algarve Nº respostas
7.1 - Tempo 15
7.2 - infraestruturas hoteleiras 60
7.3 - Acessos 150
7.4 - Praias 250
7.5 - Hospitalidade 100
APRESENTAÇÃO DE RESULTADOS
30
A forma como apresentamos os conteúdos do nosso trabalho influencia significativamente a mensagem a transmitir
RECOLHA, TRATAMENTO E
APRESENTAÇÃO DE DADOS: elementos chave
Carla Patrocínio: [email protected]
Núcleo de Estatística e Prospectiva: http://nep.tecnico.ulisboa.pt/
MUITO OBRIGADA PELA
VOSSA ATENÇÃO