apontamentos de estatística descritivafiles.cfleiria.webnode.com/200000014-127d713771/spss -...
TRANSCRIPT
Apontamentos de Estatística DescritivaApontamentos de Estatística Descritiva
• Unidade Curricular: Estatística Aplicada
A L ti 2007/2008
• Área Científica: Matemática
• Ano Lectivo: 2007/2008
• Curso: Contabilidade e Finanças
• Escola: Superior de Tecnologia e Gestão do Instituto• Regime: Diurno + Pós-Laboral
Escola: Superior de Tecnologia e Gestão do Instituto Politécnico de Leiria
D t Mi l F l i J é M ti R i P i• Docentes: Miguel Felgueiras, José Martins, Rui Paiva
A F d S b i H l Sil• Autores: Fernando Sebastião e Helena Silva
Conteúdos ProgramáticosgNoções básicas:
População. Amostra. Unidade estatística.Atributo ModalidadesAtributo. Modalidades.
Quadros de frequências:Frequências absolutas.Frequências relativasFrequências relativas.Frequências acumuladas.Dados agrupados em classes.
Representação gráfica de frequências:Representação gráfica de frequências:Diagrama de barras.Diagrama de sectores.Histograma.P lí d f ê iPolígono de frequências.
Redução dos dados:Medidas de tendência central.M did d di ãMedidas de dispersão.Medidas de assimetria.Medidas de achatamento.Medidas de concentração.
Estatística Descritiva 2
Medidas de concentração.
Objectivos/resultados de aprendizagemObjectivos/resultados de aprendizagemGerais:• Explorar a informação contida num conjunto de dados.• Usar espírito crítico na análise dos resultados obtidos quer em
termos numéricos quer em termos computacionaistermos numéricos quer em termos computacionais.
Específicos:No fim deste capítulo da unidade curricular o estudante deverá saber:
Noções básicas:çIdentificar a população em estudo.Identificar a amostra em análise.Identificar a unidade estatística.Identificar o atributo em estudo na população.Distinguir atributos qualitativos e quantitativos.Caracterizar as modalidades para um determinado atributo.
Estatística Descritiva 3
p
Objectivos/resultados de aprendizagemObjectivos/resultados de aprendizagemEspecíficos (continuação):Quadros de frequências:
Determinar e interpretar as frequências absolutas. Determinar e interpretar as frequências relativas. p qDeterminar e interpretar as frequências acumuladas. Distinguir os vários tipos de frequências (absolutas, relativas e acumuladas). Agrupar os dados em classes para um determinado atributo.
Representação gráfica de frequências:Representar e interpretar o diagrama de barras para atributos qualitativos e quantitativosquantitativos.Representar e interpretar o diagrama de sectores para atributos qualitativos e quantitativos.Representar e interpretar o histogramaRepresentar e interpretar o histograma. Distinguir as várias representações gráficas.Identificar as representações gráficas mais adequadas a cada tipo de atributo.Representar e interpretar o polígono de frequências
Estatística Descritiva 4
Representar e interpretar o polígono de frequências.
Objectivos/resultados de aprendizagemObjectivos/resultados de aprendizagemEspecíficos (continuação):Redução dos dados:
Definir, determinar e interpretar as medidas de tendência central: média aritmética, mediana e moda.Definir, determinar e interpretar as medidas de dispersão, nomeadamente amplitude total, amplitude interquartis, desvio padrão e variância.Definir e determinar os percentis, nomeadamente os quartis. Definir e identificar outliersDefinir e identificar outliers.Representar e interpretar diagramas de extremos e quartis. Definir as medidas de assimetria.Interpretar as medidas de assimetria através das medidas de tendência centralInterpretar as medidas de assimetria através das medidas de tendência central assim como através do coeficiente de assimetria. Distinguir a simetria da assimetria negativa e da assimetria positiva. Definir as medidas de achatamento.Interpretar as medidas de achatamento através do coeficiente de achatamento. Distinguir os tipos de achatamento (leptocúrtica, mesocúrtica e platicúrtica).Definir as medidas de concentração.Interpretar as medidas de concentração no contexto dos problemas em análise
Estatística Descritiva 5
Interpretar as medidas de concentração no contexto dos problemas em análise.
BibliografiaBibliografia
[1] Murteira B (1993) Análise Exploratória de Dados[1] Murteira, B. (1993) Análise Exploratória de Dados –Estatística Descritiva, McGraw Hill
[2] Murteira, B., Ribeiro, C., Silva, J. e Pimenta, C. (2002) Introdução à Estatística, McGraw Hill
[3] Pereira, A. (2004) SPSS – Guia Prático de Utilização, Edições SílaboEdições Sílabo
[4] Reis, Elizabeth (2000) Estatística Descritiva, Edições [ ] ( )Sílabo
Estatística Descritiva 6
Noções básicas Estatística
Descritiva Indutiva
Tem como objectivo T bj tiresumir a informação
mais importante tid j t
Tem como objectivo tirar conclusões sobre as características dacontida num conjunto
de dados, permitindo assim facilitar a sua
as características da população a partir da informação contidaassim facilitar a sua
compreensão e interpretação
informação contida numa amostra.
Estatística Descritiva 7
interpretação.
Noções básicas Indivíduo ou unidade estatística
Unidade base sobre a qual o observador realiza as observações.
População ou universoConjunto formado por todos os indivíduos em estudoConjunto formado por todos os indivíduos em estudo.
AmostraSubconjunto finito da população que seja representativo desta.
A ib iá lAtributo ou variávelCaracterística em estudo na população.
Modalidades ou categoriasResultados possíveis para um determinado atributo.
Estatística Descritiva 8
Resultados possíveis para um determinado atributo.
Noções básicas Atributos ou Variáveis
Q d j t d t i
Qualitativas
Quando assumem um conjunto de categorias que, embora possam ser representadas por números, não tem significado transformá-las através de operações usuais, tais como, adições ou subtracções.
QuantitativasQuantitativas
Quando assumem um conjunto de valores numéricos.
Estatística Descritiva 9
Noções básicas Variáveis Qualitativas
Nominais Ordinais
P d t b lNão se pode estabelecer uma
l ã d d
Pode-se estabelecer uma relação de ordem entre as categoriasrelação de ordem
entre as categorias.
as categorias.
Exemplo:o grau de satisfaçãoExemplo:
o sexo, feminino ou masculino pode ser
o grau de satisfação relativamente a um serviço, pode ser codificado por
masculino, pode ser codificado por 0 ou 1.
insatisfeito (1), pouco satisfeito (2), satisfeito (3) ou muito satisfeito (4)
Estatística Descritiva 10
ou muito satisfeito (4).
Noções básicas Variáveis Quantitativas ou de Escala
Discretas Contínuas
As categorias definem-se no conjunto dos números i t i
As categorias definem-se no conjunto dos números
inteiros.
Exemplos:
reais.
Exemplos:
• Nº de clientes;• Nº de animais de estimação;
p
• Altura;P• Nº de animais de estimação;
• Nº de livros editados.• Peso;• Lucro anual.
Estatística Descritiva 11
Quadros de FrequênciasDefinição de Frequências
Seja p o número total de modalidades distintas, nas n observações válidas.
Frequências absolutas - ni: número de observaçõesque pertencem à modalidade i, com i = 1, 2, …, p.
.nnp
1ii∑
=
=
q p p
Verifica-se que:1i=
Frequências relativas - fi: percentagem de observaçõesque pertencem à modalidade i com i = 1 2 pque pertencem à modalidade i, com i 1, 2, …, p.
.f e 100nnf
p
1ii
ii 100=×= ∑Verifica-se que:
Estatística Descritiva 12
n 1i=
Quadros de FrequênciasF ê i l ti l d F tFrequências relativas acumuladas - Fi: percentagem de observações que pertencem à modalidade i e
t i i 1 2anteriores, com i = 1, 2, …, p.. 100F e fF p
i
1jji == ∑Verifica-se que:
1j=
Notas:Para o caso em que as variáveis são qualitativas nominaisnão faz sentido determinar as frequências relativas qacumuladas, uma vez que as modalidades não são ordenáveis.
Para o caso em que as variáveis são qualitativas ordinaisPara o caso em que as variáveis são qualitativas ordinaispode fazer sentido determinar as frequências relativas acumuladas uma vez que as modalidades são ordenáveis
Estatística Descritiva 13
acumuladas, uma vez que as modalidades são ordenáveis.
Quadros de FrequênciasVariáveis Qualitativas
O ficheiro SegSocial.sav contém informações de algumas características g ç gpessoais, profissionais, familiares, sociais, etc., que se obtiveram através de um inquérito efectuado a 1500 indivíduos inscritos na Segurança
Estado civil
Social. Considere-se a seguinte variável:
795 53,0 53,0165 11 0 11 0
CasadoViúvo
ValidFrequency (ni) Percent Valid Percent (fi)
165 11,0 11,0213 14,2 14,240 2,7 2,7
286 19 1 19 1
ViúvoDivorciadoSeparadoSolteiro 286 19,1 19,1
1499 99,9 100,01 ,1
1500 100 0
SolteiroTotalNAMissing
Total
Estatística Descritiva 14
1500 100,0Total
Quadros de FrequênciasVariáveis Quantitativas - Dados Não Agrupados em Classes
As idades seguintes obtiveram-se através de um inquérito realizado a
Idade do indivíduo (em anos)
C l ti
g qalguns alunos inscritos no 2º ano de um determinado curso da ESTG.
4 6,9 6,9 6,923 39,7 39,7 46,6
1819
ValidFrequency Percent Valid Percent
CumulativePercent
18 31,0 31,0 77,67 12,1 12,1 89,75 8,6 8,6 98,31 1 7 1 7 100 0
20212223
Interpretação:
1 1,7 1,7 100,058 100,0 100,0
23Total
• 23 alunos dos 58 inquiridos têm 19 anos;• 31% dos alunos inquiridos têm 20 anos;
%Estatística Descritiva 15
• 89,7% dos alunos têm 21 anos ou menos.
Quadros de FrequênciasVariáveis Quantitativas - Dados Agrupados em Classes
Notas:
Para o caso em que as variáveis são quantitativasdiscretas e o número de modalidades é relativamente elevado, os dados são agrupados em classes.
Para o caso em que as variáveis são quantitativascontínuas os dados são agrupados em classes.
Estatística Descritiva 16
Quadros de Frequências
Quantas classes deverão ser utilizadas?
Variáveis Quantitativas - Dados Agrupados em Classes
Quantas classes deverão ser utilizadas?O número de classes, p, a utilizar é o menor inteiro tal que n2p ≥tal que .
Nota: Sempre que possível o número de classes d á t 5 20 i l i
n2 ≥
Seja xi, (i = 1, ..., n) cada uma das observações da variável.
deverá ser entre 5 e 20 inclusive.
• Amplitude total dos dados: IT = max(xi) – min(xi)
P l tê lit dPara o caso em que as classes têm a mesma amplitude:
• Amplitude de cada classe: II TC =
Estatística Descritiva 17
Amplitude de cada classe: p
IC
Quadros de FrequênciasVariáveis Quantitativas - Dados Agrupados em Classes
No ficheiro SegSocial.sav, considere-se a variável quantitativa discreta horas1 (Número de horas trabalhadas na semana passada) cujo número de modalidades é relativamente elevado, pelo que as observações foram agrupadas em classes e apresentadas no seguinte quadro de frequências:
Notas:
agrupadas em classes e apresentadas no seguinte quadro de frequências:Número de horas trabalhadas na semana passada (Binned)
20 2,2 2,2<10Validni fi (%) Fi (%)
• n = 900 (válidos)• p = 10 classes
44 4,9 7,178 8,7 15,880 8,9 24,7
378 42,0 66,7134 14 9 81 6
10 - 1819 - 2728 - 3637 - 4546 - 54
• max(xi) = 89• min(xi) = 2
134 14,9 81,6107 11,9 93,437 4,1 97,620 2,2 99,82 ,2 100,0
46 5455 - 6364 - 7273 - 8182+
• IT = 89 – 2 = 87• IC = 87 / 10 = 8.7 ≈ 9
900 100,0592
26
600
TotalNAPDKNATotal
Missing
Estatística Descritiva 181500Total
Quadros de FrequênciasVariáveis Quantitativas - Dados Agrupados em Classes
Notas:
Se ao agrupar os dados em classes, existir alguma classe que não contenha observações então não faz sentido usar classes de igual amplitude!!!....
Neste caso usam-se classes de diferentes amplitudes!
Estatística Descritiva 19
Representação Gráfica de Frequências
Variáveis Qualitativas
Diagrama de Barras (“Bar Chart”)
Formado porFormado por rectângulos separados com a mesma largura ecom a mesma largura e com altura igual à frequência (quer sejafrequência (quer seja absoluta ou relativa) correspondente a cada pmodalidade ou categoria.
Estatística Descritiva 20
Representação Gráfica de Frequências Variáveis Qualitativas
Diagrama de Sectores ou Circular (“Pie Chart”)
Círculo constituídoCírculo constituído por sectores, cuja área de cada sectorárea de cada sector é proporcional à frequência (quer sejafrequência (quer seja absoluta ou relativa) de cada uma das modalidades ou categorias.
Estatística Descritiva 21
Representação Gráfica de Frequências Variáveis Quantitativas - Dados Não Agrupados em Classes
Diagrama de Barras (“Bar Chart”)Diagrama de Sectores ou Circular (“Pie Chart”)g ( )
Estatística Descritiva 22
Representação Gráfica de Frequências
Histograma (“Histogram”)
Variáveis Quantitativas - Dados Agrupados em Classes
Histograma ( Histogram )
Formado por 10 classesprectângulos adjacentes com
1 → <102 → 10 - 183 → 19 - 274 28 36largura igual à
amplitude da classe
4 → 28 - 365 → 37 - 456 → 46 - 547 → 55 63correspondente e
área proporcional à f ê i d
7 → 55 - 638 → 64 - 729 → 73 - 8110 → 82+frequência da
respectiva classe.
10 → 82+
Estatística Descritiva 23
Representação Gráfica de Frequências V iá i Q tit ti
Polígono de Frequências
Variáveis Quantitativas
g qÉ a linha poligonal que une os pontos médios superiores de cada rectângulo do diagrama de barras ou do histograma.g g g
Estatística Descritiva 24
Representação Gráfica de Frequências
Variáveis Quantitativas
P iá i ã di t
Notas:Para o caso em que as variáveis são discretas e o número de modalidades é relativamente elevado, os dados são agrupados em classes e consequentemente representados em histogramas.
Para o caso em que as variáveis são contínuas, os dados também podem ser representados em diagramasdados também podem ser representados em diagramas de sectores.
Estatística Descritiva 25
Redução dos DadosA redução dos dados tem por objectivo resumir a informação neles contida, isto é, representar as
observações através de alguns resultados numéricos que analisam as características mais importantes.
Medidas de tendência central
Medidas de dispersão
M did d i iMedidas de assimetria
Medidas de achatamentoMedidas de achatamento
Medidas de concentração
Estatística Descritiva 26
Medidas de Tendência CentralAs medidas de tendência
central representam a Média Aritmética
Medianap
localização do centro das observações.
Mediana
Modaoda
Média Aritmética (“Mean”)
p
Indica o valor em torno do qual se distribuem as observações.Sejam xi, i = 1, 2, …, p, as diferentes modalidades do atributo.
Interpretação:. xnx
p
1iiin
1 Então, ∑=
=
Interpretação:A média indica o valor que cada observação deveria ter para que a soma de todas as observações fosse igual à verificada.
Estatística Descritiva 27
que a soma de todas as observações fosse igual à verificada.
Medidas de Tendência Central
É o alor q e di ide as obser ações em d as partes ig ais
Mediana (“Median”)
É o valor que divide as observações em duas partes iguais. Consideremos as observações ordenadas por ordem
t
⎪⎧ ⎞⎛ + ímpar é n se,nx 1
crescente: .xx...xxx )n()n()()()( ≤≤≤≤≤ −1321
⎪⎪
⎪⎪⎨ +=
⎟⎠⎞
⎜⎝⎛ +⎟
⎠⎞
⎜⎝⎛
⎟⎠⎞
⎜⎝⎛ +
parénse
p
,Então n2n
n
xxMe 1
2
21
Interpretação:⎪⎪⎩
⎠⎝⎠⎝ par é n se,2
50% das observações têm valor superior ou igual à mediana e 50% das observações têm valor inferior ou igual à mediana.
Estatística Descritiva 28
50% das obse ações tê a o e o ou gua à ed a a
Medidas de Tendência Central
É a modalidade ou categoria mais frequente na amostra
Moda (“Mode”)
É a modalidade ou categoria mais frequente na amostra e representa-se por Mo.
A moda não tem de ser única, pois pode haver mais do que uma modalidade com igual frequência, sendo essa frequência máxima. Nesse caso, o SPSS devolve o menor valor da moda.
Observação:P iá i lit ti ú i did d t dê iPara variáveis qualitativas a única medida de tendência central que faz sentido determinar é a moda.
Estatística Descritiva 29
Medidas de Tendência CentralE lExemplo:
Idade do indivíduo (em anos)
Cumulative
Statistics
4 6,9 6,9 6,923 39,7 39,7 46,618 31,0 31,0 77,6
181920
ValidFrequency Percent Valid Percent
CumulativePercent
Idade do indivíduo (em anos)580
19 81
ValidMissing
N
Mean, , ,7 12,1 12,1 89,75 8,6 8,6 98,31 1,7 1,7 100,0
58 100,0 100,0
212223Total
19,8120,00
191149
MeanMedianModeSum
Se todos os indivíduos tivessem a mesma idade, para que a soma de todas as idades fosse igual p q g
a 1149, essa idade teria que ser 19,81 anos.
50% dos indivíduos têm idade inferior A idade mais ou igual a 20 anos e os restantes 50% dos indivíduos têm idade superior ou
igual a 20 anos
frequente entre os indivíduos é 19
anosEstatística Descritiva 30
igual a 20 anos. anos.
Medidas de Dispersão As medidas de dispersão analisam o grau de
variabilidade das observações de um conjunto de dados em torno das medidas de tendência central.em torno das medidas de tendência central.
Amplitude Total (“Range”)É a diferença entre o valor observado mais elevado e o valor observado mais baixo: IT = max (xi) – min (xi).
Quartis (“Quartiles”):O t ê ti ( ) ã l di id d dOs três quartis (q1, q2 e q3) são os valores que dividem os dados em 4 partes iguais em termos de percentagem de observações.
q1 q2 q3min (xi) max (xi)
25 % obs.25 % obs.25 % obs. 25 % obs.
Estatística Descritiva 31
q2( i)
Medidas de Dispersão Consideremos as observações ordenadas por ordem crescente: Os valores dos 1º, 2º e . xx...xx )n()n()()( ≤≤≤≤ −121
3º quartis com r = 1, 2 e 3, respectivamente, são dados por: xx
nrnr
⎪⎪⎧ +
⎟⎞
⎜⎛ +×⎟
⎞⎜⎛ × 1
( ) natural énão n4r se,
natural é n4r se ,
rq
x m
nn4
×
×
⎪⎪⎩
⎪⎪⎨=
⎟⎠
⎜⎝
+×⎟⎠
⎜⎝
×
2
14
( )
n.4r
4,
a superior inteiro número menor o é m
m
×
⎪⎩
Nota:Existem diferentes formas de definir os quartis podendo surgirExistem diferentes formas de definir os quartis, podendo surgir valores ligeiramente diferentes para o mesmo quartil. Uma possível definição é a apresentada anteriormente.
Estatística Descritiva 32
p ç p
Medidas de Dispersão Q (” ”)Percentis ou Quantis (”Percentiles”):
São os valores Qp tais que p% das observações da amostra são inferiores ou iguais a Qp.
q1 - percentil 25 (Q25)q2 - percentil 50 (Q50) - Medianaq3 - percentil 75 (Q75)q3 p ( 75)
Amplitude InterquartisÉÉ a amplitude do intervalo que contém 50% das observações centrais: Iq = q3 – q1.
50 % de observações
q1 q2 q3min (xi) max (xi)
Estatística Descritiva 33
Medidas de Dispersão “Outliers”:“Outliers”:Se alguma observação ficar fora do intervalo
[ 1 5 * I 1 5 * I ][q1 – 1,5 * Iq ; q3 + 1,5 * Iq] considera-se uma observação “suspeita” e denomina-se por
li i é fi f d l d di ib i doutlier, isto é, fica fora do suporte usual da distribuição dos dados, afastando-se portanto do padrão geral dos mesmos.
“Outliers” moderados:Observações pertencentes ao intervalo ç p[q1 – 3 * Iq ; q1 - 1,5 * Iq] ou [q3 + 1,5 * Iq ; q3 + 3 * Iq].
“Outliers” severos ou valores extremos:Outliers severos ou valores extremos:Observações inferiores a q1 – 3 * Iq ou superiores
3 * IEstatística Descritiva 34
a q3 + 3 * Iq.
Medidas de Dispersão Diagrama de Extremos e Quartis ou Caixa de Bigodes (“Boxplot”)
max (xi)
Sem outliers Com outliersOutlier severo
q3Outlier
moderado
max (xi)
Me
qmax (xi) não outlier
q1
min (xi)min (xi) não outlier
Quanto menor for a distância entre 2 destas medidas em relação às restantes, menor é a dispersão das observações nesse intervalo e vice versa
Estatística Descritiva 35
observações nesse intervalo e vice-versa.
Medidas de Dispersão
A variância é a média dos quadrados dos desvios das
Variância (“Variance”)q
observações em relação à média aritmética e é dada por:
( ) p21
p1 2
22 ⎟
⎞⎜⎛ ∑∑ ( ) .xxnxxns
1i
2iin
1
1iiin
12 −⎟⎟⎠
⎞⎜⎜⎝
⎛=−= ∑∑
==
Alguns autores (e o SPSS) utilizam a variância corrigidag ( ) gem vez da variância usual, que é dada por:
( )p 2
Quanto maior for o valor da variância mais afastadas
( ) .xx ns 1i
ii1-n1
c2 ∑
=
−=
Quanto maior for o valor da variância mais afastadas estão as observações da média e logo existe uma maior dispersão das observações e vice-versa
Estatística Descritiva 36
dispersão das observações, e vice-versa.
Medidas de Dispersão Desvio Padrão (“Standard Deviation”)O desvio padrão é a raiz quadrada da variância e é dado por:p q p
.ss 2=
ss 2=
E o desvio padrão corrigido é dado por:
Quanto maior for o valor do desvio padrão mais
.ss cc =
afastadas estão as observações da média e logo existe uma maior dispersão das observações, e vice-versa.
Nota: . s s ss 1-nn
c1-nn
c e == 22
Estatística Descritiva 37
Medidas de Assimetria A did d i t i liAs medidas de assimetria servem para analisar se as
frequências estão ou não distribuídas simetricamente em torno das medidas de tendência central.torno das medidas de tendência central.
Comparação das medidas de
tendência central
Coeficiente de assimetria (“Skewness”)
Tipo de assimetria Exemplos
Simétrica
tendência central ( Skewness )
xMeMo == 0=sC40
60
80E
QU
EN
CY
AssimétricaMoMex <<
0
20FR
60
80
NC
Y 0<CAssimétricanegativa
MoMex
MoMex
=<
<=
MM
0
20
40
FREQ
UEN
80
0<sC
xMeMo
xMeMo
xMeMo
=<
<=
<<
0
20
40
60
80
FRE
QU
EN
CY
Assimétricapositiva
0>sC
Estatística Descritiva 38
xMeMo =<0
Medidas de Achatamento A did d h t t liAs medidas de achatamento servem para analisar a
intensidade das frequências em torno das medidas de tendência central.tendência central.
Exemplos
Tipo de Achatamento
Menos achatada que a distribuição Normal
(Leptocúrtica)
Tão achatada como a distribuição
Normal (M ú ti )
Mais achatada que a distribuição Normal
(Platicúrtica)(Leptocúrtica) (Mesocúrtica) (Platicúrtica)
Coeficiente de achatamento (“K t i ”)
0>kC 0=kC 0<kC
Estatística Descritiva 39
(“Kurtosis”)
Medidas de Concentração As medidas de concentração analisam o modo como o
atributo está distribuído pelos indivíduos.
Curva de Lorenz Índice de Gini
Notas:
Curva de Lorenz Índice de Gini
Notas:Só faz sentido analisar a concentração desde que possam
d it õ i tocorrer as duas situações seguintes:
• concentração máxima do atributo num só indivíduo;
• concentração mínima de igual distribuição do atributo por todos os indivíduos.
Estatística Descritiva 40
Medidas de Concentração Curva de Lorenz
É a linha poligonal que une os pontos da forma (Fi , F’i)É a linha poligonal que une os pontos da forma (Fi , F i) com i = 0, 1, …, p, onde:
Fi – frequências relativas acumuladas das observaçõesF’i – frequências relativas acumuladas do atributo.
100100 100
40
60
80
F ' i
40
60
80
F ' i
40
60
80
F ' i
0
20
0 20 40 60 80 100
F i
0
20
0 20 40 60 80 100
F i
0
20
0 20 40 60 80 100
F i
Interpretação: Quanto mais afastada estiver a curva de Lorenz da recta de ig al distrib ição maior será a concentração do atrib to
Concentração fraca Concentração intermédia Concentração forte
Estatística Descritiva 41
recta de igual distribuição maior será a concentração do atributo.
Medidas de Concentração E l Cl i fi Fi i i* i f ' i F ' iExemplo:Os dados referentes aos salários líquidos mensais, em
Classes ni fi Fi xi ni*xi f ' i F ' i[400 ; 600[ 50 10 10 500 25000 4,31 4,31[600 ; 800[ 80 16 26 700 56000 9,66 13,97[800 ; 1000[ 80 16 42 900 72000 12,41 26,38
[1000 ; 1200[ 65 13 55 1100 71500 12 33 38 71sa á os qu dos e sa s, eeuros, dos trabalhadores de uma empresa encontram-se resumidos na tabela
[1000 ; 1200[ 65 13 55 1100 71500 12,33 38,71[1200 ; 1400[ 60 12 67 1300 78000 13,45 52,16[1400 ; 1600[ 55 11 78 1500 82500 14,22 66,38[1600 ; 1800[ 70 14 92 1700 119000 20,52 86,90[1800 ; 2000] 40 8 100 1900 76000 13,10 100,00
Vencimentos mensais (em euros) líquidos dos trabalhadores de uma empresa
resumidos na tabela.Total 500 100 580000 100
Interpretação:A curva está pouco 80
100
Curva deL
pafastada da recta de igual distribuição, 40
60
F ' i
Lorenz
Recta deigual
logo a concentração do atributo é fraca.0
20
0 20 40 60 80 100
igualdistribuição
Estatística Descritiva 42
F i
Medidas de Concentração Índice de Gini
Mede o grau de concentração do atributo num conjuntoMede o grau de concentração do atributo num conjunto de dados e é dado por:
p−1 Concentração mínima
1IG0 ; i' F
IG p
p
i ≤≤−=∑−=
1
1
11
Concentração mínima (Fi = F’i)
Fip
i∑−
=
1
1Concentração máxima(F’i = 0, i = 1, …, p-1)(F i 0, i 1, …, p 1)
Exemplo:Para os dados dos salários do exemplo anterior mostre que o valor do Índice de Gini é aproximadamente igual a 0,22.
Estatística Descritiva 43