estatística multivariada pré-requisitos -...
TRANSCRIPT
Prof. Lorí Viali, [email protected];[email protected];
http://www.pucrs.br/famat/viali;http://www.mat.ufrgs.br/~viali/
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
A teoria dos métodos estatísticos multivariados pode ser explicada razoavelmente bem somente com uso de alguma álgebra matricial. Por essa razão é útil, senão essencial ter pelo menos algum conhecimento nessa área (Bryan F. J. Manly).
Estatístico Ecologista com mais de 30 anos de experiência como pesquisador, consultor e professor de Estatística.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Estatística Multivariada
Pré-Requisitos
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Muitos dos procedimentos
multivariados são maximizações ou
otimizações. As noções de maximização
e de combinações lineares são
combinadas em muitos procedimentos
multivariados.
Otimização (Maximização)
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Na regressão múltipla uma
combinação linear dos previsores que maximiza a correlação com a variável dependente é procurado e na Análise de Componentes Principais a Combinação Linear das variáveis responsável pela maior porção da variância é considerada.
Exemplos:
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
A idéia de Combinação Linear de
variáveis é básica para quase todos os
tipos de Análise Multivariada. Uma
Combinação Linear de p variáveis é dada
por: Y = a1x1 + a2x2 + ... + apxp, onde a1, a2,
..., ap são os coeficientes das variáveis.
Combinação Linear
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Suponha que tenhamos um grupo tratamento e controle ou um pré e um
pós teste. Se representarmos as variáveis por x1 (pré-teste) e x2 (pós-teste) então a variável diferença pode ser escrita como Y = x2 - x1, onde a1 = -1 e a2 = 1.
Exemplo:
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Distâncias
Considere dois pontos (x1, y1) e
(x2, y2) no plano. Então a distância
usual (Euclidiana) entre os dois
pontos é obtida pela aplicação do
teorema de Pitágoras.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Assim:
d2 = (x2 – x1)2 + (y2 – y1)2
Ou, também:
)yy()xx( 1212d 22 −− +=
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Se os dois pontos forem (2, 3) e (4, 6), então a distância entre eles é:
Exemplo:
61,313 1212d )36()24()yy()xx( 2222
==
=+=+= −−−−
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
As distâncias entre dois pontos P =
(x1, x2, ..., xp) e Q = (y1, y2, ..., yp) no
espaço p-dimensional é dado por:
)yx()yx()yx( pp...2211)Q,P(d222 −−− +++=
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Johnson e Wichern (1982) colocam
que: “linhas retas e distâncias euclidianas não são adequadas para muitos procedimentos estatísticos. Isso
de deve ao fato de que cada coordenada tem a mesma contribuição para o cálculo da distância.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Quando as coordenadas
representam medidas que estão sujeitas
a flutuações aleatórias de diferentes magnitudes, é desejável ponderar as coordenadas sujeitas a grande variabilidade com pesos menores do que
as com menor variabilidade (p. 20)”.Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Levar em conta:
(i) A variabilidade pode ser
diferente porque as escalas não
são as mesmas;
(ii) A correlação entre as variáveis.
Fatores:
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
A distância ao quadrado, padronizada
que se ajusta a diferentes variabilidades é
dada por:
Um critério
s)x(
s)x(
d 22
2
21
22 x22ix11i −
+−
=
Onde xi1 e xi2 representam os valores para o sujeito “i” na variáveis 1 e 2 e ,
são as médias das duas variáveis.
x1
x2
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Suponha que temos duas
variáveis x1 e x2 com variâncias 36 e 100 e com médias 4 e 6. Vamos admitir que elas não estão correlacionadas. Para determinar a distância de um
sujeito com escores (2, 3) até o vetor das médias, isto é, até (4, 6) fazemos:
Exemplo:
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Esses são os mesmos dois pontos que
foram considerados anteriormente. Note
que a maior parte da distância é devida a
variável x2 (9). Depois de padronizada a
maior porção é devida a x1 (0,11 em 0,20).
.20,009,011,010036
)63()42(d
222 =+=+=
−−
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Suponha agora que as variáveis tem uma correlação moderada, isto é,
rx1,x2 = 0,50. A distância de Mahalanobis, que leva em conta a correlação é dada por:
Correlação
⎥⎥
⎦
⎤
⎢⎢
⎣
⎡−
−+
−−
=−−
ssx(x(
s)x(
s)x(
rD
21
2i1i22
2
21
2
22
)x)xr2x22ix11i1
1 21
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Prasanta ChandraMahalanobis (1893 - 1972).• Fundou do ISI (Instituto de Estatística Indiano).• Lançou o periódico Sankhiana área de Estatística.• Criou o conceito de amostra piloto.
Mahalanobis
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Note que se a correlação é positiva
então a distância é reduzida de uma
quantidade equivalente ao terceiro termo nos
colchetes. Isso ocorre porque as distâncias ao
longo da segunda dimensão (da segunda
variável) podem ser previstas pela correlação
com a outra variável.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Nesse caso, a distância do ponto(2, 3) para (4, 6) supondo uma
correlação de 0,50 é:
Exemplo:
13,010.6
)63)(42(5,0.2100361
1 )63()42(5,0
D22
22 =
⎥⎥⎦
⎤
⎢⎢⎣
⎡ −−−+
−=
−−
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Se a correlação é forte (por exemplo: 0,71, então a distância de
Mahalanobis é ainda menor:
12,010.6
)63)(42(71,0.2100361
1 )63()42(71,0
D22
22 =
⎥⎥⎦
⎤
⎢⎢⎣
⎡ −−−+
−=
−−
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Por outro lado se a correlação énegativa, então a distância será maior do que quando as variáveis não forem
correlacionadas. Suponha que a correlação seja -0,5, então:
40,010.6
)63)(42)(5,0.(2100361
1 )63()42(5,0
D22
22 =
⎥⎥⎦
⎤
⎢⎢⎣
⎡ −−−−+
−=
−−
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Qualquer distância entre os pontos P e Q será válida desde que satisfaça as seguintes propriedades: d(P, Q) = d (Q , P)
d(P, Q) > 0 se P ≠ Q
d(P, Q) = 0 se P = Q
d(P, Q) ≤ d(P, R) + d(R, Q)
(Desigualdade triangular)
Propriedades
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
ℜ é o conjunto dos reais;
ℜn é o conjunto dos vetoresn-dimensionais reais;
Os vetores em ℜn são colunas ao menos que seja estabelecido o contrário;
Para qualquer x ∈ ℜn, x’ é o vetor transposto de x, isto é o vetor linha n-dimensional;
Vetores
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
O produto interno (inner product) de dois
vetores x, y ∈ ℜn é definido por: .
Quaisquer dois vetores x, y ∈ ℜn
satisfazendo x’y = 0 são ditos ortogonais.
Módulo de um vetor
yxx i
n
iiy ∑
==
1
'
. '. || xxx =
x...xx 2n
22
21 +++=
Módulo e Produto Interno
|x|
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Cálculo do ângulo θ entre dois vetores x e y.
x’ = [x1, x2]
y’ = [y1, y2]y2
y1x1
x2
x
θ
y
θ2θ1
Ângulo entre dois Vetores
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Pela figura pode-se ver que o ângulo θ pode ser representado pela diferença entre os ângulos θ1 e θ2 formados pelos dois vetores e o primeiro eixo coordenado. Assim:
||)(
||)(
||)(
||)cos(
22
21
12
11
ysen e
xsen
yosc e
xyx
yx
==
==
θθ
θθ
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Então:)(sen)(sen)cos()cos()cos()cos( 121212 θθθθθθ +=−=θ
Substituindo vem:
|y||x|y'x
|y||x|
|y||y||x||y|)cos()cos(
yxyx
xyxy
2211
221112
=+
=
=⎟⎟⎠
⎞⎜⎜⎝
⎛⎟⎟⎠
⎞⎜⎜⎝
⎛+⎟⎟
⎠
⎞⎜⎜⎝
⎛⎟⎟⎠
⎞⎜⎜⎝
⎛=−=θ θθ
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Seja V = {v1, v2, ..., vn} um conjunto de
vetores com a mesma dimensão.
Uma Combinação Linear (CL) dos vetores
em V é qualquer vetor v da forma:
v = c1v1 + c2v2 + ... + cnvn
onde c1, c2, ..., cn são escalares arbitrários.
Dependência e Independência Linear
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Um conjunto V de n vetores m-
dimensionais é linearmente
independente se a única CL de vetores
em V que iguala a zero é a combinação
trivial, isto é, se: c1 = c2 = ... = cn = 0.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Um conjunto V de n vetores m-
dimensionais é linearmente
dependente se existe uma CL de
vetores não trivial em V que iguala a
zero.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
(i) Dois vetores LD (ii) Dois vetores LI
x
v1 = (1, 1) = ABv2 = (2, 2) = AC
y
1 2 3
1
2
v1v2
A
B
C
x
v2 = (1, 1)v1 = (1, 0)
y
1 2 3
1
2
v1
v2
A
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Para qualquer matriz A, a notação aij indica o elemento da linha “i” e coluna “j”.
Para duas matrizes A e B de dimensões compatíveis (AB)’ = B’A’
Se A é uma matriz quadrada diremos que A é simétrica se A’ = A.
Matrizes
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
A notação A’ significa a Transposta de A
que é obtida trocando as linhas pelas
colunas. Assim se uma matriz A tem
dimensões r x s então A’ terá dimensões s x r.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Uma matriz A é diagonal se aij = 0 sempre que i ≠ j. Ela é uma triangular inferior se aij = 0 para i < j. Ela é triangular superior se sua transposta for triangular inferior.
In representa a matriz identidade e det(A) representa o determinante de A.
Matrizes Especiais
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
O traço de uma matriz quadrada A de ordem “n” é a soma dos termos da diagonal principal.
Traço(A) = a11 + a22 + ... + ann
Traço de uma Matriz
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Duas matrizes A e B podem ser adicionadas, subtraídas, multiplicadas e multiplicadas por um escalar (número).
Para somar ou subtrair duas matrizes de mesma ordem, basta somar ou subtrair seus elementos.
Operações com Matrizes
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Para multiplicar duas matrizes elas não precisam ser de mesma dimensão, no entanto o número de colunas em A (matriz à esquerda) deve ser igual ao número de linhas em B (matriz àdireita). Assim uma matriz nxk só pode ser multiplicada por uma matriz kxp.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
A matriz produto AB é formada por todos os elementos obtidos tomando o produto interno de cada linha de A com cada coluna de B.
A matriz produto AnxkBkxp é a matriz Cnxp cujo elemento da i-ésima linha e j-ésimacoluna é o produto interno da i-ésima linha de A pela j-ésima coluna de B.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Assim se quisermos multiplicar
Anxk por Bkxp então o resultado cij da
matriz produto Cnxp é dado por:
cij = ai1b1j + ai2b2j + ... + aikbkj = ba lj
k
1lil∑
=
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Convém lembrar que a multiplicação de
matrizes não é comutativa, assim AxB ≠ BA.
No entanto, a multiplicação de matrizes é
associativa, isto é, (AB)C = A(BC).
Para multiplicar uma matriz por um
escalar (número) multiplica-se cada elemento
da matriz por esse número.Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Associado a qualquer matriz quadradaA existe um número denominado de determinante de A (abreviado por det(A) ou |A|).
Assim se A = [a11] é uma matriz de ordem 1x1, então o determinante de A édefinido como |a11| = a11.
Determinante
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Antes de calcular o determinante de
matrizes de ordem mais alta é necessário
definir o conceito de menor de uma matriz.
Se A é uma matriz de ordem mxn então
para quaisquer dois valores i, j ≤ m, o Mij
menor de A é a submatriz obtida de A
eliminando-se a linha i e a coluna j.Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Seja A uma matriz mxm com m > 2 então
o determinante de A é dado por:
|A| = (-1)i+1ai1|Mi1| + (-1)i+2ai2|Mi2| + ... +
(-1)i+maim|Mim| =
Essa fórmula é denominada de expansão
do det(A) pelos cofatores da linha i.
)1(Ma 1i1i
m
1i1i || −∑ +
=
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Para uma matriz
2x2⎥⎦
⎤⎢⎣
⎡=
aaaa
A2221
1211
O determinante é dado por: det(A) =
= a11a22 – a12a21
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Calcular o determinante pela expansão
dos cofatores da seguinte matriz:
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡
987654321
Exemplo:
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
O determinante é:
09123)3532(3)4236(2)4845(
8754
.3.)1(9764
.2.)1(9865
.1.)1(987654321
432
=−+−=−+−−−=
=−+−+−=
Solução:
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
O determinante de uma matriz
representa a variância generalizada das
várias variáveis. Isto é, ele caracteriza
em um único valor quanta
variabilidade existe em um conjunto de
variáveis.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Dada uma matriz A de ordem nxn a
matriz B de mesma ordem é a Inversa de A
se e somente se: AB = BA = In.
In é a matriz identidade de ordem n. A
matriz B é representada por A-1. A inversão
de matrizes corresponde a operação de
divisão com números.
Definição:
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Os autovalores (raízes características)
de uma matriz quadrada A são as soluções
da seguinte equação:
|A – λI| = 0.
A matriz A terá p raízes, algumas das
quais poderão ser iguais a zero.
Autovalores (Eingenvalues)
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Determinar os autovalores da matriz:
Exemplo:
⎥⎦
⎤⎢⎣
⎡=
2113
A
Para tal devemos resolver a equação:
|A – λI| = 0
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Mas
Exemplo:
⎥⎦
⎤⎢⎣
⎡λ−
λ−=⎥
⎦
⎤⎢⎣
⎡λ−⎥
⎦
⎤⎢⎣
⎡=λ−
2113
1001
2113
IA
Assim devemos resolver o seguinte determinante:
055021
13 2 =+λ−⇒=λ−
λ−λ
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Propriedade:
A soma dos autovalores de uma matriz é igual ao Traço da matriz.
O traço é utilizado nos testes multivariados.
Assim Traço(A) = λ1 + λ2 + ... + λn
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Matriz das Variâncias e Covariâncias
Vamos ilustrar a obtenção da
matriz das variâncias e covariâncias
de um conjunto de variáveis por
meio de um exemplo.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Considere o seguinte conjunto de valores:
72
43
11
X2X1
4 e 2 xx 21 ==
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Primeiro considere a matriz Xd dos desvios, isto é, o quanto cada valor de cada uma das variáveis difere da média da própria variável:
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡ −−=
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡−
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡=
3 0 0 1 31
424242
724311
X X
Xd
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Agora transpomos a matriz Xd, obtendo:
⎥⎦
⎤⎢⎣
⎡−−
=303011
X'd
Podemos obter agora a matriz, denominada de: soma dos quadrados e produtos cruzados (SSCP), fazendo o produto de Xd por .X'
d
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Os elementos da diagonal serão as somas dos quadrados:
ss1 = (-1)2 + 12 + 02 = 2
ss2 = (-3)2 + 02 + 32 = 18
⎥⎦
⎤⎢⎣
⎡=
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡ −−
⎥⎦
⎤⎢⎣
⎡−−
=ssssssss
XX
221
121
d'd
300131
303011
SSCP
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Note que esses valores são os numeradores das variâncias das variáveis, uma vez que a variância da variável é:
nii )xx(s
22 ∑ −=
A soma dos desvios dos produtos cruzados para as duas variáveis é:
ss12 = ss21 = (-1)(-3) + 1.0 + 0.3 = 3.Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Esse resultado é justo o numerador da
covariância para as duas variáveis, uma vez
que a covariância é dada por:
n))( xx(xx
s 22i11i12
∑ −−=
Esses resultados são estimadores
tendenciosos. Para obter um não tendencioso é
só multiplicar por: n/(n – 1)
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Finalmente a matriz das variâncias e covariâncias S é obtida da SSCP multiplicando-a por pela constante: 1/n ou 1/(n - 1). Assim:
S = SSCP/(n – 1)
⎥⎦
⎤⎢⎣
⎡=⎥
⎦
⎤⎢⎣
⎡=
95,15,11
18332
21S
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Dados multivariadas surgem sempre que
se procura investigar e entender fenômenos de
natureza social ou física. Se for selecionado
um número p ≥ 1 de variáveis ou características
então os valores dessas variáveis são
registrados para cada item, indivíduo ou
unidade experimental.
Notação
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
A representação xjk indica um um valor
particular da k-ésima variável que foi
observada no j-ésimo item ou experimento,
isto é, xjk = medida da k-ésima variável no
j-ésimo item.
Assim n medidas de p variáveis serão
apresentadas como:Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
A média aritmética de cada uma das variáveis é dada por:
p..., 2, 1, k n1 n
1jjkk xx == ∑
=
A variância é dada por:
p..., 2, 1, k kjkn1 n
1j
22k )xx(s == ∑ −
=
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
A covariância da amostra é dada por:
p..., 2, 1, k
p ..., 2, 1,i ))((n1 n
1jkjkijiik xxxxs
=
=−−= ∑=
Ela mede a associação entre ai-ésima e a k-ésima variável. Note que se i = k, então a covariância fica igual a variância e que sik = ski.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Uma última medida descritiva é o Coeficiente de Correlação de Pearson, que mede a associação linear entre duas variáveis e não depende das unidades de medida utilizadas.
p..., 2, 1, k
p ..., 2, 1,i
kjkiji
))((
n
1j
n
1j
22
n
1jkjkiji
kkii
ikik
)xx()xx(
xxxx
sssr
=
=
−−
==
∑ ∑ −−
∑
= =
=
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Representação
xnp
...
X2p
X1p
p
Sujeitos ...xn3Xn2Xn1n
...............
...x23x22x212
...x13x12x111
...321
Variáveis
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
⎥⎥⎥⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢⎢⎢⎢
⎣
⎡
=
xxxx
xxxx
xxxxxxxx
npnk2n1n
jpjk2j1j
p2k22221
p1k11211
......
.........
......
......
......
MMM
MOMOMMX
Pode-se representar os escores de n
sujeitos (participantes) em p variáveis por
uma matriz nxp da seguinte forma:
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Essas medidas podem ser organizadas na forma matricial da seguinte maneira:
⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢
⎣
⎡
=
x
xx
p
2
1
... SSCP
⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢
⎣
⎡
=
sss
ssssss
pp2p1p
p22221
p11211
...
...
...
MOMM
x
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
A matriz das variâncias-covariâncias não viciada é dada por:
)'X)(X(1-n
1
...
...
...
1-n
1 1n
SSCPS
XX
sss
ssssss
jn
1jj
pp2p1p
p22221
p11211
−−=
=
⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢
⎣
⎡
=−
=
∑=
MOMM
))((1-n
1xxxxs kjki
n
1jjiik −−= ∑
=
Um elemento dessa matriz é dado por:
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Com uma única variável a variância amostral é utilizada para descrever a quantidade de variação dos valores daquela variável. Quando p variáveis são observadas a variação é descrita pela matriz das variâncias-covariâncias. Ela contém p variâncias e 0,5(p – 1) covariâncias potencialmente diferentes.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Algumas vezes é desejável atribuir um
único valor para a variação expressa por S.
Uma escolha é o valor do determinante de S,
que se reduz a variância usual quando p = 1.
Esse determinante é denominado de
Variância Amostral Generalizada: |S|.
Variância Generalizada
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Pode ser mostrado que a Variância Amostral
Generalizada: |S|= (volume)2/(n – 1)p para um
dado conjunto de dados. Isto é, ela é
proporcional ao volume ao quadrado gerado
pelos desvios dos “p” vetores (variáveis) em
relação as suas médias (di = yi - ). xi
Interpretação
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
A variância generalizada é afetada pela
variabilidade das medidas de uma única
variável. Nesse caso é útil substituir os
valores das variáveis originais pelos seus
valores padronizados:
sxx
zkk
kjkjk
−=
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
R
A matriz das variâncias-covariâncias
das variáveis padronizadas será então R, a
matriz de correlações amostral das
variáveis originais.
⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢
⎣
⎡
=
1...
...1
...1
rr
rrrr
2p1p
p221
p112
MOMM
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Define-se: Variância Generalizada das
Variáveis Padronizadas |R|.
As quantidades |S| e |R| estão
relacionadas da seguinte forma:
|S| = (s11s22...spp)|R|
Ou (n – 1)p|S| = (n – 1)p|R|
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Assim o volume ao quadrado (n - 1)p|S|
é proporcional ao volume ao quadrado
(n – 1)p|R|. A constante de
proporcionalidade é o produto das variâncias.
Como |R| é padronizado ele não é
afetado por mudanças de escala.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
GRIM, Laurence G., YARNOLD, Paul R. (Ed.) Reading and Understanding More Multivariate Statistics. Whashington (DC): American Psychological Association, 2000.
HARMAN, Harry H. Modern Factor Analysis. Chicago: The University of Chicago Press, 1970.
Referências:
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
JOHNSON, Richard A., WICHERN, Dean W. Applied Multivariate Statistical Analysis. Upper Saddle River (NJ): Prentice Hall, 1998.
KACHIGAN, Sam Kash. Statistical Analysis: An Interdisciplinary Introduction to Univariate & Multivariate Methods. NewYork (NY): 1986.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
MANLY, Bryan F. J. Métodos Estatísticos Multivariados: uma introdução. Porto Alegre: Artmed, 2008. 3ª ed.
STEVENS, James. Applied MultivariateStatistics for The Social Sciences. Mahwah(NJ): Lawrence Erlbaum Assocates, 1996. Third Edition.