estatística multivariada pré-requisitos -...

Prof. Lorí Viali, [email protected];[email protected];

http://www.pucrs.br/famat/viali;http://www.mat.ufrgs.br/~viali/

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

A teoria dos métodos estatísticos multivariados pode ser explicada razoavelmente bem somente com uso de alguma álgebra matricial. Por essa razão é útil, senão essencial ter pelo menos algum conhecimento nessa área (Bryan F. J. Manly).

Estatístico Ecologista com mais de 30 anos de experiência como pesquisador, consultor e professor de Estatística.


Estatística Multivariada

Pré-Requisitos


Muitos dos procedimentos

multivariados são maximizações ou

otimizações. As noções de maximização

e de combinações lineares são

combinadas em muitos procedimentos

multivariados.

Otimização (Maximização)


Na regressão múltipla uma

combinação linear dos previsores que maximiza a correlação com a variável dependente é procurado e na Análise de Componentes Principais a Combinação Linear das variáveis responsável pela maior porção da variância é considerada.

Exemplos:


A idéia de Combinação Linear de

variáveis é básica para quase todos os

tipos de Análise Multivariada. Uma

Combinação Linear de p variáveis é dada

por: Y = a1x1 + a2x2 + ... + apxp, onde a1, a2,

..., ap são os coeficientes das variáveis.

Combinação Linear


Suponha que tenhamos um grupo tratamento e controle ou um pré e um

pós teste. Se representarmos as variáveis por x1 (pré-teste) e x2 (pós-teste) então a variável diferença pode ser escrita como Y = x2 - x1, onde a1 = -1 e a2 = 1.

Exemplo:


Distâncias

Considere dois pontos (x1, y1) e

(x2, y2) no plano. Então a distância

usual (Euclidiana) entre os dois

pontos é obtida pela aplicação do

teorema de Pitágoras.


Assim:

d2 = (x2 – x1)2 + (y2 – y1)2

Ou, também:

)yy()xx( 1212d 22 −− +=


Se os dois pontos forem (2, 3) e (4, 6), então a distância entre eles é:

Exemplo:

61,313 1212d )36()24()yy()xx( 2222

==

=+=+= −−−−


As distâncias entre dois pontos P =

(x1, x2, ..., xp) e Q = (y1, y2, ..., yp) no

espaço p-dimensional é dado por:

)yx()yx()yx( pp...2211)Q,P(d222 −−− +++=


Johnson e Wichern (1982) colocam

que: “linhas retas e distâncias euclidianas não são adequadas para muitos procedimentos estatísticos. Isso

de deve ao fato de que cada coordenada tem a mesma contribuição para o cálculo da distância.


Quando as coordenadas

representam medidas que estão sujeitas

a flutuações aleatórias de diferentes magnitudes, é desejável ponderar as coordenadas sujeitas a grande variabilidade com pesos menores do que

as com menor variabilidade (p. 20)”.Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Levar em conta:

(i) A variabilidade pode ser

diferente porque as escalas não

são as mesmas;

(ii) A correlação entre as variáveis.

Fatores:


A distância ao quadrado, padronizada

que se ajusta a diferentes variabilidades é

dada por:

Um critério

s)x(

s)x(

d 22

2

21

22 x22ix11i −

+−

=

Onde xi1 e xi2 representam os valores para o sujeito “i” na variáveis 1 e 2 e ,

são as médias das duas variáveis.

x1

x2


Suponha que temos duas

variáveis x1 e x2 com variâncias 36 e 100 e com médias 4 e 6. Vamos admitir que elas não estão correlacionadas. Para determinar a distância de um

sujeito com escores (2, 3) até o vetor das médias, isto é, até (4, 6) fazemos:

Exemplo:


Esses são os mesmos dois pontos que

foram considerados anteriormente. Note

que a maior parte da distância é devida a

variável x2 (9). Depois de padronizada a

maior porção é devida a x1 (0,11 em 0,20).

.20,009,011,010036

)63()42(d

222 =+=+=

−−


Suponha agora que as variáveis tem uma correlação moderada, isto é,

rx1,x2 = 0,50. A distância de Mahalanobis, que leva em conta a correlação é dada por:

Correlação

⎥⎥

⎦

⎤

⎢⎢

⎣

⎡−

−+

−−

=−−

ssx(x(

s)x(

s)x(

rD

21

2i1i22

2

21

2

22

)x)xr2x22ix11i1

1 21


Prasanta ChandraMahalanobis (1893 - 1972).• Fundou do ISI (Instituto de Estatística Indiano).• Lançou o periódico Sankhiana área de Estatística.• Criou o conceito de amostra piloto.

Mahalanobis


Note que se a correlação é positiva

então a distância é reduzida de uma

quantidade equivalente ao terceiro termo nos

colchetes. Isso ocorre porque as distâncias ao

longo da segunda dimensão (da segunda

variável) podem ser previstas pela correlação

com a outra variável.


Nesse caso, a distância do ponto(2, 3) para (4, 6) supondo uma

correlação de 0,50 é:

Exemplo:

13,010.6

)63)(42(5,0.2100361

1 )63()42(5,0

D22

22 =

⎥⎥⎦

⎤

⎢⎢⎣

⎡ −−−+

−=

−−


Se a correlação é forte (por exemplo: 0,71, então a distância de

Mahalanobis é ainda menor:

12,010.6

)63)(42(71,0.2100361

1 )63()42(71,0

D22

22 =

⎥⎥⎦

⎤

⎢⎢⎣

⎡ −−−+

−=

−−


Por outro lado se a correlação énegativa, então a distância será maior do que quando as variáveis não forem

correlacionadas. Suponha que a correlação seja -0,5, então:

40,010.6

)63)(42)(5,0.(2100361

1 )63()42(5,0

D22

22 =

⎥⎥⎦

⎤

⎢⎢⎣

⎡ −−−−+

−=

−−


Qualquer distância entre os pontos P e Q será válida desde que satisfaça as seguintes propriedades: d(P, Q) = d (Q , P)

d(P, Q) > 0 se P ≠ Q

d(P, Q) = 0 se P = Q

d(P, Q) ≤ d(P, R) + d(R, Q)

(Desigualdade triangular)

Propriedades

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

ℜ é o conjunto dos reais;

ℜn é o conjunto dos vetoresn-dimensionais reais;

Os vetores em ℜn são colunas ao menos que seja estabelecido o contrário;

Para qualquer x ∈ ℜn, x’ é o vetor transposto de x, isto é o vetor linha n-dimensional;

Vetores


O produto interno (inner product) de dois

vetores x, y ∈ ℜn é definido por: .

Quaisquer dois vetores x, y ∈ ℜn

satisfazendo x’y = 0 são ditos ortogonais.

Módulo de um vetor

yxx i

n

iiy ∑

==

1

'

. '. || xxx =

x...xx 2n

22

21 +++=

Módulo e Produto Interno

|x|


Cálculo do ângulo θ entre dois vetores x e y.

x’ = [x1, x2]

y’ = [y1, y2]y2

y1x1

x2

x

θ

y

θ2θ1

Ângulo entre dois Vetores


Pela figura pode-se ver que o ângulo θ pode ser representado pela diferença entre os ângulos θ1 e θ2 formados pelos dois vetores e o primeiro eixo coordenado. Assim:

||)(

||)(

||)(

||)cos(

22

21

12

11

ysen e

xsen

yosc e

xyx

yx

==

==

θθ

θθ


Então:)(sen)(sen)cos()cos()cos()cos( 121212 θθθθθθ +=−=θ

Substituindo vem:

|y||x|y'x

|y||x|

|y||y||x||y|)cos()cos(

yxyx

xyxy

2211

221112

=+

=

=⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

⎛+⎟⎟

⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

⎛=−=θ θθ


Seja V = {v1, v2, ..., vn} um conjunto de

vetores com a mesma dimensão.

Uma Combinação Linear (CL) dos vetores

em V é qualquer vetor v da forma:

v = c1v1 + c2v2 + ... + cnvn

onde c1, c2, ..., cn são escalares arbitrários.

Dependência e Independência Linear


Um conjunto V de n vetores m-

dimensionais é linearmente

independente se a única CL de vetores

em V que iguala a zero é a combinação

trivial, isto é, se: c1 = c2 = ... = cn = 0.


Um conjunto V de n vetores m-

dimensionais é linearmente

dependente se existe uma CL de

vetores não trivial em V que iguala a

zero.


(i) Dois vetores LD (ii) Dois vetores LI

x

v1 = (1, 1) = ABv2 = (2, 2) = AC

y

1 2 3

1

2

v1v2

A

B

C

x

v2 = (1, 1)v1 = (1, 0)

y

1 2 3

1

2

v1

v2

A


Para qualquer matriz A, a notação aij indica o elemento da linha “i” e coluna “j”.

Para duas matrizes A e B de dimensões compatíveis (AB)’ = B’A’

Se A é uma matriz quadrada diremos que A é simétrica se A’ = A.

Matrizes


A notação A’ significa a Transposta de A

que é obtida trocando as linhas pelas

colunas. Assim se uma matriz A tem

dimensões r x s então A’ terá dimensões s x r.


Uma matriz A é diagonal se aij = 0 sempre que i ≠ j. Ela é uma triangular inferior se aij = 0 para i < j. Ela é triangular superior se sua transposta for triangular inferior.

In representa a matriz identidade e det(A) representa o determinante de A.

Matrizes Especiais


O traço de uma matriz quadrada A de ordem “n” é a soma dos termos da diagonal principal.

Traço(A) = a11 + a22 + ... + ann

Traço de uma Matriz


Duas matrizes A e B podem ser adicionadas, subtraídas, multiplicadas e multiplicadas por um escalar (número).

Para somar ou subtrair duas matrizes de mesma ordem, basta somar ou subtrair seus elementos.

Operações com Matrizes


Para multiplicar duas matrizes elas não precisam ser de mesma dimensão, no entanto o número de colunas em A (matriz à esquerda) deve ser igual ao número de linhas em B (matriz àdireita). Assim uma matriz nxk só pode ser multiplicada por uma matriz kxp.


A matriz produto AB é formada por todos os elementos obtidos tomando o produto interno de cada linha de A com cada coluna de B.

A matriz produto AnxkBkxp é a matriz Cnxp cujo elemento da i-ésima linha e j-ésimacoluna é o produto interno da i-ésima linha de A pela j-ésima coluna de B.


Assim se quisermos multiplicar

Anxk por Bkxp então o resultado cij da

matriz produto Cnxp é dado por:

cij = ai1b1j + ai2b2j + ... + aikbkj = ba lj

k

1lil∑

=


Convém lembrar que a multiplicação de

matrizes não é comutativa, assim AxB ≠ BA.

No entanto, a multiplicação de matrizes é

associativa, isto é, (AB)C = A(BC).

Para multiplicar uma matriz por um

escalar (número) multiplica-se cada elemento

da matriz por esse número.Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Associado a qualquer matriz quadradaA existe um número denominado de determinante de A (abreviado por det(A) ou |A|).

Assim se A = [a11] é uma matriz de ordem 1x1, então o determinante de A édefinido como |a11| = a11.

Determinante


Antes de calcular o determinante de

matrizes de ordem mais alta é necessário

definir o conceito de menor de uma matriz.

Se A é uma matriz de ordem mxn então

para quaisquer dois valores i, j ≤ m, o Mij

menor de A é a submatriz obtida de A

eliminando-se a linha i e a coluna j.Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Seja A uma matriz mxm com m > 2 então

o determinante de A é dado por:

|A| = (-1)i+1ai1|Mi1| + (-1)i+2ai2|Mi2| + ... +

(-1)i+maim|Mim| =

Essa fórmula é denominada de expansão

do det(A) pelos cofatores da linha i.

)1(Ma 1i1i

m

1i1i || −∑ +

=


Para uma matriz

2x2⎥⎦

⎤⎢⎣

⎡=

aaaa

A2221

1211

O determinante é dado por: det(A) =

= a11a22 – a12a21


Calcular o determinante pela expansão

dos cofatores da seguinte matriz:

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

987654321

Exemplo:


O determinante é:

09123)3532(3)4236(2)4845(

8754

.3.)1(9764

.2.)1(9865

.1.)1(987654321

432

=−+−=−+−−−=

=−+−+−=

Solução:


O determinante de uma matriz

representa a variância generalizada das

várias variáveis. Isto é, ele caracteriza

em um único valor quanta

variabilidade existe em um conjunto de

variáveis.


Dada uma matriz A de ordem nxn a

matriz B de mesma ordem é a Inversa de A

se e somente se: AB = BA = In.

In é a matriz identidade de ordem n. A

matriz B é representada por A-1. A inversão

de matrizes corresponde a operação de

divisão com números.

Definição:


Os autovalores (raízes características)

de uma matriz quadrada A são as soluções

da seguinte equação:

|A – λI| = 0.

A matriz A terá p raízes, algumas das

quais poderão ser iguais a zero.

Autovalores (Eingenvalues)


Determinar os autovalores da matriz:

Exemplo:

⎥⎦

⎤⎢⎣

⎡=

2113

A

Para tal devemos resolver a equação:

|A – λI| = 0


Mas

Exemplo:

⎥⎦

⎤⎢⎣

⎡λ−

λ−=⎥

⎦

⎤⎢⎣

⎡λ−⎥

⎦

⎤⎢⎣

⎡=λ−

2113

1001

2113

IA

Assim devemos resolver o seguinte determinante:

055021

13 2 =+λ−⇒=λ−

λ−λ


Propriedade:

A soma dos autovalores de uma matriz é igual ao Traço da matriz.

O traço é utilizado nos testes multivariados.

Assim Traço(A) = λ1 + λ2 + ... + λn


Matriz das Variâncias e Covariâncias

Vamos ilustrar a obtenção da

matriz das variâncias e covariâncias

de um conjunto de variáveis por

meio de um exemplo.


Considere o seguinte conjunto de valores:

72

43

11

X2X1

4 e 2 xx 21 ==


Primeiro considere a matriz Xd dos desvios, isto é, o quanto cada valor de cada uma das variáveis difere da média da própria variável:

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡ −−=

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡−

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡=

3 0 0 1 31

424242

724311

X X

Xd


Agora transpomos a matriz Xd, obtendo:

⎥⎦

⎤⎢⎣

⎡−−

=303011

X'd

Podemos obter agora a matriz, denominada de: soma dos quadrados e produtos cruzados (SSCP), fazendo o produto de Xd por .X'

d


Os elementos da diagonal serão as somas dos quadrados:

ss1 = (-1)2 + 12 + 02 = 2

ss2 = (-3)2 + 02 + 32 = 18

⎥⎦

⎤⎢⎣

⎡=

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡ −−

⎥⎦

⎤⎢⎣

⎡−−

=ssssssss

XX

221

121

d'd

300131

303011

SSCP


Note que esses valores são os numeradores das variâncias das variáveis, uma vez que a variância da variável é:

nii )xx(s

22 ∑ −=

A soma dos desvios dos produtos cruzados para as duas variáveis é:

ss12 = ss21 = (-1)(-3) + 1.0 + 0.3 = 3.Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Esse resultado é justo o numerador da

covariância para as duas variáveis, uma vez

que a covariância é dada por:

n))( xx(xx

s 22i11i12

∑ −−=

Esses resultados são estimadores

tendenciosos. Para obter um não tendencioso é

só multiplicar por: n/(n – 1)


Finalmente a matriz das variâncias e covariâncias S é obtida da SSCP multiplicando-a por pela constante: 1/n ou 1/(n - 1). Assim:

S = SSCP/(n – 1)

⎥⎦

⎤⎢⎣

⎡=⎥

⎦

⎤⎢⎣

⎡=

95,15,11

18332

21S


Dados multivariadas surgem sempre que

se procura investigar e entender fenômenos de

natureza social ou física. Se for selecionado

um número p ≥ 1 de variáveis ou características

então os valores dessas variáveis são

registrados para cada item, indivíduo ou

unidade experimental.

Notação


A representação xjk indica um um valor

particular da k-ésima variável que foi

observada no j-ésimo item ou experimento,

isto é, xjk = medida da k-ésima variável no

j-ésimo item.

Assim n medidas de p variáveis serão

apresentadas como:Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

A média aritmética de cada uma das variáveis é dada por:

p..., 2, 1, k n1 n

1jjkk xx == ∑

=

A variância é dada por:

p..., 2, 1, k kjkn1 n

1j

22k )xx(s == ∑ −

=


A covariância da amostra é dada por:

p..., 2, 1, k

p ..., 2, 1,i ))((n1 n

1jkjkijiik xxxxs

=

=−−= ∑=

Ela mede a associação entre ai-ésima e a k-ésima variável. Note que se i = k, então a covariância fica igual a variância e que sik = ski.


Uma última medida descritiva é o Coeficiente de Correlação de Pearson, que mede a associação linear entre duas variáveis e não depende das unidades de medida utilizadas.

p..., 2, 1, k

p ..., 2, 1,i

kjkiji

))((

n

1j

n

1j

22

n

1jkjkiji

kkii

ikik

)xx()xx(

xxxx

sssr

=

=

−−

==

∑ ∑ −−

∑

= =

=


Representação

xnp

...

X2p

X1p

p

Sujeitos ...xn3Xn2Xn1n

...............

...x23x22x212

...x13x12x111

...321

Variáveis


⎥⎥⎥⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢⎢⎢⎢

⎣

⎡

=

xxxx

xxxx

xxxxxxxx

npnk2n1n

jpjk2j1j

p2k22221

p1k11211

......

.........

......

......

......

MMM

MOMOMMX

Pode-se representar os escores de n

sujeitos (participantes) em p variáveis por

uma matriz nxp da seguinte forma:


Essas medidas podem ser organizadas na forma matricial da seguinte maneira:

⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢

⎣

⎡

=

x

xx

p

2

1

... SSCP

⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢

⎣

⎡

=

sss

ssssss

pp2p1p

p22221

p11211

...

...

...

MOMM

x


A matriz das variâncias-covariâncias não viciada é dada por:

)'X)(X(1-n

1

...

...

...

1-n

1 1n

SSCPS

XX

sss

ssssss

jn

1jj

pp2p1p

p22221

p11211

−−=

=

⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢

⎣

⎡

=−

=

∑=

MOMM

))((1-n

1xxxxs kjki

n

1jjiik −−= ∑

=

Um elemento dessa matriz é dado por:


Com uma única variável a variância amostral é utilizada para descrever a quantidade de variação dos valores daquela variável. Quando p variáveis são observadas a variação é descrita pela matriz das variâncias-covariâncias. Ela contém p variâncias e 0,5(p – 1) covariâncias potencialmente diferentes.


Algumas vezes é desejável atribuir um

único valor para a variação expressa por S.

Uma escolha é o valor do determinante de S,

que se reduz a variância usual quando p = 1.

Esse determinante é denominado de

Variância Amostral Generalizada: |S|.

Variância Generalizada


Pode ser mostrado que a Variância Amostral

Generalizada: |S|= (volume)2/(n – 1)p para um

dado conjunto de dados. Isto é, ela é

proporcional ao volume ao quadrado gerado

pelos desvios dos “p” vetores (variáveis) em

relação as suas médias (di = yi - ). xi

Interpretação


A variância generalizada é afetada pela

variabilidade das medidas de uma única

variável. Nesse caso é útil substituir os

valores das variáveis originais pelos seus

valores padronizados:

sxx

zkk

kjkjk

−=


R

A matriz das variâncias-covariâncias

das variáveis padronizadas será então R, a

matriz de correlações amostral das

variáveis originais.

⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢

⎣

⎡

=

1...

...1

...1

rr

rrrr

2p1p

p221

p112

MOMM


Define-se: Variância Generalizada das

Variáveis Padronizadas |R|.

As quantidades |S| e |R| estão

relacionadas da seguinte forma:

|S| = (s11s22...spp)|R|

Ou (n – 1)p|S| = (n – 1)p|R|


Assim o volume ao quadrado (n - 1)p|S|

é proporcional ao volume ao quadrado

(n – 1)p|R|. A constante de

proporcionalidade é o produto das variâncias.

Como |R| é padronizado ele não é

afetado por mudanças de escala.


GRIM, Laurence G., YARNOLD, Paul R. (Ed.) Reading and Understanding More Multivariate Statistics. Whashington (DC): American Psychological Association, 2000.

HARMAN, Harry H. Modern Factor Analysis. Chicago: The University of Chicago Press, 1970.

Referências:


JOHNSON, Richard A., WICHERN, Dean W. Applied Multivariate Statistical Analysis. Upper Saddle River (NJ): Prentice Hall, 1998.

KACHIGAN, Sam Kash. Statistical Analysis: An Interdisciplinary Introduction to Univariate & Multivariate Methods. NewYork (NY): 1986.


MANLY, Bryan F. J. Métodos Estatísticos Multivariados: uma introdução. Porto Alegre: Artmed, 2008. 3ª ed.

STEVENS, James. Applied MultivariateStatistics for The Social Sciences. Mahwah(NJ): Lawrence Erlbaum Assocates, 1996. Third Edition.

estatística multivariada pré-requisitos -...

Documents