apostila sas

Upload: milton-perceus-melo

Post on 08-Jul-2015

467 views

Category:

Documents


1 download

TRANSCRIPT

MINISTRIO DE EDUCAO E DESPORTOS UNIVERSIDADE FEDERAL DE SANTA MARIA CENTRO DE CINCIAS NATURAIS E EXATAS DEPARTAMENTO DE ESTATSTICA LABORATRIO - S.A.S.

TREINAMENTO SISTEMA - S.A.S.Prof. Dr. Luis Felipe Lopes

SANTA MARIA RS 2006

SUMRIO 1 INTRODUO 2 LIMITAES 3 O QUE O SISTEMA SAS? 3.1 O SAS/BASE 3.2 Tpicos gerais 4 ARQUIVOS SAS 5 COMANDOS DE PROGRAMAO 5.1 Comandos de controle de arquivos 5.2 Comandos que lem e gravam arquivos de dados 5.3 Comandos que lem e gravam arquivos SAS 5.4 Comandos que atuam sobre valores de dados 5.5 Comandos de informao 5.6 Comandos que controlam o fluxo lgico de programao 6 PRINCIPAIS PROCEDURES PROCs 6.1 PROC SORT 6.2 PROC PRINT 6.3 PROC FORMAT 6.4 PROC FREQ 6.5 PROC MEANS 7 ESTATSTICAS DESCRITIVAS E TESTE PARA NORMALIDADE 7.1 Introduo 7.2 Testes de Normalidade (PROC UNIVARIATE) 8 ANLISE DE CORRELAO E REGRESSO 8.1 Introduo 8.2 Correlao de Pearson (PROC CORR) 8.3 Regresso (PROC REG) 8.4 Inferncia na regresso 8.5 Resduos 9 INFERNCIA ESTATSTICA 9.1 Testes para igualdade de duas medias (PROC TTEST) 9.2 Teste para dados pareados 10 MTODOS NO PARAMTRICOS 10.1 Testes para igualdade de duas medias (PROC NPAR1WAY) 1 1 1 2 3 3 3 4 6 10 13 15 17 20 20 21 22 23 24 27 27 27 32 32 33 39 41 41 55 54 59 64 64

Treinamento Sistema SAS

i

Prof. Luis Felipe Lopes

11 ANLISE DE VARINCIA 11.1 Dados balanceados (PROC ANOVA) 11.1.1 Experimento Completamente Casualizado 11.1.2 Experimento com Blocos Aleatorizados 11.1.3 Experimento com Quadrado Latino 12 EXERCCIOS RESOLVIDOS E COMENTADOS 13 EXEMPLO PRTICO 13.1 Banco de dados 13.2 Anlise dos dados

68 68 73 75 77 79 127 127 128

REFERNCIAS BIBLIOGRFICAS ANEXOS ANEXO 1 - ANLISE DE NORMALIDADE USANDO A TABELA DE ASSIMENTRIA E CURTOSE - Skewness and Kurtosis

139 140

141

Treinamento Sistema SAS

ii

Prof. Luis Felipe Lopes

TREINAMENTO SISTEMA - S.A.S. Statistical Analisys System

1 INTRODUO

O Objetivo deste Curso ajudar o usurio a conhecer os comandos bsicos do Sistema SAS de modo que possa obter as respostas a problemas prticos de uma maneira rpida e objetiva.

2 LIMITAES

Este curso apenas uma introduo ao SAS, contendo uma pequena frao de informao que voc encontrar no SAS USERS GUIDE: BASIC e SAS USERS GUIDE STATISTICS.

3 O QUE O SISTEMA SAS ?

um sistema de aplicao integrada, que consiste em vrios produtos que tem por funo: acesso, gerenciamento, anlise estatstica e apresentao de dados, somada a uma linguagem poderosa de programao e gerao de relatrios.

Acesso

Gerenciamento

DADOS Apresentao Anlise

Acesso aos dados - o sistema SAS possui ferramentas para acessar os bancos de dados mais populares, tratando as suas tabelas, como arquivo SAS. Gerenciamento de dados - com o SAS possvel editar, selecionar, ordenar, concatenar e margear os arquivos.

Treinamento Sistema SAS

1

Prof. Luis Felipe Lopes

Anlise de dados - o SAS possui rotinas estatsticas para anlises de regresso, anlise de varincia, de componentes principais, discriminante, modelos lineares, anlise fatorial, previses, controle de qualidade, clculos matriciais, etc. . Apresentao de informaes - a gerao de relatrios fcil e flexvel. Eles podem ser listados, tabulados e grficos. O SAS por ser um sistema integrado, ele composto por mdulos para comercializao. Principais mdulos: SAS/BASE contm uma linguagem de Quarta gerao, com procedimentos para estatstica bsica e grficos de baixa resoluo. SAS/STAT este mdulo composto de procedimentos para estatstica avanada, como anlise de varincia, anlise de regresso, multivariada, fatorial, discriminante, outras. SAS/GRAPH gera grficos de alta resoluo: barras verticais ou horizontais, setoriais, cartesianos, mapas e superfcies tridimensionais. SAS/ETS ferramenta de previso e anlise de sries temporais. SAS/OR Procedimentos para Pesquisa Operacional, programao linear, gerenciamento de projetos e apoio tomada de decises. SAS/IML linguagem para operao com matrizes. SAS/QC ferramenta para controle estatstico de qualidade e delineamentos experimentais. Existem outros mdulos, mas que no so de interesse para a estatstica.

3.1 O SAS/BASE o instrumento principal do Sistema SAS. Ele permite ao usurios: - Criar, montar e acessar qualquer tipo de dado; - Produzir relatrios e grficos simples; - Atualizar estatisticamente os dados; - Utilizar a linguagem de programao SAS.

Treinamento Sistema SAS

2

Prof. Luis Felipe Lopes

3.2 Tpicos gerais - Todo os comandos do SAS terminam em (;). - Os comandos iniciam e terminam em qualquer posio. - Vrios comandos poder estar numa mesma linha. - Um comando poder ser escrito em vrias linhas. - Palavras sero separadas por um mais espaos. - O comando INPUT obrigatrio no interessando onde os dados esto armazenados. - Arquivos SAS so armazenados em tabelas retangulares. - Referenciam-se arquivos e variveis pelos nomes. - Nomes de arquivos ou variveis poder ter no mximo 8 caracteres, iniciando obrigatoriamente por letras (A-Z), podendo ter associado nmero e/ou caracteres especiais com ( - quebra). 4 ARQUIVO SAS Um arquivo SAS uma coleo de valores de dados arrumados em uma tabela retangular. Ex.: Variveis OBSERVAES . . CULTURA arroz feijo soja ALTURA1 0.35 0.25 0.15 ALTURA2 0.39 0.30 0.17

As colunas da tabela so chamadas de VARIVEIS - Variveis corresponde a campos de dados. - Cada varivel tem um nome. - H trs tipos de variveis: caracter, numrica e data. As linhas so chamadas de OBSERVAES - No h limite para o nmero de observaes. 5 COMANDOS DE PROGRAMAO Os seguintes comandos so bsicos para a programao em SAS: - Comandos de controle de arquivos. - DATA - CARDS Treinamento Sistema SAS - INFILE - FILE 3 Prof. Luis Felipe Lopes

- Comandos que lem e gravam arquivos de dados. - INPUT - PUT - LIST - Comandos que lem e gravam arquivos SAS. - SET - MERGE - UPDATE - OUTPUT - Comandos que atuam sobre valores de dados. - FUNES e EXPRESSES - Comandos de informao. - DROP - RENAME - LABEL - FORMAT - TITLE - Comandos que controlam o fluxo lgico de programao. - IF (THEN / ELSE) - DELETE

5.1 Comando de controle de arquivos

- DATA O primeiro comando em um programa SAS, geralmente um DATA. O comando DATA diz ao SAS que se quer criar um arquivo SAS. Voc poder escolher qualquer nome para esse arquivo, desde que tenha at 8 caracteres ou menos e comece por uma letra (A-Z).

Ex.:

DATA TESTE; INPUT . . . . .

Treinamento Sistema SAS

4

Prof. Luis Felipe Lopes

A palavra TESTE o nome do arquivo SAS. Se o nome for omitido pelo usurio, o SAS se encarrega de nome-lo. Dando o nome de DATAn (n nmero de DATAS criados). O comando DATA pode aparecer em outros lugares dentro do arquivo SAS quando se quer fazer referncias a outros arquivos. - CARDS um comando dado logo aps o comando DATA. O comando CARDS indica ao SAS que os registros de dados seguem imediatamente abaixo no texto at o ponto e virgula ; do ltimo dado.

Ex.:

DATA A1; INPUT IDADE 12 ALTURA 5-8 1 PESO 1014 1; CARDS; 21 180 75.2 18 170 65.3 25 175 80.3 : : : : : : ;

- INFILE Tambm vem a ser um comando logo aps o comando DATA, s que os valores de dados esto em disco (na forma de arquivo), logo deve-se incluir o comando INFILE. Ele deve conter um nome com no mximo 8 caracteres e dever ser lido com o cdigo ASCII. Caractersticas do INFILE: Aponta ao SAS para fazer a leitura num arquivo externo, onde os dados esto armazenados. Os dados esto armazenados em disco no arquivo chamado ARQUIVO.

Ex.:

DATA A1; INFILE ARQUIVO DADOS; INPUT NOME $10. @30 NOTA1 30 32 1 NOTA2 33 35 1 MEDIA 37 39 1; PROC PRINT;

Treinamento Sistema SAS

5

Prof. Luis Felipe Lopes

Obs.: Este dois comandos CARDS e INFILE especificam de onde sero lidos os dados. O INFILE indica que sero lidos de um arquivo externo (banco de dados ASCII) e o CARDS indica que os dados esto no programa logo abaixo deste comando.

5.2 Comandos que lem e gravam arquivos de dados

- INPUT A funo do comando INPUT descrever para o sistema SAS como so, quais os nomes, e em que posio se encontra as VARIVEIS no arquivo de dados. O comando INPUT geralmente segue o comando DATA.

Ex.:

DATA TESTE; INPUT A 1-3

Y

5-6;

Obs.: Lembre-se das regras para nomes (no mximo 8 caracteres). a) Tipos de INPUT a.1) INPUT COLUNADO Especifica onde encontrar os valores pela posio da coluna.

Ex.:

INPUT NOME $ 18 SEXO $ 10 IDADE 12-13 ALTURA 1519 PESO 2126; As posies dos campos so fixas. O $ usado para indicar varivel alfanumrica.

Restries:

Caractersticas do INPUT COLUNADO: Os campos (variveis) podem ser lidos em qualquer ordem.

Ex.:

INPUT SEXO $ 10 IDADE 1213 NOME $ 18 PESO 2126 ALTURA 1519;

Treinamento Sistema SAS

6

Prof. Luis Felipe Lopes

Campos em brancos so considerados no informados. (posies 9, 11, 14, 20). Caracteres em branco s sero permitidos em variveis alfanumricas. Ex.: JOSE CARLOS Campos ou partes de campos podem ser relidos como uma nova varivel; Ex.: INPUT NOME $ 1-8 ININOME $ 1;

Valores numricos podem aparecer em qualquer posio do campo, podendo ser especificado sinais decimais ou ponto decimais. Ex.: INPUT PESO $ 16; C A M P O S 3 4 2 5 2 5 5

1 1 2 3 4 5

2

5 2 . . .

6 5

2

5

Obs.: 1 - No se usa , (virgula) para separar a parte decimal e sim . (ponto). Ex.: linhas 2 e 4 2 - Um campo em branco dever ser representado por um . ponto (missing). Ex.: linha 5 a.2) INPUT LISTADO O SAS procura pelos campos brancos at encontrar um caracter, ento l o campo at o prximo branco. Forma geral INPUT lista de variveis; Ex.: INPUT SEXO $ IDADE NOME $ PESO ALTURA; Todo o campo (var.) deve ser especificado em ordem. Campos devem ser separados por brancos. No permitido campos em branco e sim . .

Restries:

Treinamento Sistema SAS

7

Prof. Luis Felipe Lopes

Ex.:

DATA CLASSE; INPUT NOME $ SEXO $ IDADE ALTURA PESO; CARDS;05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22

01

02

03

04

C J A P

A O N A

R L O S M 2 0 1 8 0 . 5 7 8 . 5 S E M 1 8 1 7 5 7 0 . 8 A F 1 7 1 6 5 . 6 6 2 . 5 U L A F 2 1 1 6 8 5 5 a.3) INPUT FORMATADO Especifica a posio e o tamanho do campo. Formato de Entrada: W W.d Largura do campo numrico Numrica com decimal

Controle de posio: @n +n01 02 03 04 05 06 07 08

Vai para a coluna n. Move a posio n posies.09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

J J A A

O O N N

S E S E L U I S A A P A U L A

M M F F

2 1 1 2

0 8 7 1

1 1 1 1

8 7 6 6

0 . 5 5 . 8

5 6

7 7 6 5

8 . 0 . 2 . 5

5 8 5

Ex.:

INFILE BANCO DADOS; INPUT NOME $ 9. @11 SEXO $ 1. +1 IDADE 2. +1 ALTURA 5. +1 PESO 4.;

Caractersticas do INPUT FORMATADO: Variveis e formatos de entrada podem ser agrupados separadamente com parnteses.

Ex.:

INPUT (JAN FEV MAR ABR MAI) (3. 3. 3. 3. 3.); ou INPUT (JAN FEV MAR ABR MAI) (3.);

Variveis numeradas podem ser usadas para abreviar diversas variveis relacionadas. Treinamento Sistema SAS 8 Prof. Luis Felipe Lopes

Ex.:

INPUT (MES1 MES2 MES3 MES4 MES5) (3.); ou INPUT (MES1-MES5) (3.);

a.4) MISTURANDO TIPOS DE INPUT Os trs tipos de INPUT vistos podem ser combinados (LISTADO, COLUNADO e FORMATADO) em um nico comando INPUT.

Ex.:

DATA CLASSE; INPUT NOME $ @11 SEXO $ 1. IDADE 13-14 ALTURA 1619 @21 PESO 5.;

a.5) OUTROS CONTROLADORES DE POSIO /e#01 02 03 04 05 06 07 08 09 10 11 12 13 14 15

1 2 3 4

J 1 J 1 A 1 A 1

O 8 O 7 N 6 N 6

S 0 S 5 A 5 A 8

E . E

M 5 L 7 U 7 6 U 5 8 I 0 2 L 5 . S . . A 5 M 8 F

2 1 1 2

0 8 7 1

.

6 P

5 F

A

Ex.:

DATA CLASSE; INPUT NOME $ 19 SEXO $ 11 @13 IDADE 2. / ALTURA 5. PESO 7-10; ou DATA CLASSE; INPUT NOME $ 19 SEXO $ 11 @13 IDADE 2. #2 ALTURA 1-5. PESO 7-10;

Obs.: 1 - Os campos podem ser lidos em qualquer ordem. A indicao # sempre preceder o nome da varivel, logo dispensa-se informar a prxima linha, ou seja, a partir da varivel altura as demais variveis o SAS entende que pertencem ao segundo carto do registro. 2 - Quando estivermos nos referindo a uma data devemos aps a varivel colocar sua formatao (DT_NASC DDMMYY8. ).

Treinamento Sistema SAS

9

Prof. Luis Felipe Lopes

5.3 Comandos que lem e gravam arquivos SAS

- SET O comando SET usado para transferir dados de um arquivo SAS existente para um novo arquivo SAS. Todas as variveis do arquivo SAS so passadas automaticamente para o novo arquivo SAS (a no ser que sejam direcionadas de outra maneira com comandos de programao). Novas variveis que se queira criar devem ser adicionadas com comandos de atribuio.

Ex.:

DATA NOVACLAS; SET CLASSES; ANO_NASC=91-IDADE; PROC PRINT DATA=NOVACLAS;

Obs.: No arquivo criado pelo comando SET possui uma varivel nova ANO_NASC. Como criamos uma varivel nova ao gerar o arquivo NOVACLAS, podemos tambm excluir variveis, com o comando DROP associado ao comando SET;

Ex.:

DATA NOVACLAS; SET CLASSES; DROP NOME SEXO; PROC PRINT DATA=NOVACLAS;

O campo (varivel) NOME atravs dessa varivel referenciada com o BY que far a juno dos dois arquivos num s. Obviamente que os dois arquivos devero estar em ordem por NOME.

Ex.:

DATA AMBOS; SET HOMENS MULHERES; BY NOME; PROC PRINT; TITLE RESULTADO DA CONCATENACAO;

Treinamento Sistema SAS

10

Prof. Luis Felipe Lopes

HOMENSOBS 1 2 3 4 DEPT 213 917 916 914 NOME Alvaro Otto Ricardo Vitor SEXO m m m m OBS 1 2 3

MULHERESDEPT 914 918 917 NOME Eliane Lorena Sonia SEXO f f f

Resultado da Concatenao (SET) HOMENS+MULHERESOBS 1 2 3 4 5 6 7 DEPT 213 914 918 917 916 917 914 NOME Alvaro Eliane Lorena Otto Ricardo Sonia Vitor SEXO m f f m m f m

Outra observao que se faz necessria para usar este comando com a finalidade de juntar (concatenando) dois ou mais arquivos, que a estrutura dos arquivos sejam idnticas, ou seja, com mesmas variveis. Podemos tambm selecionar observaes na criao de um novo arquivo com o comando IF - MERGE O comando MERGE usado para juntar observaes de dois ou mais arquivos, colocando os mesmos um ao lado do outro. Algumas consideraes: - At 50 arquivos pode ser mergeados em um procedimento. - Os arquivos de entrada devem estar ordenados pela varivel(eis) chaves se um comando BY utilizado. O arquivo resultante (sada) conter todas as variveis presentes nos arquivos de entrada a menos que o comando DROP ou qualquer outro de seleo tenha sido utilizado.

-

Treinamento Sistema SAS

11

Prof. Luis Felipe Lopes

Ex.:

DATA JUNTA; MERGE GERAL SALARIO; PROC PRINT; TITLE ARQUIVO MERGEADO;

GERALOBS 1 2 3 4 5 DEPT 917 918 917 914 916 NOME Sonia Alvaro Otto Eliane Lorena SEXO f m m f f OBS 1 2 3 4 5 NOME Sonia Alvaro Otto Eliane Lorena

SALRIOSAL_LIQ 169.10 223.00 329.05 650.70 380.95 SAL_BRU 279.10 310.05 410.75 715.12 470.30

MERGEADOOBS 1 2 3 4 5 DEPT 917 918 917 914 916 NOME Sonia Alvaro Otto Eliane Lorena SEXO f m m f f SAL_LIQ 169.10 223.00 329.05 650.70 380.95 SAL_BRU 279.10 310.05 410.75 715.12 470.30

Obs.: O comando BY no foi necessrio ao mergear os arquivos porque a chave principal NOME nos dois arquivos esto na mesma ordem. Se no estivessem o comando BY seria necessrio, assim como teramos que classificar os arquivos atravs do comando SORT. - OUTPUT O comando OUTPUT pode ser usado para: Criar duas ou mais observaes para cada linha de entrada. Combinar diversas observaes a partir de uma nica observao. Criar um arquivo SAS sem nenhum dado de entrada.

Treinamento Sistema SAS

12

Prof. Luis Felipe Lopes

Ex.: Criando quatro observaes SAS de cada linha de entrada

DATA RECEITA; INPUT ANO TRIM1 TRIM2 TRIMESTRE=1; VENDAS=TRIM1; TRIMESTRE=2; VENDAS=TRIM2; TRIMESTRE=3; VENDAS=TRIM3; TRIMESTRE=4; VENDAS=TRIM4; CARDS; 1996 1.2 0.9 1.1 1.5 1997 1.7 1.9 2.4 2.5; PROC PRINT; TITLE RESULTADO DA EXECUCAO RUN;

TRIM3 TRIM4; OUTPUT; OUTPUT; OUTPUT; OUTPUT;

DO ARQUIVO RECEITA;

SADAANO 1996 1996 1996 1996 1997 1997 1997 1997 TRIM1 1.2 1.2 1.2 1.2 1.7 1.7 1.7 1.7 TRIM2 0.9 0.9 0.9 0.9 1.9 1.9 1.9 1.9 TRIM3 1.1 1.1 1.1 1.1 2.4 2.4 2.4 2.4 TRIM4 1.5 1.5 1.5 1.5 2.5 2.5 2.5 2.5 TRIMESTRE 1 2 3 4 1 2 3 4 VENDAS 1.2 0.9 1.1 1.5 1.7 1.9 2.4 2.5

5.4 Comandos que atuam sobre valores de dados

- Criando variveis Quando se cria nova varivel, se est adicionando um novo grupo de valores de dados ao arquivo. Por exemplo, supondo que temos um arquivo com as seguintes variveis: ALUNO NOTA1 NOTA2 NOTA3 se quisermos criar uma nova varivel chamada MEDIA devemos: MEDIA = (NOTA1 + NOTA2 + NOTA3)/3; Este comando informa para o SAS: O sinal = significa atribua ao valor da esquerda o que se refere esquerda. Para cada observao (linha) do arquivo, some as trs notas (variveis) e divida por 3; 13 Treinamento Sistema SAS Prof. Luis Felipe Lopes

De o nome ao resultado obtido de MEDIA (nova varivel). Obs.: As demais variveis continuam disponveis para posteriores clculos. - Funes e expresses Operaes aritmticas mais conhecidas: SMBOLO ]] ] / + OPERAO exponenciao multiplicao diviso adio subtrao EXEMPLO Y = X2 A=BxC A=H/I R=S+T X=Z-W NO SAS Y = X ** 2 A=B*C A=H/I R=S+T X=Z-W

Outras funes numricas: FUNO ABS SQRT COS SIN ARCOS LOG LOG10 SUM MEAN VAR MIN MAX STD ROUD O que faz Valor absoluto Raiz quadrada Cosseno Seno Arcosseno Logaritmo neperiano (base e) Logaritmo base 10 Soma Mdia aritmtica Varincia Valor mnimo Valor mximo Desvio padro Valor arredondado

Ex.:

X = 326.25; Y = ROUND (X); RESULTADO Y = 327 (no est nas normas brasileiras) Z = MIN (Y); Z = MIN (of L Y); W = SQRT (A + B/C); K = MEAN (IDADE); K = MEAN (of V1 V7); SOMA= SUM (of V1 V10);

5.5 Comandos de Informao Treinamento Sistema SAS 14 Prof. Luis Felipe Lopes

- DROP O comando DROP exclui a varivel ou variveis indicadas, da anlise em questo; O comando DROP vlido no DATA e nas PROCs. No um comando executvel, fornece a informao ao SAS quando o comando compilado. O comando DROP poder ser escrito em qualquer posio. Ex.: DROP IDADE SEXO; O comando DROP retira a varivel, portanto, todos os valores de IDADE e SEXO so desconsiderados (coluna). - TITLE O comando TITLE define cabealhos a serem impressos no topo das pginas de sada. At dez ttulos podero ser especificados. Forma Geral TITLEn t i t u n = nmero da linhas do ttulo. Ex.: TITLE1 Levantamento Scio-econmico; TITLE2 da; TITLE3 Populacao Periferica de Santa Maria; - FOOTNOTE Define o texto a ser impresso no rodap das pginas de sada. A sintaxe a mesma do comando TITLE. Ex.: FOOTNOTE Departamento de Estatstica - UFSM; - LABEL O comando LABEL usado para atribuir rtulos (nomes) descritivos de at 40 caracteres. Rtulos podem ser atribudos temporariamente para a durao de apenas um processamento, ou permanente definido no primeiro DATA. l o;

Treinamento Sistema SAS

15

Prof. Luis Felipe Lopes

Ex1.:

DATA CLASSES; INPUT NOME $ 8. SEXO $ 11 IDADE 13-14 ALT 13-19 PESO 21-25; CARDS; Linha de Dados; PROC MEANS; VAR ALT PESO; LABEL ALT=ALTURA EM POLEGADAS PESO=PESO EM LIBRAS; TITLE ESTATISTICAS DAS ALTURAS E DOS PESOS; RUN;

Ex2.:

DATA CLASSES; INPUT V1 V3; LABEL V1=NMERO DE ALUNOS V2=CURSO V3=SEXO; CARDS;

- COMMENT O comando COMMENT serve para documentar. Pode ser usado em qualquer parte do programa. Incio (/*) Fim (*/)

Ex.: DATA EMPREGO; INPUT NOME $ 1-8 DEPTO 10-12 SAL 19-23 VENDA 25-29; /* CALCULO DO INSS */ INPS = SAL * .12; IF DEPTO=201 THEN DO; DEPTO=VENDA; COM=VENDA*.10; /* CALCULO DO SALARIO BRUTO*/ SAL_BRUTO=COM+SAL; /* CALCULO DO DESCONTO */ DESC=INPS + SEG; /* CALCULO DO SALARIO LIQUIDO */ SAL_LIQ=SAL_BRUTO - DESC; END; CARDS; Obs.: Este comando tambm poder cancelar uma determinada operao temporariamente; Treinamento Sistema SAS 16 Prof. Luis Felipe Lopes

- FORMAT O comando FORMAT usado para especificar os formatos para valores dos dados. Os formatos podem ser definidos apenas para a apurao de uma procedure PROC.

Ex.: DATA CLASSE; INPUT NOME $ 8. SEXO 11 IDADE 13-14 ALTURA PESO; CARDS; ... ... ; PROC FORMAT; VALUE SEX 1 = MASCULINO; 2 = FEMININO; PROC PRINT; FORMAT SEXO SEX.; TITLE USANDO O COMANDO FORMAT; RUN;

5.6 Comandos que controlam o fluxo lgico de programao

- IF (THEN / ELSE) Algumas vezes necessita-se trabalhar com parte dos dados, no todos. Por exemplo suponhamos que se queira analisar somente o sexo masculino. O comando IF pode ser usado para esta seleo.

Ex.: DATA A1; INPUT NOME $ 1-8 SEXO $ 9 IDADE ALTURA PESO; IF SEXO=M; CARDS; Linha de Dados;

O SAS l cada observao e verifica se o SEXO M (masculino), caso contrrio nova observao ser lida. A condio IF poder ser Verdadeira (THEN) ou Falsa (ELSE). A condio IF tambm pode ser uma simples comparao de uma varivel ou valor. Treinamento Sistema SAS 17 Prof. Luis Felipe Lopes

Ex.: IF ALTURA < 172 THEN DELETE; IF PRETEST < TESTE ELSE RESULT=NO; THEN RESULT=SIM;

Principais operadores de comparao: Smbolo < > = Abreviatura LT LE GT GE EQ NE Comparao Menor que Menor que ou igual a Maior que Maior que ou igual a Igual Diferente

Principais operadores lgicos: Smbolo OR AND NOT Comparao Um ou outro E, ambos No, negao

A condio IF pode envolver comparaes de ANDs e de ORs.

Ex.: IF ESTADO=RS AND CIDADE=SANTA_MARIA THEN REGIAO=SUL; IF IDADE LT 13 AND ALTURA GT 162 OR PESO LE 50 THEN LIST; IF RESULT=68 THEN RESP=CERTO; ELSE RESP=ERRADO; Usando o comando IF com melhor aproveitamento: IF CODIGO=1 THEN RESPOSTA=BOM; ELSE IF CODIGO=2 THEN RESPOSTA=REGULAR; ELSE IF CODIGO=3 THEN RESPOSTA=RUIM; Uso do comando DO e END associado ao comando IF: Treinamento Sistema SAS 18 Prof. Luis Felipe Lopes

O comando DO especifica que todos os comandos entre ele e o comando END devem ser executados;

Ex.:

DATA EMPREGO; INPUT NOME $ 1-8 DEPTO 10-12 SAL 19-23 VENDA 25-29; INPS = SAL * .12; IF DEPTO=201 THEN DO; DEPTO=VENDA; COM=VENDA*.10; SAL_BRUTO=COM+SAL; SEG=SAL_BRUTO*.001; DESC=INPS + SEG; SAL_LIQ=SAL_BRUTO - DESC; END; ELSE DO; DPTO=ADMIN; SAL_LIQ=SAL - INPS; CARDS; Linha de Dados;

- DELETE Quando se quer descartar uma observao., por ela conter um valor no vlido para a anlise que se esta tratando usa-se o comando DELETE; Quando este comando carregado o SAS para de trabalhar na observao corrente, no adicionando ao arquivo SAS que esta sendo criado, e comea imediatamente na observao seguinte. O comando DELETE normalmente aparece com parte de um comando IF. Ex.: IF SEXO=F THEN DELETE; IF SEXO=F THEN IDADE LE 14 THEN DELETE;

O comando DELETE retira toda a observao do arquivo, logo aconselha-se coloc-lo dentro de uma rotina DATA SET; Ex.: DATA A1; SET A;

Treinamento Sistema SAS

19

Prof. Luis Felipe Lopes

6 PRINCIPAIS PROCEDURES - PROCs

6.1 PROC SORT

Funo: Quando se precisa ordenar os dados. A ordem das observaes no importa muito para o processamento estatstico, por exemplo para calcular a mdia da ALTURA dos alunos por SEXO, a ordem como esto as observaes no importa. Porm necessita-se LISTAR as observaes por SEXO, ou mesmo para juntar dois arquivos por MERGE ou por SET, as observaes tero que estar ordenadas (SORT). Por exemplo se quisermos combinar as informaes do estudo de ALTURA e PESO deste ano com as dos anos anteriores ambos os arquivos devero ser ordenados. A ordenao a arrumao das observaes de um arquivo em ordem determinada pelos valores de uma ou mais variveis indicados no comando BY (POR). Para ordenar-se um arquivo usa-se a procedure PROC SORT seguida do comando BY que indicar a varivel pela qual o arquivo ser ordenado.

Ex.:

PROC SORT DATA=TESTE; BY NOME;

Suponha que temos um arquivo chamado PESQUISA e que queremos orden-lo por ESTADO, depois por CIDADE dentro de cada estado e finalmente por NOME de cada cidade.

Ex.:

PROC SORT; BY PESQUISA; BY ESTADO CIDADE NOME;

Obs.: A ordenao vista at aqui foi feita em cima do prprio arquivo (PESQUISA). Se no desejar que isso acontea use o comando OUT.

Ex.:

PROC SORT; BY PESQUISA; OUT = NOVO; BY ESTADO CIDADE NOME;

Treinamento Sistema SAS

20

Prof. Luis Felipe Lopes

Os registros aps a ordenao estaro gravados no arquivo chamado NOVO e no arquivo PESQUISA continuam desordenados. Obs.: Existem outros tipos de rotinas de programao usando o PROC SORT, onde poderemos incluir outras PROCs dentro dela.

Ex.:

PROC SORT; BY SEXO; PROC FREQ; TABLES V1 V2 V3 /LIST; PROC UNIVARIATE; VAR V1 V2 V3; PROC COR; VAR V1; WITH V2 V3;

6.2 PROC PRINT

Este procedure serve para imprimir (listar) seus dados no relatrio. Ex.: Listar ALTURA e PESO dos homens separado das mulheres INPUT SEXO $ ALTURA PESO; CARDS; Linha de Dados; PROC PRINT; BY SEXO;

Obs.: 1 - Observar que ao usar o comando PROC PRINT, sem especificar o DATA, a impresso ser do ltimo DATA referenciado. 2 - O PROC PRINT imprime todos os dados, se for seguido do comando VAR imprimir somente as variveis selecionadas no comando VAR. Ex.: PROC PRINT DATA=TESTE; VAR NOME IDADE ALTURA;

3 O comando PROC PRINT poder listar em funo de um valor de uma determinada varivel Ex.: PROC PRINT DATA=TESTE; VAR NOME IDADE ALTURA; WHERE SEXO=M;

Treinamento Sistema SAS

21

Prof. Luis Felipe Lopes

6.3 PROC FORMAT

O procedimento FORMAT usado para criar formatos definidos pelos usurios. Comando usado no PROC FORMAT VALUE VALUE NOME VALOR = DESCRIO; O NOME obedece as mesmas regras usadas para variveis (8 caracteres), pois no deixa de ser uma nova varivel selecionada. A DESCRIO ter tamanho mximo de 40 caracteres e dever ser includa entre aspas ( ).

Ex.: PROC FORMAT; VALUE FAIXAS

LOW-12 = CRIANCA 13-19 = JOVEM 20-HIGH = ADULTO; F = FEMININO M = MASCULINO;

VALUE $SEX

Obs.:

LOW = Lowest (do menor valor) HIGH = Highest (ao maior valor)

Ex.: DATA A1; INPUT NOME $ SEXO $ IDADE ALTURA PESO; CARDS; Lista de Dados; ... ... PROC FORMAT; VALUE FAIXAS LOW-12 = CRIANCA 13-19 = JOVEM 20-HIGH = ADULTO; VALUE $SEX F = FEMININO M = MASCULINO; PROC PRINT; FORMAT IDADE FAIXAS. SEXO $SEX.; RUN;

Treinamento Sistema SAS

22

Prof. Luis Felipe Lopes

6.4 PROC FREQ

O procedimento FREQ ser til para variveis discretas e qualitativas. Para as variveis contnuas aconselha-se usar o PROC UNIVARIATE ou PROC MEANS, pois este tipo de varivel possui muitos valores diferentes. Outro benefcio que a tabela de freqncia ou tabulao cruzada oferece poder sumarizar variveis caracteres, porque somente variveis numricas podem ser sumarizadas por estatsticas como mdia e desvio padro. - Tabelas de Freqncia Simples Este tipo de tabela poder ajudar a sumarizao dos dados. Mostrar as distribuio dos valores das variveis, podendo-se verificar quantas observaes tem determinado valor. Por exemplo se queira saber quantos alunos tem idade 19 anos e assim por diante. Para obter as Tabelas de Freqncias Simples das variveis que interessam usa-se o comando TABLES com a relao das mesmas.

Ex.: PROC ou

FREQ; TABLES IDADE PESO ALTURA; IDADE PESO ALTURA /LIST;

PROC FREQ; TABLES

Podemos utilizar o comando FORMAT:

Ex.: PROC

FREQ; TABLES FORMAT TABLES FORMAT

IDADE /LIST; IDADE FAIXAS.; SEXO /LIST; SEXO SEXOV.;

Com o uso do comando FORMAT na tabela de freqncia para as variveis IDADE e SEXO teremos no relatrio a DESCRIO para cada valor. - Tabelas de Freqncia Cruzada A tabela de freqncia cruzada mostra a unio da distribuio de valores de duas ou mais variveis. Por exemplo, queremos saber quantas mulheres com 19 anos temos no arquivo estudado.

Treinamento Sistema SAS

23

Prof. Luis Felipe Lopes

Para obter-mos a resposta devemos cruzar as duas variveis: IDADE e SEXO.

Ex.: PROC ou PROC

FREQ; TABLES

IDADE*SEXO /LIST; IDADE*SEXO /LIST; IDADE FAIXAS. SEXO

FREQ; TABLES FORMAT

SEXOV.;

Aconselha-se usar o comando /LIST para facilitar a visualizao da tabela cruzada. Este comando tambm ser aconselhado quando quisermos cruzar mais de duas variveis.

Ex.: PROC

FREQ; TABLES SEXO*IDADE*PESO /LIST;

Ex.: DATA A1; INPUT NOME $ SEXO $ IDADE ALTURA PESO; CARDS; Lista de Dados; ... PROC FREQ; TABLES SEXO*(IDADE--PESO) /LIST /*(I at P)*/ TABLES SEXO*(IDADE PESO) /LIST /* (I e P)*/ RUN;

6.5 PROC MEANS

Suponhamos que no arquivo que se est estudando possua valores para a varivel PESO. Pode-se obter um quadro completo desses pesos pela simples listagem dos mesmos (PROC FREQ). Mas isso significa que teramos que olhar e analisar todos os valores. O PROC MEANS sumariza todos os valores para computar a mdia. Ento teremos como resultado um nico valor representativo para todo o grupo. O PROC MEANS fornece outras estatsticas como: - Nmero de Observaes - Mdia - Desvio Padro - Valor Mnimo e Mximo - Erro padro - Varincia - Coeficiente de variao

Treinamento Sistema SAS

24

Prof. Luis Felipe Lopes

Ex.: DATA A1; INPUT NOME $ SEXO $ IDADE ALTURA PESO; CARDS; Lista de Dados; PROC MEANS; VAR IDADE ALTURA PESO; RUN;

Usando o comando BY Podemos obter estatsticas sumarizadas por grupos de dados associados ao comando BY. Por exemplo queremos calcular as estatsticas para as mesmas variveis do exemplo acima s que por SEXO. Obs.: Antes de usar o comando BY para qualquer procedure SAS, o arquivo dever ser ordenado pelas variveis a serem usadas pelo comando BY.

Ex.: DATA A1; INPUT NOME $ SEXO $ IDADE ALTURA PESO; CARDS; Lista de Dados; PROC SORT; BY SEXO; PROC MEANS; BY SEXO; VAR IDADE ALTURA PESO; RUN;

Obs.: Valores no informados (representados por um ponto . ) no sero includos no clculo da PROC MEANS.

Treinamento Sistema SAS

25

Prof. Luis Felipe Lopes

SAS/STATPr requisito: Ter conhecimento de Estatstica Bsica. Ter conhecimento do SAS/BASIC; Objetivo: Este curso tem por objetivo expor alguns conceitos estatsticos e interpret-los atravs da utilizao de procedimentos do Sistema SAS. Os exemplos apresentados ilustram caractersticas da release 6.08 do SAS/STAT e orientam o usurio na sua programao quando seu interesse for: Obter estatsticas descritivas elementares; Desempenhar testes estatsticos de significncia para verificar a normalidade da distribuio de seus dados; Testar a igualdade de mdias entre grupos de observaes; Encontrar um modelo que explique o comportamento de seus dados e, atravs deste modelo, fazer previses e calcular intervalos de confiana para parmetros da populao em estudo. Analisar a variabilidade de uma srie de dados atravs do Mtodo de Anlise de Varincia (ANOVA), critrio de tomada de decises estatisticamente formulado para detectar qualquer diferena no desempenho mdio de um ensaio experimental. Os conceitos bsicos sero abordados a medida que os procedimentos forem sendo utilizados, assim como a interpretao das principais sadas.

Treinamento Sistema SAS

26

Prof. Luis Felipe Lopes

7 ESTATSTICA DESCRITIVA E TESTE DE NORMALIDADE 7.1 Introduo Depois que o usurio cria seu arquivo de dados ele pode desejar sumarizar estes dados atravs de medidas que descrevam seu comportamento. Estas medidas incluem parmetros de posio como mdias, modas, medianas, quartis e percentis, parmetros de disperso, como varincias, desvios padres, amplitude (range), e parmetros que auxiliam na descrio da forma dos dados, como assimetria e curtose (ver anexo 2). Nos problemas que envolvem a Estatstica Indutiva, os conjuntos de dados analisados so representados por amostras retiradas das populaes de interesse. Sendo as amostras aleatrias, todos os seus elementos fornecero valores aleatrios da varivel em anlise. Para caracterizar a distribuio dos diversos valores assumidos por uma varivel aleatria, o conceito de distribuio de probabilidades deve ser utilizado e estendido s populaes, ou seja, cada valor da amostra deve ser considerado como valor de uma varivel aleatria cuja distribuio de probabilidade a mesma da populao no instante da retirada desse elemento da amostra. Os valores calculados em funo dos elementos da amostra, denominam-se estatsticas. Se estas estatsticas forem utilizadas para inferir informaes a respeito de uma populao, elas so consideradas como variveis aleatrias, e tero, portanto uma distribuio de probabilidades, com uma mdia, uma varincia, etc. Muitos mtodos da anlise estatstica assumem que os dados da amostra provm de uma populao com distribuio normal. A distribuio normal tem uma definio matemtica precisa, com as seguintes caractersticas: - ser completamente definida por sua mdia e seu desvio padro. - ser uma distribuio simtrica, ou seja, sua mdia coincide com sua moda, que por sua vez coincide com sua mediana. - ser uma distribuio regular. Do seu ponto central mais alto at suas extremidades no existe padres irregulares. - ter curtose=0 (a curtose descreve o grau de achatamento de uma distribuio). 7.2 Teste de normalidade Nos testes de normalidade estabelecida a idia de que uma amostra provm de uma distribuio normal. Atravs da amostra uma estatstica calculada e testada para checar essa idia. Uma comparao feita entre a forma da distribuio da amostra, com a forma de uma distribuio normal. Se no for encontrada nenhuma evidncia para rejeitar a hiptese de normalidade, prossegue-se as anlises baseando-se na suposio de que os dados da amostra so normalmente distribudos (anlise paramtrica). Quando os dados no so gerados por uma distribuio normal, a anlise deve ser baseada em mtodos Treinamento Sistema SAS 27 Prof. Luis Felipe Lopes

no paramtricos. A distribuio normal simtrica, com os valores distribudos em forma de sino. Ao desempenhar um teste de hiptese tem-se sempre uma hiptese nula que descreve uma idia sobre a populao, e uma hiptese alternativa, que descreve uma idia alternativa sobre a populao. Nos testes para a normalidade, a hiptese nula que os dados da amostra so gerados por uma distribuio normal. A hiptese alternativa que eles so gerados por uma distribuio no normal. O mtodo utilizado para testar hipteses consiste num contedo de deciso onde a probabilidade de rejeitar a hiptese nula, sendo ela verdadeira (erro do tipo I), no excede um valor prfixado chamado de nvel de significncia do teste. Ao menor nvel de significncia para o qual a hiptese nula rejeitada denominamos probabilidade de significncia (p-valor). Se p-valor > h evidncias de que a hiptese nula verdadeira. A PROC UNIVARIATE utilizada para a obteno de estatsticas descritivas. Ela difere de outros procedimentos SAS por fornecer maiores detalhes das variveis, tais como plots das distribuies, tabelas de freqncia e testes estatsticos para a normalidade. FORMA GERAL: PROC UNIVARIATE DATA = arquivo de dados opes; VAR variveis; BY variveis; FREQ varivel; ID variveis; OUTPUT OUT = arquivo de dados palavra-chave = nomes; OPES DISPONVEIS: FREQ gera uma tabela de freqncia com valores de freqncia, percentagens e percentagens acumuladas. suprime toda a informao do OUTPUT. Esta opo utilizada geralmente na criao de um arquivo de dados de sada. desempenha um teste para a hiptese nula de que os dados provm de uma distribuio normal. Dependendo do tamanho da amostra, o teste utilizado ser baseado na estatstica de Shapiro-Wilk (N2000).

NOPRINT

NORMAL

Treinamento Sistema SAS

28

Prof. Luis Felipe Lopes

PLOT

produz plotes de probabilidade da distribuio normal e plotes em box que auxiliam na determinao da forma da distribuio dos dados investigados.

COMANDOS SELECIONADOS: VAR BY lista as variveis a serem sumarizadas no arquivo de dados. especifica subgrupos onde as estatsticas devem ser obtidas. Para usar este comando o arquivo j dever estar ordenado pela varivel de subgrupo . especifica variveis de freqncia. especifica as variveis que iro identificar os valores extremos. cria arquivo de sada que ir gravar as estatsticas geradas.

FREQ ID

OUTPUT OUT

Estatsticas reservadas utilizadas na criao de um arquivo de sada: N MEAN STDMEAN SUM STD NMISS VAR CV RANGE SKEWNESS Prob T KURTOSIS MEDIAN

Ex1.: Resultados obtidos de uma distribuio aproximadamente Normal. Para ilustrar, suponha que estejamos analisando uma amostra. No programa SAS abaixo, a idade de cada pessoa est sendo representada pela varivel IDADE, e sua identificao pela varivel IDENT.OPTIONS FORMDLIM='*' LS=80; DATA NORM A; /* EXEMPL01 SAS */ INPUT IDENT IDADE @@; CARDS; 1 72 2 69 3 75 4 71 5 71 6 73 7 70 8 67 9 71 10 72 11 73 12 68 13 69 14 70 15 70 16 71 17 74 18 72 ; PROC UNIVARIATE NORMAL PLOT FREQ; VAR IDADE; ID IDENT; RUN;

Treinamento Sistema SAS

29

Prof. Luis Felipe Lopes

ANLISE DOS RESULTADOS:Univariate Procedure Variable=IDADE Moments N Mean Std Dev Skewness USS CV T:Mean=0 Num ^= 0 M(Sign) Sgn Rank W:Normal 18 71 2.057983 0 90810 2.898568 146.3702 18 9 85.5 0.98356 Sum Wgts Sum Variance Kurtosis CSS Std Mean Pr>|T| Num > 0 Pr>=|M| Pr>=|S| Pr |R| under Ho: Rho=0 / N = 6 VELOC DIST

Treinamento Sistema SAS

36

Prof. Luis Felipe Lopes

VELOC DIST

1.00000 0.0 0.98268 0.0004

0.98268 0.0004 1.00000 0.0

O valor de 0.98268 mede o coeficiente de correlao entre as variveis VELOC e DIST. Um p-valor de 0.0004 indica uma forte evidncia que a correlao no nula. O p-valor a probabilidade de significncia para se testar a hiptese de que a verdadeira correlao da populao em questo zero. Ex3.: Determinar o coeficiente de correlao entre as alturas e os pesos de 300 homens nos EUA, constantes da seguinte tabela de freqncias: Altura (metros)P E S O (kg) 45 a 54.5 55 a 64.5 65 a 74.5 75 a 84.5 85 a 94.5 95 a 104.5 105 a 114.5 1.5 a 1.58 2 7 5 2 0 0 0 1.6 a 1.68 1 8 15 12 7 2 0 1.7 a 1.78 0 4 22 63 28 10 1 1.8 a 1.88 0 2 7 19 32 20 4 1.9 a 1.98 0 0 1 5 12 7 2

OPTIONS FORMDLIM='*' LS=80; DATA AGRUPA A; /* EXEMPL03 SAS */ DO MEDPES = 49.75 T0 109.75 BY 10; DO MEDALT = 1.54 TO 1.94 BY 0.10; INPUT N_OBS @@; OUTPUT; END; END; CARDS; 2 1 0 0 0 7 8 4 2 0 5 15 22 7 1 2 12 63 19 5 0 7 28 32 12 0 2 10 20 7 0 0 1 4 2; ; PROC PRINT; PROC CORR; VAR MEDPES MEDALT; FREQ N_OBS; TITLE 'CORRELACAO PARA DADOS AGRUPADOS'; RUN;

Treinamento Sistema SAS

37

Prof. Luis Felipe Lopes

ANLISE DOS RESULTADOS:OBS 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 MEDPES 49.75 49.75 49.75 49.75 49.75 59.75 59.75 59.75 59.75 59.75 69.75 69.75 69.75 69.75 69.75 79.75 79.75 79.75 79.75 79.75 89.75 89.75 89.75 89.75 89.75 99.75 99.75 99.75 99.75 99.75 109.75 109.75 109.75 109.75 109.75 MEDALT 1.54 1.64 1.74 1.84 1.94 1.54 1.64 1.74 1.84 1.94 1.54 1.64 1.74 1.84 1.94 1.54 1.64 1.74 1.84 1.94 1.54 1.64 1.74 1.84 1.94 1.54 1.64 1.74 1.84 1.94 1.54 1.64 1.74 1.84 1.94 N_OBS 2 1 0 0 0 7 8 4 2 0 5 15 22 7 1 2 12 63 19 5 0 7 28 32 12 0 2 10 20 7 0 0 1 4 2

CORRELACAO PARA DADOS AGRUPADOS Correlation Analysis 2 'VAR' Variables: MEDPES MEDALT

Simple Statistics Variable MEDPES MEDALT N 300 300 Mean 82.31667 1.76033 Std Dev 12.12031 0.09824 Sum 24695 528.10000 Minimum 49.75000 1.54000 Maximum 109.75000 1.94000

Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 300 / FREQ Var = N_OBS MEDPES MEDPES MEDALT 1.00000 0.0 0.54023 0.0001 MEDALT 0.54023 0.0001 1.00000 0.0

Treinamento Sistema SAS

38

Prof. Luis Felipe Lopes

O coeficiente de correlao de 0.54023. Um p-valor de 0.0001 reflete uma forte evidncia de que a correlao entre altura e o peso difere de zero.

8.3 Regresso (PROC REG)

Os coeficientes de correlao indicam somente a existncia ou no de algum tipo de relacionamento entre variveis. Para investigar a forma desse relacionamento, o mtodo mais apropriado a anlise de regresso, onde a relao pode ser expressa sob forma matemtica, por meio de uma equao que interligue as variveis. Atravs do diagrama de disperso possvel visualizar uma curva que se aproxime dos dados. Essa curva denominada curva de ajustamento. Para fins de referncia, a seguir encontram-se relacionados vrios tipos comuns de curvas de ajustamento e suas equaes. As variveis independentes esto representadas pela letra X e as variveis dependentes pela letra Y. As demais letras representam constantes. Funo Linear Funo Quadrtica Funo Cbica Funo Exponencial Y = a0 + a1 X Y = a0 + a1 X + a2 X2 Y = a0 +a1 x + a2 x2 + a3 x3 Y = a bx log y = Ioga + (log b) x = a0 +a1 x

Para evitar o critrio individual na construo de funes que se adaptem ao conjunto de dados, necessrio instituir uma definio da "melhor funo de ajustamento". Uma medida da qualidade do ajustamento aos dados apresentados (aderncia) proporcionada a partir da distncia dos pontos observados at a equao de regresso. De todas as equaes que podem ser traadas atravs do grupo de pontos no diagrama de disperso, a funo que melhor se ajusta aquela com a menor soma dos quadrados das distncias (Mtodo dos Mnimos Quadrados). Estas distncias so designadas como desvios, erros ou resduos, e podem ser positivas, negativas ou nulas, como apresentado na figura a seguir:

Treinamento Sistema SAS

39

Prof. Luis Felipe Lopes

O modelo linear: Yj = 0 + 1 Xj + j Suas suposies: - Xj so fixos; - 0 e 1 so parmetros fixos desconhecidos; - j ~ N id (0 , 2) . Considere a regresso como um particionamento da Soma Total dos Quadrados:

( Yj Y )

2

$ = Yj Y

(

$ ) + (Y Y )2 j j

2

SST = SSM + SSE onde: SST - a soma total dos quadrados. SSM - a soma dos quadrados devido ao modelo (soma dos quadrados devido regresso ). SSE - a soma dos quadrados devido ao erro , ou resduo. Num modelo de regresso preciso: Estimar: - 2, ou seja, o erro mdio quadrtico; - 0 e 1.

Treinamento Sistema SAS

40

Prof. Luis Felipe Lopes

Testaras Hipteses : H0: 1 = 0 0 = 0 Obter valores preditos e limites de predio. Estimar a mdia da varivel resposta Y, dado um valor fixo X, determinando tanto as estimativas por ponto como por intervalo.

8.4 Inferncia na regresso

Estatsticas usadas na Anlise de Regresso: - valor estimado de 2 =MSE, Mdia quadrtica para o erro = SSE/ df(erro) = Soma dos Quadrados devido ao erro / df(erro) - estimativas de mnimos quadrados de 0 e 1, que minimize SSE.min

(Y j Y )

2

- teste de 0 = 0 e 1 = 0 com a estatstica t de Student ou teste de 0 no modelo / 1 = 0 com a estatstica F. 8.5 Resduos

Os resduos representam o comportamento de Y (varivel resposta), do qual as variveis independentes no fazem a estimativa. Se for suposto que o modelo correto, que no se tenha omitido nenhuma varivel independente, e tambm que os resduos so normais e independentemente distribudos, com mdia zero e varincia constante, pode-se provar hipteses, assinalar limites de confiana, predizer valores da varivel dependente a partir das variveis independentes e computar probabilidades de significncia . Um plote dos resduos sobres as variveis independentes ou sobre os valores preditos pode ser gerado para avaliar a qualidade do ajuste. Se o modelo necessitar de algum outro termo, o plote dos resduos sugere que tipo de termo pode ser adicionado ao modelo. Alguns modelos so mostrados a seguir:

Treinamento Sistema SAS

41

Prof. Luis Felipe Lopes

PROC REG A procedure REG o procedimento SAS mais comum para anlise da regresso. um procedimento interativo, ou seja, o usurio pode dispor de seus comandos bsicos para ajustar uma funo, verificar a sada das estatsticas, e posteriormente adicionar mais comandos dando continuidade suas anlises sem necessidade de reinicializar o comando da PROC. Quando usado interativamente, o comando RUN no finaliza o procedimento. Para finaliz-lo o usurio deve estabelecer outro DATA STEP ou PROC STEP, ou usar o comando QUIT, que nunca deve ser acessado quando o procedimento estiver em curso. FORMA GERAL: PROC REG DATA = arquivo SAS opes; MODEL dependente = independente / opes; VAR varivel; ID varivel; OUTPUT OUT = novo arquivo P = nova varivel R = nova varivel U95 = nova varivel L95 = nova varivel U95M = nova varivel L95M = nova varivel; PLOT varivel Y * varivel X = 'smbolo'; PRINT opes; RUN; OPES DISPONVEIS NA PROC REG: Treinamento Sistema SAS 42 Prof. Luis Felipe Lopes

SIMPLE OUTEST

Lista estatsticas descritiva para cada varivel. Cria um data set contendo as estimativas dos parmetros do modelo de regresso.

OPES DISPONVEIS NO COMANDO CLI Fornece limites de confiana superior e inferior a 95% para um valor particular predito da varivel dependente. Fornece limites de confiana superior e inferior a 95% para a mdia da varivel dependente nos nveis da(s) varivel(is) independentes para cada observao. Fornece valores preditos a partir do modelo estimado para cada observao do arquivo a de entrada. Fornece valores residuais (REAL-PREDITO) observao e uma anlise dos resduos. para cada

CLM

P

R

SELECTION = mtodo Especifica o mtodo usado para seleo do modelo (Backward, Stepwise, MAXR, ADJRSQ, por exemplo). O default NONE (usa o modelo completo).

ADJRSQ

Fornece o R-Square ajustado para o grau de liberdade, para cada modelo selecionado. Fornece o Critrio de Informao de Akaike's. Fornece o Critrio de Informao Bayesiano de Sawa . Fornece o erro mdio quadrtico para cada modelo.

AIC BIC MSE

COMANDOS DISPONVEIS: MODEL VAR especifica as variveis dependentes e independentes. lista a varivel (ou variveis) que possam vir a ser adicionadas no modelo durante o processo de anlise. Este comando deve aparecer antes do primeiro comando RUN. especifica a varivel que identifica as observaes na sada do relatrio, quando so solicitadas estimativas de valores individuais de uma varivel independente ( valores preditos ), valores residuais, etc. 43 Prof. Luis Felipe Lopes

ID

Treinamento Sistema SAS

OUTPUT

especifica o arquivo de sada e os nomes das variveis que iro conter os valores previstos, residuais , etc. gera plotes de disperso com a varivel y representando o eixo vertical e a varivel x o eixo horizontal. Para plotar estatsticas utiliza-se as palavras chave (nomes reservados) disponveis no comando OUTPUT. (Ex: plot y.*p;) Lista as opes disponveis.

PLOT

PRINT

Os seguintes nomes reservados so utilizados para especificar as estatsticas desejadas. Eles devem ser seguidos por um nome de varivel: P (ou PREDICTED) R (ou RESIDUAL) U95, L95 representa os valores preditos. representa os valores residuais para cada observao. representam, respectivamente, os limites superior e inferior de predio para os valores observados. representam, respectivamente os limites superior e inferior de confiana para a mdia da populao.

U95M, L95M

Ex4.: Os dados a seguir provem de um experimento para testar o desempenho de uma mquina industrial. O experimento utilizou uma mistura de leo diesel e gs, derivados de materiais destilados orgnicos. O valor da capacidade da mquina em cavalo vapor (HP) foi coletado a diversas velocidades medidas em rotaes por minuto (rpm X 100). Analisar o diagrama de disperso e encontrar um modelo de regresso que se ajuste aos dados.OPTIONS FORMDLIM='*' LS=80; DATA MAQUINA1 A; /* EXEMPL04 INPUT VELOC CAPAC @@; CARDS; 22.0 64.03 20.0 62.47 18.0 12.0 37.48 15.0 46.85 17.0 22.0 64.03 20.0 62.63 18.0 12.0 36.63 10.5 32.05 13.0 19.0 56.65 21.0 62.61 23.0 ; PROC PLOT; PLOT CAPAC * VELOC = '0'; TITLE 'DIAGRAMA DE DISPERSAO'; RUN; SAS */ 54.94 51.17 52.90 39.68 65.31 16.0 19.0 16.0 15.0 24.0 48.84 58.00 48.84 45.79 63.89 14.0 21.0 14.0 17.0 43.73 63.21 42.74 51.17

Treinamento Sistema SAS

44

Prof. Luis Felipe Lopes

PROC

REG; MODEL CAPAC = VELOC; OUTPUT OUT= RESIDl P=PREVISTO R=RESIDUAL; TITLE 'AJUSTE DA FUNCAO LINEAR'; RUN; PROC GPLOT; PLOT RESIDUAL* VELOC /VREF = 0; TITLE 'PLOT DE RESIDUOS P/ AJUSTE LINEAR'; RUN; PROC UNIVARIATE DATA= RESIDl NORMAL PLOT; VAR RESIDUAL; TITLE 'TESTE DE NORMALIDADE DOS RESIDUOS'; RUN;

ANLISE DOS RESULTADOS:DIAGRAMA DE DISPERSAO Plot of CAPAC*VELOC. Symbol used is '0'.

CAPAC | | 65 + 0 | 0 0 | 0 | 0 0 60 + | | 0 | 0 55 + 0 | | 0 | 0 50 + | 0 | 0 | 0 45 + | 0 | 0 | 40 + 0 | | 0 | 0 35 + | | | 0 30 + | --+-------+--------+--------+---------+-------+--------+--------+10 12 14 16 18 20 22 24 VELOC NOTE: 4 obs hidden.

Treinamento Sistema SAS

45

Prof. Luis Felipe Lopes

O diagrama de disperso mostra uma tendncia crescente da capacidade da mquina em funo da velocidade utilizada. Os dados observados sero ajustados inicialmente por uma funo linear. o relatrio de sada consta de duas sees, Anlise da Varincia e Estimativas dos Parmetros, apresentadas a seguir:AJUSTE DA FUNCAO LINEAR Model: MODEL1 Dependent Variable: CAPAC Analysis of Variance Source Model Error C Total Root MSE Dep Mean C.V. DF 1 22 23 Sum of Squares 2294.80982 76.08652 2370.89633 1.85970 52.31833 3.55458 Mean Square 2294.80982 3.45848 R-square Adj R-sq F Value 663.532 Prob>F 0.0001

0.9679 0.9664

Parameter Estimates Variable INTERCEP VELOC DF 1 1 Parameter Estimate 6.100234 2.650500 Standard Error 1.83396047 0.10289565 T for H0: Parameter=0 3.326 25.759 Prob > |T| 0.0031 0.0001

A seo de Anlise de Varincia contm informaes sobre a qualidade do ajuste. So elas: - DF Identifica as fontes de variaes dos dados e os respectivos graus de liberdade. - SOMA DOS QUADRADOS (SS): Separam a variao dos dados em pores que podem ser tanto atribudas ao modelo como ao erro. Parte da variao total da capacidade da mquina se deve velocidade utilizada e outra parte se deve a erros aleatrios ou outros fatores independentes da velocidade. SS total = SS models + SS erro Observando os valores da varivel Capacidade da Mquina quando o valor da velocidade de 18 (rpm x 100), por exemplo, tem-se 54.94 HP e 52.90 HP. Esta variao se deve ao erro do experimento ou a fatores outros que no a velocidade.

Treinamento Sistema SAS

46

Prof. Luis Felipe Lopes

- MDIA QUADRTICA (MS): SS/DF MS erro = 3.45848 estima a varincia da populao dos valores da capacidade da mquina para valores determinados da velocidade. - F, PROB > F: Fornece o valor da estatstica teste e o p-valor associado ao teste de hiptese de que o modelo explica uma parte significante da variao dos dados. - R_SQUARE : SS modelo / SS Total R_Square a frao da variao total devida s variveis do modelo. Seu valor varia dentro do intervalo [0,1], sendo que quanto mais prximo de 1, melhor o modelo explica a variao dos dados. Neste caso o modelo proposto explica 96% da variabilidade total. implicando um alto grau de aderncia dos valores observados reta ajustada. Sobre a qualidade do ajuste, o valor de R_Square no a explica sozinho. Recomenda-se tambm uma Anlise dos Resduos. - Adj R_SQUARE uma estatstica alternativa ao R-Square. utilizada em REGRESSO MLTIPLA. A seo Estimativas dos Parmetros prov coeficientes para a linha de regresso e testes para determinar se estes coeficientes so significativamente diferentes de zero. O modelo de ajuste, neste caso, representado por: CAPAC = 6.10 + 2.65 VELOC O valor de INTERCEP = 6.10 no tem uma interpretao especfica no modelo. Para VELOC = 0, a capacidade predita pelo modelo de 6.10 HP. O coeficiente 2.65 pode ser interpretado como o acrscimo da capacidade esperada para cada unidade adicional da velocidade. Para verificar a suposio de que os coeficientes so no nulos, tem-se: - DF Fornece o grau de liberdade para os parmetros estimados. Para cada parmetro estimado DF= 1. - Erro Padro: Mede o quanto cada parmetro estimado poderia vaiar de um conjunto de dados para outro. Eles so utilizados na construo de intervalos de confiana.

Treinamento Sistema SAS

47

Prof. Luis Felipe Lopes

- T para H0 : Parmetro = 0: Estatstica para testar a hiptese que o parmetro igual a zero. Seu valor dado por: Valor Estimado do Parmetro / Erro Padro - PROB > T: Fornece o p-valor para a estatstica teste T. Para o parmetro VELOC, o p-valor de 0.0001, evidenciando que o grau de inclinao da reta ajustada diferente de zero. O intercepto tambm difere de zero.

A anlise dos resduos ei= Yi - Y i = Yi - 6.10 - 2.65 VELOC importante para avaliar se a escolha do modelo apropriada para o conjunto de dados apresentado. Pelo comportamento da distribuio dos resduos (PROC GPLOT) sugere-se a utilizao de um termo quadrtico.A validade dos testes de significncia dependem da suposio de que os resduos so normalmente distribudos. Para se verificar essa suposio basta utilizar a PROC UNIVARIATE com as opes NORMAL e PLOT, o que gera as seguintes sadas:

Treinamento Sistema SAS

48

Prof. Luis Felipe Lopes

TESTE DE NORMALIDADE DOS RESIDUOS Univariate Procedure Variable=RESIDUAL Residual Moments N Mean Std Dev Skewness USS CV T:Mean=0 Num ^= 0 M(Sign) Sgn Rank W:Normal 24 0 1.818821 -0.95935 76.08652 . 0 24 1 4 0.896308 Sum Wgts Sum Variance Kurtosis CSS Std Mean Pr>|T| Num > 0 Pr>=|M| Pr>=|S| PrF 0.0001

0.9826 0.9809

Parameter Estimates Variable INTERCEP VELOC VELOC2 DF 1 1 1 Parameter Estimate -19.184839 5.710855 -0.088391 Standard Error 6.18024426 0.73314324 0.02105601 T for H0: Parameter=0 -3.104 7.790 -4.198 Prob > |T| 0.0054 0.0001 0.0004

O modelo do ajuste quadrtico dado por: CAPAC = -19.18 + 5.71 VELOC - 0.08 VELOC2 O teste de significncia dos coeficientes indica que para o coeficiente -0.08 de VELOC2 : t = -0.08 /SE (VELOC2) = -0.08 / 0.021 = - 3.81 A probabilidade de significncia para esta estatstica 0.0004, ou seja, existe somente quatro chances em dez mil de se encontrar uma estatstica t to grande quanto a calculada acima. O desvio padro da estimativa do coeficiente de VELOC2 to pequeno que pode-se afirmar que seu valor estatisticamente diferente de zero. O modelo quadrtico, portanto, est representando melhor o relacionamento entre a velocidade da mquina e sua capacidade de produo, quando comparado ao modelo linear.

Treinamento Sistema SAS

51

Prof. Luis Felipe Lopes

Os valores preditos e os limites de confiana para a mdia da populao obtidos com o ajuste quadrtico esto relacionados a seguir:AJUSTE DA FUNCAO QUADRATICA Obs VELOC Dep Var CAPAC 64.0300 62.4700 54.9400 48.8400 43.7300 37.4800 46.8500 51.1700 58.0000 63.2100 64.0300 62.6300 52.9000 48.8400 42.7400 36.6300 32.0500 39.6800 45.7900 51.1700 56.6500 62.6100 65.3100 63.8900 Predict Value 63.6726 59.6758 54.9718 49.5607 43.4425 36.6171 46.5900 52.3546 57.4122 61.7626 63.6726 59.6758 54.9718 49.5607 43.4425 36.6171 31.0340 40.1182 46.5900 52.3546 57.4122 61.7626 65.4059 66.9623 Std Err Predict 0.488 0.374 0.401 0.397 0.396 0.596 0.385 0.405 0.385 0.398 0.488 0.374 0.401 0.397 0.396 0.596 0.921 0.460 0.385 0.405 0.385 0.398 0.651 0.878 Lower95% Mean 62.6568 58.8981 54.1382 48.7356 42.6198 35.3785 45.7890 51.5114 56.6114 60.9343 62.6568 58.8981 54.1382 48.7356 42.6198 35.3785 29.1185 39.1612 45.7890 51.5114 56.6114 60.9343 64.0513 65.1364 Upper95% Mean 64.6884 60.4534 55.8054 50.3858 44.2651 37.8556 47.3909 53.1978 58.2130 62.5909 64.6884 60.4534 55.8054 50.3858 44.2651 37.8556 32.9495 41.0751 47.3909 53.1978 58.2130 62.5909 66.7605 68.7883 Residual 0.3574 2.7942 -0.0318 -0.7207 0.2875 0.8629 0.2600 -1.1846 0.5878 1.4474 0.3574 2.9542 -2.0718 -0.7207 -0.7025 0.0129 1.0160 -0.4382 -0.8000 -1.1846 -0.7622 0.8474 -0.0959 -3.0723

1 22 2 20 3 18 4 16 5 14 6 12 7 15 8 17 9 19 10 21 11 22 12 20 13 18 14 16 15 14 16 12 17 10.5 18 13 continuao ... 19 20 21 22 23 24 15 17 19 21 23 24

O plote dos resduos studentizados pode indicar a ocorrncia de pontos discrepantes. Cada asterisco corresponde metade de uma unidade. Observaes com quatro ou cinco asteriscos tem resduos studentizados entre 2.0 e 3.0, e esto num range suspeito. Observaes com seis ou mais asteriscos provavelmente so outliers. No plote a seguir, as observaes 2 e 12 (VELOC=20), e a 24 esto num range suspeito. O grfico dos reduos mostrado ao fim deste exemplo confirma estas suposies. O prximo passo seria reavaliar a fonte de dados e identificar alguma razo peculiar para a ocorrncia destes valores.Obs 1 2 3 4 5 6 7 8 9 10 11 12 VELOC 22 20 18 16 14 12 15 17 19 21 22 20 Std Err Residual 1.316 1.353 1.345 1.346 1.347 1.271 1.350 1.344 1.350 1.346 1.316 1.353 Student Residual 0.272 2.065 -0.024 -0.535 0.214 0.679 0.193 -0.882 0.436 1.075 0.272 2.184 | | | | | | | | | | | | -2-1-0 1 2 | |**** | *| | |* | *| | |** | |**** | | | | | | | | | | | | Cook's D 0.003 0.109 0.000 0.008 0.001 0.034 0.001 0.024 0.005 0.034 0.003 0.121

Treinamento Sistema SAS

52

Prof. Luis Felipe Lopes

13 14 15 16 17 18 19 20 21 22 23 24

18 16 14 12 10.5 13 15 17 19 21 23 24

1.345 1.346 1.347 1.271 1.059 1.326 1.350 1.344 1.350 1.346 1.243 1.095

-1.540 -0.535 -0.522 0.010 0.959 -0.330 -0.593 -0.882 -0.565 0.630 -0.077 -2.806 0 41.3702 65.0917

| ***| | *| | *| | | | |* | | | *| | *| | *| | |* | | | *****|

| | | | | | | | | | | |

0.070 0.008 0.008 0.000 0.232 0.004 0.010 0.024 0.009 0.012 0.001 1.687

Sum of Residuals Sum of Squared Residuals Predicted Resid SS (Press)

Atravs do grfico dos resduos (PROC GPLOT) observa-se que nem toda as observaes seguem a mesma forma geral. O ponto onde VELOC=24 encontrase abaixo dos demais, e os dois pontos prximos VELOC=20 esto acima dos demais. Isto pode se dever causas especiais ou simplesmente ao acaso, e precisa ser verificado. Os demais pontos esto bem distribudos ao longo do grfico, podendo ser admitida a suposio de varincia da distribuio dos resduos.

Treinamento Sistema SAS

53

Prof. Luis Felipe Lopes

TESTE DE NORMALIDADE DOS RESIDUOS Univariate Procedure Variable=RESIDUAL Residual Moments N Mean Std Dev Skewness USS CV T:Mean=0 Num ^= 0 M(Sign) Sgn Rank W:Normal 24 0 1.341157 0.194918 41.37016 . 0 24 0 -5 0.961296 Sum Wgts Sum Variance Kurtosis CSS Std Mean Pr>|T| Num > 0 Pr>=|M| Pr>=|S| Pr|T| --------------------------------------Unequal 1.6641 7.2 0.1392 Equal 1.6641 8.0 0.1347 For H0: Variances are equal, F' = 2.04 DF = (4,4) Prob>F' = 0.5072

Para comparar dois grupos independentes observa-se primeiramente a linha que testa a igualdade de varincias. O p-valor para este teste dado por PROB>F'=0.5072 que maior que 0.10, indicando que as varincias no so significantemente diferentes a um nvel de 10% de significncia. Utiliza-se ento o t-test exato. Para o teste da igualdade de mdias, a linha denominada UNEQUAL d o resultado de um t-test aproximado, que utilizado quando no se pode assumir a igualdade das varincias os dois grupos de observaes. O p-valor para o t-test PROB > ITI = 0.1347 que maior que 0.05, indicando que ambas as mdias para o cabo do tipo 1 e tipo 2 no so significativamente diferentes ao nvel de 5% de significncia. Valores altos para estatstica T indicam diferenas significativas entre as mdias. Para o teste exato, o grau de liberdade DF calculado como a soma dos tamanhos das amostras dos dois grupos menos dois (8 = 5 + 5 - 2). Ex7.: Dados no pareados com varincias desconhecidas e supostamente diferentes. Deseja-se saber se duas mquinas de empacotar caf esto fornecendo o mesmo peso mdio por pacote, tanto como uma das mquinas nova e a outra velha, razovel supor-se que trabalhem com diferentes variabilidades dos pesos colocados nos pacotes. As amostras disponveis constam de seis pacotes produzidos pela mquina nova e nove produzidos pela mquina velha. Os pesos em quilogramas desses pacotes so: mquina nova mquina velha 0,82 0,83 0,79 0,81 0,81 0,80 0,79 0,82 0,73 0,74 0,80 0,77 0,75 0,84 0,78

Qual a concluso, ao nvel de 5% de significncia ?OPTIONS FORMDLIM='*' LS=80; DATA CAF A; /* EXEMPL07 SAS */

Treinamento Sistema SAS

58

Prof. Luis Felipe Lopes

INPUT MAQUINA $ PESO @@, CARDS; NOVA 0.82 NOVA 0.83 NOVA 0.79 NOVA 0.81 NOVA 0.81 NOVA 0.80 VELHA 0.79 VELHA 0.82 VELHA 0.73 VELHA 0.74 VELHA 0.80 VELHA 0.77 VELHA 0.75 VELHA 0.84 VELHA 0.78 ; PROC TTEST DATA=CAFE, CLASS MAQUINA; TITLE 'TESTE PARA IGUALDADE DE MEDIAS DADOS NO PAREADOS'; RUN;

ANLISE DOS RESULTADOS:TESTE PARA IGUALDADE DE MEDIAS - DADOS NAO PAREADOS TTEST PROCEDURE Variable: PESO MAQUINA N Mean Std Dev Std Error Minimum Maximum ------------------------------------------------------------------------NOVA 6 0.81000000 0.01414214 0.00577350 0.79000000 0.83000000 VELHA 9 0.78000000 0.03674235 0.01224745 0.73000000 0.84000000 Variances T DF Prob>|T| --------------------------------------Unequal 2.2156 11.1 0.0486 Equal 1.8893 13.0 0.0814 For H0: Variances are equal, F' = 6.75 DF = (8,5) Prob>F' = 0.0501

O p-valor para o teste de igualdade de varincias dado por PROB >F'=0.0501 que menor que 0.10, indicando que as varincias so significativamente diferentes a um nvel de 10% de significncia. Para o teste de igualdade de mdias, a linha denominada UNEQUAL deve ser utilizada. A um nvel de 5% de significncia h diferena significativa entre as mdias dos pesos dos pacotes, pois PROB > ITI = 0.0486 < 0.05.

9.2 Testes para dados pareados

Os resultados de duas amostras constituem dados emparelhados (ou pareados) quando esto relacionados dois a dois segundo algum critrio que introduz uma influncia mercante entre os diversos pares. Esta influncia incide igualmente sobre os valores de cada par.

Treinamento Sistema SAS

59

Prof. Luis Felipe Lopes

Assim, por exemplo, suponha que 10 cobaias sejam submetidas durante uma semana a uma dieta com certo tipo de rao. Os pesos das cobaias so medidos no incio e no fim do tratamento, e deseja-se tirar concluses sobre o aumento mdio do peso verificado. Se os animais forem perfeitamente identificados, teremos duas amostras de valores do tipo 'antes' e 'depois', e os dados sero pareados, pois cada valor da palmeira amostra estar perfeitamente associado ao respectivo valor da segunda amostra. O critrio que garante o emparelhamento a identidade de cada cobaia. razovel esperar que a identidade de cada animal tenha influncia nos valores observados de seu peso, porm essa influncia deve exercer-se de forma aproximadamente igual dentro de cada para de valores 'antes e depois', logo, ao se tomarem as diferenas entre vrios pares de valores, a influncia individual de cada animal tende a desaparecer, restando apenas os efeitos produzidos pela rao. No mesmo exemplo, se os animais no fossem identificados, no haveria como associar os valores das duas amostras, e os dados seriam noemparelhados. Se os dados de duas amostras so emparelhados tem sentido calcular as diferenas di correspondentes a cada par de valores, reduzindo assim os dados a uma nica amostra de n diferenas. Testa-se ento a hiptese de que a diferena entre as mdias das populaes emparelhadas seja igual a um certo valor, reduzindo o problema ao teste de uma nica mdia. As hipteses a serem atendidas para validao deste teste so listadas baixo: - AMOSTRAS PAREADAS: Nvel de medida: A varivel resposta deve estar na escala de intervalo ou de razo. A varivel independente deve estar na escala nominal e assumir somente duas categorias. Observaes pareadas: Uma dada observao que aparece em uma condio tem que estar de algum moda associada uma observao correspondente na outra condio. Observaes Independentes: Um valor de dado em uma condio no pode ser afetado por qualquer outro valor de dado em ambas condies. Amostras Aleatrias: Os valores da varivel resposta devem representar uma amostra aleatria oriunda de uma populao de interesse. Distribuio Normal para a diferena de Scores: As diferenas de scores entre os pares de valores devem ser normalmente distribudas. No h necessidade que a varivel resposta seja normalmente distribuda.

Treinamento Sistema SAS

60

Prof. Luis Felipe Lopes

Homogeneidade de Varincias: As populaes representadas pelas duas condies devem ter iguais varincias . PROC UNIVARIATE Para observaes pareadas, o primeiro passo encontrar as diferenas para cada observao na amostra. O segundo sumarizar estas diferenas. Para calcular estas diferenas, pode-se criar uma nova varivel no DATA STEP, cuja mdia ser sumarizada atravs da PROC UNIVARIATE. Outro caminho para sumarizar os dados amostrais produzir grficos que mostrem a distribuio dos valores. Ex8.: Dez cobaias adultas foram submetidas ao tratamento com certa rao durante uma semana. Os animais foram perfeitamente identificados, tendo sido mantidos, para tanto, em gaiolas individuais. Os pesos, em gramas, no princpio e no fim da semana, so designados respectivamente por peso 1 e peso 2. Ao nvel de 5% de significncia pode-se concluir que o uso da rao contribuiu para o aumento do peso mdio dos animais? O programa a seguir prov um teste de hiptese para checar se a diferena mdia de pesos significativamente diferente de zero.OPTIONS FORMDLIM='*' LS=80; DATA TRAT A; /* EXEMPL08 SAS */ INPUT COBAIA PESO1 PESO2 @@; DIF= PESO2-PESO1; CARDS; 1 635 640 2 704 712 3 662 681 4 560 558 5 603 610 6 745 740 7 698 707 8 575 585 9 633 635 10 669 682 ; PROC PRINT; TITLE 'LISTA DAS DIFERENCAS PAREADAS'; RUN; PROC UNIVARIATE; VAR DIF; TITLE 'TESTE PARA DIFERENCAS DE OBSERVACOES PAREADAS'; PROC CHART; VBAR DIF; TITLE 'CARTA PARA DIFERENCAS PAREADAS'; RUN;

Treinamento Sistema SAS

61

Prof. Luis Felipe Lopes

ANLISE DOS RESULTADOS:LISTA DAS DIFERENCAS PAREADAS OBS 1 2 3 4 5 6 7 8 9 10 COBAIA 1 2 3 4 5 6 7 8 9 10 PESO1 635 704 662 560 603 745 698 575 633 669 PESO2 640 712 681 558 610 740 707 585 635 682 DIF 5 8 19 -2 7 -5 9 10 2 13

TESTE PARA DIFERENCA DE OBSERVACOES PAREADAS Univariate Procedure Variable=DIF Moments N Mean Std Dev Skewness USS CV T:Mean=0 Num ^= 0 M(Sign) Sgn Rank 10 6.6 7.042727 -0.0293 882 106.708 2.963487 10 3 22.5 Sum Wgts Sum Variance Kurtosis CSS Std Mean Pr>|T| Num > 0 Pr>=|M| Pr>=|S| 10 66 49.6 0.054015 446.4 2.227106 0.0159 8 0.1094 0.0215

Quantiles(Def=5) 100% 75% 50% 25% 0% Max Q3 Med Q1 Min 19 10 7.5 2 -5 24 8 -5 Extremes Lowest -5( -2( 2( 5( 7( Obs 6) 4) 9) 1) 5) Highest 8( 9( 10( 13( 19( Obs 2) 7) 8) 10) 3) 99% 95% 90% 10% 5% 1% 19 19 16 -3.5 -5 -5

Range Q3-Q1 Mode

Treinamento Sistema SAS

62

Prof. Luis Felipe Lopes

O relatrio parcial da PROC UNIVARIATE mostra na linha denominada T:MEAN=0 o valor da estatstica de teste T (T=2.9635) e o p-valor associado ao teste PROB > |T| = 0,0159. O p-valor menor que 0.05, donde se conclui que a diferena mdia dos pesos das cobaias com a utilizao da rao significativamente diferente de zero. A um nvel de 5% de significncia o uso da rao contribui para o aumento do peso mdio dos animais.CARTA PARA DIFERENCAS PAREADAS Frequency 4 + ***** | ***** | ***** | ***** | ***** | ***** | ***** 3 + ***** ***** | ***** ***** | ***** ***** | ***** ***** | ***** ***** | ***** ***** | ***** ***** 2 + ***** ***** ***** | ***** ***** ***** | ***** ***** ***** | ***** ***** ***** | ***** ***** ***** | ***** ***** ***** | ***** ***** ***** 1 + ***** ***** ***** ***** | ***** ***** ***** ***** | ***** ***** ***** ***** | ***** ***** ***** ***** | ***** ***** ***** ***** | ***** ***** ***** ***** | ***** ***** ***** ***** --------------------------------------------------------4 4 12 20 DIF Midpoint

O grfico com a distribuio dos valores das diferenas obtido atravs da PROC CHART. As barras verticais mostram que a mais alta freqncia ocorre para valores entre 8 e 16, prximo a 12, indicando mais uma vez que a variao mdia das diferenas estatisticamente significante.

Treinamento Sistema SAS

63

Prof. Luis Felipe Lopes

10 MTODOS NO PARAMTRICOS

10.1 Testes para igualdade de duas mdias (PROC NPAR1WAY) Os testes no paramtricos utilizam-se de poucas suposies a respeito da distribuio de habilidade dos dados. Ele indicado quando o tamanho das amostras analisadas muito pequeno para validar a suposio de normalidade dos dados. PROC NPAR1WAY A PROC NPARLWAY um procedimento no paramtrico para testar se a distribuio de uma varivel tem o mesmo parmetro de locao sobre diferentes grupos. Ela trabalha com grupos independentes, dados no pareados. Para dados pareados, a PROC UNIVARIATE desempenha um teste de sinais e o teste dos ranks de Wilcoxon. FORMA GERAL: PROC NPARLWAY DATA= arquivo de dados opes; VAR variveis; CLASS varivel; BY variveis; COMANDOS DISPONVEIS: VAR nomeia variveis a serem analisadas para a comparao dos dois grupos. (comando opcional). Uma vez omitido , as anlises so feitas sobre todas as variveis numricas do arquivo de dados. nomeia somente uma varivel de classificao de grupo. O comando CLASS obrigatrio. A varivel que identifica os grupos podem ser caracteres ou numricas. separa a anlise em observaes definidas pelas variveis do comando BY. Os dados precisam estar ordenados antes de se utilizar este comando.

CLASS

BY

OPES DISPONVEIS: WILCOXON desempenha o teste da Soma dos Ranks de Wilcoxon para uma varivel de dois nveis. Ele se baseia na soma dos ranks dos valores observados. Este rank ir indicar a posio de um determinado valor no conjunto ordenado (crescente ou decrescentemente), do primeiro ao ltimo elemento Valores iguais so considerados com um rank mdio de modo a no afetar os rank seguintes. Por exemplo, os valores 15, 12, 16, 19 e 16, considerados numa ordem crescente, tero os seguintes ranks: 2, 64 Prof. Luis Felipe Lopes

Treinamento Sistema SAS

1, 3.5 , 5 e 3.5. Wilcoxon considerou que sendo vlida a hiptese nula de identicidade entre as populaes, a soma dos postos nas amostras deveriam fornecer valores intermedirios compatveis com cada amostra. Com base nessa idia, determina-se quais os limites para a soma dos ranks nas amostras, alm dos quais deve-se rejeitar a hiptese nula. Para uma varivel de classificao que assuma mais que dois nveis, esta opo corresponde ao Teste de Kruskal- Wallis. MEDIAN requisita uma anlise dos escores das medianas. Se as populaes so idnticas, a mediana do conjunto formado pelas duas amostras fornece uma boa estimativa da mediana da distribuio comum. A proporo de valores abaixo da mediana geral deve tender a ser a mesma nas duas amostras. O escore da mediana 1 para pontos abaixo da mediana geral, e 0 caso contrrio. Para mais que duas amostras, esta opo produz o Teste de Brown- Mood.

Ex9.: Clica um distrbio comum em cavalos e freqentemente fatal. Em casos extremos uma cirurgia o nico recurso. Pesquisadores estudam novas tcnicas de cirurgia para reduzir os perodos sob anestesia a que so submetidos os animais. Nove cavalos que se submeteram cirurgia foram aleatoriamente assinalados para uma dentre as duas tcnicas utilizadas. A tcnica A envolve a suspenso da anestesia depois da sutura da inciso, e a tcnica B envolve a suspenso da anestesia durante a sutura. O tempo de recuperao da anestesia foi medido em minutos a partir do final da cirurgia at o momento que o cavalo levanta. Determinar se os tempos de recuperao diferem para as duas tcnicas cirrgicas utilizadas.OPTIONS FORMDLIM='*' LS=80; DATA ANEST1 A; /* EXEMPL09 SAS */ INPUT CAVALO TECN $ TEMREC @@; CARDS; l A 47 2 A 34 3 A 44 4 A 16 5 A 53 6 B 79 7 B 42 8 B 14 9 B 11 ; PROC NPAR1WAY WILCOXON MEDIAN; VAR TEMREC; CLASS TECN; TITLE 'ANALISE DOS TEMPOS DE RECUPERACAO DA ANESTESIA'; RUN;

Treinamento Sistema SAS

65

Prof. Luis Felipe Lopes

ANLISE DOS RESULTADOS:ANALISE DOS TEMPOS DE RECUPERACAO DA ANESTESIA N P A R 1 W A Y P R O C E D U R E

Wilcoxon Scores (Rank Sums) for Variable TEMREC Classified by Variable TECN TECN A B N 5 4 Sum of Scores 28.0 17.0 Expected Under H0 25.0 20.0 Std Dev Under H0 4.08248290 4.08248290 Mean Score 5.60000000 4.25000000

Wilcoxon 2-Sample Test (Normal Approximation) (with Continuity Correction of .5) S= 17.0000 Z= -.612372 Prob > |Z| = 0.5573 0.4624 0.5403

T-Test approx. Significance =

Kruskal-Wallis Test (Chi-Square Approximation) CHISQ= 0.54000 DF= 1 Prob > CHISQ= ANALISE DOS TEMPOS DE RECUPERACAO DA ANESTESIA N P A R 1 W A Y P R O C E D U R E

Median Scores (Number of Points above Median) for Variable TEMREC Classified by Variable TECN TECN A B N 5 4 Sum of Scores 3.0 1.0 Expected Under H0 2.22222222 1.77777778 Std Dev Under H0 0.785674201 0.785674201 Mean Score 0.600000000 0.250000000

Median 2-Sample Test (Normal Approximation) S= 1.00000 Z= -.989949 Prob > |Z| = 0.3222

Median 1-Way Analysis (Chi-Square Approximation) CHISQ= 0.98000 DF= 1 Prob > CHISQ= 0.3222

O p-valor para o teste de Wilcoxon dado por Prob > |Z|= 0.5403 que superior a 0.05. Conclui-se, portanto, que as mdias dos tempos de recuperao no so significativamente diferentes ao nvel de 5% de significncia. O p-valor para o teste de medianas dado por Prob > |Z| = O.3222 que maior que 0.05, ou seja, a um nvel de 5% de significncia no h diferena significativa entre os tempos de recuperao referentes as duas tcnicas utilizadas. O valor dado por Prob > CHISQ = 0.3222 resulta de uma aproximao de Chi-quadrado.

Treinamento Sistema SAS

66

Prof. Luis Felipe Lopes

Ex10.: Se no exemplo anterior os cavalos fossem divididos em grupos por sexo, Por exemplo feita no sentido de verificar a existncia de diferena entre os tempos de recuperao dentro de cada grupo. O programa a seguir mostra como desempenhar esta anlise.OPTIONS FORMDLIM='*' LS=80; DATA ANEST2 A; /* EXEMP10 SAS */ INPUT CAVALO SEXO $ TECN $ TEMPREC; CARDS; l M A 47 2 M A 34 3 F A 44 4 F A 16 5 F A 53 6 M B 79 7 M B 42 8 M B 14 9 F B 11; PROC SORT; BY SEXO; PROC NPAR1WAY WILCOXON; VAR TEMPREC; CLASS TECN; BY SEXO; RUN;

ANLISE DOS RESULTADOS:ANALISE DOS TEMPOS DE RECUPERACAO DA ANESTESIA --------------------------------- SEXO=F -------------------------------N P A R 1 W A Y P R O C E D U R E

Wilcoxon Scores (Rank Sums) for Variable TEMREC Classified by Variable TECN TECN A B N 3 1 Sum of Scores 9.0 1.0 Expected Under H0 7.50000000 2.50000000 Std Dev Under H0 1.11803399 1.11803399 Mean Score 3.0 1.0

Wilcoxon 2-Sample Test (Normal Approximation) (with Continuity Correction of .5) S= 1.00000 Z= -.894427 Prob > |Z| = 0.4370 0.1797 0.3711

T-Test approx. Significance =

Kruskal-Wallis Test (Chi-Square Approximation) CHISQ= 1.8000 DF= 1 Prob > CHISQ=

Treinamento Sistema SAS

67

Prof. Luis Felipe Lopes

ANALISE DOS TEMPOS DE RECUPERACAO DA ANESTESIA --------------------------------- SEXO=M -------------------------------N P A R 1 W A Y P R O C E D U R E

Wilcoxon Scores (Rank Sums) for Variable TEMREC Classified by Variable TECN TECN A B N 2 3 Sum of Scores 6.0 9.0 Expected Under H0 6.0 9.0 Std Dev Under H0 1.73205081 1.73205081 Mean Score 3.0 3.0

Wilcoxon 2-Sample Test (Normal Approximation) (with Continuity Correction of .5) S= 6.00000 Z= 0 Prob > |Z| = 0.9999 0.9999 0.9999

T-Test approx. Significance =

Kruskal-Wallis Test (Chi-Square Approximation) CHISQ= 0 DF= 1 Prob > CHISQ=

O p-valor de 0.3711 superior a 0.05, ou seja, para o grupo de fmeas no h diferena significativa os tempos de recuperao referentes as duas tcnicas utilizadas Prob > |Z| = 0.3711, um nvel de 5% de significncia. Para o grupo de machos, PROB>|Z|=0.9999 tambm superior 0.05, donde se conclui que no h diferena significativa entre os tempos de recuperao dentro deste subgrupo, a um nvel de 5% de significncia.

11 ANLISE DE VARINCIA

11.1 Dados balanceados (PROC ANOVA)

Quando se deseja fazer inferncias sobre um conjunto de mais que duas mdias, utiliza-se a Anlise de Varincia. A Anlise da Varincia se resume na aplicao de um teste de hipteses sobre um experimento projetado estatisticamente. Esta anlise permite saber se h efeitos significativos de determinadas variveis agindo sobre os resultados alm do erro experimental. Neste captulo, o termo ANOVA refere-se especificamente a uma anlise paramtrica da varincia, que utilizada se algumas suposies sobre os dados observados forem atendidas. As suposies que envolvem uma anlise da varincia so: - as observaes devem ser independentes: a medida para determinada observao no afeta a medida de outra observao. Treinamento Sistema SAS 68 Prof. Luis Felipe Lopes

- as observaes so geradas por uma distribuio normal. Se existe uma diferena entre os grupos, talvez exista uma distribuio normal especfica para cada grupo. - as varincias dos grupos so iguais. Quando o experimento consiste na anlise de uma nica varivel (ou fator), com vrios nveis, a anlise dita ANOVA a fator nico. Para este tipo de anlise, os procedimentos SAS no fazem distino quanto ao tipo de dados utilizados: se balanceados ou no. Dados balanceados so aqueles cujos grupos experimentais tem o mesmo tamanho de amostra. Dados no balanceados, o tamanho da amostra difere para cada grupo. Ambos os procedimentos GLM e ANOVA, tratam estes dados na devida situao. PROC ANOVA A PROC ANOVA para anlise da varincia a fator nico pode ser utilizada, como visto anteriormente, para ambos dados balanceados e no balanceados. Em geral, entretanto, no se utiliza a PROC ANOVA para dados no alanceados. Ela utilizada para: - Blocos aleatorizados - Quadrados latinos Projetos com Blocos Aleatorizados assumem que uma populao de unidades experimentais pode ser dividida em um nmero relativamente homogneo de subpopulaes ou blocos. Os tratamentos so aleatoriamente atribudos s unidades experimentais dentro de cada bloco. Se todos os tratamentos so atribudos em cada bloco, o projeto denominado Projeto com Blocos Completamente Aleatorizados. Para exemplificar, suponha um experimento que, em funo da durao do mesmo, sejam efetuadas edies pela manh e outra tarde. Se a temperatura influir na varivel resposta, a variabilidade do experimento cresce, e a sensibilidade dos efeitos do fator em anlise ser prejudicada. Em outras palavras, entre ma medida feita pela manh e a outra tarde, tem-se as variabilidades devidas ao erro experimental da edio em si, ao efeito do fator (se houver) e variao da temperatura. Como a temperatura no um fator de interesse no experimento, pode-se dizer que ela aumentou o erro experimental. Uma maneira de quantificar e isolar esta influncia consiste em efetuar um grupo completo de medies, que inclua todos os nveis do fator pela manh e outro tarde. Cada grupo ser homogneo em relao temperatura e recebe a designao de bloco aleatorizado. Quando o projeto envolve a blocagem de mais de um fator no experimento, ele denominado de quadrado latino, e representado por uma forma quadrada (4 X 4) tendo o fator em estudo representado por letras latinas.

Treinamento Sistema SAS

69

Prof. Luis Felipe Lopes

Os aspectos acima descritos dizem respeito ao controle do erro experimental. Outro aspecto a ser considerado na Anlise de Varincia seria a estrutura de tratamento fatorial, que pode ser aplicada qualquer esquema de aleatorizao. Um experimento fatorial balanceado consiste de todas as possveis combinaes dos nveis de duas ou mais variveis. Estes nveis podem se referir quantidades numricas das variveis, tais como graus de temperatura, quantidade de fertilizantes, ou variveis que definam categorias qualitativas, tais como tipos de fertilizantes, condies operacionais (Temperatura: baixa, mdia ou alta). Um exemplo de experimento fatorial o estudo envolvendo o uso de nitrognio, fsforo e potssio, cada um trs nveis. Este experimento possui 3 **3 = 27 combinaes de tratamento. Experimentos fatoriais so utilizados para investigar no somente todas as diferenas entre os nveis de cada fator (efeitos principais), como tambm como os nveis de um fator afetam a varivel resposta, em combinao com os nveis dos demais fatores (interaes). A PROC ANOVA pode ser utilizada interativamente. Uma vez especificado um modelo com o comando MODEL, que ser visto a seguir, e rodar o procedimento com o comando RUN, outra variedade de comandos poder ser executada sem que o procedimento recalcule as estatsticas do modelo geradas inicialmente. FORMA GERAL: PROC ANOVA DATA = arquivo SAS; CLASS variveis; /*tratamentos*/ MODEL dependente = efeitos / opes; MANOVA H = varivel / opes; MEANS efeitos / opes; OUTPUT OUT = arquivo SAS P= nova varivel R = nova varivel L95 = nova varivel U95 = nova varivel L95M = nova varivel U95M=nova varivel; RUN; COMANDOS DISPONVEIS: CLASS nomeia as variveis de classificao utilizadas para identificar os grupos para anlise. Este comando tem que aparecer antes do comando MODEL. nomeia as variveis dependentes e independentes do modelo. se o comando MODEL inclui mais que uma varivel dependente, este comando fornece estatsticas multivariadas. gera mdias para cada nvel das variveis independentes e para a interao dos nveis, quando existir.

MODEL MANOVA

MEANS

Treinamento Sistema SAS

70

Prof. Luis Felipe Lopes

OUTPUT

gera arquivo de sada com as variveis que iro conter os valores previstos, residuais, intervalos de confiana para um valor individual da varivel dependente, e intervalos de confiana para o valor esperado ( mdia ) da varivel dependente.

OPES DISPONIVEIS NO COMANDO MODEL: INT requisita teste associado ao intercepto como parmetro do modelo. Por default, ele includo no modelo, mas o teste associado no listado. Com esta opo o teste associado listado. requisita que o intercepto no seja usado no modelo. suprimi estatsticas univariadas.

NOINT NOUNI

OPES DISPONVEIS NO COMANDO MANOVA: H PRINTH especifica efeitos no modelo para usar como matriz de hipteses. lista a matriz de hipteses SSCP e a matriz de erro. A opo PRINTE tambm lista uma matriz de coeficientes de correlao parcial e derivada da matiz de erros SSCP. Esta matriz de correlao representa a correlao das variveis dependentes corrigidas para todos os fatores independentes definidos no comando MODEL.

OPES DISPONVEIS NO COMANDO MEANS: As opes especificam os testes utilizados para comparao mltipla e so aplicadas somente para os termos de efeitos principais . DUNCAN desempenha teste de mltiplos ranges para todas as mdias dos efeitos principais especificados no comando MEANS. desempenha teste de ranges de Student para todas as mdias dos efeitos principais especificados no comando MEANS. d os nveis de significncia para a comparao entre as mdias. Por default Alpha=0.05. Para a opo DUNCAN, somente os valores 0.01, 0.05 ou 0.1 so vlidos. Nas demais opes que desempenham testes de comparao mltipla, valores entre 0.0001 e 0.9999 so vlidos.

TUKEY

ALPHA

Treinamento Sistema SAS

71

Prof. Luis Felipe Lopes

Teste de Duncan O teste de Duncan usado na anlise de varincia para comparar todo e qualquer contraste entre duas mdias de tratamentos. menos rigoroso que o Teste de Tukey, pois detecta diferena significativa entre duas mdias quando o o teste de Tukey no o faz. um teste bastante usado em trabalhos de laboratrios, pode ser usado tanto para tratamentos com o mesmo nmero de repeties, quanto tratamentos com parcelas perdidas. Teste de Tukey O teste de Tukey usado na anlise de varincia para comparar todo e qualquer contraste entre duas mdias de tratamentos. o teste de comparao de mdias mais usado em experimentao, por ser bastante rigoroso e de fcil aplicao. Ele mais exato quando os nmeros de repeties das mdias dos tratamentos forem iguais. Quando o Teste Tukey no der diferena significativa e o teste F for significativo, o mesmo poder ser substitudo pelo Teste de Duncan, por ser menos rigoroso, ou trocar o nvel de significncia para 10%, ou simplesmente aceitar a anlise encontrada. Teste de Scheff O teste de Schfe usado na anlise de varincia numa forma mais abrangente que o Teste de Duncan e de Tukey, pois permite julgar qualquer constraste, pode ser usado tanto para duas mdias (contraste simples) como para mais de duas mdias (contraste mltiplo), na qual ele o mais indicado, por ser mais rigoroso que o Teste de Tukey. Anlise dos Trs Testes Quando o teste F da anlise de varincia no for significativo os trs testes acima no tero efeito de aplicao (s se o teste F estiver prximo da significncia). Para melhor visualizar a anlise comparativa das mdias, as mdias dos tratamentos so colocadas em ordem crescente e para cada conjunto de mdias que no diferem estatisticamente atribuda uma mesma letra, ou seja, para letras iguais mdias estatisticamente iguais, para letras diferentes mdias estatisticamente diferentes. Para a anlise usa-se um nvel de significncia de 5%.

Treinamento Sistema SAS

72

Prof. Luis Felipe Lopes

ESTUDO DE CASO

11.1.1 Experimento Completamente Casualizado

Suponha que os pesquisadores de uma linha de produo automobilstica queiram comparar o desgaste de 4 tipos de pneus. Eles decidiram usar 4 pneus de cada tipo e posicionaram aleatoriamente os 16 pneus em 4 carros diferentes, medindo a quantidade de desgaste em mm aps 10.000 Km rodados pelos 4 carros em condies idnticas de direo.

Considere as seguintes questes: 1 - As unidades experimentais deste experimento so os pneus. 2 - As suposies para anlise consistem em tratamentos aleatoriamente atribudos para as 16 posies nos 4 carros, com o desgaste por marca de pneu sendo normalmente distribudo, com varincia comum. 3 - O modelo experimental representado por: DESGASTE = CTE + efeito TIPO + erro A hiptese a ser testada : Ho: As mdias do desgaste para os 4 tipos de pneus so iguais Leia os dados em um arquivo SAS e anlise com a PROC ANOVA a hiptese testada.

Treinamento Sistema SAS

73

Prof. Luis Felipe Lopes

OPTIONS FORMDLIM='*' LS=80; DATA PNEU1 A; /* EXEMP11 SAS */ INPUT TIPOS $ DESGASTE @@; CARDS; 1 1.83 2 2.42 3 1.98 4 1.83 1 1.88 2 2.05 3 1,86 4 1.81 1 1.86 2 2.10 3 2.30 4 1.75 1 1.77 2 2.61 3 2.31 4 1.92 ; PROC ANOVA; CLASS TIPO; MODEL DESGASTE = TIPO; TITLE 'EXPERIMENTO COMPLETAMENTE CASUALIZADO'; RUN;

ANLISE DOS RESULTADOS:EXPERIMENTO COMPLETAMENTE CASUALIZADO Analysis of Variance Procedure Class Level Information Class TIPO Levels 4 Values 1 2 3 4

Number of observations in data set = 16 EXPERIMENTO COMPLETAMENTE CASUALIZADO Analysis of Variance Procedure Dependent Variable: DESGASTE Source Model Error Corrected Total DF 3 12 15 Sum of Squares 0.62175000 0.39015000 1.01190000 C.V. 8.937409 Anova SS 0.62175000 Root MSE 0.1803122 Mean Square 0.20725000 F Value 6.37 DESGASTE Mean 2.0175000 Pr > F 0.0079 Mean Square 0.20725000 0.03251250 F Value 6.37 Pr > F 0.0079

R-Square 0.614438 Source TIPO DF 3

A estimativa da varincia do erro da populao dada por MSE (Error) = 0.032; O R_Square descreve a quantidade de variao nos dados que se deve a diferena existente entre os Grupos. Logo, 61% da variabilidade do modelo explicada pela diferena entre os tipos dos pneus.

Treinamento Sistema SAS

74

Prof. Luis Felipe Lopes

O p-valor dado por Pr > F = 0.0079 inferior ao nvel de significncia de 0.10, donde se conclui que a mdia do desgaste significativamente diferente para os diferentes tipos de pneus. A Soma dos Quadrados (SS) mede a quantidade de variao atribuda a uma dada fonte. Note que Model SS e Error SS somam a variao total do modelo. A mdia global do desgaste dos pneus dada por DESGASTE Mean. O coeficiente de variao CV calculado multiplicando o desvio padro por 100 e dividindo pela mdia, ou seja. 100 (std/mean).

11.1.2 Experimento com Blocos Aleatorizados

A fim de controlar a influncia do fator tipo de carro no desgaste dos pneus, decidiu-se coletar medidas do desgaste de modo que cada tipo de pneu aparecesse em cada carro, Logo, cada carro consiste num bloco de edies, o que permite: - O controle da variao que se deve aos diferentes tipos de carro. - A eliminao da variao de cada carro em relao aos tipos de pneus utilizados. - A obteno de uma preciso maior do erro do experimento. O modelo experimental em questo dado por: DESGASTE = CTE + efeito TIPO + efeito CARRO + erro Os efeitos dos blocos so aditivos, ou seja, no existe interao entre o tipo de pneu e o tipo de carro. O novo experimento tem o seguinte layout:

Treinamento Sistema SAS

75

Prof. Luis Felipe Lopes

OPTIONS FORMDLIM='*' LS=80; DATA PNEU2 A; /* EXEMP12 SAS */ INPUT TIPO $ CARRO DESGASTE @@; CARDS; A l 1.51 A 2 1.71 A 3 1.78 A B l 2.36 B 2 2.45 B 3 2.24 B C l 2.20 C 2 2.05 C 3 2.01 C D l 1.51 D 2 2.22 D 3 1.73 D ; PROC ANOVA; CLASS TIPO CARRO; MODEL DESGASTE = TIPO CARRO; TITLE 'EXPERIMENTO COM BLOCOS ALEATORIZADOS'; RUN;

4 4 4 4

1.80 2.41 2.01 1.80

ANLISE DOS RESULTADOS:EXPERIMENTO COM BLOCOS ALEATORIZADOS Analysis of Variance Procedure Class Level Information Class TIPO CARRO Levels 4 4 Values A B C D 1 2 3 4

Number of observations in data set = 16 ************************************************************************* EXPERIMENTO COM BLOCOS ALEATORIZADOS Analysis of Variance Procedure Dependent Variable: DESGASTE Source Model Error Corrected Total DF 6 9 15 Sum of Squares 1.14733750 0.26440625 1.41174375 C.V. 8.626687 Anova SS 1.04526875 0.10206875 Root MSE 0.1714015 Mean Square 0.34842292 0.03402292 F Value 11.86 1.16 DESGASTE Mean 1.9868750 Pr > F 0.0018 0.3780 Mean Square 0.19122292 0.02937847 F Value 6.51 Pr > F 0.0068

R-Square 0.812709 Source TIPO CARRO DF 3 3

Treinamento Sistema SAS

76

Prof. Luis Felipe Lopes

Pode-se notar que estimativa da varincia do erro deste experimento inferior a vista anteriormente. O fator de blocagem CARRO poderia ser retirado do experimento, uma vez que ele no significati