análise estatística dos parâmetros aqüicolas

7/17/2019 Análise Estatística Dos Parâmetros Aqüicolas

http://slidepdf.com/reader/full/analise-estatistica-dos-parametros-aqueicolas 1/17

Anais de Simpósios da 43ª Reunião Anual da SBZ – J oão Pessoa – PB, 2006.

746

ANÁLISE ESTATÍSTICA DOS PARÂMETROS AQÜICOLAS, COMFINS A OTIMIZAÇÃO DA PRODUÇÃO

PAULO DE PAULA MENDES1, EMIKO SHINOZAKI MENDES2, ADY MARINHO BEZERRA3

1

Prof. Dr. Departamento de Pesca e Aqüicultura/UFRPE. Av. Dom Manoel de Medeiros. S/N. Dois Irmãos.Recife/PE/Brasil. [email protected] 2 Profa. Dra. Departamento de Medicina Veterinária/UFRPE. Av. Dom Manoel de Medeiros. S/N. Dois Irmãos.

Recife/PE/Brasil.3 Mestrando de Biometria/UFRPE.

RESUMO

Informações técnicas da utilização de modelos lineares, não lineares e múltiplos são

apresentadas, objetivando sua aplicação nas ciências aquáticas. A estimação dos parâmetros, o

uso de Análise de Variância (ANOVA) e as técnicas de Análise de Resíduos, são discutidos.

Conceitos básicos para uso de transformadores da variável dependente, enfatizando a família de

transformação de Box e Cox, associado à seleção de variáveis (Stepwise) são tratados. Para

ilustração do uso dos modelos, foram utilizados dados da produção mundial de peixes e

crustáceos, publicados pela Food and Agriculture Organization (FAO), e de uma fazenda de

camarão.

Palavras-chave: Estatística; Regressão; Modelos; Produção;

STATISTICAL ANALYSIS OF THE AQUACULTURE PARAMETERS, WITH ENDS THE

OPTIMIZATION OF THE PRODUCTION

ABSTRACT

Technical informations on the use of simple linear regression, nonlinear regression and multiples

linear regression are presented, aiming at their application in aquatic sciences. The estimation of

parameters, the use of Analysis of Variance (ANOVA) and techniques of Residual Analysis, are

discussed. Basic concepts for use of dependent variables transformers, emphasizing the Box and

Cox family of transformation associated to the selection of variables (Stepwise) are treated. For

illustration, data on world production of fish and crustaceans, published by the Food and

Agriculture Organization (FAO), and data from production one commercial shrimp farm were use

with those models.

Key words: Statistical; Regression; Models; Production.

http://www.pdfdesk.com/




747

1 – ANÁLISE ESTATÍSTICA

Técnicas estatísticas têm sido utilizadas para modelar os parâmetros relacionados com as

várias espécies aquáticas cultiváveis, para se ter um acompanhamento mais real dos indivíduos,

buscando-se minimizar os custos de produção e, portanto, maximizar a liquidez do agronegócio.Entre as técnicas mais utilizadas destacam-se as aplicações das regressões lineares, não-

lineares e múltiplas para correlacionar os parâmetros das respostas do cultivo (peso,

comprimento, taxa de sobrevivência, biomassa, fator conversão alimentar, etc.) com as variáveis

envolvidas no manejo e na qualidade físico-química da água dos viveiros. Entre as variáveis de

manejo, destacam-se a época do ano, tempo de cultivo, densidade de estocagem, marca da ração

ofertada, área de viveiro, procedência das sementes (pós-larvas, alevinos), entre outras. Quanto

as variáveis da água dos viveiros destacam-se as físicas e químicas: pH, oxigênio dissolvido,

amônia, alcalinidade, dureza, transparência, ventos, etc. Com essas análises é possível verificar

quais as variáveis envolvidas que mais influenciaram em cada uma das relacionadas com a

produção (Pereira, 2001; Lima, 2005; Ximenes, 2005).

2 – REGRESSÃO

O modelo clássico de regressão teve origem nos trabalhos de astronomia elaborados por

Gauss, no período de 1809 a 1821. É a principal técnica utilizada quando se pretende

correlacionar uma variável resposta ou dependente (Y) em relação a outras, denominadas

independentes ou explicativas (X) e que são responsáveis pela variabilidade da resposta (Cordeiro

e Neto, 2004). A regressão é uma técnica estatística utilizada com o objetivo de se obter uma reta

ou curva, que melhor se ajuste aos dados observados e que essas formulações ajudem a

interpretar as relações, até aos níveis das interações, entre as variáveis avaliadas.

2.1 – Regressão linear simples

O emprego da regressão linear simples deverá ser feito somente quando exista uma

variável independente (X) e que ela seja relacionada de forma proporcional com a variáveldependente (Y). Segundo Mendes (1999), a regressão polinomial do primeiro grau ou modelo

estatístico linear, é utilizado para explicar ou prever determinados eventos baseando-se em

fatores quantitativos, mas, relacionáveis entre si.

Tendo-se duas variáveis (Y e X), em que Y é a dependente e X a independente, ao serem

representadas nos eixos cartesianos e se podendo verificar que elas possuem uma relação, ou

seja, à medida que uma cresce a outra cresce ou decresce, o modelo que poderá exprimir essas

variáveis é dado por:

Yi = β0 + β1 Xi + εi , (i = 1, 2, 3,..., n) (Função 1)





748

Em que: Y-variável resposta (dependente); β0, β1-parâmetros do modelo; X- variável independente

(explicativa); ε–erro; i- i-ésima observação. Para este tipo de modelo o erro ( ε) deverá apresentar

uma distribuição normal com média zero e variância constante, ou seja, ε~N(0,σ2).

De acordo com Stevenson (1981) é importante ressaltar que nem todas as situações seaproximam de uma equação linear. É necessário verificar se um modelo linear é adequado aos

dados. O processo mais simples consiste em colocar os dados em um gráfico e analisar a relação,

entre as variáveis existentes.

2.2 – Regressão não-linear

Um modelo de regressão é dito linear ou não-linear quando existe uma linearidade ou não-

linearidade nos parâmetros do modelo, respectivamente. Os modelos não-lineares são

classificados em intrinsecamente lineares e intrinsecamente não-lineares. Segundo Drapper e

Smith (1981), um modelo é dito não-linear intrinsecamente linear quando uma transformação

matemática, em sua estrutura, permite que ele possa ser expresso na forma de um modelo linear

padrão (Função 1). Enquanto que os modelos intrinsecamente não-lineares, o processo clássico

para estimar seus parâmetros é por iteração. Entre os modelos não lineares, destacam-se para

utilização nas ciências aquáticas os apresentados na tabela 1.

2.3 – Regressão linear múltipla

A regressão linear múltipla envolve no mínimo três variáveis, em que uma é a dependente

(Y) e as demais as independentes (Xi). Na teoria, é uma extensão da regressão simples, pois o

objetivo é estabelecer uma equação que possa ser utilizada para predizer valores de Y, a partir de

valores das várias variáveis independentes (Stevenson, 1981). Segundo Wonnacott e Wonnacott

(1985), mesmo quando desejamos pesquisar o efeito de apenas um dos fatores, é essencial

aplicar o método da regressão múltipla, quando os dados provêm de um estudo observacional.

Tabela 1 - Principais funções não lineares, intrinsecamente linear, utilizadas nas ciências

aquáticas e seus transformadores.

Modelo Transformador FunçãoYi = β0 + β1/Xi Y 1/X 2Yi = β0Xi

β1 Ln(Y) Ln(X) 3Yi = β0e

β1Xi Ln(Y) X 4Yi = β0 + β1Ln(Xi) Y Ln(X) 5Yi = eβ0 + β1Xi Ln(Y) X 6Yi = β0 Xi / (1+ β1Xi) 1/Y 1/X 7Yi = 1/(β0 + β1Xi) 1/Y X 8Yi = eβ0 + β1/Xi Ln(Y) 1/X 9Yi = 1/(1 + eβ0 + β1Xi) Ln[(1/Y)-1] X 10





749

De acordo com Stevenson (1981), os dados pontuais se apresentam dispersos em torno

do plano, ao invés de uma reta de regressão e também, quanto menor a dispersão dos dados,

maior a precisão das predições. Mendes (1999) relatou que, com o objetivo de relacionar uma

variável resposta Y, em função de outras variáveis independentes, pode-se utilizar o seguinte

modelo matemático:n,...,1i,X...XXY ikik i22i110i =ε+β++β+β+β= (Função

11)

Em que:Y-variável resposta (dependente); β0,1,...,k- parâmetros do modelo; Xk- variáveis

independentes; ε–erro; i- i-ésima observação do erro que deverá apresentar uma distribuição

normal com média zero e variância constante (ε~N(0,σ2)).

A função 11 poderá ser também escrita da seguinte forma:

n,...,2,1i,XYk

1 j

i ji j0i =ε+β+β= ∑=

(Função 12)

Ou sob forma matricial por:~~~~

åâXy += (Função 13)

=

n Y

.

.

. Y

Y

2

1

y ,

=

nknn

k

k

X...XX....

....

....

X...XX

X...XX

X

21

22221

12111

1

1

1

,

=

kâ.

.

.ââ

â

â2

1

0

e

ε

εε

=ε

n

2

1

.

.

.

Em que:Y(n x 1) é o vetor das respostas; X(n x p) é a matriz de variáveis regressoras; β(p x 1) é o

vetor de coeficientes de regressão e ε(n x 1) é o vetor de erros aleatórios.

Segundo Cordeiro e Neto (2004), o modelo clássico de regressão é definido por: 1-

Respostas Yi independentes (ou pelo menos não-correlacionadas) para i = 1, 2, 3,..., n, com cada

Yi tendo uma distribuição especificada de média µ i = E(Y i) e variância σ2 constante; e 2- A média

µ i é expressa de forma linear como µ i = Xi

T

β, sendo Xi

T

β um vetor (1xp) com os valores de kvariáveis explicativas relacionadas à i-ésima resposta Yi; e β- sendo um vetor (px1) de parâmetros

a serem estimados. Afirmaram ainda que (1) e (2) podem ser expresso na forma matricial, como:

µ = E(Y) = Xβ , em que: Y = (Y1, Y2, ... , Yn)T é um vetor (nx1) cujo i-ésimo componente é Y i e X é

uma matriz formada pelas linhas X1T, ... , Xn

T. Geralmente, adota-se a hipótese de aditividade entre

Y e µ, isto é, Y = µ + ε, em que ε é um vetor de erros de média zero e variância σ2 constante.

Esses erros são considerados independentes ou pelo menos não-correlacionados. Os efeitos das

variáveis explicativas, que formam as colunas da matriz X, sobre a variável resposta Y são

lineares e aditivos. Na formação da matriz modelo se considera, geralmente, a primeira coluna





750

como um vetor formado apenas por números um, sendo o parâmetro correspondente denominado

intercepto.

2.4 – Estimação dos parâmetros

Seja qual for a natureza do modelo de regressão (simples ou múltipla), o problema básico

em sua teoria consiste inicialmente em estimar seus parâmetros e testá-los (Silva e Silva, 1999).

Ressalta-se a importância de definir os valores mínimo e máximo para as variáveis dependentes

e, finalmente, calcular intervalos de confiança para essas estimativas.

O método mais usado para ajustar uma linha reta a um conjunto de pontos é conhecido

como técnica dos mínimos quadrados. Essa técnica foi descrita pela primeira vez em 1805, pelo

cientista francês Adrien Marie Legendre. Com essa técnica determinam-se os parâmetros de um

modelo de regressão, seja ele linear simples, linear múltipla ou não-linear intrinsecamente linear

(Stigler, 1986). A equação resultante tem duas características importantes: 1) a soma dos desvios

(∑=

−n

1i

ii )Y(Y ) dos pontos em relação à reta é zero e 2) a soma dos quadrados desses desvios é

mínima (

2n

1i

ii )Y(Y∑=

− ), isto é, nenhuma outra reta tem menor soma de quadrados do que a

encontrada. Portanto, devem-se estimar valores para “βi” com o objetivo de manter a soma dos

quadrados dos desvios tão pequenos quanto possível.

De acordo com Mendes (1999), as estimativas de β0 e β1, para as regressões lineares

(Função 1), podem ser obtidas a partir da seguinte forma:

ii10i XY ε+β+β= , sendo: ( ) Τϕ / Φ3 15. 84 Τφ 1 0 0 1( ) Τϕ / Φ3 15. 84 Τφ 1 02

i10i

2

ii10ii XYXY β−β−=ε





751

independente, foi necessário estimar os valores de 2 parâmetros (β0 e β1), os quais foram obtidos

com auxílio de 2 equações. No caso de “n” variáveis no modelo, serão necessários “n” parâmetros

(β0, β1, ..., β j), definidos na Função 12, os quais poderão ser estimados com auxílio de matrizes, ou

seja:

b j = (XT

X)-1

(XT

Y) (Função 16)Em que: T - matriz transposta; -1- matriz inversa; b - estimador β; j = (0,1,2,..., K)

Para que os parâmetros sejam estimados, é necessário que a matriz (XTX)-1 possua

regressores linearmente independentes, ou seja, cada coluna da matriz X não seja uma

combinação linear de outra coluna.

2.5 – Análise de variância para a regressão

No item anterior 2.4 (Estimação dos parâmetros), foram estimados os parâmetros do

modelo que melhor representasse os pontos obtidos de campo. No entanto, para que um modelo

possa ser utilizado, faz-se necessário responder a seguinte pergunta: pode-se utilizar esse

modelo? Para isto, deve ser feita à análise de variância (ANOVA) para regressão, que tem a

finalidade de verificar a linearidade do conjunto de dados observados (Drapper e Smith, 1981;

Montgomery e Peck, 1982). Com a ANOVA, testa-se se a equação ajustada apresenta uma

inclinação (β1) diferente de 0 (zero) ou não. Para as regressões múltiplas, se os (β1,2, ..., n) são

iguais a zero ou não De acordo com Souza (1998), a análise de variância foi introduzida na

literatura por Sir Ronald A. Fisher, estatístico britânico responsável por muitas das técnicasutilizadas na análise de dados.

O quadro da ANOVA pode ser apresentado de forma matricial (Tabela 2), com a seguinte

formatação:

Tabela 2 – Tabela resumo da análise de variância para a regressão (ANOVA)

FV GL SQ QM F

Regressão GLreg= P-1

SQreg = n

Y

YX b

2n

1i

i

TT

−

∑=

QMreg = SQreg/P QMreg/QMres

Resíduo GLres = n-P SQres = YX bYY TTT − QMres = SQres/(n-P)

Total GLTotal = n-1

SQTotal =n

Y

YY

2n

1i

i

T

−∑

=

Em que: FV - fonte de variação, GL - graus de liberdade; SQ- Soma de quadrado, QM- Quadrado médio, F - estatística

calculada; P - nº de parâmetros; n - nº de observações do modelo.

Para verificar se o modelo de regressão encontrado pode ser utilizado, deve-se comparar a razão QMReg/QMres, representada por F, com a estatística F (GLreg; GLres; α), a qual é tabelada. Caso





752

o valor calculado seja maior que o tabelado, pode-se utilizar o modelo. Na prática, basta verificar o

valor (p-valor), que é adicionado ao quadro da ANOVA, logo após o valor do F. Caso o valor de “p”

seja menor que 0,05, rejeita-se a hipótese de nulidade, ou seja pelo menos um dos valores de

beta (β) difere de zero, com 95% de certeza.

2.6 – Análise da equação estimada

Após ter concluído que o modelo proposto pode ser utilizado, é necessário avaliar o

quanto ele é bom ou não, ou no caso, o quanto ele explica a massa de dados. Entre as principais

técnicas para avaliar essas condições, destacam-se: a análise do coeficiente de correlação, de

determinação e a análise de resíduo.

2.6.1 – Coeficiente de correlação (R ou r)

Com base no coeficiente de correlação (R) determina-se o quanto as variáveis

dependentes e independentes estão relacionadas. O valor dessa estatística varia de –1 a +1. Se o

valor de R aproxima-se de –1 ou de +1, significa que os valores observados estão bem próximos

da reta ou até mesmo sobre ela. Se R tende a zero (0) implica em maior distância da reta. De

acordo com Drapper e Smith (1981), o coeficiente de correlação (R) pode ser estimado com a

seguinte equação:

1/2XY(Y)][Var(X)Var

Y)Cov(X,R = (Função 17)

2.6.2 – Coeficiente de determinação ou índice determinístico (R2 ou r2)

O coeficiente de determinação é a razão entre a variação explicada e a variação total. O

valor de R2 pode variar de 0 a 1. Quando a variação não-explicada constitui uma grande

porcentagem da variação total (isto é, a variação explicada é uma porcentagem pequena), R2 será

pequeno. Inversamente, quando a dispersão em torno da reta de regressão é pequena em relação

à variação total dos valores de y em torno de sua média, isto significa que a variação explicada

responde por uma grande porcentagem da variação total e R2 estará muito próximo de 1.

O valor de R2 é dado pela equação:

Total

res

Total

g

SQ

SQRou

SQ

SQR −== 1

2Re2 ou 2

22

Yn Y Y

Yn YXbR

T

T T

−−

= (Função 18)

2.6.3 – Análise de resíduo

Objetiva-se com a análise de resíduo avaliar a influência das observações no modelo

ajustado. Com essa análise pode-se verificar se falta algum componente no modelo, se a variância

(σ2) é a mesma para todos os Y i e se as suposições de normalidade e independência são válidas

para os erros. A análise de resíduo normalmente é feita pelo resíduo “r i” ordinário, ou padronizado

ou estudentizado.





753

RES

iii

QM

YYr

−=

)h1(QM

YYr

iiRES

iii −

−=

Resíduo ordinário Resíduo padronizado ou estudentizado (Função 19)

Em que: hii o elemento da diagonal da matriz X(XTX)-1XT e 0 < h < 1.

Segundo Cordeiro e Neto (2004), o resíduo ordinário não é muito informativo, pois sua

variância não é constante, e com isso, observações com grande alavancagem têm resíduos de

menor variabilidade do que observações de pequena alavancagem. Já os resíduos padronizados

têm a vantagem de que, estando o modelo correto, todos os resíduos têm a mesma variância,

mesmo não sendo independentes. Além disso, os resíduos padronizados também são apropriados

para verificar a normalidade dos erros e a homogeneidade das variâncias.

Com as avaliações de resíduos pode-se evidenciar se há homogeneidade da variância

dos erros e linearidade dos efeitos das variáveis explicativas; se os dados seguem umadistribuição normal; a existência de pontos discrepantes ou “outliers”.

2.7 – Variáveis indicadoras no modelo

Normalmente, as variáveis empregadas na análise de regressão são variáveis

quantitativas, ou seja, as que possuem uma escala de medida bem definida (Neter e Wasserman,

1974). De acordo com Mendes (1999), existem ocasiões em que é necessário o uso de variáveis

que não sejam contínuas. Essas variáveis, denominadas de variáveis qualitativas, podem ser

facilmente incluídas no modelo, sob a forma de 0 (ausência) ou 1 (presença). Elas são

denominadas de muda ou binárias (dummy). No banco de dados, quando existe uma variável

muda ao colocá-la no programa, faz-se necessário a exclusão de um dos seus níveis, para que o

sistema não gere uma indeterminação. A variável excluída passa a assumir uma parte do

intercepto no modelo.

2.8 – Alguns métodos de seleção de variáveis

Ao correlacionar uma variável dependente em função de duas ou mais variáveis

independentes, faz-se necessário selecionar aquelas que são realmente significativas ao modelo.

Um dos métodos utilizados para o processo de seleção de variáveis é o de Stepwise. Ele

apresenta três tipos: Backward elimination (eliminação do fim para o início); Forward selection

(seleção do início para o fim) e Stepwise regression (regressão passo a passo).

2.8.1 – Backward elimination

O processo inicia-se com todas as variáveis independentes colocadas no modelo. Com

base na estatística F, para cada variável, verifica-se se ela atende os pré-requisitos estabelecidos,

para as operações (Fentrada) ou (Fsaída). A primeira variável a ser excluída do modelo será aquelaque tiver o menor valor da estatística F (F0). Caso a estatística F, de uma determinada variável,





754

seja menor do que o valor do (Fsaída) ela será retirada, caso contrário ela permanecerá. O processo

será concluído quando todas as variáveis forem submetidas a esse procedimento. Esse método

não permite que uma variável eliminada do modelo possa ser recolocada.

2.8.2 – Forward selectionNesse caso, o processo é iniciado sem nenhuma variável independente no modelo, a não

ser o intercepto (β0). A primeira variável a entrar no modelo será aquela que tiver o maior valor da

estatística F (F0). A segunda variável a ser escolhida será aquela que produzir um maior F0 dentre

as variáveis independentes que ainda estão fora do modelo, mas que seja F0 > Fentrada. O processo

se encerra quando a adição de variáveis independentes não produzir um aumento significativo no

coeficiente de determinação da regressão.

2.8.3 – Stepwise regression

Com esse método é possível uma variável independente ser inserido no modelo, em um

estágio, e depois ela ser eliminada num estágio posterior. Normalmente, isto ocorre quando a

entrada de uma variável no sistema, faz com que ela deixe de ser significativa. O processo termina

quando não há mais variável para ser adicionada ou retirada do modelo.

2.9 – Intervalo de confiança para uma estimativa

Para se obter o intervalo de confiança para uma estimativa )Y( 0 , o valor a ser estimado

é expresso por: β= ˆXY T

00 . E seu intervalo de confiança com 100 (1-α)% será:

0

1

0

2

0 2/ˆ XX)(XX

p);n(át Y T T −

−± σ (Função 20)

Sendo o vetor X0, os pontos específicos da variável independente:

=

k 0

02

01

0

X

X

X

1

xM

Em que: t - distribuição t de Student; α- o nível de significância; n- número de observações; p-

número de parâmetros; σ2 - variância dos valores observados; X - matriz de dados; Y0 – valor

estimado; X0 - vetor dos dados das variáveis independentes relativas a Y0 (Montgomery e Peck,

1982).





755

2.10 – Transformação de dados

Entre os pressupostos exigidos, para utilização da ANOVA, é que a variância dos erros

seja constante. Ao verificar que a variância não seja constante, pode-se aplicar um transformador

com o objetivo de solucionar o caso. Entre os transformadores mais utilizados, destacam-se oangular (Wi=arcsen(Yi)

0,5), raiz quadrada (W i=(Yi)0,5), logarítmica (Wi=Ln(Yi)) e a de Box e Cox

(Mendes, 1999). De acordo com Drapper e Smith (1981), uma boa família de transformação para a

variável resposta “Y”, necessariamente positiva, pode ser obtida, utilizando o transformador de

Box e Cox, ou seja:

( ) Τϕ / Φ3 19 . 184 Τφ 1 0 0 1 248 . 4λλ /1−= ii YW para 0≠λ

ii YW ln= para 0=λ (Função 21)

Em que esta família de transformação depende apenas do parâmetro λ (lambda).

Sendo o valor de λ desconhecido, não se podem comparar diretamente as somas dos

quadrados dos resíduos gerados por cada λ, pois eles têm unidade diferente. Portanto, a função

21 poderá ser apresentada com a seguinte estrutura:

0),(0,1

1==≠

−= − λλ

λ λ

λ

iii

i YMGLnWeMG

YW (Função 22)

Em que: MG - média geométrica do vetor resposta, sem transformação.

Portanto, ao utilizar a função 22, deve-se atribuir vários valores a e calcular, para cada

caso, o valor da soma dos quadrados dos resíduos. O valor de λ que minimizará a soma dosquadrados dos resíduos (SQres), é considerada o ideal. Para verificar qual o valor de λ que

minimiza SQres, representa-se em um gráfico a relação entre λ (abscissa) e SQres (ordenada).

Geralmente, o valor de λmínimo ocorre entre o intervalo de -3 a +3. Normalmente, com 10 a 20

valores de λ, tem-se condições de estimar o valor que irá minimizar a SQres. Para calcular o

intervalo de confiança para λ, pode-se utilizar a seguinte função:

)1(Ref

2

);2/(

)()(

res

GLresMínimores

GL

tSQ α

λ += (Função 23)

Em que Ref- valor referência, para estimar o intervalo de confiança de λ.

O intervalo de confiança de λ poderá ser estimado, fazendo-se a interseção gráfica de

Ref, com a curva gerada pela relação SQ res x λ (ver Figura 1).





756

Figura 1 – Identificação do melhor valor e do intervalo de confiança para λ, através da minimização

da SQres.

3 – APLICAÇÃO DOS CONCEITOS.

3.1 – Regressão linear simples.

De acordo com os dados (Tabela 3) disponíveis no Banco de Dados da Food Agricultural

Organization (FAO), modele matematicamente os dados da produção mundial de peixes e

crustáceos.

Tabela 3 – Variação da produção de peixes e crustáceos, cultivados no mundo, nos últimos 10

anos.

Ano P eixe Crustáceos

(milhões de toneladas)

1994 13,05111 1,005055

1995 14,99437 1,101693

1996 16,92321 1,117422

1997 18,74642 1,218749

1998 19,8703 1,361209

1999 21,57807 1,511582

Ano P eixe Crustáceos

(milhões de toneladas)

2000 22,74534 1,820196

2001 24,21619 2,136546

2002 25,70692 2,394214

2003 26,40527 3,269189

2004 28,16504 3,679753

Fonte:FAO (2006)

1- Representar graficamente os pontos, para identificar o melhor modelo.

Figura 2 - Peixes (A) e crustáceos (B), produzidos no mundo.

10

15

20

25

30

1994 1996 1998 2000 2002 2004

Ano

P e i x e s ( 1 0 6

t )

A

0,0

0,5

1,0

1,5

2,0

2,5

3,0

3,5

4,0

1994 1996 1998 2000 2002 2004

Ano

C r u s t á c e o s ( 1 0 6

t )

B





757

Com base nos gráficos de tendência apresentados nas figuras 2A e 2B, verifica-se que o

primeiro caso (A) que os pontos se alinharam a uma reta, portanto aconselha-se utilizar o modelo

linear (Função 1). No segundo caso, parece ser razoável a aplicação do modelo definido na

Função 7. Ao executar os cálculos obtêm-se as estimações de β0 e β1 e da ANOVA os dados

apresentados na Tabela 4 e Figura 3.

Tabela 4 – Equações das produções de peixes e crustáceos, produzidos no mundo, para o

período de 1994 a 2004.

Modelo F P(F) R²(%)

Peixes Prod(milhões t) = -2911,57 + 1,467Ano 1233,99 0,0000 99,28

Crustáceos Prod(milhões t) = 1/(152,294-0,0759Ano) 955,08 0,0000 99,07

Figura 3 – Equações das produções de peixes (A) e crustáceos (B) no mundo.

3.2 – Regressão múltipla, com aplicação Stepwise/Box-Cox.

Sendo os dados de cultivo de uma fazenda de criação de camarões, apresentados na

Tabela 5, diagnostique sua produção (kg/ha) em função das variáveis disponíveis.

Prod =1,4671Ano- 2911,57

R2

=99,28%

10

15

20

25

30

1994 1996 1998 2000 2002 2004

Ano

P e i x e s ( 1 0 6

t )

A

0,0

0,5

1,0

1,5

2,0

2,5

3,0

3,5

4,0

4,5

1994 1996 1998 2000 2002 2004

Ano

C r u s t á c e o s ( 1 0 6

t )

Prod =1/(152,29409-0,07587Ano)

R2

=99,07%

B





758

Tabela 5 - Dados de cultivo do Litopenaeus vannamei, cultivados em 2005.

Área PVazio DEstoc DCultivo Produção Aerar LF(PL)4,6 12 66,7 134 27203,0 14 E3,6 13 65,0 134 21015,5 14 E3,8 7 60,3 120 21051,0 12 B

4,9 13 75,7 120 32936,5 18 E5,2 17 61,2 113 29208,6 12 A4,6 13 74,5 128 29426,8 18 B3,7 13 70,4 130 25440,0 18 E3,2 15 71,8 131 21222,3 18 E5,4 12 77,6 123 34782,4 20 A4,1 14 67,8 118 23605,5 14 D3,8 38 55,5 104 17763,5 12 B4,1 11 67,6 113 21550,0 16 D4,6 10 46,5 107 21331,5 8 D3,6 13 75,1 105 19163,5 14 A4,9 11 73,0 105 25940,5 14 A3,8 13 74,8 124 20839,5 14 A

4,6 10 78,5 116 24712,0 16 E5,2 13 71,4 125 23301,5 16 A3,2 13 72,5 103 16408,0 18 A3,7 16 71,1 104 18034,5 18 A5,4 16 77,6 125 33679,5 18 C4,1 11 66,3 148 22403,0 16 C3,9 13 71,0 148 21594,1 16 A4,6 13 69,3 135 24610,9 16 A4,1 19 68,1 144 24316,5 16 A4,9 6 75,5 124 27397,8 16 A3,6 18 68,8 143 19314,7 16 A3,8 12 70,9 129 20928,9 14 D

4,6 13 57,1 112 21023,2 10 A3,2 22 71,8 107 18959,7 16 C3,7 18 72,7 126 22518,5 18 C

Em que: área (ha); PVazio- período de vazio do viveiro (dias); DEstoc- densidade de estocagem

(ind/m2); DCultivo- dias de cultivo; Produção – kg/ha; Aerar- HP de aerador/ha; LF(PL)- laboratório

fornecedor de pós-larva.

Modelo proposto

Inicialmente, devem ser identificadas quais das variáveis é a dependente e quais as

independentes. Nota-se que a (Produção) é a variável resposta e as demais as de manejo do

camarão. Portanto, o modelo geral poderá ser escrito:

Produçãoi = β0 + β1 Áreai + β2PVazioi + β3DEstoci + β4DCultivoi + β5 Aerar i + β6LF(PL) i + εi.

Note que a variável Laboratório fornecedor de pós-larva (LF(PL)) é qualitativa. Então, a

matriz de dados, para essa variável, será organizada sob a forma de 0 ou 1, ou seja: caso a

produção seja realizada com pós-larvas do laboratório (E), a coluna (LFe) será preenchida pelo

valor 1 e os demais laboratórios por 0, de acordo com o esquema abaixo:

LF(PL) LFa LFb LFc LCd LCeE 0 0 0 0 1





759

E 0 0 0 0 1

B 0 1 0 0 0

A 1 0 0 0 0

... ... ... ... ... ...

É altamente aconselhável avaliar os efeitos das interações, tais como: Área*PVazio;

Área*DEstoc; Área*DCultivo; Área*Aerar. Portanto, a primeira aproximação do modelo geral

poderá ser expressa da seguinte forma:

Produçãoi = β0 + β1 Áreai + β2PVazioi + β3DEstoci + β4DCultivoi + β5 Aerar i + β6LF(PL) i +

+β7 Área*PVazioi + β8 Área*DEstoci + β9 Área*DCultivoi + β10 Área*Aerar i + +β11 Aerar i

+β12LFa + β13LFbi + β14LFci + β15LFdi + β16LFei + εi

Ressalta-se que se tem como objetivo principal estimar os parâmetros dos modelos

(β0,1,2,...16), selecionar as variáveis significativas, ou seja, somente as que influenciam na variável

resposta (Produção) e ao mesmo tempo minimizar a Soma dos Quadrados dos Resíduos (SQres).

Portanto, ao utilizar um programa estatístico, no menu Regressão, processo Stepwise, selecione a

opção Forward. Regular os Fentrada e Fsaída para 4. Caso não exista a opção Box e Cox, utilize a

formatação, abaixo descrita, para transformar o vetor resposta e operar com Box e Cox. Para isto,

inicialmente calcule a média geométrica do vetor produção. Ao se calcular a média geométrica,

obtém-se o seguinte valor: 23189,9243. Portanto, o formato do transformador, na variável

dependente será:

1ë

ë

43ë.23189,92

1Produção−

−

Ao utilizar os valores de λ de 1,5 a -1,5, em intervalos de 0,5, obtêm-se os valores da

soma dos quadrados dos resíduos e os respectivos R2, conforme os dados apresentados na

Tabela 6. Verifica-se que o transformador λ= -1,0 foi o que minimizou a soma dos quadrados dos

resíduos. Para este valor de (λ), somente as variáveis OP a (origem da pós-larvas do laboratório

de a) e as interações (area*DEstoc) e (area*DCultivo), foram significativas, para o modelo.

Tabela 6 - valores de λ, SQres e R2, para os dados de produção de uma fazenda de camarão

λ SQres R2

1,5 135869051,9 0,8100

1,0 115844114,4 0,8220

0,5 102042317,1 0,8311

0,0 93330414,5 0,8368

-0,5 88965071,8 0,8391

-1,0 88521593,4 0,8377

-1,5 91850770,1 0,8327





760

Equação gerada:

Modelo utilizado para

transformação do

vetor resposta

Parâmetros do modelo e as variáveis que foram selecionadas, com o

processo de Stepwise

11-

-1

431.23189,92-

1Produção−

− = 537728115,6145 -2207,0523*LFa + 37,9418area*DEstoc +

20,9869area*DCultivo

Re-escrevendo a equação acima, tem-se:

Produção=1/[8,2699E-05+4,10406E-06LFa+7,0553E-08 area*DEstoc+3,90256E-08

area*DCultivo]

Estatística do modelo (dados apresentados pelo programa)

Parâmetros Valores Erro Padrão Estatística t Prob(t)

B0 537728115,6145 1879,6086 286085,1469 0,0000

B1 -2207,0523 669,0697 -3,2987 0,0027

B2 37,9418 8,8154 4,3040 0,0002

B3 20,9869 5,3802 3,9008 0,0006

Outras estatísticas; R² = 0,8377;R² ajustado = 0,8196; Erro padrão da estimativa = 1810,6843

ANÁLISE DE VARIÂNCIA DA REGRESSÃO

FV GL SQ QM F Prob(F)

Regressão 3 456781795,1851 152260598,3950 46,44 0,0000

Resíduo 27 88521593,3702 3278577,5322

Total 30 545303383,1027

FV-fonte de variação; GL-grau de liberdade; SQ-soma de quadrado; QM-quadrado médioEstatística de Durbin-Watson= 0,8399.

Ao representar os resíduos em gráfico (Figura 4), verifica-se que não existe uma

correlação ou tendência e que existem apenas 2 pontos discrepantes. Trabalhando-se com as

distribuições normais ao nível de um α=5,0%, pode-se admitir a existência de 2,5% dos pontos em

cada cauda. Portanto, pode-se considerar que a presença desses dois pontos é aceitável, para a

função estabelecida. Ao representar os erros em função de sua padronização, verifica-se

graficamente que os dados se aproximam de uma distribuição normal. A confirmação de sua

normalidade pode ser feita utilizando-se os testes de D´Agostino-Pearson e\ou Shapiro-Wilk. Os

quais aceitaram (P>0,05) a hipótese dos dados seguirem a distribuição normal. Finalmente, após

considerar que o modelo proposto foi considerado aceitável, pode-se representá-lo (Figura 5).





761

Figura 4 – Análise de resíduo.

Figura 5 – Produção do Litopenaeus vannamei, em uma fazenda comercial, com viveiros de

diferentes áreas, utilizando pós-larvas de diferentes fornecedores (LF), durante 100

dias.

3.2.1 – Considerações finais do modelo

Desta forma, podem-se apresentar os seguintes diagnósticos para a variável Produção,

na referida fazenda:

1- Das variáveis disponibilizadas, no Banco de Dados apenas DCultivo (dias de cultivo);

DEstoc (densidade de estocagem (ind/m2)) e LF(PL) (Laboratório fornecedor de pós-larva)

influenciaram significativamente na Produção dos camarões;

2- Entre os laboratórios fornecedores de pós-larva, o denominado de (A), gerou umaprodução média inferior (9, 15%) em relação aos demais;

3- As produtividades médias dos viveiros, com áreas de 3,2 e 5,4 Ha, foram de 5389,36 e

4704,96 kg/ha, respectivamente.

4- Pode-se considerar que o coeficiente de determinação (R2= 83,77%) foi satisfatório, uma

vez que não foi disponibilizado os dados físico-químicos da água dos viveiros.

Erro (ei)210-1-2

E r r

o

p a d r o n i z a d o

2

1

0

-1

-2

15000

17000

19000

21000

23000

25000

27000

29000

40 50 60 70 80

Densidade de estocagem (ind/m2)

P r o d u ç ã o

( k g / v i v e i r o )

Área=3,2Ha

Área=5,4Ha100 dias de cultivo

LF a

LF a

LF b,c,d,e

LF b,c,d,e





4 – LITERATURA CITADA

CORDEIRO, G. M.; NETO, E. A. L. Modelos paramétricos. Recife: Associação Brasileira deEstatística, 2004, 246 p.

DRAPPER, N. R.; SMITH, H. Applied regression analysis. 2. ed. New York: John Wiley, 1981,

709 p.

FAO (Food and Agriculture Organisation). Aquacult-PC: fishery information, data and statistics(FIDI), time series of production from aquaculture (quantities and values) and capturefisheries (quantities). Programa computacional. Rome, 2006.

LIMA, R. J. W. Analise estatística das variáveis de cultivo do camarão Litopenaeus vannamei.2005. 26 f. Monografia (Graduação em Engenharia de Pesca) - Universidade Federal Rural dePernambuco, Recife.

MENDES, P. P. Estatística aplicada à aqüicultura. Recife: Bagaço, 1999, 265 p.

MONTGOMERY, D. C.; PECK, E. A. Introdution to linear regression analysis. New York: JohnWiley & Sons, Inc, 1982, 504 p.

NETER, J.; WASSERMAN, W. Applied linear statistical models: regression, analysis of variance, and experimental design. Homewood: Richard D. Irwin, 1974, 842 p.

PEREIRA, E. M. A. Análise dos parâmetros de crescimento do camarão de água doceMacrobachium rosenbergii (De Man, 1879), cultivado em tanques rede. 2001. 94 f.Dissertação (Mestrado em Biometria) - Universidade Federal Rural de Pernambuco, Recife.

SILVA. I. P.; SILVA, J. A. A. Métodos estatísticos aplicados à pesquisa cientifica; umaabordagem para profissional da pesquisa agro-pecuária. Recife: Universidade FederalRural de Pernambuco, 1999. 309 p.

SOUZA, G. S. Introdução aos modelos de regressão linear e não-linear. Brasília: Embrapa –SPI, 1998. 505 p.

STEVENSON, W. J. Estatística aplicada à administração. Tradução: Alfredo Alves de Farias.

São Paulo: Harper & Row do Brasil, 1981. 495p.STIGLER, S. M. The history of statistics. Cambridge: Havard University Press, 1986. 410 p.

WONNACOTT, R. J.; WONNACOTT, T. H. Fundamentos de estatística. Tradução: Alfredo AlvesFarias. Rio de Janeiro: Livros Técnicos Científicos, 1985. 355 p.

XIMENES, N. P. Aplicação de Modelos Lineares na Estimação dos P arâmetros do Cultivo doCamarão Marinho Litopenaeus vannamei (BOONE, 1931). 2005. 64 f. (Prelo). Dissertação(Mestrado em Biometria) - Universidade Federal Rural de Pernambuco, Recife.

análise estatística dos parâmetros aqüicolas

Documents