análise estatística dos parâmetros aqüicolas
DESCRIPTION
AquiculturaTRANSCRIPT
7/17/2019 Análise Estatística Dos Parâmetros Aqüicolas
http://slidepdf.com/reader/full/analise-estatistica-dos-parametros-aqueicolas 1/17
Anais de Simpósios da 43ª Reunião Anual da SBZ – J oão Pessoa – PB, 2006.
746
ANÁLISE ESTATÍSTICA DOS PARÂMETROS AQÜICOLAS, COMFINS A OTIMIZAÇÃO DA PRODUÇÃO
PAULO DE PAULA MENDES1, EMIKO SHINOZAKI MENDES2, ADY MARINHO BEZERRA3
1
Prof. Dr. Departamento de Pesca e Aqüicultura/UFRPE. Av. Dom Manoel de Medeiros. S/N. Dois Irmãos.Recife/PE/Brasil. [email protected] 2 Profa. Dra. Departamento de Medicina Veterinária/UFRPE. Av. Dom Manoel de Medeiros. S/N. Dois Irmãos.
Recife/PE/Brasil.3 Mestrando de Biometria/UFRPE.
RESUMO
Informações técnicas da utilização de modelos lineares, não lineares e múltiplos são
apresentadas, objetivando sua aplicação nas ciências aquáticas. A estimação dos parâmetros, o
uso de Análise de Variância (ANOVA) e as técnicas de Análise de Resíduos, são discutidos.
Conceitos básicos para uso de transformadores da variável dependente, enfatizando a família de
transformação de Box e Cox, associado à seleção de variáveis (Stepwise) são tratados. Para
ilustração do uso dos modelos, foram utilizados dados da produção mundial de peixes e
crustáceos, publicados pela Food and Agriculture Organization (FAO), e de uma fazenda de
camarão.
Palavras-chave: Estatística; Regressão; Modelos; Produção;
STATISTICAL ANALYSIS OF THE AQUACULTURE PARAMETERS, WITH ENDS THE
OPTIMIZATION OF THE PRODUCTION
ABSTRACT
Technical informations on the use of simple linear regression, nonlinear regression and multiples
linear regression are presented, aiming at their application in aquatic sciences. The estimation of
parameters, the use of Analysis of Variance (ANOVA) and techniques of Residual Analysis, are
discussed. Basic concepts for use of dependent variables transformers, emphasizing the Box and
Cox family of transformation associated to the selection of variables (Stepwise) are treated. For
illustration, data on world production of fish and crustaceans, published by the Food and
Agriculture Organization (FAO), and data from production one commercial shrimp farm were use
with those models.
Key words: Statistical; Regression; Models; Production.
7/17/2019 Análise Estatística Dos Parâmetros Aqüicolas
http://slidepdf.com/reader/full/analise-estatistica-dos-parametros-aqueicolas 2/17
Anais de Simpósios da 43ª Reunião Anual da SBZ – J oão Pessoa – PB, 2006.
747
1 – ANÁLISE ESTATÍSTICA
Técnicas estatísticas têm sido utilizadas para modelar os parâmetros relacionados com as
várias espécies aquáticas cultiváveis, para se ter um acompanhamento mais real dos indivíduos,
buscando-se minimizar os custos de produção e, portanto, maximizar a liquidez do agronegócio.Entre as técnicas mais utilizadas destacam-se as aplicações das regressões lineares, não-
lineares e múltiplas para correlacionar os parâmetros das respostas do cultivo (peso,
comprimento, taxa de sobrevivência, biomassa, fator conversão alimentar, etc.) com as variáveis
envolvidas no manejo e na qualidade físico-química da água dos viveiros. Entre as variáveis de
manejo, destacam-se a época do ano, tempo de cultivo, densidade de estocagem, marca da ração
ofertada, área de viveiro, procedência das sementes (pós-larvas, alevinos), entre outras. Quanto
as variáveis da água dos viveiros destacam-se as físicas e químicas: pH, oxigênio dissolvido,
amônia, alcalinidade, dureza, transparência, ventos, etc. Com essas análises é possível verificar
quais as variáveis envolvidas que mais influenciaram em cada uma das relacionadas com a
produção (Pereira, 2001; Lima, 2005; Ximenes, 2005).
2 – REGRESSÃO
O modelo clássico de regressão teve origem nos trabalhos de astronomia elaborados por
Gauss, no período de 1809 a 1821. É a principal técnica utilizada quando se pretende
correlacionar uma variável resposta ou dependente (Y) em relação a outras, denominadas
independentes ou explicativas (X) e que são responsáveis pela variabilidade da resposta (Cordeiro
e Neto, 2004). A regressão é uma técnica estatística utilizada com o objetivo de se obter uma reta
ou curva, que melhor se ajuste aos dados observados e que essas formulações ajudem a
interpretar as relações, até aos níveis das interações, entre as variáveis avaliadas.
2.1 – Regressão linear simples
O emprego da regressão linear simples deverá ser feito somente quando exista uma
variável independente (X) e que ela seja relacionada de forma proporcional com a variáveldependente (Y). Segundo Mendes (1999), a regressão polinomial do primeiro grau ou modelo
estatístico linear, é utilizado para explicar ou prever determinados eventos baseando-se em
fatores quantitativos, mas, relacionáveis entre si.
Tendo-se duas variáveis (Y e X), em que Y é a dependente e X a independente, ao serem
representadas nos eixos cartesianos e se podendo verificar que elas possuem uma relação, ou
seja, à medida que uma cresce a outra cresce ou decresce, o modelo que poderá exprimir essas
variáveis é dado por:
Yi = β0 + β1 Xi + εi , (i = 1, 2, 3,..., n) (Função 1)
7/17/2019 Análise Estatística Dos Parâmetros Aqüicolas
http://slidepdf.com/reader/full/analise-estatistica-dos-parametros-aqueicolas 3/17
Anais de Simpósios da 43ª Reunião Anual da SBZ – J oão Pessoa – PB, 2006.
748
Em que: Y-variável resposta (dependente); β0, β1-parâmetros do modelo; X- variável independente
(explicativa); ε–erro; i- i-ésima observação. Para este tipo de modelo o erro ( ε) deverá apresentar
uma distribuição normal com média zero e variância constante, ou seja, ε~N(0,σ2).
De acordo com Stevenson (1981) é importante ressaltar que nem todas as situações seaproximam de uma equação linear. É necessário verificar se um modelo linear é adequado aos
dados. O processo mais simples consiste em colocar os dados em um gráfico e analisar a relação,
entre as variáveis existentes.
2.2 – Regressão não-linear
Um modelo de regressão é dito linear ou não-linear quando existe uma linearidade ou não-
linearidade nos parâmetros do modelo, respectivamente. Os modelos não-lineares são
classificados em intrinsecamente lineares e intrinsecamente não-lineares. Segundo Drapper e
Smith (1981), um modelo é dito não-linear intrinsecamente linear quando uma transformação
matemática, em sua estrutura, permite que ele possa ser expresso na forma de um modelo linear
padrão (Função 1). Enquanto que os modelos intrinsecamente não-lineares, o processo clássico
para estimar seus parâmetros é por iteração. Entre os modelos não lineares, destacam-se para
utilização nas ciências aquáticas os apresentados na tabela 1.
2.3 – Regressão linear múltipla
A regressão linear múltipla envolve no mínimo três variáveis, em que uma é a dependente
(Y) e as demais as independentes (Xi). Na teoria, é uma extensão da regressão simples, pois o
objetivo é estabelecer uma equação que possa ser utilizada para predizer valores de Y, a partir de
valores das várias variáveis independentes (Stevenson, 1981). Segundo Wonnacott e Wonnacott
(1985), mesmo quando desejamos pesquisar o efeito de apenas um dos fatores, é essencial
aplicar o método da regressão múltipla, quando os dados provêm de um estudo observacional.
Tabela 1 - Principais funções não lineares, intrinsecamente linear, utilizadas nas ciências
aquáticas e seus transformadores.
Modelo Transformador FunçãoYi = β0 + β1/Xi Y 1/X 2Yi = β0Xi
β1 Ln(Y) Ln(X) 3Yi = β0e
β1Xi Ln(Y) X 4Yi = β0 + β1Ln(Xi) Y Ln(X) 5Yi = eβ0 + β1Xi Ln(Y) X 6Yi = β0 Xi / (1+ β1Xi) 1/Y 1/X 7Yi = 1/(β0 + β1Xi) 1/Y X 8Yi = eβ0 + β1/Xi Ln(Y) 1/X 9Yi = 1/(1 + eβ0 + β1Xi) Ln[(1/Y)-1] X 10
7/17/2019 Análise Estatística Dos Parâmetros Aqüicolas
http://slidepdf.com/reader/full/analise-estatistica-dos-parametros-aqueicolas 4/17
Anais de Simpósios da 43ª Reunião Anual da SBZ – J oão Pessoa – PB, 2006.
749
De acordo com Stevenson (1981), os dados pontuais se apresentam dispersos em torno
do plano, ao invés de uma reta de regressão e também, quanto menor a dispersão dos dados,
maior a precisão das predições. Mendes (1999) relatou que, com o objetivo de relacionar uma
variável resposta Y, em função de outras variáveis independentes, pode-se utilizar o seguinte
modelo matemático:n,...,1i,X...XXY ikik i22i110i =ε+β++β+β+β= (Função
11)
Em que:Y-variável resposta (dependente); β0,1,...,k- parâmetros do modelo; Xk- variáveis
independentes; ε–erro; i- i-ésima observação do erro que deverá apresentar uma distribuição
normal com média zero e variância constante (ε~N(0,σ2)).
A função 11 poderá ser também escrita da seguinte forma:
n,...,2,1i,XYk
1 j
i ji j0i =ε+β+β= ∑=
(Função 12)
Ou sob forma matricial por:~~~~
åâXy += (Função 13)
=
n Y
.
.
. Y
Y
2
1
y ,
=
nknn
k
k
X...XX....
....
....
X...XX
X...XX
X
21
22221
12111
1
1
1
,
=
kâ.
.
.ââ
â
â2
1
0
e
ε
εε
=ε
n
2
1
.
.
.
Em que:Y(n x 1) é o vetor das respostas; X(n x p) é a matriz de variáveis regressoras; β(p x 1) é o
vetor de coeficientes de regressão e ε(n x 1) é o vetor de erros aleatórios.
Segundo Cordeiro e Neto (2004), o modelo clássico de regressão é definido por: 1-
Respostas Yi independentes (ou pelo menos não-correlacionadas) para i = 1, 2, 3,..., n, com cada
Yi tendo uma distribuição especificada de média µ i = E(Y i) e variância σ2 constante; e 2- A média
µ i é expressa de forma linear como µ i = Xi
T
β, sendo Xi
T
β um vetor (1xp) com os valores de kvariáveis explicativas relacionadas à i-ésima resposta Yi; e β- sendo um vetor (px1) de parâmetros
a serem estimados. Afirmaram ainda que (1) e (2) podem ser expresso na forma matricial, como:
µ = E(Y) = Xβ , em que: Y = (Y1, Y2, ... , Yn)T é um vetor (nx1) cujo i-ésimo componente é Y i e X é
uma matriz formada pelas linhas X1T, ... , Xn
T. Geralmente, adota-se a hipótese de aditividade entre
Y e µ, isto é, Y = µ + ε, em que ε é um vetor de erros de média zero e variância σ2 constante.
Esses erros são considerados independentes ou pelo menos não-correlacionados. Os efeitos das
variáveis explicativas, que formam as colunas da matriz X, sobre a variável resposta Y são
lineares e aditivos. Na formação da matriz modelo se considera, geralmente, a primeira coluna
7/17/2019 Análise Estatística Dos Parâmetros Aqüicolas
http://slidepdf.com/reader/full/analise-estatistica-dos-parametros-aqueicolas 5/17
Anais de Simpósios da 43ª Reunião Anual da SBZ – J oão Pessoa – PB, 2006.
750
como um vetor formado apenas por números um, sendo o parâmetro correspondente denominado
intercepto.
2.4 – Estimação dos parâmetros
Seja qual for a natureza do modelo de regressão (simples ou múltipla), o problema básico
em sua teoria consiste inicialmente em estimar seus parâmetros e testá-los (Silva e Silva, 1999).
Ressalta-se a importância de definir os valores mínimo e máximo para as variáveis dependentes
e, finalmente, calcular intervalos de confiança para essas estimativas.
O método mais usado para ajustar uma linha reta a um conjunto de pontos é conhecido
como técnica dos mínimos quadrados. Essa técnica foi descrita pela primeira vez em 1805, pelo
cientista francês Adrien Marie Legendre. Com essa técnica determinam-se os parâmetros de um
modelo de regressão, seja ele linear simples, linear múltipla ou não-linear intrinsecamente linear
(Stigler, 1986). A equação resultante tem duas características importantes: 1) a soma dos desvios
(∑=
−n
1i
ii )Y(Y ) dos pontos em relação à reta é zero e 2) a soma dos quadrados desses desvios é
mínima (
2n
1i
ii )Y(Y∑=
− ), isto é, nenhuma outra reta tem menor soma de quadrados do que a
encontrada. Portanto, devem-se estimar valores para “βi” com o objetivo de manter a soma dos
quadrados dos desvios tão pequenos quanto possível.
De acordo com Mendes (1999), as estimativas de β0 e β1, para as regressões lineares
(Função 1), podem ser obtidas a partir da seguinte forma:
ii10i XY ε+β+β= , sendo: ( ) Τϕ / Φ3 15. 84 Τφ 1 0 0 1( ) Τϕ / Φ3 15. 84 Τφ 1 02
i10i
2
ii10ii XYXY β−β−=ε
7/17/2019 Análise Estatística Dos Parâmetros Aqüicolas
http://slidepdf.com/reader/full/analise-estatistica-dos-parametros-aqueicolas 6/17
Anais de Simpósios da 43ª Reunião Anual da SBZ – J oão Pessoa – PB, 2006.
751
independente, foi necessário estimar os valores de 2 parâmetros (β0 e β1), os quais foram obtidos
com auxílio de 2 equações. No caso de “n” variáveis no modelo, serão necessários “n” parâmetros
(β0, β1, ..., β j), definidos na Função 12, os quais poderão ser estimados com auxílio de matrizes, ou
seja:
b j = (XT
X)-1
(XT
Y) (Função 16)Em que: T - matriz transposta; -1- matriz inversa; b - estimador β; j = (0,1,2,..., K)
Para que os parâmetros sejam estimados, é necessário que a matriz (XTX)-1 possua
regressores linearmente independentes, ou seja, cada coluna da matriz X não seja uma
combinação linear de outra coluna.
2.5 – Análise de variância para a regressão
No item anterior 2.4 (Estimação dos parâmetros), foram estimados os parâmetros do
modelo que melhor representasse os pontos obtidos de campo. No entanto, para que um modelo
possa ser utilizado, faz-se necessário responder a seguinte pergunta: pode-se utilizar esse
modelo? Para isto, deve ser feita à análise de variância (ANOVA) para regressão, que tem a
finalidade de verificar a linearidade do conjunto de dados observados (Drapper e Smith, 1981;
Montgomery e Peck, 1982). Com a ANOVA, testa-se se a equação ajustada apresenta uma
inclinação (β1) diferente de 0 (zero) ou não. Para as regressões múltiplas, se os (β1,2, ..., n) são
iguais a zero ou não De acordo com Souza (1998), a análise de variância foi introduzida na
literatura por Sir Ronald A. Fisher, estatístico britânico responsável por muitas das técnicasutilizadas na análise de dados.
O quadro da ANOVA pode ser apresentado de forma matricial (Tabela 2), com a seguinte
formatação:
Tabela 2 – Tabela resumo da análise de variância para a regressão (ANOVA)
FV GL SQ QM F
Regressão GLreg= P-1
SQreg = n
Y
YX b
2n
1i
i
TT
−
∑=
QMreg = SQreg/P QMreg/QMres
Resíduo GLres = n-P SQres = YX bYY TTT − QMres = SQres/(n-P)
Total GLTotal = n-1
SQTotal =n
Y
YY
2n
1i
i
T
−∑
=
Em que: FV - fonte de variação, GL - graus de liberdade; SQ- Soma de quadrado, QM- Quadrado médio, F - estatística
calculada; P - nº de parâmetros; n - nº de observações do modelo.
Para verificar se o modelo de regressão encontrado pode ser utilizado, deve-se comparar a razão QMReg/QMres, representada por F, com a estatística F (GLreg; GLres; α), a qual é tabelada. Caso
7/17/2019 Análise Estatística Dos Parâmetros Aqüicolas
http://slidepdf.com/reader/full/analise-estatistica-dos-parametros-aqueicolas 7/17
Anais de Simpósios da 43ª Reunião Anual da SBZ – J oão Pessoa – PB, 2006.
752
o valor calculado seja maior que o tabelado, pode-se utilizar o modelo. Na prática, basta verificar o
valor (p-valor), que é adicionado ao quadro da ANOVA, logo após o valor do F. Caso o valor de “p”
seja menor que 0,05, rejeita-se a hipótese de nulidade, ou seja pelo menos um dos valores de
beta (β) difere de zero, com 95% de certeza.
2.6 – Análise da equação estimada
Após ter concluído que o modelo proposto pode ser utilizado, é necessário avaliar o
quanto ele é bom ou não, ou no caso, o quanto ele explica a massa de dados. Entre as principais
técnicas para avaliar essas condições, destacam-se: a análise do coeficiente de correlação, de
determinação e a análise de resíduo.
2.6.1 – Coeficiente de correlação (R ou r)
Com base no coeficiente de correlação (R) determina-se o quanto as variáveis
dependentes e independentes estão relacionadas. O valor dessa estatística varia de –1 a +1. Se o
valor de R aproxima-se de –1 ou de +1, significa que os valores observados estão bem próximos
da reta ou até mesmo sobre ela. Se R tende a zero (0) implica em maior distância da reta. De
acordo com Drapper e Smith (1981), o coeficiente de correlação (R) pode ser estimado com a
seguinte equação:
1/2XY(Y)][Var(X)Var
Y)Cov(X,R = (Função 17)
2.6.2 – Coeficiente de determinação ou índice determinístico (R2 ou r2)
O coeficiente de determinação é a razão entre a variação explicada e a variação total. O
valor de R2 pode variar de 0 a 1. Quando a variação não-explicada constitui uma grande
porcentagem da variação total (isto é, a variação explicada é uma porcentagem pequena), R2 será
pequeno. Inversamente, quando a dispersão em torno da reta de regressão é pequena em relação
à variação total dos valores de y em torno de sua média, isto significa que a variação explicada
responde por uma grande porcentagem da variação total e R2 estará muito próximo de 1.
O valor de R2 é dado pela equação:
Total
res
Total
g
SQ
SQRou
SQ
SQR −== 1
2Re2 ou 2
22
Yn Y Y
Yn YXbR
T
T T
−−
= (Função 18)
2.6.3 – Análise de resíduo
Objetiva-se com a análise de resíduo avaliar a influência das observações no modelo
ajustado. Com essa análise pode-se verificar se falta algum componente no modelo, se a variância
(σ2) é a mesma para todos os Y i e se as suposições de normalidade e independência são válidas
para os erros. A análise de resíduo normalmente é feita pelo resíduo “r i” ordinário, ou padronizado
ou estudentizado.
7/17/2019 Análise Estatística Dos Parâmetros Aqüicolas
http://slidepdf.com/reader/full/analise-estatistica-dos-parametros-aqueicolas 8/17
Anais de Simpósios da 43ª Reunião Anual da SBZ – J oão Pessoa – PB, 2006.
753
RES
iii
QM
YYr
−=
)h1(QM
YYr
iiRES
iii −
−=
Resíduo ordinário Resíduo padronizado ou estudentizado (Função 19)
Em que: hii o elemento da diagonal da matriz X(XTX)-1XT e 0 < h < 1.
Segundo Cordeiro e Neto (2004), o resíduo ordinário não é muito informativo, pois sua
variância não é constante, e com isso, observações com grande alavancagem têm resíduos de
menor variabilidade do que observações de pequena alavancagem. Já os resíduos padronizados
têm a vantagem de que, estando o modelo correto, todos os resíduos têm a mesma variância,
mesmo não sendo independentes. Além disso, os resíduos padronizados também são apropriados
para verificar a normalidade dos erros e a homogeneidade das variâncias.
Com as avaliações de resíduos pode-se evidenciar se há homogeneidade da variância
dos erros e linearidade dos efeitos das variáveis explicativas; se os dados seguem umadistribuição normal; a existência de pontos discrepantes ou “outliers”.
2.7 – Variáveis indicadoras no modelo
Normalmente, as variáveis empregadas na análise de regressão são variáveis
quantitativas, ou seja, as que possuem uma escala de medida bem definida (Neter e Wasserman,
1974). De acordo com Mendes (1999), existem ocasiões em que é necessário o uso de variáveis
que não sejam contínuas. Essas variáveis, denominadas de variáveis qualitativas, podem ser
facilmente incluídas no modelo, sob a forma de 0 (ausência) ou 1 (presença). Elas são
denominadas de muda ou binárias (dummy). No banco de dados, quando existe uma variável
muda ao colocá-la no programa, faz-se necessário a exclusão de um dos seus níveis, para que o
sistema não gere uma indeterminação. A variável excluída passa a assumir uma parte do
intercepto no modelo.
2.8 – Alguns métodos de seleção de variáveis
Ao correlacionar uma variável dependente em função de duas ou mais variáveis
independentes, faz-se necessário selecionar aquelas que são realmente significativas ao modelo.
Um dos métodos utilizados para o processo de seleção de variáveis é o de Stepwise. Ele
apresenta três tipos: Backward elimination (eliminação do fim para o início); Forward selection
(seleção do início para o fim) e Stepwise regression (regressão passo a passo).
2.8.1 – Backward elimination
O processo inicia-se com todas as variáveis independentes colocadas no modelo. Com
base na estatística F, para cada variável, verifica-se se ela atende os pré-requisitos estabelecidos,
para as operações (Fentrada) ou (Fsaída). A primeira variável a ser excluída do modelo será aquelaque tiver o menor valor da estatística F (F0). Caso a estatística F, de uma determinada variável,
7/17/2019 Análise Estatística Dos Parâmetros Aqüicolas
http://slidepdf.com/reader/full/analise-estatistica-dos-parametros-aqueicolas 9/17
Anais de Simpósios da 43ª Reunião Anual da SBZ – J oão Pessoa – PB, 2006.
754
seja menor do que o valor do (Fsaída) ela será retirada, caso contrário ela permanecerá. O processo
será concluído quando todas as variáveis forem submetidas a esse procedimento. Esse método
não permite que uma variável eliminada do modelo possa ser recolocada.
2.8.2 – Forward selectionNesse caso, o processo é iniciado sem nenhuma variável independente no modelo, a não
ser o intercepto (β0). A primeira variável a entrar no modelo será aquela que tiver o maior valor da
estatística F (F0). A segunda variável a ser escolhida será aquela que produzir um maior F0 dentre
as variáveis independentes que ainda estão fora do modelo, mas que seja F0 > Fentrada. O processo
se encerra quando a adição de variáveis independentes não produzir um aumento significativo no
coeficiente de determinação da regressão.
2.8.3 – Stepwise regression
Com esse método é possível uma variável independente ser inserido no modelo, em um
estágio, e depois ela ser eliminada num estágio posterior. Normalmente, isto ocorre quando a
entrada de uma variável no sistema, faz com que ela deixe de ser significativa. O processo termina
quando não há mais variável para ser adicionada ou retirada do modelo.
2.9 – Intervalo de confiança para uma estimativa
Para se obter o intervalo de confiança para uma estimativa )Y( 0 , o valor a ser estimado
é expresso por: β= ˆXY T
00 . E seu intervalo de confiança com 100 (1-α)% será:
0
1
0
2
0 2/ˆ XX)(XX
p);n(át Y T T −
−± σ (Função 20)
Sendo o vetor X0, os pontos específicos da variável independente:
=
k 0
02
01
0
X
X
X
1
xM
Em que: t - distribuição t de Student; α- o nível de significância; n- número de observações; p-
número de parâmetros; σ2 - variância dos valores observados; X - matriz de dados; Y0 – valor
estimado; X0 - vetor dos dados das variáveis independentes relativas a Y0 (Montgomery e Peck,
1982).
7/17/2019 Análise Estatística Dos Parâmetros Aqüicolas
http://slidepdf.com/reader/full/analise-estatistica-dos-parametros-aqueicolas 10/17
Anais de Simpósios da 43ª Reunião Anual da SBZ – J oão Pessoa – PB, 2006.
755
2.10 – Transformação de dados
Entre os pressupostos exigidos, para utilização da ANOVA, é que a variância dos erros
seja constante. Ao verificar que a variância não seja constante, pode-se aplicar um transformador
com o objetivo de solucionar o caso. Entre os transformadores mais utilizados, destacam-se oangular (Wi=arcsen(Yi)
0,5), raiz quadrada (W i=(Yi)0,5), logarítmica (Wi=Ln(Yi)) e a de Box e Cox
(Mendes, 1999). De acordo com Drapper e Smith (1981), uma boa família de transformação para a
variável resposta “Y”, necessariamente positiva, pode ser obtida, utilizando o transformador de
Box e Cox, ou seja:
( ) Τϕ / Φ3 19 . 184 Τφ 1 0 0 1 248 . 4λλ /1−= ii YW para 0≠λ
ii YW ln= para 0=λ (Função 21)
Em que esta família de transformação depende apenas do parâmetro λ (lambda).
Sendo o valor de λ desconhecido, não se podem comparar diretamente as somas dos
quadrados dos resíduos gerados por cada λ, pois eles têm unidade diferente. Portanto, a função
21 poderá ser apresentada com a seguinte estrutura:
0),(0,1
1==≠
−= − λλ
λ λ
λ
iii
i YMGLnWeMG
YW (Função 22)
Em que: MG - média geométrica do vetor resposta, sem transformação.
Portanto, ao utilizar a função 22, deve-se atribuir vários valores a e calcular, para cada
caso, o valor da soma dos quadrados dos resíduos. O valor de λ que minimizará a soma dosquadrados dos resíduos (SQres), é considerada o ideal. Para verificar qual o valor de λ que
minimiza SQres, representa-se em um gráfico a relação entre λ (abscissa) e SQres (ordenada).
Geralmente, o valor de λmínimo ocorre entre o intervalo de -3 a +3. Normalmente, com 10 a 20
valores de λ, tem-se condições de estimar o valor que irá minimizar a SQres. Para calcular o
intervalo de confiança para λ, pode-se utilizar a seguinte função:
)1(Ref
2
);2/(
)()(
res
GLresMínimores
GL
tSQ α
λ += (Função 23)
Em que Ref- valor referência, para estimar o intervalo de confiança de λ.
O intervalo de confiança de λ poderá ser estimado, fazendo-se a interseção gráfica de
Ref, com a curva gerada pela relação SQ res x λ (ver Figura 1).
7/17/2019 Análise Estatística Dos Parâmetros Aqüicolas
http://slidepdf.com/reader/full/analise-estatistica-dos-parametros-aqueicolas 11/17
Anais de Simpósios da 43ª Reunião Anual da SBZ – J oão Pessoa – PB, 2006.
756
Figura 1 – Identificação do melhor valor e do intervalo de confiança para λ, através da minimização
da SQres.
3 – APLICAÇÃO DOS CONCEITOS.
3.1 – Regressão linear simples.
De acordo com os dados (Tabela 3) disponíveis no Banco de Dados da Food Agricultural
Organization (FAO), modele matematicamente os dados da produção mundial de peixes e
crustáceos.
Tabela 3 – Variação da produção de peixes e crustáceos, cultivados no mundo, nos últimos 10
anos.
Ano P eixe Crustáceos
(milhões de toneladas)
1994 13,05111 1,005055
1995 14,99437 1,101693
1996 16,92321 1,117422
1997 18,74642 1,218749
1998 19,8703 1,361209
1999 21,57807 1,511582
Ano P eixe Crustáceos
(milhões de toneladas)
2000 22,74534 1,820196
2001 24,21619 2,136546
2002 25,70692 2,394214
2003 26,40527 3,269189
2004 28,16504 3,679753
Fonte:FAO (2006)
1- Representar graficamente os pontos, para identificar o melhor modelo.
Figura 2 - Peixes (A) e crustáceos (B), produzidos no mundo.
10
15
20
25
30
1994 1996 1998 2000 2002 2004
Ano
P e i x e s ( 1 0 6
t )
A
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
1994 1996 1998 2000 2002 2004
Ano
C r u s t á c e o s ( 1 0 6
t )
B
7/17/2019 Análise Estatística Dos Parâmetros Aqüicolas
http://slidepdf.com/reader/full/analise-estatistica-dos-parametros-aqueicolas 12/17
Anais de Simpósios da 43ª Reunião Anual da SBZ – J oão Pessoa – PB, 2006.
757
Com base nos gráficos de tendência apresentados nas figuras 2A e 2B, verifica-se que o
primeiro caso (A) que os pontos se alinharam a uma reta, portanto aconselha-se utilizar o modelo
linear (Função 1). No segundo caso, parece ser razoável a aplicação do modelo definido na
Função 7. Ao executar os cálculos obtêm-se as estimações de β0 e β1 e da ANOVA os dados
apresentados na Tabela 4 e Figura 3.
Tabela 4 – Equações das produções de peixes e crustáceos, produzidos no mundo, para o
período de 1994 a 2004.
Modelo F P(F) R²(%)
Peixes Prod(milhões t) = -2911,57 + 1,467Ano 1233,99 0,0000 99,28
Crustáceos Prod(milhões t) = 1/(152,294-0,0759Ano) 955,08 0,0000 99,07
Figura 3 – Equações das produções de peixes (A) e crustáceos (B) no mundo.
3.2 – Regressão múltipla, com aplicação Stepwise/Box-Cox.
Sendo os dados de cultivo de uma fazenda de criação de camarões, apresentados na
Tabela 5, diagnostique sua produção (kg/ha) em função das variáveis disponíveis.
Prod =1,4671Ano- 2911,57
R2
=99,28%
10
15
20
25
30
1994 1996 1998 2000 2002 2004
Ano
P e i x e s ( 1 0 6
t )
A
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
4,5
1994 1996 1998 2000 2002 2004
Ano
C r u s t á c e o s ( 1 0 6
t )
Prod =1/(152,29409-0,07587Ano)
R2
=99,07%
B
7/17/2019 Análise Estatística Dos Parâmetros Aqüicolas
http://slidepdf.com/reader/full/analise-estatistica-dos-parametros-aqueicolas 13/17
Anais de Simpósios da 43ª Reunião Anual da SBZ – J oão Pessoa – PB, 2006.
758
Tabela 5 - Dados de cultivo do Litopenaeus vannamei, cultivados em 2005.
Área PVazio DEstoc DCultivo Produção Aerar LF(PL)4,6 12 66,7 134 27203,0 14 E3,6 13 65,0 134 21015,5 14 E3,8 7 60,3 120 21051,0 12 B
4,9 13 75,7 120 32936,5 18 E5,2 17 61,2 113 29208,6 12 A4,6 13 74,5 128 29426,8 18 B3,7 13 70,4 130 25440,0 18 E3,2 15 71,8 131 21222,3 18 E5,4 12 77,6 123 34782,4 20 A4,1 14 67,8 118 23605,5 14 D3,8 38 55,5 104 17763,5 12 B4,1 11 67,6 113 21550,0 16 D4,6 10 46,5 107 21331,5 8 D3,6 13 75,1 105 19163,5 14 A4,9 11 73,0 105 25940,5 14 A3,8 13 74,8 124 20839,5 14 A
4,6 10 78,5 116 24712,0 16 E5,2 13 71,4 125 23301,5 16 A3,2 13 72,5 103 16408,0 18 A3,7 16 71,1 104 18034,5 18 A5,4 16 77,6 125 33679,5 18 C4,1 11 66,3 148 22403,0 16 C3,9 13 71,0 148 21594,1 16 A4,6 13 69,3 135 24610,9 16 A4,1 19 68,1 144 24316,5 16 A4,9 6 75,5 124 27397,8 16 A3,6 18 68,8 143 19314,7 16 A3,8 12 70,9 129 20928,9 14 D
4,6 13 57,1 112 21023,2 10 A3,2 22 71,8 107 18959,7 16 C3,7 18 72,7 126 22518,5 18 C
Em que: área (ha); PVazio- período de vazio do viveiro (dias); DEstoc- densidade de estocagem
(ind/m2); DCultivo- dias de cultivo; Produção – kg/ha; Aerar- HP de aerador/ha; LF(PL)- laboratório
fornecedor de pós-larva.
Modelo proposto
Inicialmente, devem ser identificadas quais das variáveis é a dependente e quais as
independentes. Nota-se que a (Produção) é a variável resposta e as demais as de manejo do
camarão. Portanto, o modelo geral poderá ser escrito:
Produçãoi = β0 + β1 Áreai + β2PVazioi + β3DEstoci + β4DCultivoi + β5 Aerar i + β6LF(PL) i + εi.
Note que a variável Laboratório fornecedor de pós-larva (LF(PL)) é qualitativa. Então, a
matriz de dados, para essa variável, será organizada sob a forma de 0 ou 1, ou seja: caso a
produção seja realizada com pós-larvas do laboratório (E), a coluna (LFe) será preenchida pelo
valor 1 e os demais laboratórios por 0, de acordo com o esquema abaixo:
LF(PL) LFa LFb LFc LCd LCeE 0 0 0 0 1
7/17/2019 Análise Estatística Dos Parâmetros Aqüicolas
http://slidepdf.com/reader/full/analise-estatistica-dos-parametros-aqueicolas 14/17
Anais de Simpósios da 43ª Reunião Anual da SBZ – J oão Pessoa – PB, 2006.
759
E 0 0 0 0 1
B 0 1 0 0 0
A 1 0 0 0 0
... ... ... ... ... ...
É altamente aconselhável avaliar os efeitos das interações, tais como: Área*PVazio;
Área*DEstoc; Área*DCultivo; Área*Aerar. Portanto, a primeira aproximação do modelo geral
poderá ser expressa da seguinte forma:
Produçãoi = β0 + β1 Áreai + β2PVazioi + β3DEstoci + β4DCultivoi + β5 Aerar i + β6LF(PL) i +
+β7 Área*PVazioi + β8 Área*DEstoci + β9 Área*DCultivoi + β10 Área*Aerar i + +β11 Aerar i
+β12LFa + β13LFbi + β14LFci + β15LFdi + β16LFei + εi
Ressalta-se que se tem como objetivo principal estimar os parâmetros dos modelos
(β0,1,2,...16), selecionar as variáveis significativas, ou seja, somente as que influenciam na variável
resposta (Produção) e ao mesmo tempo minimizar a Soma dos Quadrados dos Resíduos (SQres).
Portanto, ao utilizar um programa estatístico, no menu Regressão, processo Stepwise, selecione a
opção Forward. Regular os Fentrada e Fsaída para 4. Caso não exista a opção Box e Cox, utilize a
formatação, abaixo descrita, para transformar o vetor resposta e operar com Box e Cox. Para isto,
inicialmente calcule a média geométrica do vetor produção. Ao se calcular a média geométrica,
obtém-se o seguinte valor: 23189,9243. Portanto, o formato do transformador, na variável
dependente será:
1ë
ë
43ë.23189,92
1Produção−
−
Ao utilizar os valores de λ de 1,5 a -1,5, em intervalos de 0,5, obtêm-se os valores da
soma dos quadrados dos resíduos e os respectivos R2, conforme os dados apresentados na
Tabela 6. Verifica-se que o transformador λ= -1,0 foi o que minimizou a soma dos quadrados dos
resíduos. Para este valor de (λ), somente as variáveis OP a (origem da pós-larvas do laboratório
de a) e as interações (area*DEstoc) e (area*DCultivo), foram significativas, para o modelo.
Tabela 6 - valores de λ, SQres e R2, para os dados de produção de uma fazenda de camarão
λ SQres R2
1,5 135869051,9 0,8100
1,0 115844114,4 0,8220
0,5 102042317,1 0,8311
0,0 93330414,5 0,8368
-0,5 88965071,8 0,8391
-1,0 88521593,4 0,8377
-1,5 91850770,1 0,8327
7/17/2019 Análise Estatística Dos Parâmetros Aqüicolas
http://slidepdf.com/reader/full/analise-estatistica-dos-parametros-aqueicolas 15/17
Anais de Simpósios da 43ª Reunião Anual da SBZ – J oão Pessoa – PB, 2006.
760
Equação gerada:
Modelo utilizado para
transformação do
vetor resposta
Parâmetros do modelo e as variáveis que foram selecionadas, com o
processo de Stepwise
11-
-1
431.23189,92-
1Produção−
− = 537728115,6145 -2207,0523*LFa + 37,9418area*DEstoc +
20,9869area*DCultivo
Re-escrevendo a equação acima, tem-se:
Produção=1/[8,2699E-05+4,10406E-06LFa+7,0553E-08 area*DEstoc+3,90256E-08
area*DCultivo]
Estatística do modelo (dados apresentados pelo programa)
Parâmetros Valores Erro Padrão Estatística t Prob(t)
B0 537728115,6145 1879,6086 286085,1469 0,0000
B1 -2207,0523 669,0697 -3,2987 0,0027
B2 37,9418 8,8154 4,3040 0,0002
B3 20,9869 5,3802 3,9008 0,0006
Outras estatísticas; R² = 0,8377;R² ajustado = 0,8196; Erro padrão da estimativa = 1810,6843
ANÁLISE DE VARIÂNCIA DA REGRESSÃO
FV GL SQ QM F Prob(F)
Regressão 3 456781795,1851 152260598,3950 46,44 0,0000
Resíduo 27 88521593,3702 3278577,5322
Total 30 545303383,1027
FV-fonte de variação; GL-grau de liberdade; SQ-soma de quadrado; QM-quadrado médioEstatística de Durbin-Watson= 0,8399.
Ao representar os resíduos em gráfico (Figura 4), verifica-se que não existe uma
correlação ou tendência e que existem apenas 2 pontos discrepantes. Trabalhando-se com as
distribuições normais ao nível de um α=5,0%, pode-se admitir a existência de 2,5% dos pontos em
cada cauda. Portanto, pode-se considerar que a presença desses dois pontos é aceitável, para a
função estabelecida. Ao representar os erros em função de sua padronização, verifica-se
graficamente que os dados se aproximam de uma distribuição normal. A confirmação de sua
normalidade pode ser feita utilizando-se os testes de D´Agostino-Pearson e\ou Shapiro-Wilk. Os
quais aceitaram (P>0,05) a hipótese dos dados seguirem a distribuição normal. Finalmente, após
considerar que o modelo proposto foi considerado aceitável, pode-se representá-lo (Figura 5).
7/17/2019 Análise Estatística Dos Parâmetros Aqüicolas
http://slidepdf.com/reader/full/analise-estatistica-dos-parametros-aqueicolas 16/17
Anais de Simpósios da 43ª Reunião Anual da SBZ – J oão Pessoa – PB, 2006.
761
Figura 4 – Análise de resíduo.
Figura 5 – Produção do Litopenaeus vannamei, em uma fazenda comercial, com viveiros de
diferentes áreas, utilizando pós-larvas de diferentes fornecedores (LF), durante 100
dias.
3.2.1 – Considerações finais do modelo
Desta forma, podem-se apresentar os seguintes diagnósticos para a variável Produção,
na referida fazenda:
1- Das variáveis disponibilizadas, no Banco de Dados apenas DCultivo (dias de cultivo);
DEstoc (densidade de estocagem (ind/m2)) e LF(PL) (Laboratório fornecedor de pós-larva)
influenciaram significativamente na Produção dos camarões;
2- Entre os laboratórios fornecedores de pós-larva, o denominado de (A), gerou umaprodução média inferior (9, 15%) em relação aos demais;
3- As produtividades médias dos viveiros, com áreas de 3,2 e 5,4 Ha, foram de 5389,36 e
4704,96 kg/ha, respectivamente.
4- Pode-se considerar que o coeficiente de determinação (R2= 83,77%) foi satisfatório, uma
vez que não foi disponibilizado os dados físico-químicos da água dos viveiros.
Erro (ei)210-1-2
E r r
o
p a d r o n i z a d o
2
1
0
-1
-2
15000
17000
19000
21000
23000
25000
27000
29000
40 50 60 70 80
Densidade de estocagem (ind/m2)
P r o d u ç ã o
( k g / v i v e i r o )
Área=3,2Ha
Área=5,4Ha100 dias de cultivo
LF a
LF a
LF b,c,d,e
LF b,c,d,e
7/17/2019 Análise Estatística Dos Parâmetros Aqüicolas
http://slidepdf.com/reader/full/analise-estatistica-dos-parametros-aqueicolas 17/17
Anais de Simpósios da 43ª Reunião Anual da SBZ – J oão Pessoa – PB, 2006.
4 – LITERATURA CITADA
CORDEIRO, G. M.; NETO, E. A. L. Modelos paramétricos. Recife: Associação Brasileira deEstatística, 2004, 246 p.
DRAPPER, N. R.; SMITH, H. Applied regression analysis. 2. ed. New York: John Wiley, 1981,
709 p.
FAO (Food and Agriculture Organisation). Aquacult-PC: fishery information, data and statistics(FIDI), time series of production from aquaculture (quantities and values) and capturefisheries (quantities). Programa computacional. Rome, 2006.
LIMA, R. J. W. Analise estatística das variáveis de cultivo do camarão Litopenaeus vannamei.2005. 26 f. Monografia (Graduação em Engenharia de Pesca) - Universidade Federal Rural dePernambuco, Recife.
MENDES, P. P. Estatística aplicada à aqüicultura. Recife: Bagaço, 1999, 265 p.
MONTGOMERY, D. C.; PECK, E. A. Introdution to linear regression analysis. New York: JohnWiley & Sons, Inc, 1982, 504 p.
NETER, J.; WASSERMAN, W. Applied linear statistical models: regression, analysis of variance, and experimental design. Homewood: Richard D. Irwin, 1974, 842 p.
PEREIRA, E. M. A. Análise dos parâmetros de crescimento do camarão de água doceMacrobachium rosenbergii (De Man, 1879), cultivado em tanques rede. 2001. 94 f.Dissertação (Mestrado em Biometria) - Universidade Federal Rural de Pernambuco, Recife.
SILVA. I. P.; SILVA, J. A. A. Métodos estatísticos aplicados à pesquisa cientifica; umaabordagem para profissional da pesquisa agro-pecuária. Recife: Universidade FederalRural de Pernambuco, 1999. 309 p.
SOUZA, G. S. Introdução aos modelos de regressão linear e não-linear. Brasília: Embrapa –SPI, 1998. 505 p.
STEVENSON, W. J. Estatística aplicada à administração. Tradução: Alfredo Alves de Farias.
São Paulo: Harper & Row do Brasil, 1981. 495p.STIGLER, S. M. The history of statistics. Cambridge: Havard University Press, 1986. 410 p.
WONNACOTT, R. J.; WONNACOTT, T. H. Fundamentos de estatística. Tradução: Alfredo AlvesFarias. Rio de Janeiro: Livros Técnicos Científicos, 1985. 355 p.
XIMENES, N. P. Aplicação de Modelos Lineares na Estimação dos P arâmetros do Cultivo doCamarão Marinho Litopenaeus vannamei (BOONE, 1931). 2005. 64 f. (Prelo). Dissertação(Mestrado em Biometria) - Universidade Federal Rural de Pernambuco, Recife.