3 teoria da resposta ao item (tri) - dbd puc rio · puc-rio - certificação digital nº...
TRANSCRIPT
3 Teoria da Resposta ao Item (TRI)
3.1 Introdução
Em muitos campos do conhecimento, como a psicometria, é comum o
interesse em estudar características (variáveis) não observáveis. Este é o caso, por
exemplo, da inteligência, da ansiedade ou da atitude de uma pessoa frente a uma
determinada situação, que, ao contrário de sua altura ou peso, não podem ser
medidas diretamente. Essas características são normalmente denominadas traços
latentes ou habilidades e sua medição é realizada com base em escalas.
Na chamada Teoria Clássica de Testes (TCT), a habilidade de um indivíduo
é determinada com base apenas na pontuação total (score total) obtida em uma
escala específica, desenvolvida especialmente para sua medição. Desta forma, o
nível do traço latente está intimamente associado à escala utilizada, tornando
difícil a comparação de indivíduos submetidos a testes diferentes. Foi exatamente
em decorrência dessa discussão sobre a comparabilidade de testes que a Teoria da
Resposta ao Item (TRI) começou a ser desenvolvida nos anos 50 e 60.
Desde então o foco dos estudos, que antes estava sobre o teste como um
todo, recaiu sobre cada um de seus itens, com o objetivo de identificar suas
características básicas (ou parâmetros) e de construir modelos capazes de associá-
las à habilidade medida para determinar a probabilidade de escolha para cada
alternativa de resposta. Desta forma, os modelos da TRI conseguem atribuir um
score para um traço latente do indivíduo determinando o nível de habilidade que
melhor explica seu padrão de respostas. Dependendo do modelo, graus de
habilidade distintos podem ser atribuídos a indivíduos com a mesma pontuação
total no teste, contanto que seus acertos e erros sejam distribuídos de maneira
diferente.
Por tudo isso, a TRI tem contribuído de forma decisiva para a análise de
testes e para o desenvolvimento de escalas de medição, possibilitando inclusive
estimar erros de medida, utilizar questionários com alguns itens não respondidos e
27
comparar grupos de indivíduos distintos submetidos a testes diferentes (com a
necessidade de certos cuidados, é claro). Esta última propriedade, em especial, faz
da TRI uma ferramenta muito útil na realização de estudos longitudinais,
tornando-a ideal para avaliações educacionais.
No Brasil, a TRI tem sido utilizada, por exemplo, na elaboração de testes e
na avaliação de resultados do Sistema de Avaliação da Educação Básica (Saeb) e
do Exame Nacional do Ensino Médio (Enem).
Neste capítulo, serão apresentados alguns conceitos e modelos básicos da
TRI. A explanação se concentrará nos modelos unidimensionais, ou seja, aqueles
que assumem que o teste mede um único traço latente (ou que pelo menos existe
um traço predominante), com ênfase em sua aplicação a itens dicotômicos.
Espera-se que esta abordagem, além de facilitar o entendimento, favoreça a
visualização mais clara do problema prático de análise da seção de perguntas
específicas sobre o gerenciamento do risco de subscrição do questionário de riscos
da Susep.
Apesar disso, é importante ressaltar que existe uma enorme variedade de
modelos na TRI, muitos deles desenvolvidos para possibilitar a análise de itens
politômicos (por exemplo o Modelo de Respostas Graduadas) e até mesmo a
mensuração conjunta de mais de uma habilidade, também conhecidos como
modelos multidimensionais. No entanto, a descrição de tais modelos está além do
escopo deste texto.
3.2 Curva Característica do Item (CCI)
Como antecipado na introdução deste capítulo, a TRI pressupõe que a
probabilidade de acerto1 em um item depende unicamente da habilidade do
indivíduo e das características do item. A partir de agora, para facilitar a
explicação, o nível de uma determinada habilidade será representado por � e a
probabilidade de acerto em um item específico, em decorrência desta habilidade,
por �(�). 1 O termo acerto é largamente utilizado por influência do uso da TRI em avaliações
educacionais, porém ele pode ter significados diferentes dependendo do contexto. Na análise do questionário de riscos, um acerto corresponde a uma resposta afirmativa, que reflete a adoção de uma determinada prática de gerenciamento de riscos pela seguradora.
28
Desta maneira, espera-se que �(�) seja grande para valores mais elevados
de � e vice-versa. Apesar disso, por maior que seja�, �(�) nunca será de 100%,
da mesma forma que não se pode garantir que ela será 0% no caso de � ser muito
baixo (até mesmo desconsiderando o acerto casual, que será comentado mais
adiante).
Esta noção empírica fez com que desde o começo se utilizassem funções
monotônicas crescentes, não lineares e assintóticas nas extremidades para modelar
�(�). As funções comumente usadas com este fim são a distribuição normal
acumulada e a função logística.
Para um determinado item, o gráfico que apresenta �(�) como função de �
é conhecido como curva característica do item (CCI) ou função de resposta do
item, e seu aspecto geral é mostrado na Figura 12 abaixo:
Figura 1 – Curva Característica do Item (CCI)
A soma das CCI’s de todos os itens de um teste é conhecida como Curva
Característica do Teste (CCT) e representa a probabilidade de obtenção de um
determinado score total em função de�. Um exemplo de CCT para um teste com
5 itens pode ser visto na Figura 2 a seguir, onde a CCT encontra-se destacada na
cor azul, enquanto as CCI’s são mostradas em preto.
2 As figuras 1 a 10 foram produzidas com auxílio de páginas web interativas acessíveis a
partir de http://www.metheval.uni-jena.de/irt/VisualIRT.pdf. (Partchev, 2004)
29
Figura 2 - Curva Característica do Teste (CCT)
É interessante observar que as CCI’s mostradas na figura acima possuem
formatos bastante distintos. Estes formatos não dependem em nada da habilidade
que está sendo medida, mas sim de características intrínsecas do item, conhecidas
como seus parâmetros, sendo a dificuldade e a discriminação os mais utilizados.
Os parâmetros dos itens serão abordados em maior profundidade quando
falarmos dos modelos da TRI, portanto, neste momento cabe apenas destacar que
a dificuldade corresponde ao nível de habilidade mínimo para se esperar que o
indivíduo acerte o item (neste caso, o nível de habilidade no gerenciamento do
risco de subscrição que é necessário para a empresa responder afirmativamente a
uma questão), enquanto a discriminação indica quão bem o item consegue
distinguir os indivíduos que estão acima ou abaixo desse nível.
3.3 Curva de Informação do Item (CII)
Outro gráfico muito utilizado na TRI é a Curva de Informação do Item
(CII), que indica a precisão com que se pode estimar � através da resposta a uma
determinada questão.
A função que representa a informação fornecida por um item será denotada
por �(�), mas, como sua definição depende do modelo utilizado, por ora não será
apresentada uma expressão matemática para ela.
30
Para ilustrar o conceito, a Figura 3 mostra a CII (em azul) de um item
hipotético, comparada com sua CCI (em preto).
Figura 3 - Curva de Informação do Item (CII)
Analogamente à CCT, a Curva de Informação do Teste (CIT) corresponde à
soma das CII’s dos itens que o compõem, e indica a precisão da medida de �
fornecida pelo teste como um todo.
Na Figura 4 abaixo, apresentamos a CIT (em azul) para o mesmo teste de
cinco itens utilizado como exemplo na Figura 2.
Figura 4 - Curva de Informação do Teste (CIT)
31
Fazendo uso dos conceitos acima, pode-se definir a variância da estimativa
de habilidade (��) como o inverso da função de informação do teste:
�(��) = 1�(��)
Portanto, como o erro padrão (EP) corresponde à raiz quadrada da variância,
temos:
� =� 1�(��)
A Figura 5 a seguir apresenta o EP (em vermelho) para cada estimativa de
�, tomando por base o mesmo teste que vem sendo usado como exemplo.
Figura 5 – Erro Padrão
3.4 Alguns Modelos da TRI
Conforme mencionado anteriormente, o formato da CCI é definido pelos
parâmetros do item. Sendo assim, os modelos unidimensionais de respostas
32
dicotômicas distinguem-se basicamente em função do número de parâmetros
considerados.
3.4.1 Modelo Logístico de 1 Parâmetro
O primeiro parâmetro utilizado para distinguir um item de outro foi a
dificuldade, que corresponde ao nível de habilidade mínimo para se esperar que o
indivíduo acerte o item. A dificuldade é definida formalmente como o valor de �
para o qual �(�) é de exatamente 50%, e também é conhecida como localização
porque permite situar a CCI horizontalmente no eixo da habilidade.
A Figura 6 abaixo ilustra as CCI’s de dois itens com diferentes dificuldades:
Figura 6 – CCI’s de dois itens com diferentes dificuldades
Nota-se que a curva da esquerda corresponde a um item mais fácil, pois,
mesmo para valores baixos de �, �(�) é alta. Por outro lado, como na curva da
direita �(�) é baixa até mesmo para valores relativamente elevados de�, esta
curva pertence a um item mais difícil.
O matemático e estatístico dinamarquês Georg Rasch foi o primeiro a
propor um modelo que considerava que a dificuldade do item interagia com �
para determinar�(�) (Rasch, 1960), por isso ele ficou conhecido como modelo
33
de Rasch. Como este modelo utiliza a função logística, ele também é chamado de
Modelo Logístico de 1 Parâmetro. Sua formulação é mostrada abaixo:
�(�, �) = �(���)1 +�(���)
Onde � representa a dificuldade do item.
No Modelo Logístico de 1 Parâmetro, a função de informação do item é
definida pela seguinte equação:
�(�, �) = �(�, �)�(�, �)
Onde �(�, �) corresponde à probabilidade de uma resposta incorreta, ou
seja, �(�, �) = 1 − �(�, �). A Figura 7 abaixo mostra como a CII (em azul) é modificada em função da
dificuldade do item, tendo por base os mesmos itens usados como exemplo na
Figura 6:
Figura 7 - CII’s de dois itens com diferentes dificuldades
Nota-se que a informação é máxima no ponto correspondente à dificuldade
do item. Desta forma, para obter uma CIT relativamente homogênea ao longo de
34
uma faixa de habilidade de interesse, minimizando assim os erros de estimação
nessa região, é interessante incluir no teste itens com diferentes dificuldades.
3.4.2 Modelo Logístico de 2 Parâmetros
Além da dificuldade, outro parâmetro muito utilizado para caracterizar o
item é sua discriminação, que indica o quão bem ele consegue distinguir os
indivíduos com habilidades acima e abaixo de seu nível de dificuldade. Em outras
palavras, a discriminação depende de quanto um pequeno acréscimo (ou
diminuição) em � contribui para o aumento (ou redução) de �(�), sendo,
portanto, proporcional à derivada de �(�) com relação a � no ponto
correspondente à dificuldade do item.
A Figura 8 abaixo ilustra as CCI’s de 2 itens com a mesma dificuldade,
porém com discriminações diferentes. A curva com inclinação mais acentuada
corresponde ao item de maior discriminação, enquanto a de inclinação mais suave
corresponde ao de menor discriminação.
Figura 8 - CCI’s de dois itens com diferentes discriminações
O modelo baseado na função logística que considera dificuldade e
discriminação é denominado Modelo Logístico de 2 Parâmetros, ou modelo de
Birnbaum (Birnbaum, 1968), e sua expressão matemática pode ser vista abaixo:
35
�(�, �, ) = ��(���)1 +��(���)
Onde a representa a discriminação do item e b a sua dificuldade.
Neste modelo, a função de informação é definida como:
�(�, �, ) = ��(�, �, )�(�, �, )
A Figura 9 abaixo mostra graficamente como a discriminação influencia no
formato da CII, tendo por base os mesmos itens usados como exemplo na Figura
8. Desta vez optou-se por representar cada item separadamente para facilitar a
visualização.
Figura 9 – CII’s de dois itens com diferentes discriminações
Nota-se que, quanto maior a discriminação, maior a informação fornecida
em torno do ponto de dificuldade e, consequentemente, menor o erro padrão.
Sendo assim, na elaboração de um teste é desejável que todos os itens possuam
discriminações elevadas.
36
3.4.3 Modelo Logístico de 3 Parâmetros
Outro parâmetro comumente utilizado na descrição de um item é o acerto
casual, que reconhece a possibilidade de acerto em decorrência da simples escolha
aleatória de uma das alternativas (um chute), algo que mesmo um indivíduo no
nível mais baixo de habilidade é capaz de fazer.
Na representação gráfica da CCI, o acerto casual corresponde a uma
assíntota horizontal de �(�), que estabelece um limite inferior para a curva
impedindo que ela se aproxime muito de zero. Geralmente a assíntota é
posicionada em �(�) = 1/�, onde � corresponde ao número de alternativas para
o item.
A Figura 10 a seguir ilustra a CCI para um item dicotômico, onde a
probabilidade de acerto casual é de 50%. Nota-se que a definição de dificuldade
vale apenas para a região acima da assíntota.
Figura 10 – CCI com acerto casual
Apesar de sua aplicabilidade em testes educacionais, o parâmetro de acerto
casual não faz sentido no caso específico da análise do questionário de riscos.
Neste instrumento os itens referem-se a práticas e procedimentos adotados
pelas seguradoras, que o respondente deve conhecer previamente ou, pelo menos,
possuir meios de descobrir. O fato de haver uma auditoria independente das
37
respostas fornecidas e a possibilidade de sanções por parte da Susep em caso de
preenchimento incorreto constituem motivos adicionais para que o questionário
seja preenchido de forma correta, refletindo a situação real da empresa.
É importante lembrar que, na análise do Questionário de Riscos, o
preenchimento considerado correto poderá apresentar respostas afirmativas (ditas
acertos) e negativas (ditas erros).
O preenchimento do Questionário de Riscos é, portanto, bastante diferente
da aplicação de uma prova a um aluno, onde é possível que este desconheça a
resposta certa de uma questão e, em função disso, opte pela estratégia de escolher
aleatoriamente uma alternativa.
Por este motivo, o acerto casual não será considerado neste estudo, não
havendo necessidade de um aprofundamento neste parâmetro.
3.5 Métodos de Estimação de Scores
3.5.1 Parâmetros dos Itens Conhecidos
Na introdução deste capítulo, antecipou-se que os modelos da TRI
conseguem atribuir um score para o traço latente determinando o nível desse traço
que melhor explica o padrão de respostas observado.
Inicialmente, para explicar com isto é feito, pode-se considerar que os
parâmetros dos itens (dificuldade e discriminação) são conhecidos.
3.5.1.1 Máxima Verossimilhança
Admitindo-se que a resposta observada para cada questão independe das
repostas fornecidas para os demais itens do teste em relação à habilidade que está
sendo medida (independência local), a probabilidade de um determinado padrão
de respostas, por exemplo, “Certo, Certo, Errado, Certo Errado”, pode ser
calculada por ��(�)��(�)��(�)��(�)��(�). Ou seja, adotando-se a premissa de independência local, a probabilidade de
um padrão de respostas em um dado teste corresponderá ao produto das
38
probabilidades das respostas observadas para cada item. Generalizando, a
probabilidade de se observar um determinado padrão de respostas u será:
(!|�) = #�$%$&�
(�)'(�$(�)��'(
Onde )$ representa a resposta fornecida em cada questão específica (1, em
caso de acerto, ou 0, em caso de erro).
A função acima é chamada função de verossimilhança e, para estimar o
nível de habilidade de um indivíduo (��), basta identificar o � para o qual (!|�) atinge seu valor máximo. Computacionalmente isto é feito através de métodos
numéricos como o de Newton-Raphson.
A Figura 11 abaixo ilustra as funções de verossimilhança para cada um dos
4 padrões de resposta possíveis em um questionário composto por apenas dois
itens, demonstrando ainda os pontos em que cada curva atinge seu valor máximo
(barras vermelhas).
Figura 11 - Funções de verossimihança para um teste com dois itens
É importante observar que este método tem dificuldade para determinar �� nos casos em que nenhuma ou todas as respostas são corretas. Isto ocorre porque
39
as funções de verossimilhança correspondentes atingem seus pontos máximos em
−∞ e +∞, respectivamente.
Outro ponto interessante é que tanto a curva verde como a magenta
correspondem a 1 acerto no teste, entretanto, �� é mais alto para o padrão u=(1,0)
do que para u=(0,1). Ressalta-se que isto só ocorre quando o modelo apresenta 2
ou mais parâmetros, pois, quando se trata de um Modelo Logístico de 1
Parâmetro, todas as curvas de verossimilhança para um mesmo número de acertos
atingem seu máximo no mesmo valor de �.
3.5.1.2 Estimação Bayesiana
Em geral, a estimação Bayesiana assume uma distribuição a priori para o
traço latente e a combina com dados empíricos para calcular sua distribuição a
posteriori.
Embora não seja o foco desta dissertação estudar métodos puramente
Bayesianos, esta técnica pode ser usada em conjunto com o método de estimação
por máxima verossimilhança para ajudar a resolver o problema que este enfrenta
para atribuir scores a testes com resultados extremos. Neste caso, a distribuição a
priori do traço latente é multiplicada pela a função de verossimilhança:
+(�|!) = (!|�)+(�)
Onde +(�) e +(�|!) correspondem, respectivamente, às distribuições a
priori e a posteriori do traço latente.
Geralmente +(�) é uma distribuição normal, que, quando multiplicada pela
função de verossimilhança, “empurra” seus extremos para baixo. A Figura 12
abaixo demonstra este efeito para a curva de verossimilhança do padrão de
resposta u=(0,0) do exemplo da Figura 11. A barra vermelha indica o valor de ��. É importante observar que este método acaba enviesando a estimativa do
traço latente para o centro da escala, mas este efeito pode ser minimizado
adotando-se uma distribuição a priori com desvio padrão elevado.
40
Figura 12 – Uso de estimação Bayesiana
3.5.2 Parâmetros dos Itens Desconhecidos
Em certos testes, que são aplicados de forma recorrente, é possível que já se
tenha um bom conhecimento dos parâmetros dos itens, possibilitando a utilização
direta das técnicas descritas anteriormente sem maiores problemas. No entanto,
muitas vezes ocorrem situações em que tanto os parâmetros dos itens como o
nível de habilidade são desconhecidos (como é o caso da análise da seção do
questionário de riscos referente ao risco de subscrição, desenvolvida neste
trabalho), e precisam ser estimados conjuntamente a partir dos padrões de resposta
observados.
Isto é conseguido através de procedimentos iterativos que serão vistos a
seguir. Entretanto, ressalta-se que a intenção aqui é apenas descrever de forma
geral a estratégia usada por cada método, sem detalhar demasiadamente seu
funcionamento.
3.5.2.1 Joint Maximum Likelihood (JML)
O método JML, também conhecido como Paradigma de Birnbaum, foi a
primeira técnica desenvolvida para permitir a estimação conjunta de níveis de
habilidade e parâmetros dos itens (Birnbaum, 1968).
41
O primeiro passo do método consiste em produzir uma estimativa inicial da
distribuição de �, normalmente baseada nos scores totais obtidos no teste.
Em seguida, ele utiliza essa estimativa grosseira para calcular os parâmetros
dos itens através do método de máxima verossimilhança.
As estimativas obtidas para os parâmetros são então aplicadas aos dados,
também utilizando máxima verossimilhança, para produzir uma estimativa nova e
aperfeiçoada da distribuição de �, que será usada novamente para melhorar as
estimativas dos parâmetros e assim sucessivamente.
Os passos acima são repetidos até que tanto a estimativa dos parâmetros
como a de � não variem muito de um passo para o outro. Quando isso ocorre, diz-
se que o método convergiu.
Embora o método JML funcione bem para o Modelo Logístico de 1
Parâmetro, muitas vezes ele falha em convergir para modelos de 2 ou mais
parâmetros.
3.5.2.2 Marginal Maximum Likelihood (MML)
Ao contrário do método JML, o MML começa com uma estimativa inicial
da distribuição dos parâmetros dos itens. Para facilitar, normalmente considera-se
uma distribuição a priori, como, por exemplo, +(,) = -(0,1). Utilizando essa distribuição e os dados observados, é possível estimar a
distribuição de probabilidade conjunta dos parâmetros e da habilidade para cada
indivíduo, que será denotada por +(,, �). Em seguida, a distribuição marginal de � pode ser obtida através de:
+(�) = / +(,, �)01�1 2�
Daí em diante o processo se assemelha muito ao do método JML, com a
distribuição de � sendo usada para produzir uma estimativa melhorada dos
parâmetros dos itens (através de máxima verossimilhança), que, em seguida,
permite refinar a distribuição de � e assim sucessivamente até que o método atinja
a convergência.
42
O método MML é uma boa alternativa para a estimação da maioria dos
modelos de TRI utilizados na prática, onde apenas uma dimensão é considerada e
o número de parâmetros é relativamente baixo. Uma implementação popular deste
método é o algoritmo EM (Expectation-Maximization), proposto por Bock &
Aitkin (1981), que é utilizado em muitos softwares de apoio à TRI, como o
BILOG®, por exemplo.
3.6 TRI e Análise Fatorial
3.6.1 Análise Fatorial de Itens
A análise fatorial tem por objetivo descrever as relações de covariância
entre um grande número de variáveis em termos de algumas poucas variáveis
subjacentes, não observáveis, denominadas fatores (Johnson & Wichern, 2007).
Intuitivamente, supondo que existam grupos de variáveis altamente
correlacionadas entre si, mas que as correlações entre as variáveis de um grupo e
de outro sejam baixas, seria de se esperar que cada um desses grupos pudesse ser
representado por um fator. Por esse motivo, a análise fatorial tradicional
normalmente utiliza como base uma matriz de covariâncias ou correlações entre
as variáveis observadas, sobre a qual são aplicadas técnicas para estimação dos
fatores.
Nos casos em que as variáveis observadas são contínuas, é possível utilizar
uma matriz de correlações de Pearson, porém, em se tratando de variáveis
dicotômicas, essa abordagem pode gerar problemas, conforme apontado por
Mislevy (1986).
Por esse motivo, muitos estudos foram desenvolvidos para tentar identificar
uma medida de associação entre variáveis dicotômicas que fosse adequada à
aplicação da técnica de análise fatorial tradicional. Como resultado, diversos
autores, como Bock & Lieberman (1970), Crocker & Algina (1986) e Jöreskog &
Sörbom (1986), recomendaram o uso da correlação tetracórica para esta
finalidade.
A correlação tetracórica assume, como premissa básica, que cada variável
dicotômica pode ser encarada como uma representação binária de uma variável
43
contínua com distribuição normal. Essa variável contínua seria, a princípio,
observável, porém admite-se que ela passou por um processo de “discretização”,
sendo codificada como 1 nos casos em que seu valor superava um determinado
patamar (ou threshold) 3, ou 0, caso contrário.
Sendo assim, tomando por base uma tabela de contingências gerada a partir
de duas variáveis dicotômicas, como a demonstrada na Tabela 1 abaixo, é possível
estimar duas variáveis normalmente distribuídas que, codificadas de acordo com
seus respectivos thresholds, produziriam as frequências mostradas. A correlação
tetracórica pode ser entendida, então, como a correlação de Pearson entre essas
duas variáveis normais subjacentes.
X
0 1
Y 0 0.20 0.26 1 0.07 0.47
Tabela 1 – Tabela de contingências de duas variáveis dicotômicas
Neste exemplo, a variável X corresponde ao item 20 do questionário de
riscos e a variável Y corresponde ao item 21. A correlação tetracórica dessas duas
variáveis, estimada através da função tetrachoric do pacote ‘psych’ do software
estatístico R, foi de 0,55. Os thresholds correspondentes às variáveis X e Y foram,
respectivamente, -0,6 e -0,1.
Para facilitar a visualização, a Figura 13 abaixo mostra a distribuição normal
bivariada das variáveis subjacentes estimadas, que foram usadas no cálculo da
correlação tetracórica.
O mesmo raciocínio pode ser estendido ao caso de variáveis politômicas,
porém, nesta situação, a tabela de contingências terá mais células e haverá mais
thresholds para a codificação das variáveis normais subjacentes em mais de duas
categorias. Neste caso, a correlação resultante é chamada policórica.
A análise fatorial de variáveis discretas, conduzida a partir de matrizes de
correlações tetracóricas ou policóricas, normalmente é denominada análise
fatorial de itens.
44
Figura 13 - Distribuição normal bivariada das variáveis subjacentes
3.6.2 Equivalência Entre a TRI e a Análise Fatorial de Itens
A princípio, a TRI e a análise fatorial de itens, descrita no item anterior,
podem parecer metodologias completamente distintas, o que se deve
principalmente às diferenças entre as parametrizações dos dois modelos.
Entretanto, ambas são técnicas para estimação de variáveis latentes através
de um conjunto de variáveis observáveis, e a relação de equivalência entre a TRI e
a análise fatorial de variáveis categóricas está bem documentada na literatura.
Uma demonstração formal da equivalência entre os dois modelos pode ser vista
em Takane & de Leeuw (1987) e equações associando seus parâmetros, como as
abaixo, são apresentadas, por exemplo, em Kamata & Bauer (2008):
= 4√1 − 4�
� = −3√1 − 4�
45
Onde e � representam, respectivamente, a discriminação e a dificuldade
do item; 4 corresponde ao loading do fator para o item; e 3 indica o threshold
usado para codificar a variável normal subjacente hipotética em uma variável
binária.
Ressalta-se que o trabalho de Kamata & Bauer (2008) apresenta relações de
equivalência semelhantes para outros tipos de parametrizações da TRI e da análise
fatorial. As relações aqui reproduzidas associam o Modelo Logístico de 2
Parâmetros com a análise fatorial de uma matriz de correlações tetracóricas,
considerando apenas o caso unidimensional.
Das relações acima, é possível concluir que os parâmetros da TRI são
transformações não lineares dos parâmetros da análise fatorial, por isso a TRI
pode ser considerada uma espécie de análise fatorial não linear.
Desta forma, a TRI constitui uma maneira alternativa de realizar uma
análise fatorial de variáveis dicotômicas, que utiliza todos os itens em conjunto ao
invés de simples relacionamentos entre pares de itens (como é o caso da matriz de
correlações tetracóricas). Por este motivo, a abordagem de análise fatorial que
utiliza a metodologia da TRI é dita de informação completa (ou full information),
enquanto a que utiliza correlações tetracóricas é dita de informação restrita (ou
limited information).
3.7 Algumas Estatísticas Adicionais Usadas na TRI
3.7.1 Correlação Bisserial e Ponto-Bisserial
A correlação bisserial e a correlação ponto-bisserial são estatísticas que
medem a associação linear entre o resultado de um item dicotômico em particular
e o resultado total do teste, sendo, portanto, medidas aproximadas da capacidade
de discriminação do item. Seu uso é recomendado para avaliar a relevância dos
itens em um questionário.
A correlação ponto-bisserial pode ser deduzida diretamente a partir do
coeficiente de correlação de Person, admitindo-se que o item pode assumir os
46
valores 0, se a resposta estiver incorreta, ou 1, se estiver correta. Sua fórmula é
mostrada a seguir:
67� = 87̅ − 8̅: �;̅<=
Onde 87̅ representa o resultado médio do teste para os que acertaram o item,
8̅ é o resultado médio geral, : é o desvio padrão geral e ;̅ e <= correspondem,
respectivamente, às médias de acerto e de erro do item.
A correlação bisserial é bastante semelhante, entretanto, ela assume que a
resposta fornecida para o item pode ser descrita como uma transformação linear
de um construto latente Z, que possui uma distribuição N(0,1). Sob essas
circunstâncias, a equação acima torna-se:
6� = 8>̅ − 87̅−ℎ@A7̅B<= − ℎ(A7̅);̅
1:
Onde 87̅ e 8>̅ representam, respectivamente, os resultados médios do teste
para os que acertaram e para os que erraram o item; ℎ@A7̅B é o valor da função de
densidade normal padrão no ponto A7̅ (threshold acima do qual se assume que o
indivíduo acertaria o item, semelhante ao 3 da correlação tetracórica); ;̅ e <=
correspondem, respectivamente, às médias de acerto e de erro do item; e : é o
desvio padrão geral dos resultados do teste.
O relacionamento entre a correlação bisserial (6�) e a ponto-bisserial (67�)
é dado por:
6� = 67� C;̅<=ℎ@A7̅B
47
3.7.2 Alfa de Cronbach
A fidedignidade (ou precisão) de um questionário diz respeito ao montante
de variância verdadeira que ele produz comparada à variância erro. Quanto maior
a variância verdadeira e menor a variância erro, mais fidedigno o instrumento.
Entre as principais técnicas utilizadas para determinar a fidedignidade
destacam-se o teste-reteste, que consiste em comparar resultados de testes
aplicados ao mesmo conjunto de indivíduos em dois momentos diferentes
(estabilidade temporal), e a consistência interna, que busca verificar a congruência
que cada item do instrumento tem com os demais itens.
Em casos como a análise realizada nesta dissertação, onde é assumido que o
traço latente (habilidade no gerenciamento do risco de subscrição) pode maturar,
ou seja, evoluir com o tempo, a técnica de teste-reteste não é considerada
adequada, pois se torna impossível determinar o quanto da variância verificada se
deve à evolução da habilidade e o quanto se deve realmente a fatores aleatórios ou
a imperfeições do questionário.
Por este motivo, neste trabalho a fidedignidade do questionário de riscos
será aferida por sua consistência interna, utilizando-se uma estatística conhecida
como alfa de Cronbach, que pode ser calculado através da seguinte fórmula:
D = �� − 1E1 − ∑ G$�H$&�G� I
Onde k representa o número de itens do questionário, G$� é a variância das
respostas ao item i, e G� corresponde à variância dos resultados totais do teste.
A Tabela 2 abaixo ajuda a interpretar o resultado dessa estatística:
Alfa de Cronbach Confiabilidade D > 0,9 Excelente 0,8 < D < 0,9 Boa 0,7 < D < 0,8 Aceitável 0,6 < D < 0,7 Questionável 0,5 < D < 0,6 Pobre D < 0,5 Inaceitável
Tabela 2 – Interpretação do alfa de Cronbach