3 teoria da resposta ao item (tri) - dbd puc rio · puc-rio - certificação digital nº...

3 Teoria da Resposta ao Item (TRI)

3.1 Introdução

Em muitos campos do conhecimento, como a psicometria, é comum o

interesse em estudar características (variáveis) não observáveis. Este é o caso, por

exemplo, da inteligência, da ansiedade ou da atitude de uma pessoa frente a uma

determinada situação, que, ao contrário de sua altura ou peso, não podem ser

medidas diretamente. Essas características são normalmente denominadas traços

latentes ou habilidades e sua medição é realizada com base em escalas.

Na chamada Teoria Clássica de Testes (TCT), a habilidade de um indivíduo

é determinada com base apenas na pontuação total (score total) obtida em uma

escala específica, desenvolvida especialmente para sua medição. Desta forma, o

nível do traço latente está intimamente associado à escala utilizada, tornando

difícil a comparação de indivíduos submetidos a testes diferentes. Foi exatamente

em decorrência dessa discussão sobre a comparabilidade de testes que a Teoria da

Resposta ao Item (TRI) começou a ser desenvolvida nos anos 50 e 60.

Desde então o foco dos estudos, que antes estava sobre o teste como um

todo, recaiu sobre cada um de seus itens, com o objetivo de identificar suas

características básicas (ou parâmetros) e de construir modelos capazes de associá-

las à habilidade medida para determinar a probabilidade de escolha para cada

alternativa de resposta. Desta forma, os modelos da TRI conseguem atribuir um

score para um traço latente do indivíduo determinando o nível de habilidade que

melhor explica seu padrão de respostas. Dependendo do modelo, graus de

habilidade distintos podem ser atribuídos a indivíduos com a mesma pontuação

total no teste, contanto que seus acertos e erros sejam distribuídos de maneira

diferente.

Por tudo isso, a TRI tem contribuído de forma decisiva para a análise de

testes e para o desenvolvimento de escalas de medição, possibilitando inclusive

estimar erros de medida, utilizar questionários com alguns itens não respondidos e

DBD

PUC-Rio - Certificação Digital Nº 1212777/CA

27

comparar grupos de indivíduos distintos submetidos a testes diferentes (com a

necessidade de certos cuidados, é claro). Esta última propriedade, em especial, faz

da TRI uma ferramenta muito útil na realização de estudos longitudinais,

tornando-a ideal para avaliações educacionais.

No Brasil, a TRI tem sido utilizada, por exemplo, na elaboração de testes e

na avaliação de resultados do Sistema de Avaliação da Educação Básica (Saeb) e

do Exame Nacional do Ensino Médio (Enem).

Neste capítulo, serão apresentados alguns conceitos e modelos básicos da

TRI. A explanação se concentrará nos modelos unidimensionais, ou seja, aqueles

que assumem que o teste mede um único traço latente (ou que pelo menos existe

um traço predominante), com ênfase em sua aplicação a itens dicotômicos.

Espera-se que esta abordagem, além de facilitar o entendimento, favoreça a

visualização mais clara do problema prático de análise da seção de perguntas

específicas sobre o gerenciamento do risco de subscrição do questionário de riscos

da Susep.

Apesar disso, é importante ressaltar que existe uma enorme variedade de

modelos na TRI, muitos deles desenvolvidos para possibilitar a análise de itens

politômicos (por exemplo o Modelo de Respostas Graduadas) e até mesmo a

mensuração conjunta de mais de uma habilidade, também conhecidos como

modelos multidimensionais. No entanto, a descrição de tais modelos está além do

escopo deste texto.

3.2 Curva Característica do Item (CCI)

Como antecipado na introdução deste capítulo, a TRI pressupõe que a

probabilidade de acerto1 em um item depende unicamente da habilidade do

indivíduo e das características do item. A partir de agora, para facilitar a

explicação, o nível de uma determinada habilidade será representado por � e a

probabilidade de acerto em um item específico, em decorrência desta habilidade,

por �(�). 1 O termo acerto é largamente utilizado por influência do uso da TRI em avaliações

educacionais, porém ele pode ter significados diferentes dependendo do contexto. Na análise do questionário de riscos, um acerto corresponde a uma resposta afirmativa, que reflete a adoção de uma determinada prática de gerenciamento de riscos pela seguradora.

DBD


28

Desta maneira, espera-se que �(�) seja grande para valores mais elevados

de � e vice-versa. Apesar disso, por maior que seja�, �(�) nunca será de 100%,

da mesma forma que não se pode garantir que ela será 0% no caso de � ser muito

baixo (até mesmo desconsiderando o acerto casual, que será comentado mais

adiante).

Esta noção empírica fez com que desde o começo se utilizassem funções

monotônicas crescentes, não lineares e assintóticas nas extremidades para modelar

�(�). As funções comumente usadas com este fim são a distribuição normal

acumulada e a função logística.

Para um determinado item, o gráfico que apresenta �(�) como função de �

é conhecido como curva característica do item (CCI) ou função de resposta do

item, e seu aspecto geral é mostrado na Figura 12 abaixo:

Figura 1 – Curva Característica do Item (CCI)

A soma das CCI’s de todos os itens de um teste é conhecida como Curva

Característica do Teste (CCT) e representa a probabilidade de obtenção de um

determinado score total em função de�. Um exemplo de CCT para um teste com

5 itens pode ser visto na Figura 2 a seguir, onde a CCT encontra-se destacada na

cor azul, enquanto as CCI’s são mostradas em preto.

2 As figuras 1 a 10 foram produzidas com auxílio de páginas web interativas acessíveis a

partir de http://www.metheval.uni-jena.de/irt/VisualIRT.pdf. (Partchev, 2004)

DBD


29

Figura 2 - Curva Característica do Teste (CCT)

É interessante observar que as CCI’s mostradas na figura acima possuem

formatos bastante distintos. Estes formatos não dependem em nada da habilidade

que está sendo medida, mas sim de características intrínsecas do item, conhecidas

como seus parâmetros, sendo a dificuldade e a discriminação os mais utilizados.

Os parâmetros dos itens serão abordados em maior profundidade quando

falarmos dos modelos da TRI, portanto, neste momento cabe apenas destacar que

a dificuldade corresponde ao nível de habilidade mínimo para se esperar que o

indivíduo acerte o item (neste caso, o nível de habilidade no gerenciamento do

risco de subscrição que é necessário para a empresa responder afirmativamente a

uma questão), enquanto a discriminação indica quão bem o item consegue

distinguir os indivíduos que estão acima ou abaixo desse nível.

3.3 Curva de Informação do Item (CII)

Outro gráfico muito utilizado na TRI é a Curva de Informação do Item

(CII), que indica a precisão com que se pode estimar � através da resposta a uma

determinada questão.

A função que representa a informação fornecida por um item será denotada

por �(�), mas, como sua definição depende do modelo utilizado, por ora não será

apresentada uma expressão matemática para ela.

DBD


30

Para ilustrar o conceito, a Figura 3 mostra a CII (em azul) de um item

hipotético, comparada com sua CCI (em preto).

Figura 3 - Curva de Informação do Item (CII)

Analogamente à CCT, a Curva de Informação do Teste (CIT) corresponde à

soma das CII’s dos itens que o compõem, e indica a precisão da medida de �

fornecida pelo teste como um todo.

Na Figura 4 abaixo, apresentamos a CIT (em azul) para o mesmo teste de

cinco itens utilizado como exemplo na Figura 2.

Figura 4 - Curva de Informação do Teste (CIT)

DBD


31

Fazendo uso dos conceitos acima, pode-se definir a variância da estimativa

de habilidade (��) como o inverso da função de informação do teste:

�(��) = 1�(��)

Portanto, como o erro padrão (EP) corresponde à raiz quadrada da variância,

temos:

� =� 1�(��)

A Figura 5 a seguir apresenta o EP (em vermelho) para cada estimativa de

�, tomando por base o mesmo teste que vem sendo usado como exemplo.

Figura 5 – Erro Padrão

3.4 Alguns Modelos da TRI

Conforme mencionado anteriormente, o formato da CCI é definido pelos

parâmetros do item. Sendo assim, os modelos unidimensionais de respostas

DBD


32

dicotômicas distinguem-se basicamente em função do número de parâmetros

considerados.

3.4.1 Modelo Logístico de 1 Parâmetro

O primeiro parâmetro utilizado para distinguir um item de outro foi a

dificuldade, que corresponde ao nível de habilidade mínimo para se esperar que o

indivíduo acerte o item. A dificuldade é definida formalmente como o valor de �

para o qual �(�) é de exatamente 50%, e também é conhecida como localização

porque permite situar a CCI horizontalmente no eixo da habilidade.

A Figura 6 abaixo ilustra as CCI’s de dois itens com diferentes dificuldades:

Figura 6 – CCI’s de dois itens com diferentes dificuldades

Nota-se que a curva da esquerda corresponde a um item mais fácil, pois,

mesmo para valores baixos de �, �(�) é alta. Por outro lado, como na curva da

direita �(�) é baixa até mesmo para valores relativamente elevados de�, esta

curva pertence a um item mais difícil.

O matemático e estatístico dinamarquês Georg Rasch foi o primeiro a

propor um modelo que considerava que a dificuldade do item interagia com �

para determinar�(�) (Rasch, 1960), por isso ele ficou conhecido como modelo

DBD


33

de Rasch. Como este modelo utiliza a função logística, ele também é chamado de

Modelo Logístico de 1 Parâmetro. Sua formulação é mostrada abaixo:

�(�, �) = �(��)1 +�(��)

Onde � representa a dificuldade do item.

No Modelo Logístico de 1 Parâmetro, a função de informação do item é

definida pela seguinte equação:

�(�, �) = �(�, �)�(�, �)

Onde �(�, �) corresponde à probabilidade de uma resposta incorreta, ou

seja, �(�, �) = 1 − �(�, �). A Figura 7 abaixo mostra como a CII (em azul) é modificada em função da

dificuldade do item, tendo por base os mesmos itens usados como exemplo na

Figura 6:

Figura 7 - CII’s de dois itens com diferentes dificuldades

Nota-se que a informação é máxima no ponto correspondente à dificuldade

do item. Desta forma, para obter uma CIT relativamente homogênea ao longo de

DBD


34

uma faixa de habilidade de interesse, minimizando assim os erros de estimação

nessa região, é interessante incluir no teste itens com diferentes dificuldades.

3.4.2 Modelo Logístico de 2 Parâmetros

Além da dificuldade, outro parâmetro muito utilizado para caracterizar o

item é sua discriminação, que indica o quão bem ele consegue distinguir os

indivíduos com habilidades acima e abaixo de seu nível de dificuldade. Em outras

palavras, a discriminação depende de quanto um pequeno acréscimo (ou

diminuição) em � contribui para o aumento (ou redução) de �(�), sendo,

portanto, proporcional à derivada de �(�) com relação a � no ponto

correspondente à dificuldade do item.

A Figura 8 abaixo ilustra as CCI’s de 2 itens com a mesma dificuldade,

porém com discriminações diferentes. A curva com inclinação mais acentuada

corresponde ao item de maior discriminação, enquanto a de inclinação mais suave

corresponde ao de menor discriminação.

Figura 8 - CCI’s de dois itens com diferentes discriminações

O modelo baseado na função logística que considera dificuldade e

discriminação é denominado Modelo Logístico de 2 Parâmetros, ou modelo de

Birnbaum (Birnbaum, 1968), e sua expressão matemática pode ser vista abaixo:

DBD


35

�(�, �, ) = ��(��)1 +��(��)

Onde a representa a discriminação do item e b a sua dificuldade.

Neste modelo, a função de informação é definida como:

�(�, �, ) = ��(�, �, )�(�, �, )

A Figura 9 abaixo mostra graficamente como a discriminação influencia no

formato da CII, tendo por base os mesmos itens usados como exemplo na Figura

8. Desta vez optou-se por representar cada item separadamente para facilitar a

visualização.

Figura 9 – CII’s de dois itens com diferentes discriminações

Nota-se que, quanto maior a discriminação, maior a informação fornecida

em torno do ponto de dificuldade e, consequentemente, menor o erro padrão.

Sendo assim, na elaboração de um teste é desejável que todos os itens possuam

discriminações elevadas.

DBD


36

3.4.3 Modelo Logístico de 3 Parâmetros

Outro parâmetro comumente utilizado na descrição de um item é o acerto

casual, que reconhece a possibilidade de acerto em decorrência da simples escolha

aleatória de uma das alternativas (um chute), algo que mesmo um indivíduo no

nível mais baixo de habilidade é capaz de fazer.

Na representação gráfica da CCI, o acerto casual corresponde a uma

assíntota horizontal de �(�), que estabelece um limite inferior para a curva

impedindo que ela se aproxime muito de zero. Geralmente a assíntota é

posicionada em �(�) = 1/�, onde � corresponde ao número de alternativas para

o item.

A Figura 10 a seguir ilustra a CCI para um item dicotômico, onde a

probabilidade de acerto casual é de 50%. Nota-se que a definição de dificuldade

vale apenas para a região acima da assíntota.

Figura 10 – CCI com acerto casual

Apesar de sua aplicabilidade em testes educacionais, o parâmetro de acerto

casual não faz sentido no caso específico da análise do questionário de riscos.

Neste instrumento os itens referem-se a práticas e procedimentos adotados

pelas seguradoras, que o respondente deve conhecer previamente ou, pelo menos,

possuir meios de descobrir. O fato de haver uma auditoria independente das

DBD


37

respostas fornecidas e a possibilidade de sanções por parte da Susep em caso de

preenchimento incorreto constituem motivos adicionais para que o questionário

seja preenchido de forma correta, refletindo a situação real da empresa.

É importante lembrar que, na análise do Questionário de Riscos, o

preenchimento considerado correto poderá apresentar respostas afirmativas (ditas

acertos) e negativas (ditas erros).

O preenchimento do Questionário de Riscos é, portanto, bastante diferente

da aplicação de uma prova a um aluno, onde é possível que este desconheça a

resposta certa de uma questão e, em função disso, opte pela estratégia de escolher

aleatoriamente uma alternativa.

Por este motivo, o acerto casual não será considerado neste estudo, não

havendo necessidade de um aprofundamento neste parâmetro.

3.5 Métodos de Estimação de Scores

3.5.1 Parâmetros dos Itens Conhecidos

Na introdução deste capítulo, antecipou-se que os modelos da TRI

conseguem atribuir um score para o traço latente determinando o nível desse traço

que melhor explica o padrão de respostas observado.

Inicialmente, para explicar com isto é feito, pode-se considerar que os

parâmetros dos itens (dificuldade e discriminação) são conhecidos.

3.5.1.1 Máxima Verossimilhança

Admitindo-se que a resposta observada para cada questão independe das

repostas fornecidas para os demais itens do teste em relação à habilidade que está

sendo medida (independência local), a probabilidade de um determinado padrão

de respostas, por exemplo, “Certo, Certo, Errado, Certo Errado”, pode ser

calculada por ��(�)��(�)��(�)��(�)��(�). Ou seja, adotando-se a premissa de independência local, a probabilidade de

um padrão de respostas em um dado teste corresponderá ao produto das

DBD


38

probabilidades das respostas observadas para cada item. Generalizando, a

probabilidade de se observar um determinado padrão de respostas u será:

(!|�) = #�$%$&�

(�)'(�$(�)��'(

Onde )$ representa a resposta fornecida em cada questão específica (1, em

caso de acerto, ou 0, em caso de erro).

A função acima é chamada função de verossimilhança e, para estimar o

nível de habilidade de um indivíduo (��), basta identificar o � para o qual (!|�) atinge seu valor máximo. Computacionalmente isto é feito através de métodos

numéricos como o de Newton-Raphson.

A Figura 11 abaixo ilustra as funções de verossimilhança para cada um dos

4 padrões de resposta possíveis em um questionário composto por apenas dois

itens, demonstrando ainda os pontos em que cada curva atinge seu valor máximo

(barras vermelhas).

Figura 11 - Funções de verossimihança para um teste com dois itens

É importante observar que este método tem dificuldade para determinar �� nos casos em que nenhuma ou todas as respostas são corretas. Isto ocorre porque

DBD


39

as funções de verossimilhança correspondentes atingem seus pontos máximos em

−∞ e +∞, respectivamente.

Outro ponto interessante é que tanto a curva verde como a magenta

correspondem a 1 acerto no teste, entretanto, �� é mais alto para o padrão u=(1,0)

do que para u=(0,1). Ressalta-se que isto só ocorre quando o modelo apresenta 2

ou mais parâmetros, pois, quando se trata de um Modelo Logístico de 1

Parâmetro, todas as curvas de verossimilhança para um mesmo número de acertos

atingem seu máximo no mesmo valor de �.

3.5.1.2 Estimação Bayesiana

Em geral, a estimação Bayesiana assume uma distribuição a priori para o

traço latente e a combina com dados empíricos para calcular sua distribuição a

posteriori.

Embora não seja o foco desta dissertação estudar métodos puramente

Bayesianos, esta técnica pode ser usada em conjunto com o método de estimação

por máxima verossimilhança para ajudar a resolver o problema que este enfrenta

para atribuir scores a testes com resultados extremos. Neste caso, a distribuição a

priori do traço latente é multiplicada pela a função de verossimilhança:

+(�|!) = (!|�)+(�)

Onde +(�) e +(�|!) correspondem, respectivamente, às distribuições a

priori e a posteriori do traço latente.

Geralmente +(�) é uma distribuição normal, que, quando multiplicada pela

função de verossimilhança, “empurra” seus extremos para baixo. A Figura 12

abaixo demonstra este efeito para a curva de verossimilhança do padrão de

resposta u=(0,0) do exemplo da Figura 11. A barra vermelha indica o valor de ��. É importante observar que este método acaba enviesando a estimativa do

traço latente para o centro da escala, mas este efeito pode ser minimizado

adotando-se uma distribuição a priori com desvio padrão elevado.

DBD


40

Figura 12 – Uso de estimação Bayesiana

3.5.2 Parâmetros dos Itens Desconhecidos

Em certos testes, que são aplicados de forma recorrente, é possível que já se

tenha um bom conhecimento dos parâmetros dos itens, possibilitando a utilização

direta das técnicas descritas anteriormente sem maiores problemas. No entanto,

muitas vezes ocorrem situações em que tanto os parâmetros dos itens como o

nível de habilidade são desconhecidos (como é o caso da análise da seção do

questionário de riscos referente ao risco de subscrição, desenvolvida neste

trabalho), e precisam ser estimados conjuntamente a partir dos padrões de resposta

observados.

Isto é conseguido através de procedimentos iterativos que serão vistos a

seguir. Entretanto, ressalta-se que a intenção aqui é apenas descrever de forma

geral a estratégia usada por cada método, sem detalhar demasiadamente seu

funcionamento.

3.5.2.1 Joint Maximum Likelihood (JML)

O método JML, também conhecido como Paradigma de Birnbaum, foi a

primeira técnica desenvolvida para permitir a estimação conjunta de níveis de

habilidade e parâmetros dos itens (Birnbaum, 1968).

DBD


41

O primeiro passo do método consiste em produzir uma estimativa inicial da

distribuição de �, normalmente baseada nos scores totais obtidos no teste.

Em seguida, ele utiliza essa estimativa grosseira para calcular os parâmetros

dos itens através do método de máxima verossimilhança.

As estimativas obtidas para os parâmetros são então aplicadas aos dados,

também utilizando máxima verossimilhança, para produzir uma estimativa nova e

aperfeiçoada da distribuição de �, que será usada novamente para melhorar as

estimativas dos parâmetros e assim sucessivamente.

Os passos acima são repetidos até que tanto a estimativa dos parâmetros

como a de � não variem muito de um passo para o outro. Quando isso ocorre, diz-

se que o método convergiu.

Embora o método JML funcione bem para o Modelo Logístico de 1

Parâmetro, muitas vezes ele falha em convergir para modelos de 2 ou mais

parâmetros.

3.5.2.2 Marginal Maximum Likelihood (MML)

Ao contrário do método JML, o MML começa com uma estimativa inicial

da distribuição dos parâmetros dos itens. Para facilitar, normalmente considera-se

uma distribuição a priori, como, por exemplo, +(,) = -(0,1). Utilizando essa distribuição e os dados observados, é possível estimar a

distribuição de probabilidade conjunta dos parâmetros e da habilidade para cada

indivíduo, que será denotada por +(,, �). Em seguida, a distribuição marginal de � pode ser obtida através de:

+(�) = / +(,, �)01�1 2�

Daí em diante o processo se assemelha muito ao do método JML, com a

distribuição de � sendo usada para produzir uma estimativa melhorada dos

parâmetros dos itens (através de máxima verossimilhança), que, em seguida,

permite refinar a distribuição de � e assim sucessivamente até que o método atinja

a convergência.

DBD


42

O método MML é uma boa alternativa para a estimação da maioria dos

modelos de TRI utilizados na prática, onde apenas uma dimensão é considerada e

o número de parâmetros é relativamente baixo. Uma implementação popular deste

método é o algoritmo EM (Expectation-Maximization), proposto por Bock &

Aitkin (1981), que é utilizado em muitos softwares de apoio à TRI, como o

BILOG®, por exemplo.

3.6 TRI e Análise Fatorial

3.6.1 Análise Fatorial de Itens

A análise fatorial tem por objetivo descrever as relações de covariância

entre um grande número de variáveis em termos de algumas poucas variáveis

subjacentes, não observáveis, denominadas fatores (Johnson & Wichern, 2007).

Intuitivamente, supondo que existam grupos de variáveis altamente

correlacionadas entre si, mas que as correlações entre as variáveis de um grupo e

de outro sejam baixas, seria de se esperar que cada um desses grupos pudesse ser

representado por um fator. Por esse motivo, a análise fatorial tradicional

normalmente utiliza como base uma matriz de covariâncias ou correlações entre

as variáveis observadas, sobre a qual são aplicadas técnicas para estimação dos

fatores.

Nos casos em que as variáveis observadas são contínuas, é possível utilizar

uma matriz de correlações de Pearson, porém, em se tratando de variáveis

dicotômicas, essa abordagem pode gerar problemas, conforme apontado por

Mislevy (1986).

Por esse motivo, muitos estudos foram desenvolvidos para tentar identificar

uma medida de associação entre variáveis dicotômicas que fosse adequada à

aplicação da técnica de análise fatorial tradicional. Como resultado, diversos

autores, como Bock & Lieberman (1970), Crocker & Algina (1986) e Jöreskog &

Sörbom (1986), recomendaram o uso da correlação tetracórica para esta

finalidade.

A correlação tetracórica assume, como premissa básica, que cada variável

dicotômica pode ser encarada como uma representação binária de uma variável

DBD


43

contínua com distribuição normal. Essa variável contínua seria, a princípio,

observável, porém admite-se que ela passou por um processo de “discretização”,

sendo codificada como 1 nos casos em que seu valor superava um determinado

patamar (ou threshold) 3, ou 0, caso contrário.

Sendo assim, tomando por base uma tabela de contingências gerada a partir

de duas variáveis dicotômicas, como a demonstrada na Tabela 1 abaixo, é possível

estimar duas variáveis normalmente distribuídas que, codificadas de acordo com

seus respectivos thresholds, produziriam as frequências mostradas. A correlação

tetracórica pode ser entendida, então, como a correlação de Pearson entre essas

duas variáveis normais subjacentes.

X

0 1

Y 0 0.20 0.26 1 0.07 0.47

Tabela 1 – Tabela de contingências de duas variáveis dicotômicas

Neste exemplo, a variável X corresponde ao item 20 do questionário de

riscos e a variável Y corresponde ao item 21. A correlação tetracórica dessas duas

variáveis, estimada através da função tetrachoric do pacote ‘psych’ do software

estatístico R, foi de 0,55. Os thresholds correspondentes às variáveis X e Y foram,

respectivamente, -0,6 e -0,1.

Para facilitar a visualização, a Figura 13 abaixo mostra a distribuição normal

bivariada das variáveis subjacentes estimadas, que foram usadas no cálculo da

correlação tetracórica.

O mesmo raciocínio pode ser estendido ao caso de variáveis politômicas,

porém, nesta situação, a tabela de contingências terá mais células e haverá mais

thresholds para a codificação das variáveis normais subjacentes em mais de duas

categorias. Neste caso, a correlação resultante é chamada policórica.

A análise fatorial de variáveis discretas, conduzida a partir de matrizes de

correlações tetracóricas ou policóricas, normalmente é denominada análise

fatorial de itens.

DBD


44

Figura 13 - Distribuição normal bivariada das variáveis subjacentes

3.6.2 Equivalência Entre a TRI e a Análise Fatorial de Itens

A princípio, a TRI e a análise fatorial de itens, descrita no item anterior,

podem parecer metodologias completamente distintas, o que se deve

principalmente às diferenças entre as parametrizações dos dois modelos.

Entretanto, ambas são técnicas para estimação de variáveis latentes através

de um conjunto de variáveis observáveis, e a relação de equivalência entre a TRI e

a análise fatorial de variáveis categóricas está bem documentada na literatura.

Uma demonstração formal da equivalência entre os dois modelos pode ser vista

em Takane & de Leeuw (1987) e equações associando seus parâmetros, como as

abaixo, são apresentadas, por exemplo, em Kamata & Bauer (2008):

= 4√1 − 4�

� = −3√1 − 4�

DBD


45

Onde e � representam, respectivamente, a discriminação e a dificuldade

do item; 4 corresponde ao loading do fator para o item; e 3 indica o threshold

usado para codificar a variável normal subjacente hipotética em uma variável

binária.

Ressalta-se que o trabalho de Kamata & Bauer (2008) apresenta relações de

equivalência semelhantes para outros tipos de parametrizações da TRI e da análise

fatorial. As relações aqui reproduzidas associam o Modelo Logístico de 2

Parâmetros com a análise fatorial de uma matriz de correlações tetracóricas,

considerando apenas o caso unidimensional.

Das relações acima, é possível concluir que os parâmetros da TRI são

transformações não lineares dos parâmetros da análise fatorial, por isso a TRI

pode ser considerada uma espécie de análise fatorial não linear.

Desta forma, a TRI constitui uma maneira alternativa de realizar uma

análise fatorial de variáveis dicotômicas, que utiliza todos os itens em conjunto ao

invés de simples relacionamentos entre pares de itens (como é o caso da matriz de

correlações tetracóricas). Por este motivo, a abordagem de análise fatorial que

utiliza a metodologia da TRI é dita de informação completa (ou full information),

enquanto a que utiliza correlações tetracóricas é dita de informação restrita (ou

limited information).

3.7 Algumas Estatísticas Adicionais Usadas na TRI

3.7.1 Correlação Bisserial e Ponto-Bisserial

A correlação bisserial e a correlação ponto-bisserial são estatísticas que

medem a associação linear entre o resultado de um item dicotômico em particular

e o resultado total do teste, sendo, portanto, medidas aproximadas da capacidade

de discriminação do item. Seu uso é recomendado para avaliar a relevância dos

itens em um questionário.

A correlação ponto-bisserial pode ser deduzida diretamente a partir do

coeficiente de correlação de Person, admitindo-se que o item pode assumir os

DBD


46

valores 0, se a resposta estiver incorreta, ou 1, se estiver correta. Sua fórmula é

mostrada a seguir:

67� = 87̅ − 8̅: �;̅<=

Onde 87̅ representa o resultado médio do teste para os que acertaram o item,

8̅ é o resultado médio geral, : é o desvio padrão geral e ;̅ e <= correspondem,

respectivamente, às médias de acerto e de erro do item.

A correlação bisserial é bastante semelhante, entretanto, ela assume que a

resposta fornecida para o item pode ser descrita como uma transformação linear

de um construto latente Z, que possui uma distribuição N(0,1). Sob essas

circunstâncias, a equação acima torna-se:

6� = 8>̅ − 87̅−ℎ@A7̅B<= − ℎ(A7̅);̅

1:

Onde 87̅ e 8>̅ representam, respectivamente, os resultados médios do teste

para os que acertaram e para os que erraram o item; ℎ@A7̅B é o valor da função de

densidade normal padrão no ponto A7̅ (threshold acima do qual se assume que o

indivíduo acertaria o item, semelhante ao 3 da correlação tetracórica); ;̅ e <=

correspondem, respectivamente, às médias de acerto e de erro do item; e : é o

desvio padrão geral dos resultados do teste.

O relacionamento entre a correlação bisserial (6�) e a ponto-bisserial (67�)

é dado por:

6� = 67� C;̅<=ℎ@A7̅B

DBD


47

3.7.2 Alfa de Cronbach

A fidedignidade (ou precisão) de um questionário diz respeito ao montante

de variância verdadeira que ele produz comparada à variância erro. Quanto maior

a variância verdadeira e menor a variância erro, mais fidedigno o instrumento.

Entre as principais técnicas utilizadas para determinar a fidedignidade

destacam-se o teste-reteste, que consiste em comparar resultados de testes

aplicados ao mesmo conjunto de indivíduos em dois momentos diferentes

(estabilidade temporal), e a consistência interna, que busca verificar a congruência

que cada item do instrumento tem com os demais itens.

Em casos como a análise realizada nesta dissertação, onde é assumido que o

traço latente (habilidade no gerenciamento do risco de subscrição) pode maturar,

ou seja, evoluir com o tempo, a técnica de teste-reteste não é considerada

adequada, pois se torna impossível determinar o quanto da variância verificada se

deve à evolução da habilidade e o quanto se deve realmente a fatores aleatórios ou

a imperfeições do questionário.

Por este motivo, neste trabalho a fidedignidade do questionário de riscos

será aferida por sua consistência interna, utilizando-se uma estatística conhecida

como alfa de Cronbach, que pode ser calculado através da seguinte fórmula:

D = �� − 1E1 − ∑ G$�H$&�G� I

Onde k representa o número de itens do questionário, G$� é a variância das

respostas ao item i, e G� corresponde à variância dos resultados totais do teste.

A Tabela 2 abaixo ajuda a interpretar o resultado dessa estatística:

Alfa de Cronbach Confiabilidade D > 0,9 Excelente 0,8 < D < 0,9 Boa 0,7 < D < 0,8 Aceitável 0,6 < D < 0,7 Questionável 0,5 < D < 0,6 Pobre D < 0,5 Inaceitável

Tabela 2 – Interpretação do alfa de Cronbach

DBD


3 teoria da resposta ao item (tri) - dbd puc rio · puc-rio - certificação digital nº...

Documents