本文打印自www.cabit.com.cn 字体大小:- + 
项目反应理论简介1
2010/9/28


项目反应理论简介

项目反应理论是测量理论中最重要的三种理论之一。一般将测量理论分为经典测量理论(CTT)、概化理论(GT)和项目反应理论(IRT)三大类,或称三种理论模型。三种测量理论构成了现代人才测评的理论基石。三种理论各有长短,经典理论容易理解、操作简单,体系完整,在现实中更易于被接受,因为适应面很广。概化理论主要解决测量误差的问题,对于分析测量的信度有一定优势。项目反应理论数理逻辑严密,测量精度高,但对使用者的素质和客观条件都有很高的要求,故应用的范围受到限制。在人才测评实践中,要根据具体的测评对象、目的和具备的条件选择恰当的理论来指导测评工作。当然如果能将几种测量理论的优势结合起来则会获得更好的测评结果。

项目反应理论(1RT)经过30至40年的孕育,于1950年代初得以正式创立,于1960年代后期伴随着计算机的发展而得到快速发展。项目反应理论以其科学的理论框架和强且全面的应用功能受到测量学界的青睐。随着我国对外学术交流的发展,具有全新面貌的项日反应理论也引起了我国测量学界的极大关注。

任何一种理论都不可能是完美无缺的,作为测量初期发展起来的理论更是不可避免地存在着一些缺陷。项目反应理论(Item Response Theory, IRT)则是在反对和克服传统测量理论的不足之中发展起来的一种现代测量理论。

  无论是CTT还是GT,其测验内容的选择、项目参数的获得和常模的制定,都是通过抽取一定的样本(行为样本或被试样本),因此可以说二者都建立在随机抽样理论基础之上。它们的局限性主要表现在以下四个方面:

  (1)测量结果的应用范围有限。一般来说,对测量误差的控制有三种方法:配对或标准化、随机化、统计调整。配对或标准化技术的应用使得误差变量的影响不能解释测量结果的差异,随机化技术的应用可使误差变量的影响不能在测量结果上形成系统误差。统计调整技术建立在数学模型基础上,将误差变量的影响参数化,从而在测量中调整参数估计值,减少误差变量的影响。经典测验理论主要应用的是配对或标准化技术和随机化技术。然而,使用配对或标准技术的测量结果仅仅能在相同的测量条件下成立,却不能将其拓展到非标准化的环境之中去,使得测量的应用受到很大的限制。

  (2)测量分数赖性于具体的测验(内容)。经典测量理论控制误差应用标准化技术,但其标准化的对象是测验的各种外部变量,对测验的内部变量即测验的项目的“性质”这一变量却没有也不可能实现标准化。这就造成了测验分数对具体测验的依赖性,迫使经典测验理论要么使用统一的试卷,要么使用实际上并不平行的所谓“平行试卷”。这种处理方法,即给实际操作带来困难,也给结果的解释带来较大的误差。

  (3)测量参数依赖于被试样本。经典测量理论构造了一个完整的理论体系,同时设计了一套参数指标来刻划测量各方面的特性。如测验的信度、效度、项目的难度、区分度等。但是这些参数的估计对样本的依赖性是很大的。测验的信度和效度采用相关分析法,同样受到样本的影响。为避免抽样误差对参数估计的影响,经典测量理论特别强调样本对总体的代表性。但经典理论所应用的是随机抽样,随机抽样总是偏差存在。何况在实际工作中,由于客观条件的限制,还不能做到随机抽样。因此,参数估计值对样本的依赖性使得所估参数对测验的分析的价值是有限的。

  (4)信度估计的精确性不高。测量的重要目标就是降低测量误差,提高测量的精度。在经典测量理论中,信度被定义为真分数的变异在总变异(观测分数)中所占的比率。然而,真分数的方差是无法求取的,误差的方差也无法计算。为了估计信度,CTT就提出了平行测验的概念,并在此基础上推演出了若干个信度估计公式。但是严格的平行测验是不存在的,等价测验也很难获得的,在此基础上估计的测验信度很难达到比较高的精确程度。另外,经典测量理论中的信度估计值也是一个笼统值,即假定对不同能力水平的被试来说,测量的误差是相同的。而事实是,一份测验只有在施测于能力水平与测验难度相当的被试时容易获得比较高的测量精确度。当测验施测于能力水平高于(或低于)测验难度的被试时就容易产生较大的测量误差。而且测量误差值会随着被试水平与测验难度距离的增加而变大。

  项目反应理论研究是以潜在特质为假设并从项目特征曲线开始。所谓项目特质曲线就是用能稳定反映被试水平的特质量表分代替被试卷面总分作为回归曲线的自变量,并把求得的被试在试题上正确作答概率对特质分数的回归曲线称为项目特质曲线(Item Characteristic Curve,简称ICC)。项目反应理论研究中的一项重要工作就是要确定项目特征曲线的形态,然后写出这条特征曲线的解析式,即项目反应函数,也称为项目特征函数(Item Characteristic Function,简称ICF)。

  第一个项目反应理论模型是由洛德于1952年提出的双参数正态肩形曲线模型。其中以θ表示被试特质水平的参数;Pi(θ)表示特质水平为θ的被试在项目I上正确回称的概率。从理论上讲,θ的取值在-∞和+∞之间,当θ=-∞时Pi(θ)为0,当θ=+∞时Pi(θ)为1;bi为项目难度参数,它与特质θ定义在同一个量表上。取θ=bi代入上式,得Pi(θ)=0.5,可见b点是肩形曲线的对称中心,也是曲线的拐点;ai称为项目的区分度参数。ai是曲线在拐点bi处的切线斜率的函数。

  自洛德提出第一个IRT模型后,许多学者投入到此领域的研究中,提出了很多种模型,目前应用最多是伯恩鲍姆(Brinbaum)提出的逻辑斯蒂克模型(Logistic
Model)和拉希模型(Rasch Model)。逻辑斯蒂克模型是三参数模型,除了试题的难度参数bi和区分度ai以外,他还增加了一个猜测参数ci, ci通常定义为被试中能力水平远低于项目难度2/ai个单位的人在该项目实际猜测作答获得成功的概率。当令ci=0,则上述天参数模型就变成了双参数模型,如ci=0且ai=1,则变成了单参数模型,逻辑斯蒂克的单数模型与丹麦学者拉希(Rasch)提出的单参数模型是相同的。拉希模型是在实践中最常用的模型之一。

  与CTT理论和GT理论相比,IRT具有以下优点:

  第一,项目反应理论深入测验的微观领域,将被试特质水平与被试在项目上的行为关联起来并且将其参数化,模型化,是通过统计调整控制误差的最好方法。若模型成立并且项目参数均已知,则模型在测验中为项目性质调整数据,可生成独立于测验项目性质的特质水平测量,这是项目反应理论建立项目反应模型的最大优点。也就是通常所说的被试能力估计不依赖于测验项目的特殊选择。

  第二,IRT模型项目参数的估计独立于被试样本。项目特征曲线是被试作答正确的概率对其潜在特质水平的回归。而回归曲线并不依赖于回归变量本身的次数分布。对于项目反应函数来说,已知特质水平面为θ0的被试在项目i上正确作答的概率仅仅依赖于其值θ0,并不依赖于具有θ0水平的人数有多少,也不依赖于其它θ取值上的人次数。所以,在求取项目特征曲线的各种参数时,由于回归线的形状、位置都不依赖于被试的分布,所以它的参数,包括难度、区分度和猜测参数也都是不变的。

  IRT的第三个优点是能力参数与项目难度参数的配套性,亦即项目难度参数与能力参数是定义在同一个量表上的。这样,对一个能力参数已知的被试,配给一个项目参数已知的试题,我们可以立刻通过模型预测被试正确作答的概率。如果估出被试的能力,我们可以在题库中选出难度与其能力相当的项目进行新一轮的测试,使得能力估计更为精确。这一特点为自适应测评奠定了基础。

  第四个优良性质是通过模型测得的被试能力水平,可以精确估计其测量误差。这一优良特性得益于伯恩鲍姆的工作。他把费啸的描写测验信息结构的测度引进了项目反应模型。他提出在项目反应模型下,能力参数未定的被试在n个测验项目上的信息测度可由下式给出。其中Ii(θ)是项目i上的信息,Pi’(θ)是Pi(θ)的导数。

  利用IRT这些优良性质,可以开发优质题库,可以按测量精度目标编制各种测验试卷,可能实施测验等值,可以侦察测验项目功能偏差,可以实现计算机化的自适应测验(CAT)。

  项目反应理论的发展除了自身的基本理论系统,模型种类,数据模型拟合检验方法和参数估计方法的发展之外,在实际应用方面也有很大成就,主要表现在三个方面:一是指导测验编制。伯恩鲍姆和费啸的测验信息结构的测度引入测验,导致通过建立测验信息目标函数来影响测验的结果,从根本上改善了测验编制的指导思想。在此基础上发展起了多种测验编制指导方法,特别是对目标参照性测验编制的指导,一改经典测验理论软弱无力的指导状况。二是计算化自适应测验的兴起,其三是项目反应理论认知测量模型的出现,将测量导向与认知心理学相结合的方向,应用测量模型直接探索人的认知结构。