基于IRT和CRT的试题难度计算控制算法
发布时间:2018-08-06 13:14:09   来源:北京共创互动科技有限公司    浏览:

目前, CAT(Computer aided test, 计算机辅助测试系统) 试卷模式中试题难度分布设计的核心思想,主要根据难度分布应该是正态分布函数来进行假设的。而难度在教育心理学中的定义大致有两类,一类是分数度量,即将考生的结果分数进行加权统计作为难度的度量标准,在试卷为百分制状态下,假设在(0,100)区间进行正态分布[1],实际上这个要求是往往和事实不吻合。作者调用了很多考试的成绩,成绩分布与正态分布有较大的偏差。论文写作,正态分布函数。另一类是以通过率作为难度的度量,即以分数的某种统计作为难度的度量,也称统计度量,并假设在(0,1)区间进行正态分布[2]。这种方法实际上是对分数进行了线性变换,本质是一样的,由于存在不合理的假设,这两类方法对难度的表示是否准确值得怀疑。另外,教育技术测量学对正态分布有一个很重要的原则:“正态分布要求数据至少是等距量表上的值[3]”。“分数、通过率”是等距量表的值吗?什么是等距量表,等距量表又有什么特征呢! 


  1 等距量表
  在现代测量学中,等距量表是一种有次序,有相等单位但没有绝对零点的量表;量表上相等的数字距离代表所测量的变量相等的数量差值;量表上某一部分测得的分类所反映的差异,与其他任一部分测得的分数都是相等的。也即量表上同等距离则表示差异程度相等。如温度量表,给出四个温度,甲的温度是10摄氏度, 乙的温度是20摄氏度,丙的90摄氏度,丁的是100摄氏度。测量数值可以表明,甲乙丙丁的在所测的特征值方面是递增的,即次序可以确定。另外,甲乙两人的温度差等于丙丁的温度差,说明甲乙的温度差距与丙丁的温度差距程度是一样的。


  2.分数量表和统计量表都不是等距量表
  分数量表用得分直接表现难度。如考生甲、乙、丙、丁,考同一试题,分别得分(百分制)为20分,30分,90分和100分则,尽管甲、乙两人的成绩差距等于丙、丁两人,但明显地,绝对不能说甲、乙两人的对该题的感觉难度与丙、丁两人的感觉难度是一样的。事实上,也许丙丁两人的感觉难度差别很小,都感觉该题不难。而甲、乙两人则认为相当难。即在分数量表上,相等距离并不表示差异程度相等。论文写作,正态分布函数。因此,分数量表不是等距量表。 
  统计量表将难度在数值上反映为考生群体在该试题上的通过率或失分率,通常又称为统计难度。举个例子,对于项目1,2,3,4,假设通过率分别为0.9,0.8,0.2,0.1,尽管有0.9-0.8=0.2-0.1,但显然,项目1、2的难度差距跟项目3、4难度差距明显不同的。
  综上所述,难度的分数量表和统计量表都是都不是等距量表上的值。根据”正态分布要求数据至少是等距量表上的值”,可以断定,假设试题难度在分数区间或统计难度区间是正态分布这一论断是不成立的,其计算结果很值得怀疑。


  3 难度在等距量表上的表示
  分数量表和统计量表都不是等距量表,那么难度如何表示在等距量表之中呢?
  根据现代测量学的IRT(ItemResponse Theory,项目反应理论)理论,将难度和考生的能力建立在一个等距量表----特质水平量表上[4]。难度被定义为试题本身固有的特性,不随考生样本的变化而变化,其取值范围是(-3,3)。IRT理论认为:当对一个未经筛选数量较大的被试团体施测时,被试的能力水平取值呈正态分布[5]。测试项目在该团体上的通过率(成功百分比),可视为正态分布曲线横轴(即特质水平量表)上从右端+∞开始,到某一特质水平点(一般用符号Z代表)为止的空间,跟正态曲线所夹面积,对曲线下总面积的比;亦即能力水平强于某一特定值的被试,占该团体总人数的比[5]。
  简言之,统计量表中的难度值P所代表的特质水平量表上的难度,就是对统计量表上的难度值进行了非线性变换,但最重要的是,经过变换后的值,已经是等距量表上的值了。论文写作,正态分布函数。论文写作,正态分布函数。


  4试题难度分布控制算法
  4.1 试题的难度计算
  根据IRT理论,假设试卷在统计量表上的难度为P,用公式(1)可以算出P在特质水平量表上的难度Z值,即试卷的平均难度在特质水平量表上的表示。 

     4.2 试题难度方差的确定
  正态分布函数的定义域是[-∞,+∞],而难度取值范围是区间[-3,3]上,因此,要使正态分布有效地描述试题难题,必须使其分布曲线在区间[-3,3]上有效。
  确定有效,需要有科学的原则,这种原则应该根据试题组题自身的特点来确定,"一般来说,当正态分布曲线在[-3,3]区间外的面积小于0.5%,而区间[-3,3]内的面积大于99.5%时,用它描述试题难度分布是有效[6]。
  根据正态分布函数的特点,即正态分布[μ-3σ,μ+3σ]区间,面积将超过99%,μ为正态分布函数的期望。同时一份理想试卷中的试题应该在满足正态分布的前提下,具有尽量宽的覆盖面。基于此,试题难度方差可取min(μ-(-3),3-μ)/3的近似值。
  4.3 难度分布的计算公式
  在特质量表上,假设试卷的统计量表上的难度--试卷的难度期望为μ,难度方差σ,则试题难度分布的密度函数用公式(2)表示。

即: 

  D代表试题难度变量。

  试题难度的分布函数可由公式(3)计算。论文写作,正态分布函数。

 

    5、结果与分析
  根据算法,根据日常经验,依据试卷通过率确定难度的等级,并计算机进行模拟,数据如下:

通过率范围(P)难度定义特质量表范围
0-0.30.52-3
0.3-0.5较难0-0.52
0.5-0.7较易-0.52-0
0.7-1.0容易-3—0.52

计算出试卷上各试题的难度分布曲线如图1所示; 

  图1:不同难度试卷的难度分布曲线图
  从图1可以看出,随着难度期望与Z=0(即P=0.5)距离的增大,试题有向少数难度等级集中的趋势。论文写作,正态分布函数。当难度期望为Z=0.84(P=0.8)时,难度分布集中在3个难度等级上,而当难度期望为Z=-0.52(P=0.3)时,难度分布在4个难度等级,这与平常出题的常识是一致的,证明算法是相当有效的。

参考文献
[1]狄文辉,李庆亮,郭祖华.计算机考试系统的设计与实现[J]计算机与网络,2003,(20)
[2]王萌,金汉均,王晓荣.集合随机抽选法在智能组卷中的研究[J]计算机工程与设计,2006,(19)
[3]姚进,段会川基于蒙特卡罗方法的试卷难度分布研究[J],《计算机应用与软件》2004(9)
[4]魏宗舒,概率论与数理统计教程[M],北京:高等教育出版社,1983
[5]杨松林.基于网络的计算机辅助设计等级测试技术研究[D]华北电力大学(河北),2005.
[6]张月.基于遗传算法的在线考试系统[D]吉林大学,2006

京公网安备 11010502031621号