关于考试我们了解多少
在前面的两个问题中,我们知道了分析试题的两个重要指标:区分度和难度。这两个指标作为我们分析、评价和筛选试题的重要依据,分别承担着区分学生不同能力水平和衡量学生得分难易程度的功能。可能你会说:“能最大限度地把不同水平的学生区分开,学生又容易做的题,必然是一道好题了。”或者说:“看看难度和区分度的关系表就知道,难度是0.5的试题是最好的,因为它的区分度最大。”真的是这样吗?
问题:什么样的试题才算是好的试题?
如前面所说,一道试题好或者不好,它的区分度和难度是必须要考察的两个参数,哪个更应该排在第一位呢?我们先来看看下面这道初中物理单项选择题。
下列对物理概念或规律的说法中正确的是( )
A.某种燃料完全燃烧放出的热量,叫做这种燃料的燃烧值。
B.阳光通过棱镜后被分解成各种颜色的光,这种现象叫光的反射。
C.电路的一部分导体在磁场中做切割磁感线运动时,导体中就产生电流。
D.一切物体在没有受到力的作用时,总保持静止状态或匀速直线运动状态。
这道题的内容涉及初中物理的四大领域――力学、热学、电学、光学,是一些老师所钟爱的试题,尤其是在综合性考试中,因为对试题的数量有限制,同时又对知识的覆盖面有要求,这道题便显示出了它的独特“优势”。此时,也许你想知道这道题的难度和区分度有多大,但这不应该是我们首先要讨论的话题。我们说,任何一道试题,都应该有它的考查意图、考查目的,或者说,它应该对应一个或两个具体的知识目标,以便通过学生的作答来诊断其知识状态、能力水平。这一道试题的四个选项,各自对应一个知识目标,不论学生的答案是哪一项,我们都无法判断它对另外三个知识目标的掌握情况。这道试题的最大特点是题干没有指向明确的检测目标,对选项的知识范围没有做任何限制,任何一个完整的陈述都可以与题干相匹配。这种由无目标的“通用题干”所统领的试题不是我们所提倡的,如果该试题不加以修改,我们甚至没有必要去计算或预计它的难度和区分度。
所以,要求试题符合常规的命题规则,是我们命制一道好试题的基本前提。缺少这一前提,会导致试题参数的不确定性。当然,不同的题型有不同的命题规则。比如,命制单项选择题就有如下要求:题干中尽量避免使用负性用语;答案选项的字数尽量不要比题干多;答案选项与题干在语法上应该结构一致,并保持内容的同质性;答案选项中应慎用“以上选项都不对”“以上选项都对”“总是”“绝对”等词语,以免造成给学生“提示”正确或错误答案的嫌疑。不同题型的命题技术有不同的要求,受篇幅与话题所限,我们就不在这里展开讨论了。
如果一道试题有明确的内容检测目标,并符合一般的命题技术要求,就可以接着往下分析了。我们来看下面这道试题。
汽车在结冰的路面上比在同一条路的干爽路面上行驶更容易引发交通事故,这是由于路面结冰后( )
A.汽车与路面的摩擦力变小。
B.汽车与路面的压力变小。
C.汽车会开得比平常快。
D.汽车轮子比平常瘪。
该试题主要考查考生对物体运动状态改变及其原因的解释能力。经考试后抽样分析,我们得出该试题的难度为0.97,区分度为0.27。对照上一讲的难度与区分度的关系表可以看出,这道试题的两个参数值的表现都很好。但单看难度系数,说明该试题很容易;单看区分度,0.27的数值似乎又显示了该试题的区分度不甚理想。那么,这两个参数哪一个更重要呢?这取决于你想用这道题来考查什么。假如你想借此题来区分学生对“物体运动状态发生改变的原因”的解释能力的不同水平,这道题是不合格的;假如你想检查是不是多数学生对该题的解释能力都达到了较低层次的理解水平,这就是符合需要的试题了。
那么,难度和区分度都符合要求的试题就是好试题吗?我们还是以上面这道题为例,简单分析一下学生的答题情况,表1是78名学生在回答这道题时,对4个选项的.答题选项统计表。
此题的正确选项是A。从表1可以看出,选择错误选项的学生较少,其中的C选项甚至是零选择,说明这一选项对学生完全不具备干扰性,它的存在似乎只是为了凑够4个选项,因而可以说它是一个废项。当然,这个结果也可能是抽样偏少导致,但这道题依然是值得我们斟酌的,至少它提示我们,可能需要增加抽样量来进一步分析,作出是否修改试题的决定。
我们再来看这样一道试题的数据分析。表2为柳州市某城区模拟考试卷中的一道主观题(题目略)的区分度与难度情况分析表,表3为学生的得分情况分析表。该题赋分为5分,命题符合一般技术要求,数据来源为参加考试的该城区的学生样本。
从总体情况看,该题的难度与区分度相当理想,说明题目本身是恰当的。进一步分析学生的得分情况,我们却发现了一个小问题:得到4分的学生人数在总人数中所占比例非常小,连1%都不到,这说明该题的计分点设置不够合理,修订办法是把4分和5分两个计分点合并,或者重新设置计分点。
这样看来,什么样的试题才算是好试题,还真不是一个简单的问题。我们认为,要想知道一道试题算不算好试题,既要单独考察这道试题有没有遵守命题规则,是否达到了一般的技术要求;又要分析这道试题的具体参数,看它是不是符合测试的目的,同时还要考察学生的答题情况。当然,在后面的问题中,我们还会运用项目反应理论来分析学生的答题反应,分析试题与学生能力期望值的拟合度,以保证试题的高质量。
我们知道,一份试卷由一道道试题组成,如果我们把若干道好试题组合起来,就一定能得到一份好试卷吗?
问题:什么样的试卷才算是好试卷?
通常一份好试卷需要满足一些必要的条件,比如:从试卷双向细目表去检查试题内容是不是符合考试要求,编排的难度梯度有没有给考生造成不必要的答题障碍,试题难度与区分度的分布是不是合理,文字阅读量是否恰当,考试的信度、效度是否足够好,等等。在以上各个项目中,有些分析还要在考试结束后才能进行。那么,在考试之前分析一份试卷是不是好试卷,最关键、最重要的因素是什么呢? 假设你已经较好地掌握了命题的技术要领,现在要命制一份试卷,你首先该考虑什么呢?没错,我们首先应考虑这份试卷将用于什么类型的考试,它的主要功能是什么,即明确它的测试目的是什么。
这里先借用心理测量学的一些专业说法:根据对测验进行解释时所采用的标准,我们把测验分成两类,即标准参照测验与常模参照测验。也就是说,我们所说的考试即测验(为方便读者同时阅读其他相关资料,本话题下文暂且将“考试”称为“测验”),依据评价所参照的标准来划分的话,基本上可以分为标准参照测验与常模参照测验两类。标准参照测验又叫目标参照测验,它的目的是将考生的测验成绩与绝对标准相比较,以评价考生是否达标或达标程度如何;它不拿考生之间的分数作比较,侧重了解考生在所规定的测量内容上的行为水平,其出发点是个体本身的绝对水平,而不是个体间的差异。常模参照测验则是将考生的测验成绩与常模相比较,评价考生在团体中的相对位置,即侧重于考查考生的个体差异,一般用于大规模测验中衡量考生的相对水平,以选拔为目的。值得一提的是,常模这个概念比较专业,它是对样本的测验分数用统计手段进行处理后得到的一种用作比较的标准量数,不过这不是我们这里要讨论的重点,对它一时的不理解并不影响大家参与后面的讨论,如果你对常模分数的确定有兴趣,可以另外查阅相关的资料。
具体地说,我们平常的章节测验、单元检测、期末测试等,是老师为了了解学生是否已经掌握相关的教学内容及掌握的程度如何。学生的毕业考试,目的在于评价学生是否达到相应学段课程标准规定的要求。从测验的性质看,以上测验都属于标准参照测验。由于标准参照测验用于检验学生是否达到某一标准,因而在编制试卷时不论题目难易,也不论区分度大小,只要属于考查的知识范围,难度与标准水平要求相一致就应该编进试卷。比如:交规考试就是非常具有代表性的标准参照测验,它考查考生对交规的理解水平是否达到允许申领驾照的门槛,不考虑通过率是多少,不考虑考生的差异有多大。考试依照我国机动车道路驾驶相关规定的标准设置100道题,能答对90道题以上(含90道)就是合格的。假如考生水平都很高,合格率可以是100%;假如考生水平都比较低,合格率可能不到50%。
当你的命题任务是为了给学生编组、编班,或者为高一级学校选拔学生,需要将学生分类排队,区分个体差异时,你所编制的试卷将要应用于一个常模参照测验。为使试卷尽量对学生有较强的鉴别力,我们需要充分考虑试题的难度分布(别忘了好试题的难度与区分度之间是有一定关系的),尤其要在学生群体中的某个能力水平或若干个能力水平处投放有足够的、对应区分度的试题。大部分智力测验、升学招生考试等都是常模参照测验,高考是非常典型的常模参照测验。好的高考试卷通常都会在一本、二本、三本等能力水平处设置足够数量的试题,这时对一个考生的高考成绩单独解释毫无意义,它必须放到全体考生这个团体中去才能体现出它的意义。比如:广西高考物理卷赋分是108分,如果一个考生的高考物理成绩是60分,单看这个分数是很不理想的,但如果我告诉你广西高考物理的常模分数大约是40分(注:这并非一本线),60分在广西考生群体中的排名已经很不错了,已经超出了物理单科一本线的能力水平,是不是很值得庆贺呢?考生的成绩还可以和全国的常模比较呢。
我们看到该卷在难度为0.7―0.9和0.4―0.6两个区间预设了较多的试题(占全卷试题的近70%)。从前面的讨论中我们知道,难度在0.5左右的试题具有最大的潜在区分度。
则是用IRT软件对测试所反映出来的考生能力分布的一种分析结果。
“中考”全称是“初中毕业升学考试”,兼有毕业生检验与选拔的双重功能。在实际考试中,我们可能会面对类似的特殊需求,要求测验兼有标准参照测验与常模参照测验两种性质,这就要求我们在编制试卷时必须在它们之间找到一个恰当的平衡点,如同例子中的这份物理卷。两种类型的测验并非水火不相容,虽然它们的侧重点不同,但它们在一定程度上仍能显示出对方的痕迹。在我国,这种情况并不罕见,像研究生考试就有常模参照测验和标准参照测验的双重属性。说它是常模参照测验,因为考生需要排序、选拔;说它是标准参照测验,是因为有“单科分数线”存在。比如一个考生总分可能很高,但他英语没上单科分数线,同样不能录取,他会被认为“英语水平没有达标”……聊了这么多,好试卷都要具备哪些条件好像还是没说全。是的,我们只谈了最为关键的东西:试卷必须为测验目的服务!明确了测试目的这一根本问题,剩下怎样选择好的试题,怎样命制试题,怎样组卷等等,大都是纯技术性的问题了。就如同两军开战,明确了自己将要面临一场巷战,一个优秀的指战员就会知道应该选择轻武器而不是坦克大炮,也当然知道什么战术最合适,难道不是吗?
文档为doc格式