心理学考研重点：心理测量的误差（2）

专业课时间: 2019-03-09 12:19:42 作者: 匿名

心理测量的误差

前面我们已经讨论了什么是测验，以及如何编制测验，现在转入研究什么是一个好的测验。

无论何种测量工具，我们对它起码的要求是稳定，准确。用心理测量学的术语来说，就是要可信和有效。所谓可信是指多次测量的结果是一致的，所谓有效是指正确地测量了所要测的东西。信度是测量一致性程度的估计，效度是测量准确性程度的估计。

关于测量的信度和效度问题，下边有专章分别讨论。为了考察测量的信度和效度，首先要了解测量的误差。

第二节误差的来源

一个测验要准确可靠，必须控制各种误差，为此首先要了解误差的来源。

根据误差定义，任何变因只要与测量目的无关，并使得结果不准确、不一致，便可认为是一种误差因素。在心理测量中，

常见的误差来源于三个方面：测验内部，施测过程，受测者本身。

一、测验内部引起的误差

测验内部的误差主要来源于题目取样：当测验题目较少或取样缺乏代表性时，被试的反应受机遇影响较大，(譬如一次考试碰巧准备到或没准备到某题)，当几个测验复本不等值时，接受不同的题目，就会获得不同的分数。

除题目取样不当可引起误差外，其它一些因素，如题目用词的模棱两可，对反应步骤说得不清，题目过难引起猜测，时限短使被试仓促作答等，也都可能成为误差的来源。

二、由施测过程引起的误差

在三种误差来源中，与施测过程有关的误差可能是最容易控制和检验的。通过长期实践，测验的标准化水平越来越高，大部分施测条件能够得到控制。但由于心理现象的复杂性，许多意想不到的偶然因素仍可能影响测验分数，使人防不胜防。

(一)物理环境

施测现场的温度。光线，声音、桌面好坏，空间阔窄等皆具有影响。

(二)主试者方面：

主试者的年龄、性别、外表，施测时的言谈举止、表情动作等均能影响测验结果。倘若不按照规定实施测验，如制造紧张气氛，给予特别协助或暗示，以及计时错误等，都会带来较大误差，特别是当测验具有复杂步骤和说明，或测验题本身是模糊不确定的形式时，当主试者在安排测验条件上有较多余地(例如个别施测)时，当测验是对幼儿，有情绪困扰者以及对测验程序不熟悉的人施测时，主试者的影响更大。

(三)意外干扰：

在测验环境复杂，特别是当受试人数较多时，容易发生出乎预料的干扰或分心事件。例如：停电、有人生病，有人作弊，计价表停了、临时发现题目或作答纸印刷不清或装订错误等，无论哪种情况都会引起不安和扰乱，导致成绩不准确、不一致。

(四)评分计分，

评分不客观以及计算登记分数出错等也是常见的误差。一般选择题的评分较为客观。而问答题、论文题等自由反应型的题目，评分标准很难掌握，加之阅卷者的偏好各不相同，因而难以保证分数的一致性.

早在几十年前，国外就有人对旧法考试的评分误差做过研究。斯达奇(D?storch)和埃立奥特(E?C?Elliott)将一份英文考卷请142位英文教员评阅，所得分数从50分到98分应有尽有。某国教育界还有一件引为笑谈的事，1920年夏季，许多大学教授在评阅历史试卷时，有一位教授为评分便利起见，自己写了一份标准答案，不料和其它考卷混在一起，经另一位教授评阅竟然不及格。为慎重起见，由其它教授重复评定，结果所得分数以10分到90分不等。1961年美国教育测验中心由53个评判员组成专门小组。对大学一年级学生写的200篇作文按九个等级评分，结果有1/3的文章得到了九个等级，有60%的文章得到了七个或八个等级，没有一篇文章少于五个等级。一般理科评分要比文科客观些，但也不尽然。罗雪(Ruch)将—道地理题的解答请91位教员评阅，满分为20分，结果给17种分数，全距为2—20，给各种分数的人次见表4—1，斯达奇和埃立奥特将一份几何考卷请115位中学教员评立，所得分数为28—92分，全距60多分。我国1979年高考数学试卷第四题叙述并证明勾股定理，对于

表4—1 91位教师对于一个地理题的回答所给分数的分布

分数 0 11 12 13 14 15 16 17 18 19 20

人次 0 0 0 1 4 3 7 5 24 5 14 8 2 10 2 1 1 0 1

用余弦定理进行循环论证的答卷，有的阅卷教师不给分，有的却给满分(6分)。不仅各教师间有此差异，即使同一教师一次评许多卷，受情绪，疲劳，外界干扰;卷面整洁、试卷前后位置引起的对比效应以及对学生成见的影响，标准也可能不统一，甚至同一张试卷隔一段时间再评，前后给分也可能不一致。至于学校之间，地区之间的差别就更大了。1980年，清华大学受教育部委托对新生进行数学复试，并与高考数学成绩对照。将各省市学生按两次考试的平均成绩分别排队。G省学生的高考平均成绩居第11名，而复试成绩降到第28名，T市学生成绩次序由第8名降到第23名。相反H省和S省考生的名次由第15名和第18名分别升至第3名和第7名，产生这种变化的原因很多，其中很重要的一条是各省评分标准掌握不同，宽严不一。这就使得学生分散的差异在一定程度上反映的是评分者的差异，而不完全是学生水平的差异。

对于论文题、问答题要多少人评分，平均分数才能相对稳定和客观呢?国外有人对此做了研究，结果如下：哲学论文127人，作文78人，物理16人，数学13人。

为了控制与施测过程有关的误差，主试者必须严格遵循标准化程序施测和评分，不得任意改动和发挥，同时要机智地处理各种意外情况。

三、由受测者本身引起的误差

既使一个测验经过精心编制，题目取样具有代表性，又有标准化的施测和记分程序，由于受测者本身的变化，仍然会给测验分数带来误差，这种误差是最难控制的。

来自受测者的误差因素，有些是属于个人的长期的一般的变化，有些是与特定测验内容和形式以及特定施测条件相联系的暂时的特殊变化。

(一)应试动机

受测者对测验的动机不同，会影响其作答态度，注意力、持久性、反应速度等，从而影响测验成绩;例如，在西方国家，大多数人具有较强的竞争观念，因而在参加能力和学业等要求最高行为的测验时，能尽力做出最好的回答，而在一些少数民族和社经地位较低的团体中，则不大强调竞争，测验的内躯力不强，往往随随便便做出回答。因此，黑人儿童和白人儿童在测验分数上的差异反映的就不完全是能力的高低，其中还掺杂有动机效应。

动机效应在人格测验中也有表现。譬如，当个性调查表用于选人时，雇主感兴趣的是申请者的典型行为，但有的申请者，为了给人留下一个好印象，在回答时可能考虑雇主的期望或社会道德等因素，而不按自己的真实情况作答，从而给分数带来误差。

应试动机对测验成绩的影响表现在各方面，如果动机效应使一个人在反复测量中以一种恒定的方式进行活动，这便导致系统误差，使测量的有效性降低，如果受测者的动机引起了偶然性的不稳定的反应，这是一种随机误差，测量的有效性，可信性便都会降低。

(二)测验焦虑

测验焦虑是指受测者在应试前和测试中出现的一种紧张的、不愉快的情绪体验。和一切情绪反应一样，焦虑的产生既有认知因素的作用，也有生理因素的作用。

对测验的焦虑会影响被试的成绩。一般说来，适度的焦虑会使人的兴奋性提高，注意力增强，提高反应速度，从而对测验成绩产生积极影响.过高的焦虑却会使工作能力降低，注意分散，思维变得狭窄，刻板，记忆中储存的东西提取不出来。但一点焦虑没有，也不是好事，内驱力过小的受测者往往采取满不在乎的态度，因而成绩大多较低。焦虑对测验成绩的影响可用图4—2的倒U型曲线来表示。

图4—2 焦虑对测验成绩的影响

研究表明，测验焦虑受主客观两方面因素影响：

l.能力和测验焦虑成负相关。能力高的人，测验焦虑一般较低，两对自已的能力没有把握的人，测验焦虑较高。

2.抱负水准与焦虑成正相关，抱负水准过高，求胜心切的人，测验焦虑较高。

3.患得患失、缺乏自信、情绪不稳、顺应不良的人产生测验焦虑。

4.经常接受测验的人焦虑较低，而对测验程序不熟悉的人焦虑较高。

5.测验成绩对被试关系重大，后果严重，或被试受的压力很大时易产生焦虑.

6.被试不了解测验的目的，测验的指导语不清，采用了新的题目形式或施测程序，以及有严格时间限制等测验方面的因素，也会增加被试的焦虑。

(三)学习，发展与教育

由一般学习经验或发展变化所引起的测验分数上的差异，在大多数情况下，只构成恒定误差。但有时，大多数人对于某个测验没有准备，只有个别人获得了特殊训练，或者在两次测验的间隔期中，有的人获得了特殊的教育和训练，而其他人没有，在这种情况下，第二次测验所得到的分数，既反映了第一次施测时所测量的东西，也反映了在两次施测之间所学到的东西。由于受测者所受的训练量不同，他们的分数就会受到不同的影响，而表现出随机误差。

(四)测验经验

受测者对测验的经验也会影响成绩，对测验的程序和技能熟悉程度不同，所得分数便不能直接比较。

任何时候只要引入一种新的题目形式或一种新的反应程序，就有可能造成理解上的错误并最终在测验中带来误差。因此，当使用一种新的、不寻常的测验形式或反应方式时，需要提供练习题和演示。在大多数情况下，少量的练习就足够了，但对于很少接触测验的人，练习应稍多一些。总之，在测验前，应尽可能使每个被试都对测验程序有所了解。

也有另外一种情况，有些人经历过多次测验，发展了测验技能，成为“测验油子”。他们在觉察正确答案与错误答案的细微差别，合理分配时间，以及适应新的测验形式等方面具有丰富的经验，因此常比那些能力相差不多、但缺乏测验经验和技巧的人获得更多的分数。

(五)练习效应

任何一个测验在第二次应用时，都会有练习效应而使成绩提高。

在能力测验方面，练习效果的研究大体获得下列结论：

1.练习对于智力较高者，效果较为显著。

2.着重速度的测验，练习效果较明显。

3.再作同—个测验比作复本的练习效果显著.

4.两次测验之间的时距愈大，练习效果愈小，相距三个月以上，练习效果可忽略不计。

5.一般的平均练习效果，约在1/5个标准差以下，但第二次再测后，练习效果即接近于零。

以上结论只是某些人使用某些测验的研究结果，不一定具普遍意义。

(六)反应方式

反应方式是指独立于测验内容的反应倾向。例如，在速度性测验中，有的人“快而不准”，有的人却“宁慢勿错”;在是非题中，有的人有—种“默认反应方式”，即不管内容如何都答“是”，有时甚至会自相矛盾。为了纠正此种误差，应使“是”“非”答案大体相等。

(七)生理变因

不但心理因素会影响测验成绩，生病，疲劳、失眠等生理因素也会影响测验成绩而带来误差。能影响测验分数的变因还有许多，实际上任何与测量目的无关的变因都可能引起误差，这里介绍的只是几种主要的，这些变因既能引起随机误差，也能产生系统误差。

某些情况如计时错误或指导语不当，很明显会产生可变误差。其它变因，如个人在有关内容方面的知识或技能，通常产生恒定的效果。然而，当两测验施测时距长，在两次测验当中可能产生不同的学习或遗忘效果，这不仅会使分数不稳定，而且还可能是个人的永久改变。测验的标准化就是为了控制这些因素，以减少误差，使测验分数更可信，更有效。

希望上文中的内容，大家能够用心去记忆，把握好心理学测量的每一个章节重点要点，争取为心理学专业考研打好基础，赢得理想的分数，加油!

猜你喜欢