您当前的位置：首页 > 党建材料 > 入团志愿书 > 内容

考试抄袭识别的心理测量学研究回顾

无忧文档网时间: 2019-11-27 06:05:57 阅读:次

　　摘要考试抄袭是最难识别的作弊方式。抄袭统计量（ACS）和人员拟合统计量（PFS）是识别抄袭的两类主要统计方法。ACS是根据被怀疑抄袭者与被抄袭者实际得分模式相似的概率来识别抄袭者。PFS 则把一个观察的项目得分模式与一定的测量模型相对比，来检验被试得分模式是否与测量模型预测的模式相吻合。其中，PFS由于在识别异常得分模式时存在一些干扰因素，所以对结果的解释存在多样性，应用较少。ACS是专门用于识别抄袭的统计方法，研究表明其识别率更高。目前ACS指标在美国的SAT和一些资格认证考试中已经得到广泛应用。
　　关键词考试抄袭，抄袭统计量，人员拟合统计量，神经网络技术。
　　分类号B841
　　
　　测验中有许多干扰因素会影响测验分数，使测验结果偏离真实。其中一个因素就是作弊（cheating）。作弊的方法多种多样，Cizek概括了三大类共59种作弊的方法，其中包括携带禁止使用的材料，通过现代通讯工具传送信息，代考等[1]。抄袭答案（answer copying）是众多作弊方法中的一种，也是在文献中经常提到的一种作弊方式，它指的是一个被试（copier）从另一个被试（source）那里得到全部或部分答案[2]。抄袭答案是最难识别的一种作弊方式[3]，被试没有携带任何禁止使用的材料，即使监考者看见被试偷看旁边被试的答案，因为仅有视觉证据缺乏实物证据，所以不易举证被试抄袭答案。
　　用统计方法来识别考试抄袭可以追溯到20世纪20年代，近30年来，大量的抄袭统计量（answer- copying statistics, ACS）被提出来并得到广泛的研究和应用[2～5]。从20世纪20年代开始美国高等教育考试机构就开始使用统计方法识别抄袭。ETS曾资助过许多抄袭统计量的研究，目前ETS已在SAT测验中引入K指数作为抄袭识别统计量[1]。此后Wollack将ω统计量用于MBE（Multistate Bar Exam）和MPRE（Multistate Professional Responsibility Examination）考试中抄袭行为的识别[6]。
　　在我国考试作弊同样严重，而控制和检测作弊和抄袭的方法却非常单一，本文的目的是介绍主要的抄袭统计量的原理和性能，促进国内学者对这些统计量的研究和应用，从而提高考试的有效性和公平性。
　　
　　1 抄袭统计量的基本原理
　　
　　抄袭统计量（ACS）的统计原理是：在没有抄袭的假设条件下建立被试反应概率的模型，在此基础上得到被试之间存在相似回答模式的概率，进而发现异常的相似回答模式，存在这一模式的被试就被认为是可能的作弊者[7]。
　　任何两个独立的被试都存在一些相同的反应。选择相同的正确答案是非常普遍的，尤其是高能力被试，即使对低能力被试，他们也非常有可能正确回答一些比较简单的项目。相似地，任何两个被试都可能做出一致的错误反应，每个项目一般都会有一些错误选项来吸引能力比较低的被试。尤其是那些比较难的项目，错误选项要比正确选项更容易被选择。因此两个被试选择共同的错误选项也是正常的。虽然在一些项目上做出匹配回答是可以接受的，但某种类型的匹配回答却是异常的。两个能力比较高的被试是不可能选择相同的低频错误选项，相似地，低能力被试也不可能正确回答非常难的项目，也就是说，如果低能力被试在较简单的项目上答错，那么他在难项目上就不容易答对。这种匹配回答较少时并没有统计意义，但如果有许多这样的匹配发生，就有了统计学意义[6]。
　　ACS就是在以上假定的基础上提出的。所有的ACS在计算时依据的都是被怀疑抄袭者与被抄袭者实际得分模式相似的概率。ACS一般被分为两类[1]。一类是把观察到的被怀疑抄袭者和被抄者匹配的反应模式与一个已知的理论分布（如标准正态分布）进行对比[8～10]。第二类则是首先要建立参加相同测验的被试（examinees）与被抄袭者（source）作出匹配反应模式的分布（经验分布或者经验分布的近似估计），然后把观察到的被怀疑抄袭者和被抄袭者作出相同反应模式的概率与之进行对比（转引自[2]），将理论上出现概率小的匹配模式确定为可能的作弊模式。
　　
　　2 主要的抄袭统计量及其性能
　　
　　所有的抄袭统计量[2,8,9,11]都是以被怀疑抄袭者和被抄袭者匹配的反应数目为基础。但这些统计量也存在一些差异。ESA、K、、和S1等统计量是以匹配错误回答数来定义并建立抽样分布的[2,12,13]。而Bm，g2，ω和S2等统计量则即考虑匹配的错误回答数，也要考虑匹配的正确回答数[9,10,13]。
　　2.1 以匹配错误回答数目为基础的抄袭统计量
　　研究者认为如果两个被试一致正确回答的数目很大，可以有两种解释：一是这对被试的能力都很高，二是一个低能力的被试从一个高能力的被试那里抄袭答案[14]。因为不可能推测出那种解释是正确的，所以一些抄袭统计量主要集中在对匹配错误回答的识别。
　　早期的研究者如Bird（转引自文献[15]）所提出的抄袭统计量多数基于经验方法，统计量的概率分布难以确定，参数估计不准确，识别率不高，因此都没有得到广泛应用。针对早期统计量的不足，Holland提出了K指数（转引自文献[2]），Sotaridina和Meijer对其不足进行改进提出了、和S1、S2指数[2,13]。这些统计量都表示由于偶然因素导致的匹配回答的概率。其中除S2之外都是以匹配错误反应为基础来识别抄袭答案的统计量。这些统计量的区别主要在于变量M（各被试与被抄者的匹配的错误回答的数目）的虚无分布和参数估计方法的不同。
　　2.1.1 K系列指数
　　在识别抄袭者时，我们把其中一个被试叫做抄袭者copier（c），指的是被怀疑抄袭答案的被试。另一个被试叫做被抄者source（s）。c被怀疑从s那抄袭答案。则K指数可表示为
　　
　　2.5神经网络技术
　　神经网络（NN）是近年来发展起来的一种以计算机为平台的技术，它是一些数学模型的集合，这些模型模仿生物神经系统的一些特性，使其具有适应性生物学习的功能[18]。该方法运用神经网络把问题分类，把各种输入模式分配到不同的类别中。这个分类任务包括两步。第一步是用一系列要研究的反应模式的典型样本作为训练（training）样本来训练神经网络，去识别感兴趣的反应模式。第二步是应用，就是用训练过的神经网络去识别相似的反应情况，包括观察到的和没观察到的。在这个任务中，对于一个成功的神经网络，它能把从少数典型样本得到的信息推广到在训练期间没有用到的相似的反应模式中去。当一个作弊者的项目得分模式与被用来训练这个网络的得分模式有相似的特性时，它就被识别为抄袭者[18]。
　　2.6 人员拟合统计量
　　人员拟合统计量（person-fit statistics, PFS）是识别抄袭答案的另一类统计方法，此类统计量的原理是：把一个观察的项目得分模式与一个测验模型条件下的得分模式进行对比[16]，来检验被试得分是否与测量模型相拟合。如果不拟合就表示存在抄袭。
　　Levine和Robin，Hulin等指出PFS能用于识别抄袭答案，而且应该非常灵敏（转引自文献[15,16]）。因为如果一个低能力的被试从一个高能力被试那里抄袭几个比较难的项目，PFS的值就会变大甚至超出正常情况。Madsen比较合理的使用了这些统计量，他用Rash的人员拟合统计量来识别假被试的潜在的异常反应模式，这些假被试尽力“装坏”，以至于不能产生非常高的分数（转引自文献[16]）。虽然他的研究结果非常不具有说服力，但他提出了这种应用的潜在可能性。Sotaridona、MeijerVan和van der Linden和Sotaridona研究了用PFS识别由于抄袭答案（或者作弊）造成的不拟合得分[2][13][18]。