|
计算机辅助评价(CAA)的发展现状与趋势
◇字体:[大 中 小] 日期:06-05-23 11:44:08 来源:中国教育技术学 作者:朱 宁 曾海军 董 艳 摘 要:计算机辅助评价(Computer AssistedAssessment,简称CAA)作为一种新的评价方式已经被逐渐接受,本文综合地介绍了CAA的发展现状与趋势。
关键词:计算机辅助评价 IT技能测试 无纸化考试 CAA
中图分类号:G434
一、计算机辅助评价的特点及其优势
计算机辅助评价(Computer AssistedAssessment,简称CAA)是指在评价学习者的知识、技能和能力的过程中引入计算机作为工具或手段,即计算机应用于评价过程。与CAA含义大致相同的术语还有:计算机辅助测试(Computer-AidedTesting)、计算机化评价(Computerized Assessment)、基于计算机的评价(Computer-Based Assessment)和基于计算机的测试(Computer-BasedTesting),他们都从属于CAA领域。
大型的社会化考试、网络教育中教学评价活动的开展,对CAA的需求日益扩大,传统的教育评价方法和测试手段也越来越不适应教育发展的需要。特别是在被试数目过大或地理位置相对比较分散,时间、人员和资金紧张的情形下,传统的测试方法已很难适应。
CAA作为一种新的评价方式被大众所接受,有其自身的特点及其优势:
表1:CAA的特点及其优势
角度 特点与优势
被试者 l 通过形成性评价,使被试了解自己的学习进度;
l 通过总结性评价,使被试可以进行分阶段的学习;
l 可以确认当前的教学方法是否有效。
教学 l CAA使得大范围地区的评价更加迅速,节省时间耗费;
l 节省时间,使进行其它更有针对的评价活动成为可能;
l 通过形成性评价,可以了解被试的学习进展情况;
l 在自适应测试(Adaptive Testing)过程中,发现学生整体的弱点,从而调整教学方法。
管理学 l 减少了在监督管理、监考和评分上面花费的时间;
l 减少了在评分过程中因为人为因素而出现的错误;
l 处理不同地点的学生同时进行评价时,节省了财力和人力;
l 进行无纸化考试,减少在印刷上面费用;
l 可以成功的对测试结果进行分级,并且自动的记录进被试档案;
l 数据库随机抽取题目,有效避免作弊。
因此,研究CAA在教育评价中的应用具有重要意义:对于解决现代远程教育中师生分离状态下的交互与反馈问题尤其具有应用价值;有利于教师监测学生的学习过程,可对学生进行与其能力相匹配的自适应测试;对于某些学科,可实现测评与评价的自动化,这对于提供评价的质量、保证评价的一致性和公正性,降低评价代价,都具有重要的意义;CAA得到的各种相关数据可自动生成诊断分析报告,这对促进教育评价的量化研究,也具有极为深远的意义。
二、计算机辅助评价的指导理论
目前,CAA主要采用经典测量理论(CTTClassicalTest Theory)和项目反应理论(IRTItem Reponse Theory)来进行题库的建设。两种理论的核心部分是数学模型,它们是基于不同的假设提出的:经典测量理论采用的是线性的定性模型;项目反应理论采用的是非线性的概率模型。
CTT是20世纪初提出来的,对于CTT,经常使用的测量指标有平均分和标准差。CTT存在一定的局限性,突出的表现在以下几个方面:
CTT用于评价试题质量的指标(如难度、区分度)严重依赖于被测试样本,对同一问题,如果被测试样本能力水平差异大,则区分度值会很高,反之,区分度值则很低;
● CTT只适用于测验被测试者相对能力水平(常模参照测验),不适于考察实际能力水平(目标参照测验),例如在目标参照测验中,如果被测使者全部不能通过测验,则无法计算难度和区分度;
● CTT测验某项能力或知识水平时,必须同时使用同一套测验题,否则测验结果无法直接进行比较。
IRT是针对CTT的不足而提出来的一种新的测验理论。IRT包括项目反映模型、项目反映模型的参数估计、项目与测验的信息函数三个面的内容。IRT认为,被试对测验的反应受某种心理特质支配,测验的结果和这种特质之间所存在的关系可用特定的项目反应模型曲线来描述。目前应用较广的是由伯恩鲍姆于1957年提出的单维逻辑斯蒂模型,可以用Pj Q=Qabc描述,a、b、c标识项目的质量参数,分别是区分度参数、难度参数和猜测参数,表示被试关于第j题的正确反应概率。项目的质量参数值都不能由直接测量得到,必须通过对被试的反应数据进行估计来求出,通常采用的是极大似然估计法。信息函数的引入,提供了测验精度的确定信息,从而可以针对各水平上的能力特质更好地控制测量误差。
项目反应理论虽然克服了经典测试理论的一些缺点,但是目前还存在着许多问题没有解决,如测试依赖于大量的、预先准备的、高质量的试题,而这在现实普通教育领域中很难完全做到。但是勿庸置疑的是项目反应理论代表了今后测试理论和实践探讨的发展方向。
三、计算机辅助评价发展现状
1、PAPER-BASED的计算机辅助测试
CAA发展初期,利用的是光标阅读器OMR和光学字符阅读器OCR技术。OMR能将各种类型的客观题按机器上规定的格式,输入正确答案,然后由阅读器改卷,对客观选择题显示了十分强大的处理能力。初期OCR采用光电反射方式,现在OCR首先整个图像抓取,然后分析识别字符。
2、单机版计算机辅助评价PC-CAA
PC-CAA在评价过程中,PC之间处于孤立状态,信息和数据的传输通过机器内部来实现,没有引入网络传送的概念。这一类CAA系统,一般有专门的系统安装软件。PC-CAA对于一次性的大型社会化考试和总结性的测试还比较适合。但对于大数量被试群体、题库需要经常更新的测评,则不是很适合。
3、网络版计算机辅助评价WEB-CAA
WEB-CAA通过Internet或LAN从网络服务器数据库中提取信息,然后被试在客户端做出一定的选择反应,再一次通过网络提交被试信息。整个过程中,客户端只是一个工具而已,评价结束后,客户端没有任何的信息残留,所有被试的信息都被提交在服务器端的数据库中,然后评价系统从数据库中提取被试信息,得出评价结果,通过WEB或LAN返回到客户端。
目前,大多数CAA研究都集中在了WEB-CAA上面,其优势已经被人们所广泛认可。如由中央电大与电大在线推出的网上考试系统ETAS由中央管理中心、省管理中心、考点、考场等四级模块组成,实现“随到随考”、“预约考试”和“统一考试”,完成从制定申报考试计划到学生考试成绩公布和考试统计分析的全部过程。
4、计算机自适应测验CAT
CAT是在项目反应理论基础上发展起来的一种测验,测验的编制者认为,要测量一个人的能力,最理想的项目就是难度适中的项目,即他答对或答错的概率都在0.5左右。在测验开始时,计算机一般给出一个难度中等的题目,如果被试做对,计算机就会估计他的能力高于中等水平,然后再给他一个难度高一点的题目;如果他做错,计算机就会估计他的能力低于中等水平,然后给他一个难度较低一点的题目。计算机根据被试第二题的回答情况,对其能力再作估计,在第二次估计基础上,计算机在题库中选择最接近他能力估计值的题目,接着根据被试反应,对其能力再进行估计。这样,随着被试做的题目增多,计算机对他能力的估计精度越来越高,最后其估计值将收敛于一点,该点就是该被试的能力较精确的估计值。
5、计算机辅助记录
除了采用测试手段进行评价以外,还可以通过对被试行为表现的记录和追踪获取相关信息实施评价,这就是计算机辅助记录的研究内容,其中电子作品(e-works)和电子档案(e-portfolio)是影响最大、研究也最为广泛的一种计算机辅助评价策略。
四、计算机辅助评价的发展趋势
1、计算机辅助测试高级元认知能力的探索
CAA要想测量被试的高级认知能力,必须设计出高质量、高水准的试题。而编制和设计试题是一项极其复杂而又耗费大量人力和时间的工作,涉及到很多内容,比如确定题型、题目的考核点、题目的测试属性(难度、区分度等)、设定分值、组织试卷等。目前,主要研究体现在对客观题的改造和主观题的编制这两个层面上。
从根本上解决题型单一的困境是突破″选择″。目前,前景看好的一种题型是操作应用题。如北京师范大学自主研发的IT技能测评系统iTAS系统,也可以测评操作系统、办公软件、浏览器以及网页制作等内容,被试在系统的支持下完成测试所要求的技能任务,系统进行自动阅卷,生成评测结果。
2、计算机辅助形成性教学评价
尽管目前CAA在教育领域内应用的主导形式还是计算机辅助总结性评价,但是对计算机支持的形成性评价的关注和研究还是挺多的。如伯明翰大学利用上文提到的TRIADS系统对化学工程系的学生开展形成性的教学评价,并且取得了良好的效果。国内的计算机辅助形成性教学评价,在基于网络的环境下利用JSP、PHP、ASP等技术进行相关的开发和研究,但都是一些规模较小的评价系统,没有成规模。计算机辅助形成性评价将有助于解决缺乏有效的师生交互以及时间的压力这两类影响远程学习质量的瓶颈问题。
3、计算机辅助记录与计算机辅助测试整合
CAA应用的直接结果之一就是阅卷情况能自动进入信息管理系统和学生记录数据库,计算机辅助记录与计算机辅助测试整合是一种全新形式。一方面通过计算机辅助记录建立被试的档案,对于被试平时学习过程中的一些创新思维和问题解决的结果运用现代信息技术提供的环境表达出来,以电子作品的形式提交到服务器,然后由专门的教师进行评价,给出评价结果。另一方面,便是普通的CAA系统,对于被试测试结果按照一定比例与被试平时档案中的记录去匹配协调,得出被试最终的测评结果,这种结果一般比较客观准确。目前大多数的研究还在记录和测评两个方面分别进行,对于两者的整合还不多见。
4、数据挖掘和知识发现在CAA中的应用
在应用CAA的过程中,将产生大量的与评价有关的数据,尤其是在现代远程教育的背景下,数据量是极其庞大的。将这些数据与师生信息库、教学过程信息库中的数据结合,作为数据挖掘(KM)和知识发现(KDD)的数据源,将有可能挖掘出隐藏在数据背后的教育模式和规律,为教育决策提供可靠的依据。如何应用数据挖掘和知识发现的理论和方法,从CAA数据库中发现并提取隐藏在其中的规律和趋势,将是未来CAA领域的一个研究新课题。
5、网络考试系统的数据安全性研究
网络考试系统具有瞬间数据量大、数据准确性和安全性要求较高的特点,数据安全性研究主要从系统的体系结构、防火墙和系统的加密技术这些层面考虑。
如果被试数目很大的话,将功能集成在服务器端,使考试系统的界面、数据访问、数据存储、数据管理等都由服务端程序完成,则有可能使服务器成为网络数据库访问的瓶颈。因此,应该采用多服务器的模式,共同承担数据的存储、访问和管理。
同样的道理,传统的网络防火墙是位于学生考试用机与服务器之间,当考试过程中有大量的数据通过该防火墙时,由于装有防火墙软件的计算机要对所有通过的数据包进行分析而占用大量的系统时间,极易造成网络数据堵塞,影响考试的正常进行。因此,应采用服务器集群的方式,使集群中的每一台服务器都具有防火墙功能,共同负载网络数据的分析和处理,有效均衡网络负载。
在考试系统中,需要保密的环节较多,如防止考前试题泄露、考后学生答卷被篡改以及数据在传输过程中被截取等,解决这些问题可以采用文件加密的技术。
五、我们正在进行的研究工作
北京师范大学现代教育技术研究所、知识工程研究中心和网络教育实验室经过多年的艰苦努力,初步建立了比较完整的技能测评自动化理论框架,在IT技能测评自动化关键技术攻关取得突破。我们自主研发的“无纸化计算机考试系统”在测试考核自动化,特别是Windows环境下的操作型考题的自动阅卷方面,成功地实现了操作过程的自动跟踪与分析,阅卷时既判结果也看过程,解决了复杂操作过程的多级评分问题。
程序设计语言的自动测评问题、网络课程自动化评测系统等是进一步研究重点:
1、解决计算机学科教育中程序设计语言的自动测评问题对于拓展CAA的应用范围是很重要的,目前的规划是选取一门面向对象的程序设计语言C++(或者Java),在能够分析程序的静态结构的基础上,特别关注程序的动态测试,重点是测试用例的自动生成。最终目标是建成该程序设计语言的网上自动测评系统,即基于Internet的程序设计课程作业自动评阅与管理系统。
2、任何教学资源的评价都有预测性评价和结果性评价两个方面,网络课程的结果性评价除了要考虑学生的考试成绩,更精确的评价信息来自于学生对教学资源的具体使用的分析。网络课程自动化评测系统将记录学生在使用网络课程时具体操作信息并对网络课程功能的全面性和实效性做出判断。
(作者单位:北京师范大学继续教育学院 北京师范大学网络教育实验室 北京 100875)
参考文献
1 黄荣怀 刘黄玲子 李向荣. 计算机辅助评价的发展趋势. 电化教育研究,2002(6).
2 齐玉斌. 网络考试系统的设计与实现J. 中国远程教育,2003(7).
3 《学习的革命》专家评价(考试革命——国家科委科技成果鉴定书).
4 朱扬清. 网络考试系统的数据安全性研究J. 中国远程教育,2003(7).
5 许骏 柳泉波著. 《IT技能测评自动化——理论 技术 应用》M. 科学出版社,2001.
6 徐万胥. 《计算机辅助教育原理》网络课程,http//www.nenu.edu.cn/department/dianjiao/xwx/cg/.
7 北京师范大学网络教育实验室网站,http//www.vschool.net.cn/.
8 LTSS,http//www.ltss.bris.ac.uk/index.htm.
9 CAA-an introduction,http//www.unn.ac.uk/central/isd/caanotes.htm.
10 Computerassisted assessment,http//www.le.ac.uk/TALENT/book/c3p2.htm.
11 EconomicsLTSN,http//www.economics.ltsn.ac.uk/.
12 http//www.cs.nottingham.ca.uk/. |