前言
发端于上世纪70年代末期的语言测试交际转向直接导致做事测试重新成为大规模考试的必要组成。然而,影响做事测试效度的主要威胁来源于评分(刘建达、杨满珍,2010)。目前,做事测试的评分主要依赖评分人的主观判断,容易产生各种类型的评分差异,如严厉度、集中趋势、光环效应等。因此,寻找更高效、更可靠和更低成本的评分手段是语言测试领域的一个热点问题,而计算机自动评分技术无疑是满足评分需求的一种解决方法。
从2011年起广东省开始将计算机化英语听说考试作为高考英语科目的一个模块,旨在产生良性的反拨效应,促进素质教育。该考试包括以下三部分:Part A为模仿朗读,考生在看完大约一分钟的视频片段后进行模仿朗读,要求考生的语音、语调和语速尽可能与片段保持一致;Part B为角色扮演,考生在看完大约两分钟的视频片段后明确自己拟扮演的角色,然后根据中文提示向计算机提出三个问题,并回答计算机提出的五个问题,要求考生语法结构和选词正确,能按要求传达信息;Part C为故事复述,考生在听完大约两分钟的独白后尽量用自己的语言复述,要求语言规范、流利,语音、语调恰当,并能涵盖原文的大多数信息点(徐鹰、曾用强,2015)。
广东省高考英语听说考试以前采用人工评分,评分人由高校教师、中学教师和研究生组成。尽管采用了多种手段来确保评分质量,如通过加强评分人培训、组长监控、系统随机抽查已评试卷等进行有效干预,但仍存在评分人不易遴选、组长监控工作难度高、工作量大等问题。总之,依赖于人工干预的质量保证机制存在手段较为单一且效率低下的问题。此外,该考试在每年三月举行。由于受到时间安排和其他客观条件的限制,从各高校和中学抽调英语教师进行评分存在实际困难。在今后高考实施一年多考的大背景下,如何保证评分质量将面临更多挑战。因此,有必要对计算机自动评分技术在广东省高考英语听说考试中的可行性进行研究。
从2011年起广东省开始将计算机化英语听说考试作为高考英语科目的一个模块,旨在产生良性的反拨效应,促进素质教育。该考试包括以下三部分:Part A为模仿朗读,考生在看完大约一分钟的视频片段后进行模仿朗读,要求考生的语音、语调和语速尽可能与片段保持一致;Part B为角色扮演,考生在看完大约两分钟的视频片段后明确自己拟扮演的角色,然后根据中文提示向计算机提出三个问题,并回答计算机提出的五个问题,要求考生语法结构和选词正确,能按要求传达信息;Part C为故事复述,考生在听完大约两分钟的独白后尽量用自己的语言复述,要求语言规范、流利,语音、语调恰当,并能涵盖原文的大多数信息点(徐鹰、曾用强,2015)。
广东省高考英语听说考试以前采用人工评分,评分人由高校教师、中学教师和研究生组成。尽管采用了多种手段来确保评分质量,如通过加强评分人培训、组长监控、系统随机抽查已评试卷等进行有效干预,但仍存在评分人不易遴选、组长监控工作难度高、工作量大等问题。总之,依赖于人工干预的质量保证机制存在手段较为单一且效率低下的问题。此外,该考试在每年三月举行。由于受到时间安排和其他客观条件的限制,从各高校和中学抽调英语教师进行评分存在实际困难。在今后高考实施一年多考的大背景下,如何保证评分质量将面临更多挑战。因此,有必要对计算机自动评分技术在广东省高考英语听说考试中的可行性进行研究。
摘要
本研究对广东省高考英语听说考试中由计算机自动评分系统提供的分数进行了评估。研究样本来自2013年广东省高考英语听说考试的真实数据。从人评分和机评分的相关性、一致性、差异度和反馈效果等四个方面收集的机评分信度证据表明:不同样本的机评分和人评分显著相关;机评分和人评分的一致率普遍高于87%;对机评分和人评分分差最大的考生样本进行复评发现,机评分和标准分的相关系数高于人评分和标准分的相关系数;反馈后人评分和机评分的相关系数和一致率明显提高。以上结果均不存在考生水平、题型、评分人来源以及考生地区等系统性误差。因此,广东省高考英语听说考试采用计算机自动评分是可行的。
关键词语 |
高考;听说考试;计算机自动评分
|
商品介质 |
电子刊
|
商品年份 |
2017
|
商品月期 |
第二期
|
商品代号 |
17BI9
|
起止页码 |
47-53
|
读者对象 |
中学篇电子刊
|
作者 |
徐鹰
|
商品价格 |
3.5
元 |
作者单位 |
华南理工大学外国语学院 |