托福口语是机器打分还是人工打分

推荐人：来源: 阅读: 1.97W 次大中小

大家比较关心托福口语的打分方式，下面小编就和大家聊聊这个话题。

【托福口语】托福口语评分时人工还是机器

托福口语本次改革引入自动评分系统，其实这项计划早就在准备中了，这从ETS这份官方报告当中就可以看出，其实现在所使用的引擎已经是5.0版本的引擎，下面我们就来看一下托福口语机器评分的要点。

19年托福改革后，我们可以非常肯定地告诉大家，托福口语一定是机器批改，至少机器批改参与了每一位同学的评分过程。ETS官方公布的数据，最新版本的托福口语机器评分系统Speech Rater与人工评分的相关性系数是0.81。说实话，官方单纯的拿这么一个统计学系数摆在我们的面前，对于考生或者是托福资深教师而言是没有感觉的，这个系数到底是偏高还是偏低，究竟什么数值范围值得我们进行参考，根本就无从比较。

真人教师来核查的几率不是100%的，所以尽量不要在结尾处留太多的空白。这样机器肯定首先就会给考生扣分。但是为了防止教师来核查，复听，建议考生在备考托福口语的时候，学会掌控时间，尽量不要超时太久。再给考生一个小建议：在托福口语考试中，尽量不要停止说话，如果没话说就多说点套话，在平时的练习中，针对机经上的重点话题进行准备。

随着越来越多的年轻学生在世界范围内学习英语作为第二语言(English as a Foreign Language)，为青少年语言学生(Young Language Students)设计的标准化语言考试 (比如托福考试)。

变得越来越受欢迎。鉴于这一快速增长的趋势，需要更好地理解年轻学生的语言发展模式和语言表现的语言特征成为语言学教师的需求。根据2014年，两位口语测评学者Bailey&Heritage的研究，语言发展模式和语言表现对于语言学评估的创建提供指导和指导至关重要。ETS于是系统地进行实证研究：在青少年语言学生中检查其英语语言能力(English Language Proficiency)的进展以便验证青少年语言学生评估任务和评分标准，并为基于测试结果的提供有效性证据(Kane，2013)。

在目前ETS采用的机改Speech Rater的系统中，对于托福口语测评是何以科学、公正以及客观地对考生们进行评价的呢?根据ETS最新的一项研究, 自1996年就有语言学学者(Ginther et al., 2010; Towell, Hawkins, & Bazergui, 1996) 使用平均话语长度(mean length of run) 这项指标来对考生们的流利度进行测评。

通俗易懂的说法，就是在托福考试中你的所有"huh", "uh", "erm", "um", and “well" (filled pause)都会被计数，当频率高到一定程度，就会被认为是弱流利度，另一种就是沉默(silent pauses), 在整个口语回答的过程中如果出现长间断，那么系统会自动把你的口语归为弱流利度。而托福口语考试的不同任务(task)其对考生们的语言能力和认知能力都有所不同，因此在进行口语独立任务(independent speaking task)设计和口语综合任务(integreated speaking task)设计的过程中。

在这项研究中，青少年(YLS)与成人考生(Adult learner)的流利度水平在两个任务的机评效果中都出现了较为稳定的表现。因此我们可以得出客观结论，在口语流利度方面，考生们在口语独立任务和口语综合任务之间较少会出现流利度偏差。

最新的5.0引擎当中，最新版的引擎已经极为接近于真人阅卷者进行了评分，在ets官方所发布的资料当中，真人评分和机器评分的相关系数已经达到了0.81，换句话说也就是，ETS在告诉大家：我们这套系统已经做得挺好了，已经敢拿出来给你们看一看了。最为影响最终分数的3个影响因素，他们分别是：平均沉默时长，单词重复率，和语速。

今天我们再来看另外8个重要的影响因素。

很显然在这里排名第4位的影响因素，就是Total acoustic model score for all words with model trained on native data，看了这段生涩的语言，说实话无老师也有点要吐了。这个名词，还真有点不是特别好解释。总而言之，这个其实涉及到ETS在评分过程当中具体的一个流程，也就是在Speech Rater进行评分的时候，其实有一个关键性的步骤，就是让机器来识别，考生本人所说的英语是否是地道的英语，这个主要是从发音和节奏来进行判断，就是当你的口语越接近于地道的发音，那么你的分数越高，反之亦然。这个影响系数达到了0.81，因此也就有了下面第2条影响因素，Total acoustic model score with model trained on nonnative data。

如上的4条，是所有的影响系数高于0.7的影响因素，接下来所列出的7条，影响系数全都低于0.7且高于0.5，这也就意味着对于最终分数的影响，没有前面4条影响那么大，但是同时也比较重要。

其中4条高于0.6的影响因素分别是，

Average of chunk length in seconds——平均意群的长度

titions——重复程度

Score point with the highest grammatical similarity score——语法的相似程度

Total no. different lexical types——词汇的多样性

Average of chunk length in seconds——平均意群的长度，归属大类Fluency——流畅：影响因子0.66，

这意味着，句子如果全都是三个词，类似于I like you的简单句，那么得分一定会偏低，但是如果能多用一些固定搭配、或者一些修饰性的成分，使得这个句子一方面不脱离口语化，不会像书面语那么复杂，同时句式的内容也可以比较丰富和饱满，那么得分就会提高。当然这一条的解读还可以有很多的层次，无老师在此就先不一一展开了。

titions——重复程度，归属大类Fluency——流畅：影响系数0.61。

把重复程度放在流畅程度当中，说实话有点奇怪，既然放在流畅程度这个大类当中，估计在这里面所表述的是，你是否会出现结巴的情况，也就是会连续反复同一句话。

托福口语评分标准

口语“are rated by three to six raters”指的是每道题只有一位考官打分，但不同题目的打分考官可能不同，一位考生的六道题目最少会有三位考官，最多会有六位( 每道题一位)。最后评分不会特别偏重某类题型，比如说独立或综合。所以，总体而言，ETS 的评分用一个词来讲是：holistic，即，考虑考试口语内容的整体性。也就是说，ETS 口语评分标准不会因某个具体方面而出现偏重，如，在不影响理解的前提下，语音语调不好不会成为扣分原因。在holistic 这一标准下，ETS 的最重要考虑因素是：intelligible, 可理解为可以顺畅的让考官听懂考生的表述内容。在holistic 和intelligible 两个标准之外，对答题内容而言，有如下三个评分维度：

cture

ent

uage

Structure，即结构，总体来讲，ETS 评分官特别希望考生能够在答题部分给出清晰的结构。其中结构要求主要包括：

1)主题句thesis statement：在开头部分明确地表明自己的观点。

2)过渡词：在中间部分有明显的逻辑连接词或表过渡的信号提示词。

3)结论：如果时间允许，做简单地总结。

content, 即内容。ETS 有如下要求：

1)主题明确：明确地给出观点。

2)简单明了：不要过多的使用bigwords 和复杂句型;用考生经常使用熟练的词汇。

3)细节论点到位：独立话题例子论点和细节提供详细;综合话题涉及听力和阅读部分分别提到的具体信息，如，Task5 的听力部分女学生提到自己很忙，困惑于时间的安排，最近需要：准备考试，写2 篇论文，还有一个志愿者活动要参加。ETS 对于细节的期待是：希

望考生可以将学生需要完成的事情：准备考试，写2 篇论文，还有一个志愿者活动要参加这些细节都囊括到自己的回答部分中。所以，可以看出，ETS 十分看重考生对听力和阅读部分细节信息的整理和转述。

language，即语言，语言的要求包括：

1)流畅：对语速的要求并不是越快越好。最好考生是sustained speed, 即能够以稳定的速度顺畅的表达自己的观点，中间偶有小的停顿可以接受。

2)语音：发音标准是前提，语音语调地道对分数有一定的积极影响。ETS 给出评分参考是：只要不影响评分官的理解，即使语音语调不好，也不会扣分或影响分数。

3)允许语法错误：ETS 口语评分原则中明确指出考生的表述中可以存在小的语法错误，但是语法错误不允许重复出现。

很多考生对于口语评分经常会抱有疑问，进而会选择复议。而口语成绩的复议成功率是有迹可循的。

托福口语评分标准哪一个点最重要?

托福口语评分采取 Holistic Rubric Standing(整体评分制)，即同时参照以下三个标准进行整体打分:Delivery(语言表达)、Language Use(语言使用)、Topic Development(话题展开)。但是，对多数中国考生来说，主要问题是 Delivery(语言表达)不够清晰、流畅，所以学习重心应该放在提高流畅性和清晰度上面。

当前位置

托福口语是机器打分还是人工打分

相关文章

栏目导航

热点阅读

推荐阅读