亚裔学生被AI打低分？托福考试研究揭示AI评分的“种族偏见”！

在AI技术飞速发展的今天，大学招生办、学校教师纷纷拥抱AI，利用它筛选申请材料、批改作业甚至给学生打分。但训练AI的数据是来源于真实生活的，这也意味着人类自己的偏见和歧视也会训练出带有歧视的AI。

当AI进入教育领域后，这个问题引发了广泛关注。想象一下，你的孩子辛苦备考、认真考试，却因为AI评分系统的偏见被压低了分数——如果这样的情况发生在你的孩子身上，你会作何感想？

托福和GRE组织方ETS近期的一项研究揭示，AI评分系统在评估亚裔学生的作文时，给出的分数竟比人工评分平均低了1.1分！这一发现引发了教育界的震动——机器本应冷静客观，但评分结果背后却暗藏“偏见”的痕迹。

AI也有种族偏见和歧视？

大型考试机构ETS的研究开发团队对比了人和机器评估作文的表现。在对比了1.3万余份8-12年级学生作文的评分情况后，他们发现，ChatGPT采用的AI模型会压低亚裔学生的分数。

参与这项研究的ETS研究员Mo Zhang Zhang和她的同事Matt Johnson让ChatGPT采用的最新AI模型评价了13121篇学生作文。这些学生作文来自2015年至2019年期间美国各地的标化考试或者课堂测试，作文的题型是议论文，以 “学生是否该被允许在校内使用手机”等内容为题。

每一份作文都由专业评分人员进行打分，最低分1分，最高分6分。GPT-4o使用了和评分人员相同的评分体系和标准。评分人员和AI模型均不知道学生的种族和民族，但研究人员收集了学生的相关信息。

GPT-4o给出的作文平均分比人工评分低将近1分。13121份作文的机评平均分为2.8，人评平均分为3.7。最令人惊讶的数据是，亚裔学生的作文被额外压低了0.25分！

亚裔学生作文的人工评分均分为4.3，GPT-4o则为3.2，比前者低了1.1分。相反，白人、黑人和拉美裔学生的人机评分差异仅为0.9分。这就好比卖冰淇淋的小贩只有在给亚裔小孩打冰淇淋时会少打1/4勺。

Johnson和Zhang在尚未发布的报告中写道：“这显然是不公平的。”他们表示，虽然亚裔学生被压分的情况并不严重，但数值已经高到不容忽视。

为什么AI会给亚裔打低分？

研究人员不确定为什么GPT-4o的评分低于人工评分，以及为什么亚裔学生会被压分。他们将AI系统形容为算法“黑箱”，甚至连开发人员都不能完全理解其运作方式。AI系统无法解释赋分理由，因此在校内使用会造成很大的困扰。

也许，亚裔学生被压分和他们的优异表现有关联。亚裔学生经常在数学和阅读考试中拿高分，他们的作文在ETS研究人员收集的1.3万余份样本中也是佼佼者。哪怕被压分，亚裔学生的作文得分仍然高于白人、黑人、拉美裔、北美原住民或多元种族学生。

以上两项研究都表明，AI赋满分的频率低于人类。以ETS的研究为例，评分人员给732份作文打了6分，而GPT-4o的满分作文只有3份。亚裔学生被压分可能是因为GPT吝于打满分，但这些学生在人工评分阶段却拿了满分。

ETS的研究人员在要求GPT-4o打分前，并未给出不同分数的参考例文。也许，提前向ChatGPT提供例文并修改评分指令，对亚裔学生的歧视就会减少甚至消除。如果评分指令明确要求“多给一些满分”，或许AI模型对亚裔学生会更公平。

AI并不总是给亚裔打低分

这一项研究并不能证明AI对亚裔学生有系统性歧视。其他AI模型有时候会作出相反的事情。加州大学欧文分校及亚利桑那州立大学研究人员的一项写作评估研究发现，AI评分时高时低。这一项研究使用的是GPT-3.5模型，但并未分析机评分数与种族的关系。

此外，ETS研究人员表示，他们已经不止一次注意到亚裔学生被机器评分模型区别对待。更早的其他评分算法有时会给亚裔学生的作文抬分。

发表于2012年的一项研究显示，ETS十几年前开发的机器评分系统e-rater会给韩国、中国大陆及台湾、香港地区学生的托福作文打更高的分。亚裔学生的机评得分高可能是因为他们背了模板，而人类在评分时更容易注意到偏题的问题。ETS网站称，模考会只使用e-rater评分，但在实际考试中会同时参考e-rater和人工评分。

在2021年的一场编程竞赛中，参赛人员开发了一个自动评分系统，该系统以BERT自然语言处理模型为基础。在GPT等大型语言模型的最新版本问世前，BERT是最先进的算法模型。计算机科学家使用该模型评估了亚裔学生在阅读理解考试中的开放式回答，经过一系列测试发现，模型给出的分数高于人工评分。

BERT给亚裔学生抬分的原因同样不明确。但这一结果说明，在让学校使用机器评分模型前，一定要进行测试。不过，教育界对于AI评分的热情过于高涨，很多模型或许未经测试完善就已投入使用。很多教师表示他们已经在用ChatGPT、Claude和其他AI程序改作文。它们或许能帮老师节约时间，但也会伤害学生的利益。

留学生该如何应对？

AI在各行各业的应用已是大势所趋，完全禁止教师使用AI进行评分并不现实。更为可行的做法，是制定清晰的指导规则，帮助教师在尽量保持公平公正的前提下合理使用AI，或与教育科技公司合作，引入经过优化的AI工具，辅助教学并提升效率。

对于学生而言，不必过于担心AI评分导致成绩受损的情况。AI往往只是辅助工具，教师最终仍会对作业进行人工检查与评估。即使教师完全人工评分，也难免带有主观偏差。如果对评分结果不满意，可以主动与老师沟通，了解是否存在补救途径，或者是否可以通过完成额外作业（extra credit）来提升成绩。积极沟通与灵活应对，仍是解决问题的关键。

参考文章：

https://www.future-ed.org/new-evidence-affirms-teachers-should-go-slow-using-ai-to-grade-essays/

【竞赛报名/项目咨询+微信：mollywei007】