ChatGPT是OpenAI开发的一种语言模型,在过去一年中变得非常流行,因为它能够在各种情况下生成类似人类的响应。ChatGPT已经变得如此强大,以至于学生们现在正在使用它来帮助他们完成家庭作业,这促使美国的几个学区阻止设备在其网络上访问该模型。
那么,ChatGPT有多聪明呢?
在2023年3月27日发布的一份技术报告中,OpenAI全面介绍了其最新模型GPT-4。此报告中包含一组考试结果,如下图所示:
图片来源于网络
为了对ChatGPT的功能进行基准测试,OpenAI模拟了各种专业和学术考试的测试运行。其中了包括SAT、GRE、各种大学先修课程 (AP) 期末考试等。绩效以百分位数衡量,百分位数基于每种考试类型的应试者的最新分数分布。
百分位评分是一种相对于其他人的表现,对一个人的表现进行排名的方法。例如,如果在你测试中排名第60个百分位,则意味着你的得分高于60%的应试者。
我们来重点看看学生们比较关心的考试:
ChatGPT与SAT考试
GPT-4在SAT阅读和写作部分以710分(满分 800 分)的成绩名列前茅,这使其在考生中排名第93个百分位。另一方面,GPT-3.5在800分中获得670分,排名第87个百分位。
在数学部分,GPT-4获得了800分中的700分,在考生中排名第89个百分位。同时OpenAI指出,虽然GPT-3.5得分在第70个百分位。总的来说,GPT-4 在1600分中获得了1410分。根据大学理事会的一份报告,2021年SAT的平均分数为1060。
ChatGPT与GRE考试
根据OpenAI的报告, 虽然GPT-4在语文的得分为第99个百分位,在数学的得分为第80个百分位,但GPT-4在写作测试中的得分仅为第54个百分位。GPT-3.5在写作测试中同样取得了第54个百分位的分数,并且在数学和语文上分别获得了第25个百分位和第63个百分位的分数。
ChatGPT与AP考试
根据大学理事会的标准 ,分数范围从1到5,3分及以上通常被视为及格。根据OpenAI的报告,GPT-4在AP艺术史、AP生物学、AP环境科学、AP宏观经济学、AP微观经济学、AP心理学、AP统计学、AP美国政府和AP美国历史方面获得5分。在大多数这些考试中,GPT-4(2023年3月发布)比 GPT-3.5(2022年3月发布)的能力强得多。
然而,它仍然无法提高AP英语和竞争性编程。 关于AP英语(以及其他需要书面回答的考试),ChatGPT的回答由1-2 名具有相关工作经验的第三方对这些论文进行评分。
事实证明,虽然ChatGPT确实能够写出足够的论文,但它可能难以理解考试的提示。
ChatGPT如此聪明,文书写作上的表现如何呢?
福布斯杂志 (Forbes) 在去年底就让ChatGPT帮助其写了2篇美国大学本科申请文书。ChatGPT在10分钟之内就完成了写作,并且文书在语言表达和逻辑上都较为正确。随后,福布斯拿着完成的2篇文书采访了几位在不同大学负责招生的专业人士,他们普遍的观点是:文书的内容很好,甚至可以说很完美。但是,缺乏个性,没有感情,可能无法让申请人脱颖而出。
对于GPT-4.0来说,如果你期望的是你描述一下申请学校的要求,然后就能为你生成一份尽善尽美的文书的话,这恐怕有点困难。就算不考虑重复和抄袭的因素,就能力本身而言,它目前也还做不到。就像ChatGPT自己说的,它是一个语言模型,它的生成逻辑基本上还是遵循材料组合这种方式,只不过它能试图去处理并组合的材料量非常大。
并且AI会根据大数据来调整你的文书,结果一定是最符合大众标准的,换句话说,就是最传统且没有特色的!就像上面说的,文书的内容很好,但可能无法让申请人脱颖而出。
如何利用ChatGPT辅助写文书?
头脑风暴主题思想:使用ChatGPT来帮助激发你的文章的主题想法。通过尝试各种提示或者命令来广泛撒网,看看它会给你带来什么。大多数情况下,它不会为你提出一个惊人的想法,但它可以帮助你激发记忆,帮助你建立通向其他想法的联系。
生成大纲:你可以拿一份文章的草稿,让它生成一个大纲,看看它是如何组织你写的东西的,然后按照你想要的方式移动这些板块。
获得写作建议:如果你有作业或论文,但不确定写作质量,可以将其粘贴到ChatGPT并寻求写作建议。
扩展或浓缩文章:ChatGPT可以作为你的个人编辑器,扩展你在一个想法或主题上的写作,或者浓缩总结你已经写过的东西。同样,它也不完美,因为它不是你,不能决定什么是重要的,该保留或删除。
修改校对:ChatGPT是一个不错的校对器。拿出你的文章草稿,让它校对你的文章或其他东西。