GPT-4挑战Nature审稿人？5000篇论文超50%评审意见与人类一致！

ChatGPT从问世到现在的热度一直只增不降，从最初的智能对话，到如今拥有强大的语言、图形处理能力，它始终都是目前人工智能领域发展的风向标。

近日，斯坦福学者发现，GPT-4又开挂了！目前可以对于Nature、ICLR的论文给出的审稿意见，且和人类审稿人的意见有超过50%的相似性。

01新晋学术审稿人——GPT4

根据斯坦福学者的发现，GPT-4目前不仅完美胜任了审稿的工作，甚至比人类做得还好！在GPT-4给出的意见中，有超过50%的内容和至少一位人类审稿人一致，且超过82.4%的作者表示，GPT-4给出意见很有帮助。

GPT-4挑战Nature审稿人？5000篇论文超50%评审意见与人类一致！

论文作者James Zou总结道：我们仍然需要高质量的人工反馈，但LLM（开源大型语言模型）可以帮助作者在正式的同行评审之前，改进自己的论文初稿。

GPT-4挑战Nature审稿人？5000篇论文超50%评审意见与人类一致！

02LLM究竟如何审稿？

从步骤上来看只需要简单的4步，GPT-4就可以对专业的学术论文做出意见反馈了。

首先，准备好论文PDF文件；其次，GPT-4会根据你提供的文档进行内容的提取，并进行标题、摘要、图形、表格等文本内容的分析。

第三步，需要告诉GPT-4，要遵循业内顶尖的期刊会议的审稿反馈形式，包括四个部分：成果是否重要、是否新颖，论文被接受的理由，论文被拒的理由，改进建议。

最后，就可以等待GPT-4提供的审稿意见了（步骤如下图所示）：

GPT-4挑战Nature审稿人？5000篇论文超50%评审意见与人类一致！

从GPT-4给出的意见内容上来看，它的意见和各顶会的标准一样，包含了4项内容：研究的重要性和新颖性、可以被接受的潜在原因或被拒绝的理由以及改进建议。

GPT-4挑战Nature审稿人？5000篇论文超50%评审意见与人类一致！

03如何证明GPT-4与人类审稿的水平差异？

为了比较GPT-4 与真实人类审稿的水平，研究团队展开了定量实验。研究者从Nature正刊和各大子刊挑选了3,096篇文章，从ICLR机器学习会议（包含去年和今年）挑选了1,709篇，共计4,805篇文章。

在GPT-4给出意见后，匹配管线会通过分别提取出来的人类和GPT-4论点，再进行匹配，找到重叠的论点，以此来评判GPT-4意见的专业性。

GPT-4挑战Nature审稿人？5000篇论文超50%评审意见与人类一致！

下图就是一个具体的两阶段评论匹配管线，对于每条配对评论，相似度评级都会给出理由，研究者将相似度阈值设为7，弱匹配的评论就会被过滤掉：

GPT-4挑战Nature审稿人？5000篇论文超50%评审意见与人类一致！

匹配后的结论是：

01GPT-4与人类的审稿意见显著重叠

在Nature论文中，GPT-4有57.55%的意见与至少一位人类评审员一致；在ICLR中，这个数字则高达77.18%。

但不同论文等级水平也会影响重叠率的高低，经过研究员分析，论文水平相对弱的，GPT-4与人类审稿意见的重叠率更高。这一点也侧面说明了，目前GPT-4的审稿能力还无法完全替代人类，且对于复杂的、高阶的论文评审能力还有待提高。

GPT-4挑战Nature审稿人？5000篇论文超50%评审意见与人类一致！

02在非通用反馈的表现上表现尚可

研究人员还测试了GPT-4是否会提供“模版”式的审稿意见，结果是发现GPT-4在Nature和ICLR上的“成对重叠率”都下降到0.43%和3.91%。

GPT-4挑战Nature审稿人？5000篇论文超50%评审意见与人类一致！

03在重大和普遍性问题上和人类保持一致

在大量的人类审稿员意见中，一些普遍性强或重点的意见问题可以被LLM识别，它可以识别出多个人类评审员一致认同的常见问题或缺陷。这也就表明，GPT-4在这些问题上基本可以与人类评审员保持观点一致。

04强调一些与人类不同类的意见

最后，我们通过这次实验验证了GPT-4目前强大的LLM自然语言的应用能力，但也同时通过数据看到了它与人类评审员的差距。就目前而言，GPT-4虽然不能完全取代人类评审员进行专业性强的论文评审工作，当时如果作为辅助人类评审员进行评审核对、意见参考的工具是基本可以胜任的。

另外，不得不提到发表这篇论文的作者们，从作者的名字上就可以看到有很多华人作者，尤其是文章的三位一作，都是来自斯坦福大学计算机学院的华人学生，他们分别是：

梁伟欣（上图中间），斯坦福博士生，也是斯坦福AI实验室（SAIL）成员。他硕士毕业于斯坦福电气工程专业，本科毕业于浙江大学计算机科学。

Yuhui Zhang（上图右一），同博士生在读，研究方向为多模态AI系统。清华本科毕业，斯坦福硕士毕业。

曹瀚成（上图左一），该校五年级博士在读，辅修管理科学与工程，同时加入了斯坦福大学NLP和HCI小组。此前毕业于清华大学电子工程系本科。

04人工智能/计算机科学大咖教授

说到计算机科学、人工智能，就不得不提到CIS的两位重磅级教授，他们是分别来自全美计算机Top1的卡内基梅隆大学，以及全美工科Top1的麻省理工学院。

David Woodruff卡内基梅隆大学终身教授

卡内基梅隆大学计算机系终身教授

UCB Simons Institute 数据科学项目创建者及主席

IBM Almaden研究中心资深研究员

STOC 2013、PODS 2010 最佳学术研究论文奖得主

曾获EATCS Presbuger

身为80后的他，早已经是CMU的终身级教授了，自教授在CMU任职以来，他在学术界的影响力就只增不减，根据Google Scholar的最新数据显示，教授的文献引用次数已经高达12,415次。

每年David Woodruff教授课题组的学员在录取季的表现都尤为出众，在过往的学员中，有被：斯坦福、牛津、剑桥、康奈尔、芝加哥、UCB、CMU、UMich等世界顶尖名校录取，其中，还有学员的论文成功发表在了SCI。

David Woodruff教授最新课题

GPT-4挑战Nature审稿人？5000篇论文超50%评审意见与人类一致！

下面这位大咖拥有众多头衔，他不仅是麻省理工学院计算机系终身教授、MIT生物智能研究生项目主任，还是哈佛-麻省联合博德研究所八大实验室主任之一，Manolis Kellis教授可以说的上是人工智能领域的创世泰斗。

Manolis Kellis麻省理工学院终身教授

麻省理工学院计算机系终身教授

MIT计算生物研究生/博士项目主任

哈佛-麻省联合博德研究所成员

MIT计算机科学与人工智能实验室的首席研究员

美国科学与工程职业总统奖获得者

论文引用次数超过15W, i10指数306

发表论文700余篇，Nature/Science 主刊33篇

尤其是在跨计算机科学与生物、分子生物和基因学交叉领域上的学术研究成果丰硕，Manolis Kellis教授的论文引用次数高达132,590次，发表了论文700多余篇，h指数130。

Manolis Kellis教授最新课题

GPT-4挑战Nature审稿人？5000篇论文超50%评审意见与人类一致！

【竞赛报名/项目咨询+微信：mollywei007】

本文由 Molly 转载发布在国际教育联盟平台，版权归原作者所有，如有侵权，请直接联系微信进行处理。

GPT-4挑战Nature审稿人？5000篇论文超50%评审意见与人类一致！

IGCSE/ALevel化学是一门什么样的学科？IGCSE/ALevel化学课程难在哪？

加拿大留学读艺术专业如何申请最保险？附本硕艺术院校介绍和推荐！

最新发布

贝赛思2025-2026新学年校历拆解！掌握4个关键节点轻松进“90分俱乐部”

江西财经大学2025国际本科项目招生简章

0基础上岸上海三公保姆级规划！三公学校的报考要求有哪些呢？

英国BC生物竞赛赛制安排和考试内容一篇看懂！

ACT官方研讨会：改革后9月将开考考生体验更友好

3月托福考情回顾：口写竟上下午重题历史生物篇章多！

最新文章

贝赛思2025-2026新学年校历拆解！掌握4个关键节点轻松进“90分俱乐部”

江西财经大学2025国际本科项目招生简章

0基础上岸上海三公保姆级规划！三公学校的报考要求有哪些呢？

英国BC生物竞赛赛制安排和考试内容一篇看懂！

ACT官方研讨会：改革后9月将开考考生体验更友好

IGCSE/ALevel化学是一门什么样的学科？IGCSE/ALevel化学课程难在哪？

加拿大留学读艺术专业如何申请最保险？附本硕艺术院校介绍和推荐！

你也可能喜欢

最新发布

最新文章