GPT-4挑战Nature审稿人?5000篇论文超50%评审意见与人类一致!

ChatGPT从问世到现在的热度一直只增不降,从最初的智能对话,到如今拥有强大的语言、图形处理能力,它始终都是目前人工智能领域发展的风向标。

近日,斯坦福学者发现,GPT-4又开挂了!目前可以对于Nature、ICLR的论文给出的审稿意见,且和人类审稿人的意见有超过50%的相似性。

GPT-4挑战Nature审稿人?5000篇论文超50%评审意见与人类一致!

 01新晋学术审稿人——GPT4  

根据斯坦福学者的发现,GPT-4目前不仅完美胜任了审稿的工作,甚至比人类做得还好!在GPT-4给出的意见中,有超过50%的内容和至少一位人类审稿人一致,且超过82.4%的作者表示,GPT-4给出意见很有帮助。

GPT-4挑战Nature审稿人?5000篇论文超50%评审意见与人类一致!

论文作者James Zou总结道:我们仍然需要高质量的人工反馈,但LLM(开源大型语言模型)可以帮助作者在正式的同行评审之前,改进自己的论文初稿。

GPT-4挑战Nature审稿人?5000篇论文超50%评审意见与人类一致!

02LLM究竟如何审稿?

从步骤上来看只需要简单的4步,GPT-4就可以对专业的学术论文做出意见反馈了。

首先,准备好论文PDF文件;其次,GPT-4会根据你提供的文档进行内容的提取,并进行标题、摘要、图形、表格等文本内容的分析。

第三步,需要告诉GPT-4,要遵循业内顶尖的期刊会议的审稿反馈形式,包括四个部分:成果是否重要、是否新颖,论文被接受的理由,论文被拒的理由,改进建议。

最后,就可以等待GPT-4提供的审稿意见了(步骤如下图所示):

GPT-4挑战Nature审稿人?5000篇论文超50%评审意见与人类一致!

从GPT-4给出的意见内容上来看,它的意见和各顶会的标准一样,包含了4项内容:研究的重要性和新颖性、可以被接受的潜在原因或被拒绝的理由以及改进建议。

GPT-4挑战Nature审稿人?5000篇论文超50%评审意见与人类一致!

03如何证明GPT-4与人类审稿的水平差异?

为了比较GPT-4 与真实人类审稿的水平,研究团队展开了定量实验。研究者从Nature正刊和各大子刊挑选了3,096篇文章,从ICLR机器学习会议(包含去年和今年)挑选了1,709篇,共计4,805篇文章。

在GPT-4给出意见后,匹配管线会通过分别提取出来的人类和GPT-4论点,再进行匹配,找到重叠的论点,以此来评判GPT-4意见的专业性

GPT-4挑战Nature审稿人?5000篇论文超50%评审意见与人类一致!

下图就是一个具体的两阶段评论匹配管线,对于每条配对评论,相似度评级都会给出理由,研究者将相似度阈值设为7,弱匹配的评论就会被过滤掉:

GPT-4挑战Nature审稿人?5000篇论文超50%评审意见与人类一致!

匹配后的结论是:

 01GPT-4与人类的审稿意见显著重叠

在Nature论文中,GPT-4有57.55%的意见与至少一位人类评审员一致;在ICLR中,这个数字则高达77.18%。

但不同论文等级水平也会影响重叠率的高低,经过研究员分析,论文水平相对弱的,GPT-4与人类审稿意见的重叠率更高。这一点也侧面说明了,目前GPT-4的审稿能力还无法完全替代人类,且对于复杂的、高阶的论文评审能力还有待提高。

GPT-4挑战Nature审稿人?5000篇论文超50%评审意见与人类一致!

02在非通用反馈的表现上表现尚可

研究人员还测试了GPT-4是否会提供“模版”式的审稿意见,结果是发现GPT-4在Nature和ICLR上的“成对重叠率”都下降到0.43%和3.91%。

GPT-4挑战Nature审稿人?5000篇论文超50%评审意见与人类一致!

03在重大和普遍性问题上和人类保持一致

在大量的人类审稿员意见中,一些普遍性强或重点的意见问题可以被LLM识别,它可以识别出多个人类评审员一致认同的常见问题或缺陷。这也就表明,GPT-4在这些问题上基本可以与人类评审员保持观点一致。

04强调一些与人类不同类的意见

在大量的人类审稿员意见中,一些普遍性强或重点的意见问题可以被LLM识别,它可以识别出多个人类评审员一致认同的常见问题或缺陷。这也就表明,GPT-4在这些问题上基本可以与人类评审员保持观点一致。

最后,我们通过这次实验验证了GPT-4目前强大的LLM自然语言的应用能力,但也同时通过数据看到了它与人类评审员的差距。就目前而言,GPT-4虽然不能完全取代人类评审员进行专业性强的论文评审工作,当时如果作为辅助人类评审员进行评审核对、意见参考的工具是基本可以胜任的。

另外,不得不提到发表这篇论文的作者们,从作者的名字上就可以看到有很多华人作者,尤其是文章的三位一作,都是来自斯坦福大学计算机学院的华人学生,他们分别是:

梁伟欣(上图中间),斯坦福博士生,也是斯坦福AI实验室(SAIL)成员。他硕士毕业于斯坦福电气工程专业,本科毕业于浙江大学计算机科学。

Yuhui Zhang(上图右一),同博士生在读,研究方向为多模态AI系统。清华本科毕业,斯坦福硕士毕业。  

曹瀚成(上图左一),该校五年级博士在读,辅修管理科学与工程,同时加入了斯坦福大学NLP和HCI小组。此前毕业于清华大学电子工程系本科。

04人工智能/计算机科学大咖教授 

说到计算机科学、人工智能,就不得不提到CIS的两位重磅级教授,他们是分别来自全美计算机Top1的卡内基梅隆大学,以及全美工科Top1的麻省理工学院。

David Woodruff卡内基梅隆大学终身教授

卡内基梅隆大学计算机系终身教授

UCB Simons Institute 数据科学项目创建者及主席

IBM Almaden研究中心资深研究员

STOC 2013、PODS 2010 最佳学术研究论文奖得主

曾获EATCS Presbuger

身为80后的他,早已经是CMU的终身级教授了,自教授在CMU任职以来,他在学术界的影响力就只增不减,根据Google Scholar的最新数据显示,教授的文献引用次数已经高达12,415次。

每年David Woodruff教授课题组的学员在录取季的表现都尤为出众,在过往的学员中,有被:斯坦福、牛津、剑桥、康奈尔、芝加哥、UCB、CMU、UMich等世界顶尖名校录取其中,还有学员的论文成功发表在了SCI

David Woodruff教授最新课题

GPT-4挑战Nature审稿人?5000篇论文超50%评审意见与人类一致!

下面这位大咖拥有众多头衔,他不仅是麻省理工学院计算机系终身教授、MIT生物智能研究生项目主任,还是哈佛-麻省联合博德研究所八大实验室主任之一,Manolis Kellis教授可以说的上是人工智能领域的创世泰斗。

Manolis Kellis麻省理工学院终身教授

麻省理工学院计算机系终身教授

MIT计算生物研究生/博士项目主任

哈佛-麻省联合博德研究所成员

MIT计算机科学与人工智能实验室的首席研究员

美国科学与工程职业总统奖获得者

论文引用次数超过15W, i10指数306

发表论文700余篇,Nature/Science 主刊33篇

尤其是在跨计算机科学与生物、分子生物和基因学交叉领域上的学术研究成果丰硕,Manolis Kellis教授的论文引用次数高达132,590次,发表了论文700多余篇,h指数130。

Manolis Kellis教授最新课题

GPT-4挑战Nature审稿人?5000篇论文超50%评审意见与人类一致!

GPT-4挑战Nature审稿人?5000篇论文超50%评审意见与人类一致!GPT-4挑战Nature审稿人?5000篇论文超50%评审意见与人类一致!

GPT-4挑战Nature审稿人?5000篇论文超50%评审意见与人类一致!GPT-4挑战Nature审稿人?5000篇论文超50%评审意见与人类一致!

 

【竞赛报名/项目咨询+微信:mollywei007】

上一篇

IGCSE/ALevel化学是一门什么样的学科?IGCSE/ALevel化学课程难在哪?

下一篇

加拿大留学读艺术专业如何申请最保险?附本硕艺术院校介绍和推荐!

你也可能喜欢

  • 暂无相关文章!

评论已经被关闭。

插入图片
返回顶部