ChatGPT从问世到现在的热度一直只增不降,从最初的智能对话,到如今拥有强大的语言、图形处理能力,它始终都是目前人工智能领域发展的风向标。
近日,斯坦福学者发现,GPT-4又开挂了!目前可以对于Nature、ICLR的论文给出的审稿意见,且和人类审稿人的意见有超过50%的相似性。
01新晋学术审稿人——GPT4
根据斯坦福学者的发现,GPT-4目前不仅完美胜任了审稿的工作,甚至比人类做得还好!在GPT-4给出的意见中,有超过50%的内容和至少一位人类审稿人一致,且超过82.4%的作者表示,GPT-4给出意见很有帮助。
论文作者James Zou总结道:我们仍然需要高质量的人工反馈,但LLM(开源大型语言模型)可以帮助作者在正式的同行评审之前,改进自己的论文初稿。
02LLM究竟如何审稿?
从步骤上来看只需要简单的4步,GPT-4就可以对专业的学术论文做出意见反馈了。
首先,准备好论文PDF文件;其次,GPT-4会根据你提供的文档进行内容的提取,并进行标题、摘要、图形、表格等文本内容的分析。
第三步,需要告诉GPT-4,要遵循业内顶尖的期刊会议的审稿反馈形式,包括四个部分:成果是否重要、是否新颖,论文被接受的理由,论文被拒的理由,改进建议。
最后,就可以等待GPT-4提供的审稿意见了(步骤如下图所示):
从GPT-4给出的意见内容上来看,它的意见和各顶会的标准一样,包含了4项内容:研究的重要性和新颖性、可以被接受的潜在原因或被拒绝的理由以及改进建议。
03如何证明GPT-4与人类审稿的水平差异?
为了比较GPT-4 与真实人类审稿的水平,研究团队展开了定量实验。研究者从Nature正刊和各大子刊挑选了3,096篇文章,从ICLR机器学习会议(包含去年和今年)挑选了1,709篇,共计4,805篇文章。
在GPT-4给出意见后,匹配管线会通过分别提取出来的人类和GPT-4论点,再进行匹配,找到重叠的论点,以此来评判GPT-4意见的专业性。
下图就是一个具体的两阶段评论匹配管线,对于每条配对评论,相似度评级都会给出理由,研究者将相似度阈值设为7,弱匹配的评论就会被过滤掉:
匹配后的结论是:
01GPT-4与人类的审稿意见显著重叠
在Nature论文中,GPT-4有57.55%的意见与至少一位人类评审员一致;在ICLR中,这个数字则高达77.18%。
但不同论文等级水平也会影响重叠率的高低,经过研究员分析,论文水平相对弱的,GPT-4与人类审稿意见的重叠率更高。这一点也侧面说明了,目前GPT-4的审稿能力还无法完全替代人类,且对于复杂的、高阶的论文评审能力还有待提高。
02在非通用反馈的表现上表现尚可
研究人员还测试了GPT-4是否会提供“模版”式的审稿意见,结果是发现GPT-4在Nature和ICLR上的“成对重叠率”都下降到0.43%和3.91%。
03在重大和普遍性问题上和人类保持一致
在大量的人类审稿员意见中,一些普遍性强或重点的意见问题可以被LLM识别,它可以识别出多个人类评审员一致认同的常见问题或缺陷。这也就表明,GPT-4在这些问题上基本可以与人类评审员保持观点一致。
04强调一些与人类不同类的意见
在大量的人类审稿员意见中,一些普遍性强或重点的意见问题可以被LLM识别,它可以识别出多个人类评审员一致认同的常见问题或缺陷。这也就表明,GPT-4在这些问题上基本可以与人类评审员保持观点一致。
最后,我们通过这次实验验证了GPT-4目前强大的LLM自然语言的应用能力,但也同时通过数据看到了它与人类评审员的差距。就目前而言,GPT-4虽然不能完全取代人类评审员进行专业性强的论文评审工作,当时如果作为辅助人类评审员进行评审核对、意见参考的工具是基本可以胜任的。
另外,不得不提到发表这篇论文的作者们,从作者的名字上就可以看到有很多华人作者,尤其是文章的三位一作,都是来自斯坦福大学计算机学院的华人学生,他们分别是:
梁伟欣(上图中间),斯坦福博士生,也是斯坦福AI实验室(SAIL)成员。他硕士毕业于斯坦福电气工程专业,本科毕业于浙江大学计算机科学。
Yuhui Zhang(上图右一),同博士生在读,研究方向为多模态AI系统。清华本科毕业,斯坦福硕士毕业。
曹瀚成(上图左一),该校五年级博士在读,辅修管理科学与工程,同时加入了斯坦福大学NLP和HCI小组。此前毕业于清华大学电子工程系本科。
04人工智能/计算机科学大咖教授
说到计算机科学、人工智能,就不得不提到CIS的两位重磅级教授,他们是分别来自全美计算机Top1的卡内基梅隆大学,以及全美工科Top1的麻省理工学院。
David Woodruff卡内基梅隆大学终身教授
卡内基梅隆大学计算机系终身教授
UCB Simons Institute 数据科学项目创建者及主席
IBM Almaden研究中心资深研究员
STOC 2013、PODS 2010 最佳学术研究论文奖得主
曾获EATCS Presbuger
身为80后的他,早已经是CMU的终身级教授了,自教授在CMU任职以来,他在学术界的影响力就只增不减,根据Google Scholar的最新数据显示,教授的文献引用次数已经高达12,415次。
每年David Woodruff教授课题组的学员在录取季的表现都尤为出众,在过往的学员中,有被:斯坦福、牛津、剑桥、康奈尔、芝加哥、UCB、CMU、UMich等世界顶尖名校录取,其中,还有学员的论文成功发表在了SCI。
David Woodruff教授最新课题
下面这位大咖拥有众多头衔,他不仅是麻省理工学院计算机系终身教授、MIT生物智能研究生项目主任,还是哈佛-麻省联合博德研究所八大实验室主任之一,Manolis Kellis教授可以说的上是人工智能领域的创世泰斗。
Manolis Kellis麻省理工学院终身教授
麻省理工学院计算机系终身教授
MIT计算生物研究生/博士项目主任
哈佛-麻省联合博德研究所成员
MIT计算机科学与人工智能实验室的首席研究员
美国科学与工程职业总统奖获得者
论文引用次数超过15W, i10指数306
发表论文700余篇,Nature/Science 主刊33篇
尤其是在跨计算机科学与生物、分子生物和基因学交叉领域上的学术研究成果丰硕,Manolis Kellis教授的论文引用次数高达132,590次,发表了论文700多余篇,h指数130。
Manolis Kellis教授最新课题