ICLR被曝巨大黑幕,评审和作者竟私下勾结?49.9%论文疑有AI审稿 icu内幕揭秘 揭露icu内幕
admin
2024-05-09 19:44:11
0


新智元报道

编辑:好困 乔杨

【新智元导读】正在召开的ICLR 2024会议上,成为关注热点的不仅有耀眼的成果和学术明星,关于论文的审稿程序也掀起了一波讨论。大会官方对网上热议的「串通」行为做出了回应,学界关心的「AI辅助审稿」问题也在ICLR 2024的背景下有了相关的研究进展。

由于规格高、论文多,顶会论文审稿过程的公平性和透明度,向来是业界关注和争议的焦点。

本届ICLR在放榜后就有人在Reddit上发帖,质疑委员会接收了违反匿名政策的论文,且没有在评审过程中遵守双盲原则。


而且这种情况绝不是个例。ICLR官方发布的文章表示,关于审稿过程的问题已经收到了7000多封意见书。



很快,随着大会正式拉开帷幕,ICLR也亲自下场表示,目前已经针对这种「串通」行为展开了调查。


所谓Collusion(串通)就是,一些审稿人通过操纵投标系统与特定作者匹配。 不仅如此,部分领域主席(AC)可能也通过类似的方式操作系统并指派同谋的审稿人。 然后,这些审稿人就会给出极高的评价,从而提高论文被接收的可能性。 对此,ICLR表示: - 目前已发现多起审稿人与作者之间的勾结行为,其中一些案例有直接证据。 - 这些行为均直接违反了道德守则。 - 道德委员会正审查,并评估可能的处罚。

AI辅助审稿

除此之外,关于评审委员会在审稿时能否使用AI工具的问题也一直饱受争议。

相比其他顶会,ICLR审稿较为独特的一点在于,无论是否被接受,每篇论文的评分和评审意见都会被公开发布。

于是,来自洛桑联邦理工学院的研究人员,就利用ICLR 2024的相关公开数据,研究了用AI进行辅助评审的情况。

这篇论文不仅揭示了评审过程中可能存在的大范围使用AI辅助工具的情况,也采用对比分析的方法研究了这种行为对评审结果可能存在的影响。


论文地址:https://arxiv.org/abs/2405.02150


论文作者首先采用了一个商用的LLM检测器GPTZero来评估所有的文字评审意见。GPTZero可以将给定文本分为「完全由人类生成」,「完全由AI生成」和「混合生成」三类,并给出相应的置信度。

这篇研究中,如果GPTZero认为「完全由人类生成」的置信度低于0.5,则被认定为使用了AI辅助。结果显示,AI辅助评审比想象中的更广泛。

2024年评委们给出的28028条评审意见中至少有15.8%是由AI辅助生成的,全部接收文章中的49.9%收到了至少一条由GPTZero判定为AI辅助的评审意见。

基于GPTZero的检测结果,论文继续研究AI辅助生成的评论是否会对论文的评分和接受率产生影响。


文章包括三部分,第一部分分析AI参与审稿的范围,第二、三部分研究AI辅助可能产生的影响

对于每篇既有AI辅助评审意见又有人类评审意见的论文,作者收集了这些等级制评分的结果(包含5个等级:1分、3分、5分、6分、8分),并使用了比例赔率模型(proportional odds model)拟合估计AI辅助评审会打出更高分数的可能性。

总体上,AI给论文的评分会高于人类。对于一篇给定的论文,AI评分有53.4%的可能性高于人类评分。


无论在哪个分数区间,AI辅助评审打出的分数相比人类都会更高

为了研究AI辅助的评审意见会如何影响论文入选结果,作者从全部论文中挑选了内容相似的文章匹配成对,其中一篇全部被判定为由人类评审,另一篇则只含有一条AI辅助评审,且除去AI的给分后,审稿委员会为它们打出了完全相同的分数。

通过以上标准筛选出5132个论文样本后,作者对比了它们的接收情况从而分析AI辅助评分的影响。

总体而言,一条AI辅助的评分让论文有3.1%的更高可能入选,而且对于评分徘徊在接收分数线边缘的论文,这个数字还会提升到4.9%。


评分在5~6分、处于接收线边缘时,AI评分会对论文入选有正面影响

近年来大语言模型的快速发展,尤其是ChatGPT诞生后,学术界就涌现出了对AI参与审稿过程的质疑,自己工作都在「996」的教授们面对审稿的重担很有可能让大语言模型帮自己撰写评审意见。

这篇论文探究了当今顶会的审稿现状,通过控制变量的方法追踪并量化了因果关系,进而揭示了AI辅助评审对论文接收结果可能产生的影响。

大语言模型的快速发展是否会威胁学术界长久以来实行的同行评审制度,一直是期刊和论文的委员会所担忧的。论文作者表示,这项研究的意义之一在于,用量化的证据坐实了这种负面影响。

由于论文投稿数量的激增以及发展得越来越快的文字生成工具,疲于审稿工作的委员们采用AI辅助工具似乎是不可避免的趋势。

以ICLR为例,2023年的总投稿数仅为4955篇,今年就激增了将近一倍,达到7262篇,这无疑给会议的评审委员会带来了很大的工作负担。


论文的最后一部分诚实地表达了作者的担忧,认为审稿过程的准则和评价指标需要跟随大语言模型的发展一同进化。

否则,任由AI放肆地将自己不成熟的价值观投射到学术论文的筛选过程上,尤其是那些含有更多观点和价值表述的论文,将会产生更严重的危机。

最后,作者还分享了他们基于GPTZero打造的检测网站,只要输入你的论文标题,就能看到自己的ICLR论文是不是被「幸运」地分配到了AI辅助评审。


测试地址:http://aireviewlottery.com

参考资料:

https://arxiv.org/abs/2405.02150

https://twitter.com/manoelribeiro/status/1787512594661572878

https://blog.iclr.cc/2024/05/06/code-of-ethics-cases-at-iclr-2024/

https://papercopilot.com/statistics/iclr-statistics/


相关内容

热门资讯

linux入门---制作进度条 了解缓冲区 我们首先来看看下面的操作: 我们首先创建了一个文件并在这个文件里面添加了...
C++ 机房预约系统(六):学... 8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤: 在Student.cpp的...
JAVA多线程知识整理 Java多线程基础 线程的创建和启动 继承Thread类来创建并启动 自定义Thread类的子类&#...
【洛谷 P1090】[NOIP... [NOIP2004 提高组] 合并果子 / [USACO06NOV] Fence Repair G ...
国民技术LPUART介绍 低功耗通用异步接收器(LPUART) 简介 低功耗通用异步收发器...
城乡供水一体化平台-助力乡村振... 城乡供水一体化管理系统建设方案 城乡供水一体化管理系统是运用云计算、大数据等信息化手段࿰...
程序的循环结构和random库...   第三个参数就是步长     引入文件时记得指明字符格式,否则读入不了 ...
中国版ChatGPT在哪些方面... 目录 一、中国巨大的市场需求 二、中国企业加速创新 三、中国的人工智能发展 四、企业愿景的推进 五、...
报名开启 | 共赴一场 Flu... 2023 年 1 月 25 日,Flutter Forward 大会在肯尼亚首都内罗毕...
汇编00-MASM 和 Vis... Qt源码解析 索引 汇编逆向--- MASM 和 Visual Studio入门 前提知识ÿ...
【简陋Web应用3】实现人脸比... 文章目录🍉 前情提要🌷 效果演示🥝 实现过程1. u...
前缀和与对数器与二分法 1. 前缀和 假设有一个数组,我们想大量频繁的去访问L到R这个区间的和,...
windows安装JDK步骤 一、 下载JDK安装包 下载地址:https://www.oracle.com/jav...
分治法实现合并排序(归并排序)... 🎊【数据结构与算法】专题正在持续更新中,各种数据结构的创建原理与运用✨...
在linux上安装配置node... 目录前言1,关于nodejs2,配置环境变量3,总结 前言...
Linux学习之端口、网络协议... 端口:设备与外界通讯交流的出口 网络协议:   网络协议是指计算机通信网...
Linux内核进程管理并发同步... 并发同步并发 是指在某一时间段内能够处理多个任务的能力,而 并行 是指同一时间能够处理...
opencv学习-HOG LO... 目录1. HOG(Histogram of Oriented Gradients,方向梯度直方图)1...
EEG微状态的功能意义 导读大脑的瞬时全局功能状态反映在其电场结构上。聚类分析方法一致地提取了四种头表面脑电场结构ÿ...
【Unity 手写PBR】Bu... 写在前面 前期积累: GAMES101作业7提高-实现微表面模型你需要了解的知识 【技...