顶会审稿人紧缺，我审我自己！ICML 2023排序试验成果出炉：作者自评能提高评定质量吗？

09-08 442阅读 0评论

新智元报导

修改：LRST

【新智元导读】宾夕法尼亚大学苏炜杰教授团队在ICML 2023会议中进行试验显现，经过作者自评校准后，审稿分数的差错下降超越20%。

近年来，以ICLR、NeurIPS、ICML等为代表的机器学习会议投稿量爆破式添加。在短短6年间，ICML的投稿量翻了四倍。

这给现有的同行评定（Peer Review）准则带来巨大压力。每位审稿人被要求在短时刻内阅览很多文章并给出审稿定见，做出「存亡判定」。跟着ChatGPT的呈现，很多审稿定见乃至直接由AI生成。

这导致了同行评定质量的严峻下降。最优异的论文被拒，而较差的论文反而被接纳。关于很多机器学习和人工智能范畴的从业者来说，这种现象现已习以为常。

审稿质量太差现已逐步成为每次尖端会议后必谈的主题。这是因为一个有经历的审稿人往往需求多年的培育。在面临很多投稿时，优质审稿人早已成为「稀缺资源」。

因为添加优质审稿人或给每位分配更多的论文是不现实的，咱们或许能够要求投稿作者供给信息来帮忙会议决议计划。

在此布景下，宾夕法尼亚大学计算系和计算机系的苏炜杰教授团队提出了一种立异的审稿办法：「我审我自己」。

论文链接：https://arxiv.org/abs/2408.13430

该办法的核心理念是让作者对自己的论文进行排序，从而为同行评定供给一个新的参阅维度。团队一起提出保序机制（Isotonic Mechanism）对审稿人的打分作出调整，赋予每篇文章一个校准后的评分（Isotonic Score），以满意作者供给的排序。

该团队与OpenReview在ICML 2023会议期间进行了一项试验，约请作者们对自己提交的论文进行排名，以此来测验校准后的评分是否更好地体现了文章的质量。

团队的试验在交际媒体上取得了广泛评论。

试验成果发现，比较于原始评分（会议审稿人给出的均匀分），校准后的评分能更精确地反映论文质量。

校准后，评分与理论上的实在评分（Ground Truth）之间的均方差错（Mean Squared Error）和绝对差错（Mean Absolute Error）显着削减。

此外，团队提出了几种将该机制运用于评定进程的低危险办法，以确保实践运用中有益无害。

这些办法包含：

1. 辅佐Senior Area Chair的决议计划；

2. 优化论文奖项评选流程；

3. 在审稿质量欠安时引进紧迫审稿人。

布景

保序机制简介

假定投稿人提交了n篇论文，保序机制要求投稿人供给对这n篇论文质量的排序π，然后结合审稿人给出的原始均匀评分y = (y1, y2, …, yn)，经过解出一个凸优化问题得出校准后的评分——能够了解为对原始评分的调整，使其契合排序π。

数学上，这个凸优化问题标明为：

试验流程

团队建立了官方网站（https://openrank.cc）并与OpenReview协作，完成了该试验。在ICML截止日期1月26号当天，一切ICML作者都收到了一封约请他们参加试验的邮件。

以下是ICML 2023试验中投稿人所看到的界面示例。能够发现，界面中并没有让作者供给实践文字点评的部分，只要求作者对投稿文章进行排序。

摘要性计算量（Summery Statistics）

在这次试验中，共有5634位作者完成了问卷调查，占总作者数的30.4%。其间，有1342位作者提交了多篇论文并进行了排名。共有2592篇论文至少被一位作者排名，占总提交量的39.6%。此外，单个作者最多排名了17篇论文。

在试验中，59.8%的作者对他们的排名十分自傲。相反，大都作者对原始评分的决心严峻不足：近对折作者以为自排最差论文的实践评分超越最好论文的概率超越40%。

试验成果

在评价校准后评分体现时，首要的难点在于提交论文的实在评分不知道。一篇论文一般取得多个评分，所以咱们假定y^avg和y'是同一论文的两个独立评分，而且都被视为实在评分的无偏估量（unbiased estimator）。

咱们运用y^iso来标明依据y^avg的校准后评分。咱们运用欧几里得间隔（L2 distance）和, 来衡量y^iso与y^avg的体现。

这称之为校准后评分和原始评分的署理均方差错（Proxy MSE）。数学上，咱们能够证明是实在均方差错的无偏估量。

因而，假如要y^iso在均方差错方面优于y^avg，那么y^iso 的署理均方差错也会比 y^avg 小，反之亦然。

别的，将L2 distance换为L1 distance，和，即得到了校准后评分和原始评分的署理绝对差错（Proxy MAE）。

试验成果标明，该团队提出的三种不同的保序机制遍及能够下降20%的署理均方差错和10%的署理绝对差错。

此外，在95%置信水平（confidence level）上，校准后评分的实在均方差错比原始评分低0.4以上。这标明在评价论文质量时，校准后评分具有更高的精确性。

从直方图中能够显着看出，比较原始评分的差错（蓝色部分），校准后评分的差错（赤色部分）显着倾向y轴。

作者还发现，跟着提交数量的增多，保序机制在估量精确性上有显着进步。这意味着，假如更多的作者供给他们的排名，经过保序机制能够完成更显着的差错下降。

在提交数量为2～10篇之间时，均方差错（MSE）均匀下降25%，绝对差错（MAE）均匀下降14%；在提交数量大于11篇时，均方差错（MSE）均匀下降41%，绝对差错（MAE）均匀下降22%。

运用

综上所述，校准后评分比原始评分更精确反映实在评分。此外，作者还提出了以下三种温文且慎重的运用，确保在运用中有益无害。

检查Area Chairs的主张

布景问题：在取得原始评分后，Area Chairs会对每篇文章进行开始判别（开始承受/回绝主张），然后由Senior Area Chairs检查这些主张，并做出终究决议。但因为时刻有限，Senior Area Chairs无法逐一检查。

处理思路：保序机制可用于符号需求Senior Area Chairs细心检查的投稿。在此运用场景中，校准后评分仅显现给Senior Area Chairs 或 Program Chairs，以便他们更有用地监督Area Chairs的主张。

具体措施：假如论文的校准后评分与Area Chairs的主张之间存在显着差异，Senior Area Chairs能够要求Area Chairs进一步检查该投稿，而不用阐明原因。

Best Paper评选

布景问题：在传统的奖项评选机制中，均匀分高或被Area Chairs提名的论文会组成候选名单，由委员会进一步检查以确认获奖者。但是这些决议计划常常引发争议，乃至不恰当的论文被评为最佳论文奖（Best Paper Award）。一些获奖论文遭到范畴内专家的共同对立。

作为隐私范畴的领军人物之一，Vitaly Feldman专门写文章指出了获奖论文中的过错。

还有一些获奖论文被大佬直言批判：「Overall, this award is one of the most unfair things I witnessed in my academic life.」

处理思路：在ICML 2023年度被评为出色论文的六篇论文中，其间三篇参加了试验，分别被其作者排在第一位。作者供给的排名能够作为评选论文奖项的一个有力弥补信息。

具体措施：在论文奖项的评选进程中，排名仅向不在评选委员会中的Program Chairs揭露。评选委员会依托专业知识挑选获奖论文，而不知晓作者供给的排名。一旦评选委员会做出引荐，Program Chairs能够检查这些引荐。假如某篇引荐论文的作者自排排序较低，Program Chairs能够提出质疑。这种情况下，评选委员会或许需求搜集更多依据再考虑其获奖资历。

紧迫审稿人的招募

布景问题：当呈现低质量审稿时，常常需求招募紧迫审稿人。在现有的会议中，招募紧迫审稿人一般是因为呈现低置信度（Low confidence）的审稿或审稿人对投稿定见不合显着（High variance）。例如，NeurIPS 2023 主张在四名惯例审稿人之外，为每个低置信度的审稿再招募一名额定的紧迫审稿人。

处理思路：团队发现，校准后评分与原始评分之间的差异能够有用反映审稿质量。跟着一篇文章的原始评分方差（Variance）增大和审稿置信度（Confidence）的减小，校准评分与原始评分之间的差异都会显着增大。一起，校准后评分与原始评分之间的巨大差异往往标明作者对审稿质量的忧虑，此刻分配紧迫审稿人能够有用增强学术界对同行评定的信赖。因而，团队提出了一种有用分配紧迫审稿人的机制，依据初轮审稿的质量自适应地分配审稿人，以经济有用地运用有限的优质审稿人资源。

具体措施：经过比照校准评分与原始评分之间的差异，负责人能够快速识别出那些审稿评分有争议的论文。负责人对参加该机制的论文指使三名初审审稿人，而对未参加的论文指使四名审稿人。咱们将依据差异的巨细分配紧迫审稿人：对差异值在前30%的论文分配两名紧迫审稿人，对差异值在前30%至70%之间的论文分配一名紧迫审稿人。这样，不管论文是否参加该机制，每篇论文均匀都会有四名审稿人。这样不只能够减轻审稿人的担负，一起也能够在确保评定质量的前提下有用进步审稿流程的全体功率。

总结与展望

试验成果突显了保序机制在进步同行评定质量上的潜力。

这种办法经过一个简略的排序进程，运用作者对自己论文的了解和判别来优化评定成果。

最重要的是，这一机制彻底依据现有的评定数据，不需求会议组织者进行额定的操作或资源分配。

这种办法因为简便性和本钱效益特性，特别适合在资源有限的情况下运用，一起也为应对日益添加的论文提交数量和评定担负供给了一种潜在的处理方案。

团队提出的几种实践运用不只不会给任何作者带来负面影响，反而会进步全体的审稿质量。

为下降危险，该团队与OpenReview在2024年的ICML会议上再次协作进行了试验，以获取更全面的实证依据。

参阅资料：

https://arxiv.org/abs/2408.13430