搜索

CVPR18论文竟然“造假”？双盲评审代码也要核查！

admin2025年11月07日 22:18:13

阅读：

标签： 代码论文

分享：

一等一的顶会CVPR接收的论文竟然出错？这条消息在今天的Reddit炸了锅。根据论文作者公开的代码，实验无法复现，同行评议过程也再次遭到质疑。

　　今天，一条这样的消息在Reddit炸了锅。

　　事情是这样的，有人试着去复现了CVPR 2018的一篇论文——CMU和密歇根大学合作的《Perturbative Neural Networks》，发现得不到作者在论文中所描述的结果，他认为这表明论文作者计算有误，因此其结果无效，于是就在Reddit发帖（在他大前天向作者发邮件但没有收到回复后）问众网友：

　　“我觉得这篇论文该被撤稿。你们觉得呢？”

　　“THE顶会”CVPR的同行评议竟然出错？！

　　一石激起千层浪。

　　因为这可不是随便哪篇上传到arXiv的预印版，而是经过了CVPR双盲评审的论文啊。连CVPR这样一等一的顶会都出错了，这还怎么得了？

　　具体看，《Perturbative Neural Networks》的作者在文中写道，如今计算机视觉的成功大多是由于卷积神经网络（CNN），而他们提出了一个简单有效的模块，叫做“干扰层”（perturbation layer），作为卷积层的替代。干扰层不使用传统意义上的卷积，而是将其响应计算为一个线性加权和，这个和是由增加的噪音干扰输入的非线性激活组成的。

　　PNN论文作者通过实验和分析，表明干扰层可以有效地替代标准的卷积层，然后他们将干扰层组成深度神经网络——干扰神经网络（PNN），并在一系列视觉数据集（MNIST，CIFAR-10，PASCAL VOC和ImageNet）上与标准CNN进行比较，得出结论PNN的表现跟CNN一样好。

　　但“p1esk”，也就是在Reddit发言认为该撤稿的那个人就不同意了，他认为将3X3卷积换成1X1再在输入中增加一些干扰，实际上并没有什么意义。他的测试结果是这样的：

　　P1esk 复现的结果，发现PNN精度根本就没有到90%，只有85%左右

　　当然，p1esk 也给出了他详细的实现过程，具体可以去看Github页面（见文末）。

　　论文该不该撤？都是公开代码惹的祸

　　好，回到最开始讨论的是否该撤稿问题上来。

　　网友的意见大致可以分为三类：

　　不用撤，既然作者都把代码公开了，显然是无心之过，只要将错误改过来就好了；

　　撤！有错误当然撤，不仅如此，以后还应该规定所有论文提交时都必须公开代码，不仅论文要评审，连代码也要一并审核；

　　先把撤稿的事放在一边：（双盲）评审过程本身并不涉及代码的审核，就好像生物学领域的论文不会在审稿期间去重复实验，也无法做到一一核查代码，原本就是论文发表后，由其他同行来复现，由此判断其结论是否经得起科学论证。

　　你有没有发现，讨论的重点实质上已经从“撤稿”转移到了“公开代码”上面。

　　p1esk 为何能发现PNN论文结果与作者描述得不一致？因为PNN论文的作者将代码公开了。如果不公开，连发现这个不一致的机会都没有。

　　因此，也有人评论，说不定这就是某些论文不公开代码的原因呢。

　　这种想法得到了不少赞同，不少人表示，对啊对啊，这比那些说了会公布代码但却一直不公布的人要好多了。

　　而代码公开，实际上一直是深度学习领域的老大难问题。

　　有的产业研究机构不太希望公开代码，因为涉及到专利或产品。

　　深度学习是如今研究复现率最低的领域之一，正如南京大学计算机系主任、人工智能学院院长周志华教授在AI WORLD 2018世界人工智能峰会发表的演讲中提到的那样：

　　“常用神经网络的朋友知道，现在深度神经网络有很多问题。大家经常说的一件事情就是要花大量的精力调整参数，参数实在太多了。

　　“不仅如此，这还会带来另外一个严重的问题：哪怕我告诉你同样的算法、用同样的数据，如果不告诉你参数是怎么调的，可能就没有办法得到同样的结果。”

　　作者回应：正在检查，误差太大会主动撤稿

　　现在，Reddit这条讨论里被赞最多的回复，来自PNN论文的作者。

　　你好，我是这篇论文的第一作者。我们在大约3周前注意到了这个问题，现在正在调查中。我很感谢Michael对PNN论文的实现，并将他发现的问题告诉给了我们。我们希望彻底分析问题，并且得到100%确定的结果，之后再给出进一步的回复。

　　我们可视化工具中平滑函数的默认设置有误，这是我们疏忽了，现在已经修复。我们正在重新运行所有的实验。我们会用最新的结果更新我们的arXiv的论文和Github库。如果分析表明我们的结果确实跟提交CVPR的版本中相差很多，我们会撤回这篇论文。

　　话虽如此，根据我的初步评估，如果他在实现的时候正确选择#filters、噪音水平和优化方法，我眼下能够在CIFAR-10上达到大约90％~91％的精度，而不是他选上述参数得到的85％~86％。但是，不做进一步检查，我不想说更多。

　　大部分网友都认为这是一个合理的回复。

　　那既然作者都这样说了，围观人等就散去吧？

　　你是不是忘了，最根本的代码公开还没有得到结论呢！

　　如果深度学习和人工智能真的要成为一门科学，那么就必须符合科研的标准。如今，代码开源以及复现实验的呼声越来越高，这也是领域健康发展的证明。

　　重视论文可重复性，让深度学习成为一门科学

　　ICLR在去年举办了一个“研究复现挑战赛”，今天刚刚公布了第二届的消息。在这个复现挑战赛中，参赛者从2019年ICLR提交的论文中任意选择一篇，然后尝试复现论文中描述的实验。目标是评估实验是否可重复，并确定你的发现是否支持该论文的结论。

　　参赛者的结果可以是肯定的（即确认可重复性），也可以是负面的（即说明无法复现实验内容，并给出可能的原因）。

　　举办这样的竞赛，就是为了让更多的人，尤其是学生，加入到论文审核的工作中来，同时也提升其对论文可重复性重要性的意识。

　　如果你愿意，今天就报名，为将深度学习变为一门科学而努力吧：

　　https://www.cs.mcgill.ca/~jpineau/ICLR2019-ReproducibilityChallenge.html

　　相关论文

　　PNN：https://arxiv.org/pdf/1806.01817.pdf

　　PNN复现Github：https://github.com/michaelklachko/pnn.pytorch

注：本文系作者 admin 授权融媒体发表，并经融媒体编辑，转载请注明出处和本文链接

我要围观…

705人参与 36条评论

最热评论
最新评论

加力那24分钟前回复2赞84

就是因为病人多，专家少，你还要抓？如果你是一个专家，一天12小时不吃不喝不上厕所给20个病人看病，可是外面排队的病人有100个。

Taso韩先生28分钟前回复2赞84

就是因为病人多，专家少，你还要抓？如果你是一个专家，一天12小时不吃不喝不上厕所给20个病人看病，可是外面排队的病人有100个。

加力那28分钟前回复2赞84

就是因为病人多，专家少，你还要抓？如果你是一个专家，一天12小时不吃不喝不上厕所给20个病人看病，可是外面排队的病人有100个。

Taso韩先生24分钟前回复2赞84

就是因为病人多，专家少，你还要抓？如果你是一个专家，一天12小时不吃不喝不上厕所给20个病人看病，可是外面排队的病人有100个。

admin

关注

现专注于互联网行业—公关领域。兴趣广泛，热爱传统文化，以及看书，闲时写些文字等。

17万阅读量
17万文章数
3评论数

作者文章

八旬参战老兵重磅发声：莎蔓莉莎清白如雪，庄总德行昭昭
全国高校创新创业联合体武陵山乡村振兴大学生创业总部落地保靖
长期主义引领行业发展：流浪泡泡重塑餐饮企业价值追求
从齐国生落马看辽宁司法之殇
夏季补钙正当时，哈药盖中盖助力健康无忧

关于我们 |加入我们 |广告及服务 |提交建议

友情链接

赛迪网 |钛媒体 |虎嗅网 |品途网 |i黑马 |果壳网 |砍柴网 |创业邦 |易观网 |凯恩思 |创业邦 |舆情之家