现在的 AI 已经开始参与论文打假了!就像是这样,经过旋转、拉伸和缩放之后的图片,人眼或许无法辨认,但 AI 能看到数百个相似的特征:
△蓝色线条表示相似特征
即使通过高超的“图像处理手段”把一张完整图像中的局部画面挪到自己的图像里,也能一眼分辨:
对于 AI 来说,这可能是秒认的活儿,甚至就算是一篇图像繁杂的完整论文,也不过花费一两分钟。但对于人眼可就没那么简单了,比如知名学术打假人 Elisabeth Bik 为了寻找不同论文中使用相同图片展示各自不同的实验结果的例子,曾花费了整整 2 年时间。
而对于出版商们来说,刊登又撤稿中间的损失就更大了……
因此,最近几年,AI 打假员愈发频繁地被引入了论文审查,尤其是图像问题中。比如,自今年 1 月份开始,世界上最大、最古老的癌症研究专业协会,美国癌症协会(AACR)就已经开始使用 AI 软件来评审旗下期刊文章里的图片造假或重复问题了。
官方网站上也已经写明:提交手稿中的所有图像都需要通过 AI 软件进行筛选。
不仅是 AACR,世界第五大出版商 SAGE、老牌经典医学期刊 JCI、 JCI Insight 都已经用上了这种方法。
自动图像校对
这些期刊和出版商们所使用的是一个由以色列公司 Proofig 开发的同名软件。
Proofig 软件基于 AI 技术和图像处理技术,面向各种科学文稿中的图像,包括所有类型的显微镜照片(光学、电学、共聚焦)、载玻片、蛋白免疫印迹(Western blot)、生物体内和体外图像、植物图像等等。
软件会从论文中识别图像,然后提取它们共同的特征进行比较。这些“共同的特征”包括对图像整体的缩放或旋转、部分重复或重叠、还有一些方位上的不同。
除此之外,软件也能额外检测到一些问题,比如高分辨率的原始数据被压缩到更小的文件中时,可能出现的压缩失真或压缩伪影(Compression artifact)情况。
一篇普通的论文通常在 2 分钟以内可以检查完毕,最多不超过 10 分钟。
对于很多出版商来说,一篇已刊登的科学文稿里如果出现图像剽窃这种学术不端的现象,那么从调查、撤稿到后续的法律费用,平均每篇文章可能要损失百万美元。因此,很多出版商都乐意引入性价比较高的 AI 来和人工审查组一起工作。
AACR 的一位期刊运营总监就表示:很多作者也很高兴能在出版前注意到一些“无意中的”图像复制错误。而对于我们来说,严谨的数据是我们期刊的一个显著的标志,因此,这(Proofig)绝对是值得投入的时间和金钱。
出版商们联合起来
其实,科学文稿中的图像重复或剽窃的现象已经是屡见不鲜了。
2016 年,Nature 上就有一篇文章对约 2 万篇生物医学论文进行人工分析后发现,其中 4% 的论文都可能包含上述问题。
而通常每年只有 1% 的文稿得到更正,因此撤回的文章就更少了。
因此,去年 5 月份,一些出版商联合起来成立了一个为解决论文中图像问题的小组,其中包括荷兰出版业巨头爱思唯尔(Elsevier)、Wiley、Springer Nature 和 Taylor & Francis。
爱思唯尔表示,小组最终的目标是“创造一个能够帮助我们自动识别图像变化的环境。”
还有很多出版商试图自己解决问题,比如瑞士出版商 Frontiers 开发了自己的论文图像检查软件,作为自动检查系统 AIRA 的一部分。
Frontiers 内部的一位发言人表示,软件自 2020 年 8 月投入使用,标记的大多数论文都没有问题,只有大约 10% 的论文需要人工检查小组的跟踪处理。
而有些尚未引入 AI 手段的出版商也展现出了对这种方法的怀疑:在可靠性上,AI 检查还没有大规模地投入使用。比如爱思唯尔的软件目前的进度还是“正在测试中“,只对部分期刊开放使用。在成本上,AI 软件偶尔的“误杀”依旧需要人工参与,甚至会引起其他的纠纷。
不过有人从另一个角度提出了问题:如果所有的论文都是开放存取的,那么图像误用 / 重复问题将更容易得到审查,训练 AI 也会更有效率。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。