业界手机电脑测评视频 AI 苹果 iPhone 鸿蒙软件

智车数码学院游戏直播 5G 微软 Win10 Win11 专题

首页 > 智能时代>人工智能

“跨次元”目标检测模型 hold 住各种画风，还能识别漫画中物品

量子位 2022/1/16 13:49:34 责编：沐泉

评论：

1 月 16 日消息，目标检测种类多达 20000+ 种的 AI，你见过吗？不仅准确“揪出”每个物体所在的位置，分类效果非常准确：

果盘、沙拉、苹果、刀叉等

插画版赛博恐龙也没问题：

机械恐龙图画

甚至还能检测杂志封面甚至漫画中的物体！

右侧是两个小黄人

这也是把目标检测给玩出花来了，据作者表示模型在长尾问题等细节上的处理非常好，像狮子和狐狸这种少样本也能准确识别：

卡车与雄狮、狐狸

这项研究来自 Meta AI 和得克萨斯大学奥斯汀分校，一作是著名目标检测框架 CenterNet 的作者、复旦校友 Xingyi Zhou。

“跨次元”目标检测模型 hold 住各种画风，还能识别漫画中物品

一起来看看。

可识别“跨次元”物体

这篇论文提出了一种新的名为 Detic 的方法，用来解决目标检测无法用到图像级标签（给一整张图打标签，标注里面有什么物体）的问题。

橄榄球比赛

此前的目标检测方法，通常是一个检测框里一个物体：

“跨次元”目标检测模型 hold 住各种画风，还能识别漫画中物品

这种方法有一个问题，就是没办法利用整个图像级标签，只能用单个物体的图片进行训练。

“跨次元”目标检测模型 hold 住各种画风，还能识别漫画中物品

也有一些研究想出了一种新方法，搞个弱监督学习，试图让 AI 自己学会将图像级的标签，去对应锚定框里面有什么物体，但实际上这种方法的效果也不太好。

Detic 的方法是采用目标检测数据（a）和图像标签数据（b）对 Detic 进行混合训练。

其中，在用目标检测数据训练 Detic 时，同时对图像分类模块 W 和目标检测模块 B 进行训练，但只用标签数据对图像分类模块 W 进行训练。

“跨次元”目标检测模型 hold 住各种画风，还能识别漫画中物品

训练的数据集采用的是 ImageNet，事实证明模型在训练后无需微调，就能很好地适应到 LVIS 等数据集，相对之前的一些模型都达到了不错的效果：

数据表

论文表示，Detic 能分类的图片类型也是多种多样，从真实照片到赛博恐龙插画这样的“跨次元”作品都能识别：

大量实拍图片，包括羚羊、水獭、花豹等

这立刻吸引了不少网友来玩。

在线 Demo 可玩

有网友用梵高的世界名画试了试。

“跨次元”目标检测模型 hold 住各种画风，还能识别漫画中物品

放大一点来看，艺术加工后的椅子、人和桌子也能被识别：

“跨次元”目标检测模型 hold 住各种画风，还能识别漫画中物品

还有用二次元的龙猫进行识别的，除了龙猫本身被错认成猫头鹰以外，其他的雨伞和靴子都认得不错：

龙猫电影截图

我们也随便用一个钟表柜的照片试了试，在线 Demo 的检测时间稍微有点久，大约需要 6 分钟左右，但效果还不错：

“跨次元”目标检测模型 hold 住各种画风，还能识别漫画中物品

细看的话还是能发现一些瑕疵，例如把部分手表误认成转速计、以及怀表和时钟，以及也有一两块手表没有被检测出来。

不过，即使在二次元和插画中，这个 AI 能识别的物体，至少也需要在真实世界出现过。

例如，超出 20000 个分类的物体，如喷火龙和皮卡丘，就不在 AI 的监测范围内了，全部被认成了猴子（狗头）：

神奇宝贝，包括小火龙、皮卡丘、杰尼龟等

将这些二次元角色也加入 AI 训练数据集中，不知能否取得同样的检测效果。

作者介绍

“跨次元”目标检测模型 hold 住各种画风，还能识别漫画中物品

▲ 这张照片是“女朋友拍的”

论文一作 Xingyi Zhou，目前在德克萨斯大学奥斯汀分校读博，本科就读于复旦大学计算机系，之前也是 CenterNet 论文的第一作者，项目在 GitHub 上目前已经收获 6.1k Star。

“跨次元”目标检测模型 hold 住各种画风，还能识别漫画中物品

Rohit Girdhar、Armand Joulin 和 Ishan Misra，Meta AI 的研究科学家，主要研究方向是机器学习和计算机视觉，此前 Armand Joulin 曾经在李飞飞的实验室进行博士后工作。

Philipp Krähenbühl，得克萨斯大学奥斯汀分校助理教授，Xingyi Zhou 的导师，研究方向是计算机视觉、机器学习和计算机图形学。

感兴趣的小伙伴，赶紧试试你想玩的漫画、或是杂志插画吧~

Demo 地址：点击打开

论文地址：点击打开

参考链接：一、二

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

下载IT之家APP，签到赚金币兑豪礼

“跨次元”目标检测模型 hold 住各种画风，还能识别漫画中物品

可识别“跨次元”物体

在线 Demo 可玩

作者介绍

相关文章