业界手机电脑测评视频 AI 苹果 iPhone 鸿蒙软件

智车数码学院游戏直播 5G 微软 Win10 Win11 专题

首页 > 科学探索>科技前沿

何恺明时隔两年再发一作论文：为视觉大模型开路，“CVPR 2022 最佳论文候选预定”

量子位 2021/11/13 14:22:27 责编：江离

评论：

大神话不多，但每一次一作论文，必定引发江湖震动。

这不，距离上一篇一作论文 2 年之后，何恺明再次以一作身份，带来最新研究。

依然是视觉领域的研究，依然是何恺明式的大道至简。

甚至在业内纷纷追求“大力出奇迹”、“暴力美学”的当下，何恺明还带着一种坚持独立思考的反共识气概。

简洁：通篇论文没有一个公式。

有效：大巧不工，用最简单的方法展现精妙之美。

江湖震动：“CVPR 2022 最佳论文候选预定”。

所以，何恺明新作《Masked Autoencoders Are Scalable Vision Learners》究竟有怎样的思想和研究成果？

何恺明时隔两年再发一作论文：为视觉大模型开路，“CVPR 2022 最佳论文候选预定”

用于 CV 的自监督学习方案

本文提出了一种用于计算机视觉的 Masked AutoEncoders 掩蔽自编码器，简称 MAE，一种类似于 NLP 技术的自我监督方法。

操作很简单：对输入图像的随机区块进行掩蔽，然后重建缺失的像素。

何恺明时隔两年再发一作论文：为视觉大模型开路，“CVPR 2022 最佳论文候选预定”

主要有两个核心设计。

一个是非对称的编码-解码架构，一个高比例遮蔽输入图像。

先来看编码-解码架构。

何恺明时隔两年再发一作论文：为视觉大模型开路，“CVPR 2022 最佳论文候选预定”

如图所示，编码器是 ViT，它仅对可见区块进行操作，然后用一个轻量级编码器 —— 仅在预训练期间负责图像重建任务。

具体而言，作者先将图像均匀划分为非重叠区块，然后随机对区块进行采样。

以遮蔽比例 75% 为例，它先在输入图像中掩蔽 75% 的随机区块，编码器只在可见的 25% 区块子集上运行，这样就可以只用非常少的计算和显存，来训练非常大的编码器。

然后解码器将可见的 token 和掩码 token 组合，并向所有 token 中添加位置嵌入，通过预测每个掩蔽区块的像素值来重建图像信号。

这样一来，在预训练时解码器可以独立于编码器，从而可以用非常轻量级解码器实验，大量减少预训练时间。

另一个特点则是对输入图像的高比例进行遮蔽时，自监督任务效果非常好。

比如，掩蔽掉 80% 随机 patch 的效果如下：

何恺明时隔两年再发一作论文：为视觉大模型开路，“CVPR 2022 最佳论文候选预定”

其中最左列为输入图像，中间列为 MAE 方法重建效果，最右侧为原图效果。

不同掩蔽比例在重建图像中的表现对比如下：

何恺明时隔两年再发一作论文：为视觉大模型开路，“CVPR 2022 最佳论文候选预定”

将这两种设计结合，结果用来训练大模型：

训练速度提升 3 倍以上，还提高准确率的那种。

除此之外，基于该方案所得出的大模型具备很好的泛化能力：

比如，在仅使用 ImageNet-1K 数据时，ViT-Huge 模型准确性达 87.8%。

何恺明时隔两年再发一作论文：为视觉大模型开路，“CVPR 2022 最佳论文候选预定”

在 COCO 数据集中的表现如下，虽然重建效果不清晰，但是基本语义是正确的。

何恺明时隔两年再发一作论文：为视觉大模型开路，“CVPR 2022 最佳论文候选预定”

研究者还对 MAE 迁移学习的性能进行了评估。

结果在下游任务，比如目标检测、实例分割、语义分割等任务都优于监督预训练。

何恺明时隔两年再发一作论文：为视觉大模型开路，“CVPR 2022 最佳论文候选预定”

在对比中可以看到，随机遮蔽 75%、整块遮蔽 50% 和网格遮蔽 50% 的三种采样方法中，随机遮蔽 75% 重建图像的质量最好。

何恺明时隔两年再发一作论文：为视觉大模型开路，“CVPR 2022 最佳论文候选预定”

基于这些研究成果，何恺明团队在最后也表达了他们的看法。

一方面，扩展性好的简单算法是深度学习的核心。

在计算机视觉中，尽管自监督学习方面取得了进展，但实际预训练仍需受到监督。

这项研究中，作者看到 ImageNet 和迁移学习任务中，自编码器表现出了非常强的可扩展优势。

为此作者认为，CV 中自监督学习现在可能正走上与 NLP 类似的轨道。

另一方面，作者注意，图像和语言是不同性质的信号，这种差异需要小心处理。

图像仅仅是记录下来的光，并没有语义分解为文字的视觉类似物。

他们不是去试图去除物体，而是去除可能不构成语义段的随机区块。重建的像素，也并不是语义实体。

研究团队

论文的研究团队，来自 Facebook AI 研究院（FAIR），每个人都屡屡获誉，堪称梦之队。

何恺明时隔两年再发一作论文：为视觉大模型开路，“CVPR 2022 最佳论文候选预定”

除了几位老将，我们这次再多说说里面的华人面孔。

Xinlei Chen，本科毕业于浙江大学计算机专业，随后在卡内基梅隆大学攻读博士学位，曾在 UCLA、谷歌云、MSR 实习。

何恺明时隔两年再发一作论文：为视觉大模型开路，“CVPR 2022 最佳论文候选预定”

谢赛宁，本科毕业于上海交通大学 ACM 班，随后在 UC 圣迭戈分校攻读计算机博士学位，曾在谷歌、DeepMind 实习。

何恺明时隔两年再发一作论文：为视觉大模型开路，“CVPR 2022 最佳论文候选预定”

Yanghao Li，本科毕业于北京大学计算机专业，随后留在本校继续攻读硕士学位。

何恺明时隔两年再发一作论文：为视觉大模型开路，“CVPR 2022 最佳论文候选预定”

最后，再次隆重介绍下何恺明。

一作何恺明，想必大家都不陌生。作为 Mask R-CNN 的主要提出者，他已 4 次斩获顶会最佳论文。

何恺明时隔两年再发一作论文：为视觉大模型开路，“CVPR 2022 最佳论文候选预定”

何恺明是 2003 年广东高考状元，并保送了清华，进入杨振宁发起设立的物理系基础科学班。

硕博阶段，何恺明前往香港中文大学多媒体实验室，导师正是后来的商汤科技创始人汤晓鸥。

此间，何恺明还进入微软亚洲研究院实习，在孙剑指导下，以一作身份发表 ResNet 研究，一举成名天下知，荣获 2016 年 CVPR 最佳论文。

同年何恺明进入由 Yann Lecun（获 2019 年图灵奖）掌舵的 Facebook 人工智能实验室，与 Ross Girshick、Piotr Dollar—— 本次研究中的其他几位老面孔，组成了 FAIR 在 AI 研究领域的梦之队。

更加令人钦佩的是，何恺明年少成名，但这几年来依然不断潜心研究，一直带来新惊喜。

甚至他的新研究，很多都是那种可以开枝散叶的成果。

这一次，MAE 同样被视为这样的延续。

你怎么看 MAE？

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

下载IT之家APP，签到赚金币兑豪礼

何恺明时隔两年再发一作论文：为视觉大模型开路，“CVPR 2022 最佳论文候选预定”

用于 CV 的自监督学习方案

研究团队

相关文章