首页 > 科学探索>科技前沿

何恺明团队 12 页论文新作剑指 AIGC！“新 CLIP”只需一个 trick，训练速度快 3.7 倍！性能不降反升

量子位 2022/12/5 13:07:03 责编：远生

评论：

感谢IT之家网友 Sancu 的线索投递！

何恺明团队又上新了。

这次，他们的成果围绕当下最火的 AIGC 背后的 CLIP 展开。

—— 只在该模型的极简结构上，施加了一个简单的 mask，就让新模型的速度快了 3.7 倍。

同时，性能还可以做到不降反升。

何恺明团队 12 页论文新作剑指 AIGC！“新 CLIP”只需一个 trick，训练速度快 3.7 倍！性能不降反升

团队表示，希望他们的工作能帮助未来视觉语言模型实现规模化。

这波，让大家直呼：不愧是何恺明，还是熟悉的味道啊～

是的，还是“大道至简”的 feel。

就连论文也一如既往，短短 12 页，一行公式也没有。

一起来拜读吧。

引入类似 MAE 的 mask

本文提出了一个用来训练 CLIP 的快速、简单且有效的方法 FLIP。

Fast Language-Image Pre-training（快速文本-图像预训练方法），也是很直接了。

简单来说，就是基于原有的 CLIP 架构，对输入图像的那一侧，随机掩蔽图像区块，之后只对可见区块编码。

何恺明团队 12 页论文新作剑指 AIGC！“新 CLIP”只需一个 trick，训练速度快 3.7 倍！性能不降反升

△ 原有 CLIP 架构

更直白来讲，对 CLIP 架构引入类似于 MAE 的思路，于是 FLIP 架构也就变成了这样。

何恺明团队 12 页论文新作剑指 AIGC！“新 CLIP”只需一个 trick，训练速度快 3.7 倍！性能不降反升

这样一来，既可以减少计算量，提高训练效率，相同的时间可以进行更多图像-文本样本学习；每次迭代还能可对比更多样本，但保持相似的内存占用率。

具体来说，本文采用的是 ViT 作为图像编码器。

图像首先被划分为一个不重叠的网格，并随机地遮蔽掉大部分的区块。本文采用的遮蔽比例为 50%、75%。随后 ViT 只对可区块编码，时间复杂度相应降低为原来的二分之一（50%），或者四分之一（75%）。

同样的方式还可以用到文本遮蔽上。不过研究者认为由于文本编码器比较小，带来的加速效果并不能带来整体的增益。

不过跟 MAE 不同的是，此次 FLIP 并没有对被遮蔽的图像内容重建，也没有解码器。

何恺明团队 12 页论文新作剑指 AIGC！“新 CLIP”只需一个 trick，训练速度快 3.7 倍！性能不降反升

△MAE 架构

因为他们发现，放弃解码器和重建可以产生更好的速度。虽然编码器在被遮蔽的图像上进行了预训练，但它可以直接应用在完整图像上。

相同性能，速度为 3.7x

总的来看，采用了 mask 机制的 FLIP 相比 CLIP，在准确性和训练时间上取得了平衡，即性能在训练时间大幅减少的情况下，不降反升。

—— 尤其是在 mask 程度高达 50% 和 75% 的情况下。

其中，当 mask=75% 时，FLIP 达到和基线模型 CLIP 相同的性能时，训练速度是它的 3.7x。

这也就意味着，CLIP 花费大约 2500 TPU-days 训练完成时，FLIP 可以大约节省 1800 TPU-days。

何恺明团队 12 页论文新作剑指 AIGC！“新 CLIP”只需一个 trick，训练速度快 3.7 倍！性能不降反升

这一结果在 ImageNet-1K 验证集上的 Zero-shot transfer 任务中得出，每个不同 mask 比例的模型都在 LAION-400M 上进行了 6.4、12.8 或 32 个 epoch 的训练，包含了 4 亿个图像-文本对。

接着，采用 64k batch，50% mask 比和 unmasked 微调的 FLIP，在 ImageNet-1K 分类数据集上的三个主要指标上也获得了比 CLIP 更好的性能。

何恺明团队 12 页论文新作剑指 AIGC！“新 CLIP”只需一个 trick，训练速度快 3.7 倍！性能不降反升

注：是比他们复现出来的 CLIP 更好，和原始 CLIP 还差一点，当然，两者数据集不一样。

而在基于各类数据集的大量下游任务中（包括零样本分类、文字 / 图片检索等），FLIP 同样表现出了优势，且基本全线碾压了 CLIP（见绿色高亮，几乎点满）。

何恺明团队 12 页论文新作剑指 AIGC！“新 CLIP”只需一个 trick，训练速度快 3.7 倍！性能不降反升

最后，对于 FLIP 模型的 scale up 也是一大看点，结果可圈可点。

可以看到，当增加 FLIP 的模型大小和数据规模时，FLIP 继续涨点，尤其增加模型大小时最为明显（最左）。不过单纯增加训练时长基本没用（最右）。

何恺明团队 12 页论文新作剑指 AIGC！“新 CLIP”只需一个 trick，训练速度快 3.7 倍！性能不降反升

从下表我们还能看出，模型大小和数据规模一起增加，效果又上了一个新高度。证明大模型 + 大数据就是好使。

何恺明团队 12 页论文新作剑指 AIGC！“新 CLIP”只需一个 trick，训练速度快 3.7 倍！性能不降反升

何恺明担任通讯作者

FLIP 一共 5 位作者。

何恺明团队 12 页论文新作剑指 AIGC！“新 CLIP”只需一个 trick，训练速度快 3.7 倍！性能不降反升

3 位共同一作，都是 FAIR 研究工程师。其中：

Li Yanghao，本硕毕业于北京大学计算机科学专业，已发表多篇顶会；

Fan Haoqi，毕业于 CMU 机器人学院；

Hu Ronghang，本科毕业于清华，2020 年博士毕业于 UC 伯克利。

通讯作者有两位：

何恺明和他的同事 Christoph Feichtenhofer，拥有同等指导贡献。

何恺明团队 12 页论文新作剑指 AIGC！“新 CLIP”只需一个 trick，训练速度快 3.7 倍！性能不降反升

One More Thing

值得一提的是，有细心的网友统计了近三年 CVPR 引用量最高的论文（截至 2022 年 11 月），分别是 Moco（2020）、SimSiam（2021）、MAE（2022）。

何恺明团队 12 页论文新作剑指 AIGC！“新 CLIP”只需一个 trick，训练速度快 3.7 倍！性能不降反升

而这三篇文章唯一的共同作者就是何恺明，其中两篇还是一作，且都是与自监督学习相关。据谷歌学术统计，目前他们的引用量分别为 5224、1374、834。

恺明大神还是一如既往地稳定发挥呀~

对于他们团队的最新力作，你怎么看？

比如，为什么对图像 patch 进行了随机 mask，反而让模型性能不降反升呢？

论文链接：

https://arxiv.org/abs/2212.00794

参考链接：

[1]https://mp.weixin.qq.com/s/SYrNQ64lby8Bi6sQKX7rCA
[2]https://kaiminghe.github.io/
[3]https://www.zhihu.com/question/570153050/answer/2784717398

本文来自微信公众号：量子位（ID：QbitAI），作者：杨净艳艳

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

下载IT之家APP，签到赚金币兑豪礼