业界手机电脑测评视频 AI 苹果 iPhone 鸿蒙软件

智车数码学院游戏直播 5G 微软 Win10 Win11 专题

首页 > 科学探索>科技前沿

OpenAI 新生成模型开源炸场，比 Diffusion 更快更强，清华校友宋飏一作

量子位 2023/4/13 18:36:01 责编：梦泽

评论：

图像生成领域，看来又要变天了。

就在刚刚，OpenAI 开源了比扩散模型更快、性能更好的一致性模型：

无需对抗训练，就能生成高质量图片！

这个重磅消息一经发出，立刻引爆学术圈。

OpenAI 新生成模型开源炸场，比 Diffusion 更快更强，清华校友宋飏一作

虽说论文本身在 3 月份就已低调发布，但当时大伙儿普遍认为它只是个 OpenAI 的前沿研究，并不会真正将细节公开。

OpenAI 新生成模型开源炸场，比 Diffusion 更快更强，清华校友宋飏一作

没想到这次直接来了个开源。有网友立刻上手实测了一波效果，发现只需要 3.5 秒左右就能生成 64 张左右 256×256 的图像：

游戏结束！

OpenAI 新生成模型开源炸场，比 Diffusion 更快更强，清华校友宋飏一作

这是这位网友生成的图像效果，看起来还不错：

OpenAI 新生成模型开源炸场，比 Diffusion 更快更强，清华校友宋飏一作

还有网友调侃称：这次 OpenAI 终于 Open 了！

OpenAI 新生成模型开源炸场，比 Diffusion 更快更强，清华校友宋飏一作

值得一提的是，论文一作 OpenAI 科学家宋飏，是一位清华校友，16 岁就通过领军计划进入清华数理基础科学班求学。

一起来看看这次 OpenAI 开源了一项怎样的研究。

开源了一个怎样的重磅研究？

作为一个图像生成 AI，一致性模型（Consistency Model）最大的特点在于快又好。

相比扩散模型，它主要有两大优势：

其一，无需对抗训练（adversarial training），就能直接生成高质量的图像样本。

其二，相比扩散模型可能需要几百甚至上千次迭代，一致性模型只需要一两步就能搞定多种图像任务 ——

包括上色、去噪、超分等，都可以在几步之内搞定，而不需要对这些任务进行明确训练。（当然，如果进行少样本学习的话，生成效果也会更好）

OpenAI 新生成模型开源炸场，比 Diffusion 更快更强，清华校友宋飏一作

所以一致性模型究竟是如何实现这种效果的？

从原理来看，一致性模型的诞生与 ODE（常微分方程）式生成扩散模型有关。

图中可见，ODE 会先一步步将图片数据转换成噪声，随后再进行一个逆向求解，从噪声中学习生成图像。

而就在这个过程中，作者们试图将 ODE 轨迹上的任何点（如 Xt、Xt 和 Xr）映射到它的原点（如 X0）进行生成建模。

随后，这个映射的模型被命名为一致性模型，因为它们的输出都是同一轨迹上的同一点：

OpenAI 新生成模型开源炸场，比 Diffusion 更快更强，清华校友宋飏一作

基于这种思路，一致性模型不需要再经过漫长的迭代，才能生成一个相对质量比较高的图像，而是能做到一步生成。

下图是一致性模型（CD）和扩散模型（PD）在图像生成指标 FID 上的对比。

其中，PD 是去年斯坦福和谷歌大脑提出的一种最新扩散模型方法渐进式蒸馏（progressive distillation）的简称，CD（consistency distillation）则是一致性蒸馏方法。

可以看出，几乎在所有数据集上，一致性模型的图像生成效果都要比扩散模型更好，唯一的例外是 256×256 的房间数据集上：

OpenAI 新生成模型开源炸场，比 Diffusion 更快更强，清华校友宋飏一作

除此之外，作者们也将扩散模型、一致性模型和 GAN 等模型在其他各种数据集上进行了对比：

OpenAI 新生成模型开源炸场，比 Diffusion 更快更强，清华校友宋飏一作

不过也有网友提到，这次开源的 AI 一致性模型，能生成的图像还是太小：

很难过，这次开源的版本生成的图像还是太小了，要是能给出生成更大图像的开源版本，肯定会非常让人兴奋。

OpenAI 新生成模型开源炸场，比 Diffusion 更快更强，清华校友宋飏一作

也有网友猜测，可能只是 OpenAI 还没训练出来。不过可能训练出来了我们也不一定能搞到代码（手动狗头）。

不过对于这项工作的意义，TechCrunch 表示：

你若是有一堆 GPU，那用扩散模型在一两分钟内迭代 1500 多次，生成图片的效果当然是极好的。
但如果你想在手机上或者聊天对话的时候实时生成图片，那显然扩散模型不是最好的选择。
一致性模型是 OpenAI 下一个重要动作。

期待 OpenAI 会开源一波分辨率更高的图像生成 AI~

清华校友宋飏一作

论文一作宋飏，目前是 OpenAI 的研究科学家。

OpenAI 新生成模型开源炸场，比 Diffusion 更快更强，清华校友宋飏一作

他 14 岁时，曾以 17 位评委全票通过的成绩，入选“清华大学新百年领军计划”。在次年高考中，他又成为连云港市理科状元，顺利考入清华。

2016 年，宋飏从清华大学数理基础科学班毕业，此后赴斯坦福深造。2022 年，宋飏获斯坦福计算机科学博士学位，而后加入 OpenAI。

在博士期间，他的一作论文“Score-Based Generative Modeling through Stochastic Differential Equations”还获得过 ICLR 2021 的杰出论文奖。

OpenAI 新生成模型开源炸场，比 Diffusion 更快更强，清华校友宋飏一作

根据其个人主页信息，从 2024 年 1 月开始，宋飏将正式加入加州理工学院电子系和计算数学科学系，担任助理教授。

项目地址：

https://github.com/openai/consistency_models

论文地址：

https://arxiv.org/abs/2303.01469

参考链接：

[1]https://twitter.com/alfredplpl/status/1646217811898011648
[2]https://twitter.com/_akhaliq/status/1646168119658831874

本文来自微信公众号：量子位（ID：QbitAI），作者：金磊鱼羊萧箫

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

下载IT之家APP，签到赚金币兑豪礼

OpenAI 新生成模型开源炸场，比 Diffusion 更快更强，清华校友宋飏一作

开源了一个怎样的重磅研究？

清华校友宋飏一作

相关文章