首页 > 科学探索>科技前沿

Midjourney 劲敌来了，谷歌 StyleDrop 王牌「定制大师」引爆 AI 艺术圈

新智元 2023/6/5 12:38:04 责编：梦泽

评论：

Midjourney 强敌来了！谷歌定制大师 StyleDrop，将一张图片作为参考，不论多复杂的艺术风格都能复刻。

谷歌 StyleDrop 一出，瞬间在网上刷屏了。

给定梵高的星空，AI 化身梵高大师，对这种抽象风格顶级理解后，做出无数幅类似的画作。

Midjourney 劲敌来了，谷歌 StyleDrop 王牌「定制大师」引爆 AI 艺术圈

再来一张卡通风，想要绘制的物体呆萌了许多。

Midjourney 劲敌来了，谷歌 StyleDrop 王牌「定制大师」引爆 AI 艺术圈

甚至，它还能精准把控细节，设计出原风格的 logo。

Midjourney 劲敌来了，谷歌 StyleDrop 王牌「定制大师」引爆 AI 艺术圈

StyleDrop 的魅力在于，只需要一张图作为参考，无论多么复杂的艺术风格，都能解构再复刻。

网友纷纷表示，又是淘汰设计师的那种 AI 工具。

Midjourney 劲敌来了，谷歌 StyleDrop 王牌「定制大师」引爆 AI 艺术圈

StyleDrop 爆火研究便是来自谷歌研究团队最新出品。

Midjourney 劲敌来了，谷歌 StyleDrop 王牌「定制大师」引爆 AI 艺术圈

论文地址：https://arxiv.org/ pdf / 2306.00983.pdf

现在，有了 StyleDrop 这样的工具，不但可以更可控地绘画，还可以完成之前难以想象的精细工作，比如绘制 logo。

就连英伟达科学家将其称为「现象级」成果。

Midjourney 劲敌来了，谷歌 StyleDrop 王牌「定制大师」引爆 AI 艺术圈

「定制」大师

论文作者介绍道，StyleDrop 的灵感来源 Eyedropper（吸色 / 取色工具）。

同样，StyleDrop 同样希望大家可以快速、毫不费力地从单个 / 少数参考图像中「挑选」样式，以生成该样式的图像。

Midjourney 劲敌来了，谷歌 StyleDrop 王牌「定制大师」引爆 AI 艺术圈

一只树懒能够有 18 种风格：

Midjourney 劲敌来了，谷歌 StyleDrop 王牌「定制大师」引爆 AI 艺术圈

一只熊猫有 24 种风格：

Midjourney 劲敌来了，谷歌 StyleDrop 王牌「定制大师」引爆 AI 艺术圈

小朋友画的水彩画，StyleDrop 完美把控，甚至连纸张的褶皱都还原出来了。

不得不说，太强了。

Midjourney 劲敌来了，谷歌 StyleDrop 王牌「定制大师」引爆 AI 艺术圈

还有 StyleDrop 参考不同风格对英文字母的设计：

Midjourney 劲敌来了，谷歌 StyleDrop 王牌「定制大师」引爆 AI 艺术圈

同样是梵高风的字母。

Midjourney 劲敌来了，谷歌 StyleDrop 王牌「定制大师」引爆 AI 艺术圈

还有线条画。线条画是对图像的高度抽象，对画面生成构成合理性要求非常高，过去的方法一直很难成功。

Midjourney 劲敌来了，谷歌 StyleDrop 王牌「定制大师」引爆 AI 艺术圈

原图中奶酪阴影的笔触还原到每种图片的物体上。

Midjourney 劲敌来了，谷歌 StyleDrop 王牌「定制大师」引爆 AI 艺术圈

参考安卓 LOGO 创作。

Midjourney 劲敌来了，谷歌 StyleDrop 王牌「定制大师」引爆 AI 艺术圈

此外，研究人员还拓展了 StyleDrop 的能力，不仅能定制风格，结合 DreamBooth，还能定制内容。

比如，还是梵高风，给小柯基生成类似风格的画作：

Midjourney 劲敌来了，谷歌 StyleDrop 王牌「定制大师」引爆 AI 艺术圈

再来一个，下面这只柯基有种埃及金字塔上的「狮身人面像」的感觉。

Midjourney 劲敌来了，谷歌 StyleDrop 王牌「定制大师」引爆 AI 艺术圈

如何工作？

StyleDrop 基于 Muse 构建，由两个关键部分组成：

一个是生成视觉 Transformer 的参数有效微调，另一个是带反馈的迭代训练。

之后，研究人员再从两个微调模型中合成图像。

Muse 是一种基于掩码生成图像 Transformer 最新的文本到图像的合成模型。它包含两个用于基础图像生成 (256 × 256) 和超分辨率 (512 × 512 或 1024 × 1024) 的合成模块。

Midjourney 劲敌来了，谷歌 StyleDrop 王牌「定制大师」引爆 AI 艺术圈

每个模块都由一个文本编码器 T，一个 transformer G，一个采样器 S，一个图像编码器 E 和解码器 D 组成。

T 将文本提示 t∈T 映射到连续嵌入空间 E。G 处理文本嵌入 e∈E 以生成视觉 token 序列的对数 l∈L。S 通过迭代解码从对数中提取视觉 token 序列 v∈V，该迭代解码运行几步的 transformer 推理，条件是文本嵌入 e 和从前面步骤解码的视觉 token。

最后，D 将离散 token 序列映射到像素空间 I。总的来说，给定一个文本提示 t，图像 I 的合成如下：

图 2 是一个简化了的 Muse transformer 层的架构，它进行了部分修改，为的是支持参数高效微调（PEFT）与适配器。

使用 L 层的 transformer 处理在文本嵌入 e 的条件下以绿色显示的视觉 token 序列。学习参数 θ 被用于构建适配器调优的权重。

Midjourney 劲敌来了，谷歌 StyleDrop 王牌「定制大师」引爆 AI 艺术圈

为了训练 θ，在许多情况下，研究人员可能只给出图片作为风格参考。

研究人员需要手动附加文本提示。他们提出了一个简单的、模板化的方法来构建文本提示，包括对内容的描述，后面跟着描述风格的短语。

例如，研究人员在表 1 中用「猫」描述一个对象，并附加「水彩画」作为风格描述。

Midjourney 劲敌来了，谷歌 StyleDrop 王牌「定制大师」引爆 AI 艺术圈

在文本提示中包含内容和风格的描述至关重要，因为它有助于从风格中分离出内容，这是研究人员的主要目标。

图 3 则是带反馈的迭代训练。

当在单一风格参考图像（橙色框）上进行训练时，StyleDrop 生成的一些图像可能会展示出从风格参考图像中提取出的内容（红色框，图像背景中含有与风格图像类似的房子）。

其他图像（蓝色框）则能更好地从内容中拆分出风格。对 StyleDrop 进行好样本（蓝色框）的迭代训练，结果在风格和文本保真度之间取得了更好的平衡（绿色框）。

Midjourney 劲敌来了，谷歌 StyleDrop 王牌「定制大师」引爆 AI 艺术圈

这里研究人员还用到了两个方法：

-CLIP 得分

该方法用于测量图像和文本的对齐程度。因此，它可以通过测量 CLIP 得分（即视觉和文本 CLIP 嵌入的余弦相似度）来评估生成图像的质量。

研究人员可以选择得分最高的 CLIP 图像。他们称这种方法为 CLIP 反馈的迭代训练（CF）。

在实验中，研究人员发现，使用 CLIP 得分来评估合成图像的质量是提高召回率（即文本保真度）的有效方式，而不会过多损失风格保真度。

然而从另一方面看，CLIP 得分可能不能完全与人类的意图对齐，也无法捕捉到微妙的风格属性。

-HF

人工反馈（HF）是一种将用户意图直接注入到合成图像质量评估中的更直接的方式。

在强化学习的 LLM 微调中，HF 已经证明了它的强大和有效。

HF 可以用来补偿 CLIP 得分无法捕捉到微妙风格属性的问题。

目前，已有大量研究关注了文本到图像的扩散模型的个性化问题，以合成包含多种个人风格的图像。

研究人员展示了如何以简单的方式将 DreamBooth 和 StyleDrop 结合起来，从而使风格和内容都能实现个性化。

这是通过从两个修改后的生成分布中采样来完成的，分别由风格的 θs 和内容的 θc 指导，分别是在风格和内容参考图像上独立训练的适配器参数。

与现有的成品不同，该团队的方法不需要在多个概念上对可学习的参数进行联合训练，这就带来了更大的组合能力，因为预训练的适配器是分别在单个主题和风格上进行训练的。

研究人员的整体采样过程遵循等式 (1) 的迭代解码，每个解码步骤中采样对数的方式有所不同。

设 t 为文本提示，c 为无风格描述符的文本提示，在步骤 k 计算对数如下：

Midjourney 劲敌来了，谷歌 StyleDrop 王牌「定制大师」引爆 AI 艺术圈

其中：γ 用于平衡 StyleDrop 和 DreamBooth—— 如果 γ 为 0，我们得到 StyleDrop，如果为 1，我们得到 DreamBooth。

通过合理设置 γ，我们就可以得到合适的图像。

实验设置

目前为止，还没有对文本-图像生成模型的风格调整进行广泛的研究。

因此，研究人员提出了一个全新实验方案：

-数据收集

研究者收集了几十张不同风格的图片，从水彩和油画，平面插图，3D 渲到不同材质的雕塑。

-模型配置

研究人员使用适配器调优基于 Muse 的 StyleDrop 。对于所有实验，使用 Adam 优化器更新 1000 步的适配器权重，学习速率为 0.00003。除非另有说明，研究人员使用 StyleDrop 来表示第二轮模型，该模型在 10 多个带有人工反馈的合成图像上进行训练。

-评估

研究报告的定量评估基于 CLIP，衡量风格一致性和文本对齐。此外，研究人员进行了用户偏好研究，以评估风格一致性和文本对齐。

如图，研究人员收集的 18 个不同风格的图片，StyleDrop 处理的结果。

可以看到，StyleDrop 能够捕捉各种样式的纹理、阴影和结构的细微差别，能够比以前更好地控制风格。

Midjourney 劲敌来了，谷歌 StyleDrop 王牌「定制大师」引爆 AI 艺术圈

为了进行比较，研究人员还介绍了 DreamBooth 在 Imagen 上的结果，DreamBooth 在 Stable Diffusion 上的 LoRA 实现和文本反演的结果。

Midjourney 劲敌来了，谷歌 StyleDrop 王牌「定制大师」引爆 AI 艺术圈

具体结果如表所示，图像-文本对齐（Text）和视觉风格对齐（Style）的人类评分（上）和 CLIP 评分（下）的评价指标。

Midjourney 劲敌来了，谷歌 StyleDrop 王牌「定制大师」引爆 AI 艺术圈

(a) DreamBooth，(b) StyleDrop，和 (c) DreamBooth + StyleDrop 的定性比较：

Midjourney 劲敌来了，谷歌 StyleDrop 王牌「定制大师」引爆 AI 艺术圈

这里，研究人员应用了上面提到的 CLIP 分数的两个指标 —— 文本和风格得分。

对于文本得分，研究人员测量图像和文本嵌入之间的余弦相似度。对于风格得分，研究人员测量风格参考和合成图像嵌入之间的余弦相似度。

研究人员为 190 个文本提示生成总共 1520 个图像。虽然研究人员希望最终得分能高一些，但其实这些指标并不完美。

而迭代训练（IT）提高了文本得分，这符合研究人员的目标。

然而，作为权衡，它们在第一轮模型上的风格得分有所降低，因为它们是在合成图像上训练的，风格可能因选择偏见而偏移。

Imagen 上的 DreamBooth 在风格得分上不及 StyleDrop（HF 的 0.644 对比 0.694）。

研究人员注意到，Imagen 上的 DreamBooth 的风格得分增加并不明显（0.569 → 0.644），而 Muse 上的 StyleDrop 的增加更加明显（0.556 → 0.694）。

研究人员分析，Muse 上的风格微调比 Imagen 上的更有效。

另外，在细粒度控制上，StyleDrop 捕捉微妙的风格差异，如颜色偏移，层次，或锐角的把控。

Midjourney 劲敌来了，谷歌 StyleDrop 王牌「定制大师」引爆 AI 艺术圈

网友热评

要是设计师有了 StyleDrop，10 倍速工作效率，已经起飞。

Midjourney 劲敌来了，谷歌 StyleDrop 王牌「定制大师」引爆 AI 艺术圈

AI 一天，人间 10 年，AIGC 正在以光速发展，那种晃瞎人眼的光速！

Midjourney 劲敌来了，谷歌 StyleDrop 王牌「定制大师」引爆 AI 艺术圈

工具只是顺应了潮流，该被淘汰的已经早被淘汰了。

Midjourney 劲敌来了，谷歌 StyleDrop 王牌「定制大师」引爆 AI 艺术圈

对于制作 Logo 来说这个工具比 Midjourney 好用得多。

Midjourney 劲敌来了，谷歌 StyleDrop 王牌「定制大师」引爆 AI 艺术圈

参考资料：

https://styledrop.github.io/

本文来自微信公众号：新智元（ID：AI_era）

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

下载IT之家APP，签到赚金币兑豪礼

关键词：人工智能，AI画图

Midjourney 劲敌来了，谷歌 StyleDrop 王牌「定制大师」引爆 AI 艺术圈

「定制」大师

如何工作？

-CLIP 得分

-HF

实验设置

网友热评

相关文章