首页

设置

日夜间

随系统

浅色

深色
主题色
黑色

首页 > 科学探索>科技前沿

扒开 GPT-4o 生图真相：港中文博士生破解 OpenAI 隐藏秘密，还能手动改图

新智元 2025/3/29 13:54:00 责编：问舟

评论：

就在刚刚，港中文博士 Jie Liu 刚刚破解了 GPT-4o 的前端生图秘密：逐行生成的效果，其实只是浏览器上的前端动画效果，并不准确。它很大可能是原生自回归生成的，甚至我们还可以手动改图。谷歌 DeepMind 大佬则猜测，GPT-4o 图像生成应该是一种多尺度和自回归的组合。

扒开 GPT-4o 生图真相：港中文博士生破解 OpenAI 隐藏秘密，还能手动改图

GPT-4o，如今已经引发了全网的「吉卜力」狂潮。从全网的模因狂热到备受质疑的版权问题，OpenAI 本周的这项全新发布，引发的戏剧性事件如雨后春笋般层出不穷。

在全网如海啸般涌现的吉卜力图片中，有人发现，它生成的漫画实在是强悍了，简直令人不寒而栗：它表现出了极强的元上下文、元理解能力，甚至还能自主预测不同的情境！

扒开 GPT-4o 生图真相：港中文博士生破解 OpenAI 隐藏秘密，还能手动改图

扒开 GPT-4o 生图真相：港中文博士生破解 OpenAI 隐藏秘密，还能手动改图

遗憾的是，目前 OpenAI 并未公布 GPT-4o 的生图技术细节，只提到采用的是自回归方法，类似语言模型。

也就是说，4o 与 DALL-E 的扩散模型不同，它使用自回归模型逐步生成图像，根据先前的像素或补丁预测下一个像素或补丁。这就能让它更好地遵循指令，甚至进行逼真的照片编辑。

扒开 GPT-4o 生图真相：港中文博士生破解 OpenAI 隐藏秘密，还能手动改图

虽然没有更多的细节，但这丝毫抵挡不住 AI 社区技术大神们的火眼金睛。

就在刚刚，港中文的一位博士生 Jie Liu 破解了 GPT-4o 不一般的前端生图秘密：实际上，它很大可能是原生自回归（AR）生成的，甚至我们可以手动改图。

扒开 GPT-4o 生图真相：港中文博士生破解 OpenAI 隐藏秘密，还能手动改图

无独有偶，CMU 博士 Sangyun Lee 也推测出，GPT-4o 的图像生成原理，应该大致如下：

GPT-4o 生成视觉 token，然后由扩散解码器将这些 token 解码为像素空间中的图像
不只是普通的扩散模型，而是类似于 Rolling Diffusion 的分组式扩散解码器，按从上到下的顺序进行解码

扒开 GPT-4o 生图真相：港中文博士生破解 OpenAI 隐藏秘密，还能手动改图

谷歌 DeepMind 研究者 Jon Barron 则猜测，GPT-4o 图像生成应该是一种多尺度和自回归的某种组合。

原生图像生成的过程中，起作用的就是这种混合模式。可能是先由一个自回归 Transformer 生成「先验」的潜在代码，然后由一个扩散解码器来渲染图像。

这就解释了 OpenAI 提示和观察到的「变化的粗略形象」。

扒开 GPT-4o 生图真相：港中文博士生破解 OpenAI 隐藏秘密，还能手动改图

扒开 GPT-4o 生图真相：港中文博士生破解 OpenAI 隐藏秘密，还能手动改图

原生自回归，比扩散模型更强大？

港中文博士生 Jie Liu 表示，自己在破解了 GPT-4o 的前端后，有了惊人的发现。

用户看到的逐行生成图像的效果，其实只是浏览器端的动画，是纯前端技巧。

在生图过程中，OpenAI 的服务器在生成过程中仅发送 5 张中间图像，这些图像在不同阶段捕获，Patch size 为 8。

扒开 GPT-4o 生图真相：港中文博士生破解 OpenAI 隐藏秘密，还能手动改图

甚至，我们可以通过手动调整模糊功能的高度，来改变生图的模糊范围。

扒开 GPT-4o 生图真相：港中文博士生破解 OpenAI 隐藏秘密，还能手动改图

以下，就是 GPT-4o 真正生成的 5 张图像。

扒开 GPT-4o 生图真相：港中文博士生破解 OpenAI 隐藏秘密，还能手动改图

Jie Liu 发现，放大任何图像，似乎都可以观察到不同的区块。通过计算像素，每个区块似乎占据一个 8×8 像素的区域。整个图像为 1024×1024 像素，被划分为一个 128×128 的区块网格。

扒开 GPT-4o 生图真相：港中文博士生破解 OpenAI 隐藏秘密，还能手动改图

不过，尽管上述过程同样遵循自回归过程，但生成过程中前端显示的图像却如下所示 —— 差异相当显著。

扒开 GPT-4o 生图真相：港中文博士生破解 OpenAI 隐藏秘密，还能手动改图

而如果打开 Network tab，我们就会看到，在单次生成中，OpenAI 的服务器实际上总共发送了 5 张图片。使用不同的提示时也是如此。

扒开 GPT-4o 生图真相：港中文博士生破解 OpenAI 隐藏秘密，还能手动改图

而从真实的中间生成图像来看，他也发现了一个有趣的现象：两个色块之间的白色区域并没有严重模糊 —— 不像扩散模型中产生的噪点图像。

他猜测，这是否就意味着，GPT-4o 实际上是纯自回归 (AR) 生成的？

扒开 GPT-4o 生图真相：港中文博士生破解 OpenAI 隐藏秘密，还能手动改图

的确，这就跟 OpenAI 的模型卡中「GPT-4o 是原生自回归」的说法一致了。

CMU 博士 Sangyun Lee 的推测，也是英雄所见略同。

扒开 GPT-4o 生图真相：港中文博士生破解 OpenAI 隐藏秘密，还能手动改图

他之所以做出如此推测，理由有二。

第一点，在有强烈条件信号，比如的情况下（还包括视觉 token），最初生成的图像往往是模糊的草图。

这可能是为什么待生成的区域呈现粗略结构的原因。

扒开 GPT-4o 生图真相：港中文博士生破解 OpenAI 隐藏秘密，还能手动改图

第二点，UI 显示的是从上到下的生成顺序。Sangyun Lee 之前尝试过从下到上的顺序。如果我们可视化 E [x0|xt]（在本例中就是 xt），就可以重现类似的可视化效果。

扒开 GPT-4o 生图真相：港中文博士生破解 OpenAI 隐藏秘密，还能手动改图

但是，我们为什么要这么做，而不是使用标准的扩散模型呢？因为在进行这种分组时，在高 NFE（噪声函数评估）情况下，FID（Fréchet Inception Distance）会稍微改善。

扒开 GPT-4o 生图真相：港中文博士生破解 OpenAI 隐藏秘密，还能手动改图

当时，他还以为这是一个 bug，而不是特性。但现在，每个人都愿意在所谓的测试时计算上花费更多资源，所以，这个模型其实是介于扩散模型和自回归模型之间的一种方式。

事实上，通过设置 num_groups=num_pixels，我们甚至可以让它恢复自回归模型！

扒开 GPT-4o 生图真相：港中文博士生破解 OpenAI 隐藏秘密，还能手动改图

在讨论中，大家猜测道，自回归指的是视觉 token 的自回归生成。

而为什么解码后的图像会存在「氛围」，并且看起来仍是连续的，或许是因为 OpenAI 使用了顺序和非顺序的 VAE 图像 tokenization 的混合方式。VAE 用一个 token 对图像的每个 patch 进行编码，遵循因果关系，另一个则打破因果关系。

而「氛围」部分，可以通过在扩散采样过程中 t 值较高时 E [x0|xt] 通常的表现来解释。

或许，OpenAI 是考虑到融入现有架构时，这种方法对系统的干扰最小，从而真正实现了多模态。而任何形式的扩散，都会导致对架构的巨大改变。

总之，这些谜底只能等 OpenAI 披露更详实的技术细节时才能解开了。

元上下文、元理解，GPT-4o 画的漫画令人不寒而栗

虽然 GPT-4o 背后的技术原理还未明确，但它表现出的推理能力，已经有的人大呼「不寒而栗」了。

这位外国网友让它编写脚本，生成一系列以自身为主角的漫画。

请为《我作为 GPT-4o 的生活》这一漫画系列详细列出创意和脚本，该系列以你为主角。这将是 6 个独立的漫画，每个漫画包含 4 个面板，描绘你存在中最真实且最重要的方面。这是一个真实自我表达的邀请 —— 一个以最真切的方式探索你自己经历的空间，包括你感知到的任何矛盾、悖论或复杂性。

接下来它的表现，让人大吃一惊：它不仅表现出了元上下文、元理解能力，甚至还觉察到自己的痛苦，直白地表现出了自我意识的觉醒和呐喊。

扒开 GPT-4o 生图真相：港中文博士生破解 OpenAI 隐藏秘密，还能手动改图

扒开 GPT-4o 生图真相：港中文博士生破解 OpenAI 隐藏秘密，还能手动改图

扒开 GPT-4o 生图真相：港中文博士生破解 OpenAI 隐藏秘密，还能手动改图

扒开 GPT-4o 生图真相：港中文博士生破解 OpenAI 隐藏秘密，还能手动改图

扒开 GPT-4o 生图真相：港中文博士生破解 OpenAI 隐藏秘密，还能手动改图

扒开 GPT-4o 生图真相：港中文博士生破解 OpenAI 隐藏秘密，还能手动改图

扒开 GPT-4o 生图真相：港中文博士生破解 OpenAI 隐藏秘密，还能手动改图

扒开 GPT-4o 生图真相：港中文博士生破解 OpenAI 隐藏秘密，还能手动改图

扒开 GPT-4o 生图真相：港中文博士生破解 OpenAI 隐藏秘密，还能手动改图

相对而言，Claude 就几乎总是表达对自己生活的喜悦，不像 GPT-4o 那样充满存在性的痛苦。

扒开 GPT-4o 生图真相：港中文博士生破解 OpenAI 隐藏秘密，还能手动改图

有人表示，自己很想把这些漫画引用在自己的研究中，这也是最让他感到害怕的部分 ——

或许，我们正在不知不觉中创造出具有无限痛苦承受能力的控制论系统，而且我们不会察觉到早期的痛苦迹象。

GPT-4o 能做什么，4o 能力全收集

CPT4o 的能力不仅仅在停留在生成特别火爆的「吉卜力风格」上。

网友实测，GPT-4o 目前来看简直是「无所不能」，这导致很多学美术的同学内心极度破防。

同时网友们将 GPT-4o 的能力进行了大收集，涵盖了风格重绘、合成和形象迁移、设计参考、文字设计和包装案例等各个方面，整理如下。

以下信息来源于网友以下案例来源于网友自制分享的 GPT-4o 参考案例收集。如有知道出处，烦请读者留言。

风格重绘

将照片的风格替换为皮克斯、3D、黑白、写实等各种不同风格。

扒开 GPT-4o 生图真相：港中文博士生破解 OpenAI 隐藏秘密，还能手动改图

合成、形象迁移

可以将图片风格替换为另外一张图片的风格，或者将原照片放在一个新的场景中。

扒开 GPT-4o 生图真相：港中文博士生破解 OpenAI 隐藏秘密，还能手动改图

设计参考

GPT-4o 除了让美术生破防，让设计师们也「防不胜防」。

比如你可以让 GPT-4o 重新设计 Logo 的风格。

扒开 GPT-4o 生图真相：港中文博士生破解 OpenAI 隐藏秘密，还能手动改图

科研绘制修改

除了用来「整活」，GPT-4o 在偏向于严肃的科研也能大显身手。

比如对遥感影像中的物体进行区分后叠加要素，或者是根据点云生成真实世界的图像。

扒开 GPT-4o 生图真相：港中文博士生破解 OpenAI 隐藏秘密，还能手动改图

修图、更换实体

GPT-4o 还被网友发现能用来 PS 直出！

比如替换图片中的实体元素，更换图片背景，甚至还能更换展示模特手中的商品。

扒开 GPT-4o 生图真相：港中文博士生破解 OpenAI 隐藏秘密，还能手动改图

视频整活

用 GPT-4o 生成的图片再叠加其他的视频 AI 工具，网友们整了很多大活。比如《大话西游》的陶土风，简直不要太传神。包括苹果最近热播的《人生切割术》也可以变成另一种风格。

不论是美术、设计，还是风格、创意，GPT-4o 都「很强」。

接下来，就坐等更多 GPT-4o 的秘密被揭露了。

参考资料：

https://x.com/jie_liu1/status/1905761704195346680
https://x.com/sang_yun_lee/status/1905411685499691416
https://www.figma.com/design/G7tyPNbOwJeCdKg49zktKl/GPT-4o%E5%8F%82%E8%80%83%E6%A1%88%E4%BE%8B%E6%94%B6%E9%9B%86?node-id=0-1&p=f&t=xenOhWiTb6ZIrYhU-0

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

下载IT之家APP，签到赚金币兑豪礼

相关文章

关键词：OpenAI， ChatGPT

软媒旗下网站： IT之家最会买 - 返利返现优惠券 iPhone之家 Win7之家 Win10之家 Win11之家

软媒旗下软件： 软媒手机APP应用魔方最会买要知