刚刚,OpenAI 深夜直播,GPT-4o 的原生图像生成大升级!奥尔特曼亲自上阵组队,演示了自拍变梗图、相对论漫画等功能,不过相对隔壁谷歌发布的新模型,OpenAI 的这波动作着实有点不够看。
就在谷歌刚刚扔出地表最强模型 Gemini 2.5 Pro 不久,OpenAI 也有动作了。
奥尔特曼亲自带队,展示了 GPT-4o 图像生成技术的各种大升级,比如制作梗图、文本渲染、多轮交互生成和指令遵循等。
整个直播中最亮的演示,莫过于这张官方玩梗的表情包了。
目前,这项功能已经在 ChatGPT 和 Sora 中,向所有 Plus、Pro、Team 和免费用户推出。
当然,新版 Sora 生图的时间,也比以往更长了。但 OpenAI 看来,生图的质量和其具备的世界知识,让用户值得等待那多出的几秒。
GPT-4o 原生图像生成来了!
在直播中,奥尔特曼介绍道,从今天起,ChatGPT 中的原生图像生成功能正式推出!
GPT-4o 的全模态能力,从此也融合进了 Sora 中。
OpenAI 多模态研究的负责人 Gabe 介绍说,两年前刚开始这个项目时,他对于 GPT-4 这个强大的模型会怎样原生支持图像模型非常好奇。
一年后,当模型完成训练时,他看到了令人兴奋的迹象。从 GPT-2 以来,他已经很久没有这种感觉 —— 这是一个疯狂时刻。
给出以下 prompt,GPT-4o 就生成了符合要求的图像,完全还原了要求。
接下来,三个人用手机来了张自拍,GPT-4o 立刻把三人自拍转换成了动漫风格的版本。
甚至他们开始官方玩梗,让模型添加一段「Feel The AGI」在图片上,一张表情包就此诞生。
这个过程,就体现了 4o 作为全能模型的强大能力。
因为它不仅仅是一个语言模型,还包括图像、音频,所有输入和输出的模态。它可以理解、生成这些模态,并且无缝地在它们之间工作。
用 OpenAI 的话说,「我们终于迈向了这种真正集成的多模态模型」。
接下来,他们让模型画出一幅描述相对论的漫画,要求通俗易懂,还要加入一些幽默元素。
这个提示词非常模糊,因此看看模型会生成什么样的图,就格外令人期待了。果然,生成效果令人惊喜。
注意,这个过程中,模型很可能利用了自己的世界知识,对提示词进行了扩展。
然后,他们给了模型一张卡片,希望生成同样风格的图像,但要求主角不再是卡片中的巨猫国王,而是某位研究者的狗狗。
另外,卡片上还需要出现一些细节,比如模型的名字和年份,以及狗狗的体重和身高。
可以看到,生成图像在文本渲染方面非常惊艳,所有数据都准确无误。
最后一个演示,是基于此前几人生成的内容,制作一个纪念币。
而且,还要求图使用了一个特殊的十六进制代码,且加上生成图像的文本和日期。
可以看到,生成结果非常惊艳!此前曾出现的艺术熊、收音机、爱因斯坦漫画、研究者的狗狗以及模型名称和日期,全部都出现在了纪念币上。
模型之所以精准完成这样复杂的要求,是因为它是用非自回归的方式训练的,因此它能够理解上下文中的文本和多张图片,以非常和谐的方式在纪念币上呈现出来。
和 GPT-4o 聊天,定制各种图像
总之,现在使用这个功能,我们可以创建各种图像,或将其转换为各种风格。
从此,用 GPT-4o 创建和定制图像,就像聊天一样简单。
只需描述所需,就能得到想要的任何细节,比如纵横比、使用十六进制代码的精确颜色或透明背景。
我们可以让它设计一个信息图,解释牛顿的棱镜宽高比,背景为深蓝色。
一张画质高级的教学级图片,立马生成。
这个图像生成功能的特点就是,能遵循非常复杂的提示,极其注重细节。
15 个非常细化的要求,它都在一张图里完美实现了。
要知道,大多数生图模型被要求渲染多个项目时,往往就会混淆颜色和形状,但新模型却能正确绑定 15 到 20 个对象的属性,还能成功理解各自的复杂需求。
在你和它的聊天上下文中,GPT-4o 就能为你构建图像和文本,还能确保一致性。
主打一个实用
从最早的洞穴壁画到现代信息图表,人类一直使用视觉图像来交流、说服和分析。
如今的生成式 AI 模型可以创造出超现实的场景,但在处理人们用于分享和创建信息的实用图像方面仍然存在困难。
GPT‑4o 的图像生成功能擅长准确渲染文本,精确遵循提示词,并利用 GPT-4o 固有的知识库和聊天上下文 —— 包括转换上传的图像或将其用作视觉灵感。
这些能力让用户可以更加容易地创建想象中的画面,帮助通过视觉更有效地沟通,并将图像生成发展成为一种具有精确性和强大功能的实用工具。
毕竟,只有当图像配上指代共享语言和经验的符号时,才能传达精确的含义。
能力大幅增强
通过线上图像和文本的联合分布训练,模型不仅能学会图像如何与语言相关联,还能知道它们之间的相互关系。
结合积极的后训练优化,最终的模型展现出惊人的视觉表现力,能够生成实用、一致且具有上下文感知能力的图像。
文本渲染
一张图片胜过千言万语,但有时在正确的位置添加几个词能够大大提升图像的含义。
GPT-4o 将精确的符号与图像融合的能力使图像生成成为视觉交流的有力工具。
多轮交互生成
由于图像生成现在是 GPT‑4o 的原生功能,用户可以通过自然对话来完善图像。
GPT‑4o 能够基于聊天上下文中的图像和文本进行构建,确保始终保持一致性。
比如,一个正在设计中的游戏角色,它的外观就能在多次迭代和调整中保持连贯一致。
指令遵循
GPT‑4o 的图像生成功能不仅可以遵循详细的提示词,而且还十分注重细节。
相比起其他只能处理 5-8 个物体的模型,GPT‑4o 可以轻松搞定多达 10-20 个不同的物体。
并且,物体与其特征和关系的更紧密绑定使得控制更加精准。
上下文内学习
GPT‑4o 能够分析并学习用户上传的图像,将图像细节无缝整合到上下文中,用于辅助图像生成。
世界知识
内置的图像生成功能使 GPT‑4o 能够连接文本和图像之间的知识,使模型表现得更智能、更高效。
真实照片风格
通过对反映多种多样图像风格的图像进行训练,模型能够以令人信服的方式创建或转换图像。
参考资料:
https://openai.com/index/introducing-4o-image-generation/
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。