OpenAI ChatGPT 上新 Deep Research：持续思考 30 分钟输出 1 万字，刷榜“人类最后的考试”

量子位 2025/2/3 15:03:48 责编：远洋

评论：

感谢IT之家网友动感超人233 的线索投递！

就在开源的 DeepSeek-R1 被整合进各路 AI 搜索工具之际，OpenAI 临时举行小型发布会。4 点 27 通知，8 点开始直播。ChatGPT 上新“Deep Research”，把推理大模型的思考能力用于联网搜索。

OpenAI ChatGPT 上新 Deep Research：持续思考 30 分钟输出 1 万字，刷榜“人类最后的考试”

据介绍，Deep Research 功能可在数十分钟完成人类专家需要几个小时的复杂研究任务。

OpenAI ChatGPT 上新 Deep Research：持续思考 30 分钟输出 1 万字，刷榜“人类最后的考试”

在“人类最后的考试”上，Deep Research 刷新了最高分，比 o3-mini 高推理设置分数高出一倍。

该测试包括 3000 多个多选和简答题，涵盖从语言学、火箭科学到生态学的 100 多个主题。

与 o1 相比，Deep Research 最突出的地方在化学，人文和社会科学以及数学中，表现出类似人类的“在必要时寻找专业信息”的能力。

OpenAI ChatGPT 上新 Deep Research：持续思考 30 分钟输出 1 万字，刷榜“人类最后的考试”

另一项测试 GAIA，在现实世界问题上评估 AI 的公开基准测试，Deep Research 在 3 个级别的难度上均刷新记录。

OpenAI ChatGPT 上新 Deep Research：持续思考 30 分钟输出 1 万字，刷榜“人类最后的考试”

出于保护基准测试的目的，OpenAI 只展示了 Deep Research 在完成这些任务时的搜索过程，隐去了最终答案。

OpenAI ChatGPT 上新 Deep Research：持续思考 30 分钟输出 1 万字，刷榜“人类最后的考试”

Deep Research 功能接下来将对 Pro、Plus 和 Team 用户开放。奥特曼后面补充，目前版本基于 o3 构建，Plus 用户（20 美元 / 月）每个月能用约 10 次，且正在构建一个更高效的版本。此外，免费用户也能获得非常少量的使用额度。

OpenAI ChatGPT 上新 Deep Research：持续思考 30 分钟输出 1 万字，刷榜“人类最后的考试”

推理 Agent 的第一步

OpenAI 表示，Deep Research 专门为在金融 / 科学 / 工程等领域从事高强度知识工作、需要深入精确且可靠研究的人群而设计。

它由 OpenAI o3 驱动，通过基于真实任务（涉及浏览器和 Python 工具的使用）的训练，采用了与 o1 相同的强化学习方法。

只需一个提示，它就会查找分析并整合数百个在线资源，生成一份达到研究分析师水平的综合报告。

Deep Research 对于 OpenAI 的重要性，官方原话是：

Deep Research 标志着我们在开发 AGI 的宏伟目标上迈出了重要一步。我们长期以来一直设想 AGI 能够进行新颖的科学研究，而 Deep Research 正是这一愿景的重要进展。

使用方法，点击输入框下方的 Deep Research 按钮即可，支持上传文件添加额外资料。

OpenAI ChatGPT 上新 Deep Research：持续思考 30 分钟输出 1 万字，刷榜“人类最后的考试”

例如 prompt：

Compile a research report on how the retail industry has changed in the past 3 years. Use bullets and tables where necessary for clarity.（写一份关于过去三年零售业变化的研究报告，并运用项目符号和表格来提升内容的清晰度）

ChatGPT 线会确认一下问题细节信息，比如“您能具体说明您最感兴趣的零售业方面吗？”“您需要全球视角还是特定地区的分析？”

OpenAI ChatGPT 上新 Deep Research：持续思考 30 分钟输出 1 万字，刷榜“人类最后的考试”