AI 又进化了,在没有任何人类数据的参与下,自己玩《我的世界》还能找到钻石!
在刚刚登上 Nature 的论文中,谷歌 DeepMind 的智能体通过纯・自我学习,顺利完成了收集钻石的任务。
论文链接:https://www.nature.com/articles/s41586-025-08744-2
对此,DeepMind 的计算机科学家 Danijar Hafner 表示:「Dreamer 是一个重要的里程碑,标志着 AI 又朝着通用人工智能前进了一大步。」
又是 AI 和《我的世界》,为何这次就成了迈向 AGI 的一大步
用 AI 来挑战《我的世界》早已是 AI 界「喜闻乐见」的项目了。
作为世界上排名第一且月活超过 1 亿的游戏,《我的世界》可以说是涵盖了几乎所有年龄段的人群。
早在两三年前,包括 OpenAI 在内的各个模型都有挑战《我的世界》的尝试。
更早在 2019 年,研究人员就认为《我的世界》的开放式游戏环境可能非常适合 AI 研究。
比如一个七岁的小孩在观看了 10 分钟演示视频后就能学会如何在游戏中找到稀有的钻石,而当年的 AI 还远远做不到这一点。
AI 从《我的世界》中的一个随机位置开始,必须完成某些任务来找到钻石
为何这次 DeepMind 就敢说是「通向 AGI 的一大步」呢?
这次的任务 —— 在游戏内寻找钻石 —— 听起来容易,但其实非常困难,「高玩」们也要花 20-30 分钟才能找到一个钻石。
给不熟悉游戏的朋友解释下这个任务为什么这么困难:
1. 每一次的游戏场景都是随机世界,包含各种地形的虚拟 3D 世界,包括森林、山脉、沙漠和沼泽,这让 AI 无法只记住一种特定策略来作弊;
2. 想要获得钻石需要经过一系列复杂的前置流程,并不是随机在地图寻找,比如你需要:
先找到树木
然后将树木分解为木材,木材也仅仅是用来制作一个工作台
有了工作台再加上更多的木材你才可以制作一个木头镐头
然后才能开始挖掘以寻找钻石
......
钻石恒久远,AI 不疲倦
AI 研究人员专注于在《我的世界》中寻找钻石,Hafner 说因为这需要一系列复杂的步骤,是一个很长的里程碑链条,因此它需要非常深入的探索。
之前的尝试让 AI 系统收集钻石依赖于使用人类游戏的视频或研究人员引导系统完成各个步骤。
相比之下,Dreamer 通过强化学习的试错技术自行探索游戏的所有内容 —— 它识别出可能带来奖励的动作,重复这些动作并放弃其他动作。
强化学习是一些重大 AI 进展的基础,但之前的程序都是专家型的 —— 它们无法从零开始在新领域应用知识。
成功的关键是构建「世界模型」
Dreamer 成功的关键在于它构建了周围环境的模型,并使用这个世界模型来「想象」未来的情景并指导决策。
就像我们自己的抽象思维一样,世界模型并不是周围环境的精确复制品。
世界模型允许 Dreamer 尝试不同的事情,「世界模型真正赋予了人工智能系统想象未来的能力」Hafner 说。
这种能力还可能有助于创造能够在现实世界中学习互动的机器人 —— 在现实世界中,试错的成本要比在视频游戏中高得多。
研究团队一开始并不是奔着「钻石测试」去研究的,测试 Dreamer 在钻石挑战上的表现是一个事后的想法。
「在构建整个算法时并没有考虑到这一点」,Hafner 说,但团队意识到,这是测试其算法是否能够开箱即用、处理不熟悉任务的理想方式。
在《我的世界》中,团队使用了一种协议,每当 Dreamer 完成钻石收集过程中涉及的 12 个逐步步骤之一时,就会获得一个「+1」的奖励 —— 这些步骤包括制作木板和熔炉、开采铁矿并锻造铁镐。
这些中间奖励促使 Dreamer 选择了更有可能获得钻石的动作。团队每 30 分钟重置一次游戏,这样 Dreamer 就不会适应某个特定的配置 —— 而是学会了获得更多奖励的一般规则。
在这种设置下,Dreamer 需要连续玩大约九天才能找到至少一颗钻石。
而高手玩家找到一颗钻石需要 20 到 30 分钟,新手则需要更长的时间。
在 Minecraft 中进行钻石挑战
游戏中的每一次都设定在一个独特的随机生成且无限的三维世界中。
每一次持续到玩家死亡或达到 36,000 步(相当于 30 分钟),根据 MineRL 竞赛提供的动作形成了一个分类动作空间,其中包括抽象的制作动作。
据 DeepMind 宣称,Dreamer 是第一个在不使用人类数据的情况下从零开始在《我的世界》中收集钻石的算法。
所有的 Dreamer 智能体都在一亿次步骤内发现了钻石。所有物品的成功率显示在图右扩展数据中。
尽管其他几个强大的算法(例子中的 PPO、Rainbow 和 IMPALA)进展到了诸如铁镐等高级物品,但没有一个发现钻石。
Dreamer 算法核心原理
Dreamer 算法的核心是学习一个世界模型。
这就像是智能体的大脑,让智能体具备丰富的感知能力,通过想象未来场景来规划行动。
算法由三个关键的神经网络组成:世界模型、评论家网络和行动者网络。
世界模型通过自动编码学习感官输入的表示,并通过预测潜在动作的未来表示和奖励来实现规划。
将世界模型实现为递归状态空间模型,如图所示。
评论家网络则对世界模型预测的每个结果进行价值判断,评估这个结果对实现目标的帮助有多大。
行动者网络根据评论家的判断,选择能达到最佳结果的行动。
这三个网络相互协作,在智能体与环境交互的过程中,通过重放经验同时进行训练。
在训练过程中,世界模型的学习至关重要。它要学习从感官输入中提取有用信息,还要预测未来的状态和奖励。
为实现这一目标,世界模型需要最小化预测损失、动态损失和表示损失。
预测损失用于训练解码器和奖励预测器,动态损失训练序列模型预测下一个表示,表示损失则让表示更具可预测性。
图中可视化了世界模型的长期视频预测。
实验结果
DeepMind 团队在 8 个领域的 150 多个任务中评估 Dreamer 算法的通用性,包括连续和离散动作、视觉和低维输入、密集和稀疏奖励、不同的奖励尺度、二维和三维世界以及程序生成。
图中展示了基准测试结果,Dreamer 在所有测试中均有更好的表现。
在 Atari 基准测试中,它能在使用少量计算资源的情况下,超越 MuZero 算法,也优于 Rainbow 和 IQN 算法。
在 ProcGen 基准测试中,面对随机生成的关卡和视觉干扰,Dreamer 算法在 5000 万帧的预算内,超过了经过调优的 PPG 和 Rainbow 算法。
在 DMLab 基准测试里,它在 1 亿帧训练后,性能超过了 IMPALA 和 R2D2 + 智能体,数据效率大幅提升。
在 Atari100k 基准测试中,尽管训练预算仅为 40 万帧,Dreamer 算法依然能超越其他方法。
在 BSuite 基准测试中,它同样表现出色,在尺度稳健性方面有很大改进。
研究人员进行了消融实验,结果表明,所有的稳健性技术都有助于提高算法性能。
研究人员还对 Dreamer 算法的缩放属性进行了研究。
他们训练了不同规模的模型,参数从 12M 到 4M。结果发现,扩大模型规模不仅能提高任务性能,还能减少数据需求。
更多的梯度步数也能减少学习成功行为所需的交互次数。这表明 Dreamer 算法在计算资源增加时,能够稳健地提升性能,为实际应用提供了更灵活的选择。
这篇论文是关于训练一个单一算法,期望其能在多样化的强化学习任务中表现出色。
在《我的游戏》中寻找钻石也许仅仅通向 AGI 之路的第一关。
AI 的下一个更大目标是《我的世界》玩家面临的终极挑战:击杀末影龙,这个虚拟世界中最可怕的生物。
参考资料:
https://www.nature.com/articles/d41586-025-01019-w#ref-CR1
https://www.nature.com/articles/s41586-025-08744-2
https://x.com/danijarh/status/1907511182598222095
本文来自微信公众号:新智元(ID:AI_era),原标题《DeepMind 闭关修炼「我的世界」,自学成才挖钻登 Nature!人类玩家瑟瑟发抖》
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。