12 月 14 日的极客公园 IF 大会上, 群核科技 (酷家乐) 联合创始人兼董事长黄晓煌作为演讲嘉宾, 分享了一个当下 AI 和具身智能领域都关注的问题: 如何让 AI 数字世界走进物理世界。
“AI 可以帮我们叠被子? 是 1 年?2 年? 还是 10 年?”演讲开头, 黄晓煌以“叠被子困境”为例, 指出当前具身智能仍被困在物理世界之“门外”。黄晓煌口中的叠被子困境是指机器人们虽然可以在语言层面理解指令, 却无法支持身体完成物理世界的一个简单互动。不仅是做家务, 黄晓煌指出哪怕是经常对着各种屏幕喊“小度小度”或者“小爱同学”聊天的这一代“AI 原生娃”, 他们现在还只能在虚拟世界里与 AI 做互动。
以下是他的演讲全文。
AI 什么时候能帮我们叠被子?
首先问大家一个问题: 大家觉得什么时候 AI 可以帮我们叠被子? 是 1 年?2 年? 还是 10 年? 之前有个段子, 大模型来了之后, 我们可以在家里吟诗作画,AI 给我们干家务。但实际却是 AI 天天在系统里吟诗作画, 我们还在天天做家务, 这肯定不是我们想要的。
我们下一代实际上现在已经变成了一群 AI 原生娃, 就像我女儿刚学会认字, 但她已经能够很自然地对着各种屏幕喊“小度小度”或者“小爱同学”聊天。但不管怎么样但不管怎么样, 我们发现他们始终跟虚拟人物在进行沟通。甚至我们只希望 AI 帮我们叠一床被子, 它都实现不了。
我们要怎样才能够实现我们跟 AI 在物理世界互动呢? 这是今天想跟大家探讨的问题。这里有一个简单的例子, 左边是由 Stable Diffusion 生成的卧室场景, 右边是群核矩阵 CAD 引擎生成的。大家乍一看都挺漂亮的, 但是实际左边这张大模型生成的场景, 物理上是不正确的。比如有的柜子根本打不开, 而右边这张就可以用来做真实的生产制造用途, 我们需要在大模型脑海里呈现右边这种内容。
前阵子 Sora 刚刚发布了新版本, 之前有个 Sora 出圈视频里一个篮球在空中飞着飞着就爆炸了, 它明显缺少对第一性原理的理解和约束。一旦这种大模型进到机器人脑子里去之后, 我们难以想象这个球飞着飞着爆炸了, 在机器人脑子里会作出什么行为。所以我们需要一颗聪明的脑袋, 以及一个服从大脑指挥物理身体。
今天的具身智能或者机器人就像陷入一个“叠被子困境”中, 所谓“叠被子困境”就是一个叠被子这件三四岁小孩都可以干的事情, 但对机器人来说是非常困难的, 特别是它即使学会了叠一条被子, 也很难举一反三。
目前的 ChatGPT 或者大语言模型, 它可以很容易地让机器人理解你的指令, 或者它的视野里可以看得出哪一床被子叠好, 哪一床被子是没叠好, 但却没有办法想象出怎么去叠一床被子。还有一个问题, 对于机器人来说, 哪怕学会叠了, 如果被子换个形状可能就不会叠了。“叠被子困境”只是无数家务里面一个非常简单的问题, 如果我们攻破了这个问题, 以后各种各样的家务也用同样的方法可以去攻破, 之后机器人就可以真正替我们做家务。
海量三维数据获取是世界级难题
解决这种问题, 最关键的一点是要在物理世界跟数字世界之间建立一个桥梁。
目前机器人的大脑还是数字芯片, 它对世界的理解还是个数字世界, 但它的身体是在物理世界, 所以需要训练一个大模型来把物理世界能够准确地映射到数字世界里面去, 让机器人能够正确地理解物理世界。
在这过程中, 最关键的点是缺海量可交互的三维数据。现在的大语言模型基本是互联网上的语料信息、图片、视频等训练出来的, 这些内容无法互动而且不具备物理正确性, 它们就是一堆静态的记忆。
而可交互三维数据是群核科技沉淀了十多年的强项。群核科技是一家什么样的公司呢? 这是一个很有意思的问题, 因为我的朋友经常问我, 你原来在美国伊利诺伊大学香槟分校读 GPU 高性能计算, 然后去了英伟达做 CUDA, 为什么回国做了个 3D 云设计平台, 他们都表示看不懂。但其实在中国创业不能太阳春白雪, 活下来才是第一任务。
其实从技术方向上看, 我现在做的事情跟当年研究方向并不相违背。做高性能计算其实就两个研究方向: 一个是模拟人类的大脑, 也就是 ChatGPT 们在做的; 另一个就是模拟物理世界宇宙万物的运作, 这是我们正在做的。
但我们在融资的时候才发现, 和投资人解释什么是 GPU 通用计算都非常费劲, 更别提什么物理仿真了。当时流行 O2O 概念, 本着活下去的目标, 我们上马了第一个项目: 在自建的 GPU 集群上开发了光学仿真, 用来加速装修公司做家装渲染图, 包装成”装修 O2O“来融资。那时候家装设计的 3D 渲染图依靠本地渲染器实现, 一张图大概需要好几个小时完成, 但我们用 GPU 高性能计算的云端处理方案, 实现了 10s 出图, 这是酷家乐的第一代, 随后拓展到各行各业。
后来随着中国制造 2025, 工业 4.0 的概念的兴起。我们发现物理正确的数据不仅能够用来出精美的效果图, 还能走到真正物理世界的生产环节里去。群核科技通过物理仿真、数字孪生等技术, 可精确对接和协同工厂端的生产线, 真正实现了个性定制的规模化生产。目前已经实现几千家工厂的柔性化、自动化生产。
在这过程中我们见识到了物理正确的三维数据的巨大价值。但是也看见了传统工业机器人的巨大局限性: 不够智能, 动作完全是固定的。所谓的无人工厂离真正的没有人, 还有很大距离, 而且柔性生产线生产的内容也有限, 换个材料可能就不行。直到我看见了 Elon Musk 的人型机器人概念, 我认为工业 4.0 的未来是人型机器人组成的工厂。而且人形机器人不仅可以在工厂里干活, 也可以在办公室里干活, 在家里服务。而群核科技, 将是这些机器人训练的“道场”。
回过头这些年群核科技做的事情, 路径虽然有一些曲折, 但过程中我们沉淀了非常重要的两项能力: 海量物理正确的可交互三维数据和空间认知能力。目前我们拥有超过 3.2 亿 3D 模型, 平均每月活跃访问者达 7780 万, 在全球 200 多个国家地区落地。
在这个过程中我们也持续地相信, 物理正确的数字空间可以在人工智能技术上做工, 我们的科研人员也一直在研究空间智能, 训练大模型, 我们在等待一个机会。
群核科技提供了一个 AI 可交互世界
对我们来说, 空间智能的技术奇点来临, 源自一封硅谷邮件。
2018 年, 我们跟帝国理工、美国南加州大学等共同推出了一个空间智能数据集方案 interiorNet。这是当时全球最大的室内场景认知深度学习数据集, 在学术界也引起了一些反响。
在这篇论文发布不久, 我们收到了一封来自硅谷某万亿级美金市值公司的邮件, 邮件的内容是他们希望在空间智能数据及解决方案上跟群核进行合作。几万亿美金的大公司找一家创业公司合作空间智能, 当时我们的团队都以为这是一封诈骗邮件, 几经验证才发现是真的。我们在合作过程中发现其实这些公司都遇到了同样的问题: 当它们解决了算力、算法问题之后, 他们都非常缺物理正确的可交互三维数据。
这两年随着具身智能的爆发式增长, 以及空间智能概念的火热, 我们跟具身智能、AIGC、XR 类的头部公司达成了合作。我觉得我们的新机会来了, 时代又一次告诉我们该迈向下一步。
为什么硅谷的科技巨头要漂洋过海找中国公司来合作空间智能呢? 具身智能有四大要素需要解决: 算法、算力、数据、机器人硬件。目前算法是百花争鸣的状态, 算力层面英伟达包括国内地平线等公司都在快速解决。机器人硬件方面中国更是独霸全球。目前来说全球范围都面临的难题就是给机器人、AI 用来训练的可交互三维数据。
目前训练的方式分两种。第一种是真实世界训练, 比如 standford 大学的 mobile aloha, 通过模仿学习, 学习人的行为, 使机器人学会根据指令做出相映的行为。另一个方向, 也是一直以来学术界希望做到的一件事情就是, 将机器人从真实环境中的数据采集和训练迁移到仿真环境中, 李飞飞的文章也是这个逻辑, 因为只有这样的训练方式才能让机器人真正在海量空间里做物理训练, 从而有足够多的适应性。
相比真实的训练环境, 仿真训练具有无可比拟的巨大优势。包括成本优势、数据生成效率优势。因为物理世界里面, 时空是确定的, 但是在数字世界里面, 时间是可以被压缩的, 真实世界跑 1 万天才能跑完的数据, 数字世界里 1 天就可以跑完。第三, 多样性。假设有一天要让机器人去火星上干活, 我们没有办法先把一堆设备送到火星上让机器人先训练一遍再干活。第四, 可泛化性, 也就是举一反三的能力。
群核科技的核心优势是什么? 首先群核目前拥有全球最大的室内场景认知数据集, 通过泛化能力保证合成数据的丰富度和物理正确性。我们也用这些数据训练了多模态 CAD 大模型, 它可以阅读人类的 CAD 文件、图片、手绘等, 然后把这些内容再转换成物理正确的空间场景。群核科技也自建了近 1 万台高性能计算服务器, 专门用来训练、推理、渲染。
群核希望用物理正确的合成数据来帮助所有具身智能的机器来实现训练。通过群核空间智能平台 SpatialVerse 的数据处理技术和多模态 CAD 大模型的空间认知能力, 来赋能 AI 空间智能。除了技术, 合成数据还有一项非常大的优势就是没有隐私安全问题。前阵子有家全球著名公司在采集物理数据时, 不小心把房子主人上厕所的视频给拍了出来, 严重侵犯了房子主人的隐私。
这里是一项我们与上海人工智能实验室合作的创新项目。我们为上海 AI lab 提供了多模态 3D 数据解决方案。它包括从家庭到商业空间、医疗场景的大规模动态场景生成, 以及渲染与物理真实感增强能力、高精度分割标注能力, 满足具身机器人在仿真任务过程中, 对模型资产实现可交互性的需求。上海人工智能实验室利用 SpatialVerse 提供的这些能力, 开发“浦源・桃源城市级具身智能仿真平台“, 这是一个涵盖 89 种功能性场景, 以及 10 万级别高质量可交互数据的具身智能仿真世界。
未来是空间智能时代
当然, 这些不是具身智能的全部, 这只是开始。
未来具身智能将进入家庭、工厂、商业空间、园区, 和未来更多场景中去。这也意味着在物理正确这个维度, 具身智能的训练还有很多待突破的部分。
相信大家都不希望一个没有训练过的机器人在家里走来走去, 一个 300 斤重的机器人万一发起疯来, 谁都受不了, 所以我们得确保它在足够多的空间里训练过, 才能够进入到人工作和生活的环境里。
未来是具身智能或者说空间智能的时代, 我相信从生产制造到商业空间再到家庭场景, 具身智能会充斥到每一处角落。而当开头讲到的“叠被子困境”被解决的那一刻, 机器人一定可以帮我们解决更多各种各样的问题, 我们也将迎来新的智能时代。我也希望群核科技能够成为中间重要的推力之一。
欢迎各位小伙伴跟群核一起走向技术的彼岸, 谢谢大家!
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。