黄仁勋“手办”对答如流,英伟达强势拉开元宇宙序幕,帮企业开发大模型。
11 月 9 日报道,今日,人工智能及高性能计算顶级技术盛会 NVIDIA GTC 大会如约而至。
这个市值已高达 7700 亿美元的 AI 顶级玩家,刚刚推出全球最小、功能最强大、能效最高的下一代 AI 超级计算机 NVIDIA Jetson AGX Orin,其算力达到 200TOPS,可与内置 GPU 的服务器媲美。
在下午的虚拟主题演讲中,NVIDIA 创始人兼 CEO 黄仁勋穿着熟悉的皮衣,公布了一系列最新 AI 技术和产品,并推出承载着其“元宇宙”愿景的全新虚拟化身平台。
由这个平台生成的“迷你玩具版黄仁勋”Toy-Me,能与人自然地问答交流。
在帮助企业降低 AI 开发部署门槛方面,NVIDIA 可以说是做到了极致,比如提供方便企业构建 AI 大模型的框架,以及定制专属声音的虚拟助手。
黄仁勋说,NVIDIA 开发者数量已接近 300 万,CUDA 过去 15 年下载量达 3000 万次,一年下载量达到 700 万。
此外,NVIDIA 继续表露对医疗健康领域的热情,推出搭载新一代 Orin 芯片、无缝连接医疗设备和边缘服务器的 AI 计算平台 Clara Holoscan。
黄仁勋还宣布,NVIDIA 将构建一个数字孪生模型来模拟和预测气候变化,新的超级计算机将名为 E-2,即 Earth Two,地球的数字孪生,能够在虚拟世界模拟引擎 Omniverse 中以 Million-X 百万倍的速度运行。
Jetson AGX Orin:手掌大小,算力堪比服务器
自 2014 年推出 Jetson TK1 至今,NVIDIA Jetson 系列已经积累了 85 万名开发者。
今日,NVIDIA 推出全球最小、功能强大、能效最高的新一代 AI 超级计算机 NVIDIA Jetson AGX Orin,用于机器人、自主机器、医疗器械和其他形式的边缘嵌入式计算。
Jetson AGX Orin 保持了与前代机型 Jetson AGX Xavier 相同的外形尺寸和引脚兼容性,处理能力提升 6 倍,每秒算力达 200TOPS,可与内置 GPU 的服务器相媲美,而尺寸只有手掌那么大。
它采用 NVIDIA Ampere 架构 GPU、Arm Cortex-A78AE CPU 以及新一代深度学习和视觉加速器。高速接口、更快的存储带宽和对多模态传感器的支持,为多个并行 AI 应用流水线输送数据。
与历代 Jetson 计算机一样,使用 Jetson AGX Orin 的客户可以运用 NVIDIA CUDA-X 加速计算栈、NVIDIA JetPack SDK 和最新 NVIDIA 工具进行应用开发和优化,包括云原生开发工作流程。
来自 NVIDIA NGC 目录的预训练模型已经过优化,并可以使用 NVIDIA TAO 工具套件和客户数据集进行微调。这减少了生产级 AI 的部署时间和成本,而云原生技术实现了产品整个生命周期内的无缝更新。
DRIVE AGX Orin 同样由 Jetson AGX Orin 等 NVIDIA Ampere 架构提供支持,它是新发布的 NVIDIA DRIVE Concierge 和 DRIVE Chauffeur 背后的先进处理器,这两个 AI 平台分别为安全的自动驾驶提供动力。
针对特定用例的软件框架包括用于机器人技术的 NVIDIA Isaac Sim,用于自动驾驶的 NVIDIA DRIVE,用于智慧城市的 NVIDIA Metropolis。最新的 Isaac 版本包括对机器人操作系统(ROS)开发人员社区的重要支持。
NVIDIA 还发布了用于 Isaac Sim 的全新 NVIDIA Omniverse Replicator,用于为机器人生成合成训练数据。这些硬件加速软件包使 ROS 开发者更容易在 Jetson 平台上构建高性能 AI 机器人。
NVIDIA Jetson AGX Orin 模块和开发者工具包将于 2022 年第一季度上市。
黄仁勋还在演讲中谈道:“到 2024 年,绝大多数新款电动汽车将具备强大的自动驾驶能力。”
他展示了一个新自动驾驶平台 DRIVE Hyperion 8 GA,这是 2024 年模型的架构。其传感器套件包含 12 个摄像头、9 个毫米波雷达、12 个超声波雷达和 1 个前向激光雷达,所有这些都由 2 颗 NVIDIA DRIVE Orin 芯片来进行处理。
据他透露,目前,英伟达已经在全球各地收集到了 PB 级的道路数据,并拥有大约 3000 名训练有素的标记员,创建训练数据。尽管如此,合成数据仍是 NVIDIA 数据策略的基石。
NeMo Megatron:让企业开发自己的大模型
为了方便企业开发部署大型语言模型,NVIDIA 推出了为训练具有数万亿参数的语言模型而优化的加速框架 NeMo Megatron。
NVIDIA NeMo Megatron 是 Megatron 的基础上发展起来的。Megatron 是由 NVIDIA 研究人员主导的开源项目,研究大型 Transformer 语言模型的高效训练。Megatron 530B 是全球最大的可定制语言模型。
利用先进的数据、张量和管道并行化技术,它能使大型语言模型的训练有效地分布在成千上万的 GPU 上。
企业可以通过 NeMo Megatron 框架,进一步训练它以服务新的领域和语言。经优化,该框架可以在 NVIDIA DGX SuperPOD 的大规模加速计算基础设施上进行扩展。
除了 NeMo Megatron 外,NVIDIA 还推出了一个开发 Physics-ML 模型的框架 NVIDIA Modulus。
它使用物理原理及源自原理型物理和观测结果的数据训练 Physics-ML 模型,支持多 GPU 多节点训练,由此生成的模型,其物理仿真速度比模拟快 1000-100,000 倍。
科学家可借助 Modulus 创建数字孪生模型,来解决预测气候变化等重要科学问题。
例如研究人员利用欧洲中期天气预报中心的 ERA5 大气数据训练 Physics-ML 模型,该模型在 128 个 A100 GPU 上训练需要 4 小时,训练后的模型能以 30 公里的空间分辨率预测飓风严重程度和路径。
原本需要 7 天才能完成的预测,现在在一个 GPU 上只需 0.25 秒,比模拟快了 10 万倍。
为了帮助企业加快 AI 之旅,NVIDIA 宣布在全球范围内扩展其 LaunchPad 计划,它允许用户即时访问在加速基础设施上运行的 NVIDIA AI 软件。企业可使用 NVIDIA LaunchPad 免费体验开发和部署大型语言模型。
LaunchPad 计划由 Equinix 服务支持,包括数据中心、连接和裸金属产品,获得 LaunchPad 体验后,企业可以在全球 Equinix 地点运行其 NVIDIA 加速的人工智能工作负载。
Riva 定制语音:快速创建定制版品牌声音
NVIDIA 的 Riva 语音 AI 软件同样有了新进展,黄仁勋宣布了该软件一个新功能 ——Riva 定制语音。
Riva 可识别英语、西班牙语、德语、法语、日语、普通话和俄语等 7 种语言,可以生成隐藏字幕、翻译、摘要、回答问题并理解意图。
只需训练 30 分钟的音频数据,企业即可构建属于自己品牌大使的声音,获得类似人类的表现力。
也就是说,用户根据特定的领域或行业术语,可以量身定制拥有独特声音的虚拟助理。
不到三年间,NVIDIA 的对话 AI 软件已被下载超过 25 万次,并被广泛采用到各个行业。
对于小规模研发,NVIDIA NGC 容器注册表免费提供 NVIDIA Riva,开发者可加入 Riva 开放测试版程序来试用该软件。
对于拥有大规模部署并寻求 NVIDIA 专家技术支持的客户,NVIDIA 宣布了 NVIDIA Riva Enterprise 计划,该计划预计将于明年初推出。
Omniverse Avatar:构建生动的智能虚拟化身
虚拟助手的下一步,是拥有常识、推理能力和生动的视觉形象。
在 GTC 大会上,黄仁勋宣布推出一个全方位的虚拟化身平台 ——Omniverse Avatar。
它是 NVIDIA 一系列先进 AI 技术的集大成者,将 Metropolis 的感知能力、Riva 的语音识别能力、Merlin 的推荐能力、Omniverse 的动画渲染能力等交汇于一体。
这使得开发者能构建出一个完全交互式的虚拟化身,它足够生动,能对语音和面部提示做出反应,能理解多种语言,能给出智能的建议。
黄仁勋展示了一些例子。
比如,其玩偶复制品可以跟人对答如流。
Metropolis 工程师用 Maxine 创建了 Tokkio 智能操作台应用程序,让操作台具有高度交互性,可快速做出对话响应。
在餐厅,两名顾客点餐时,一个客户服务虚拟化身可以跟他们交谈和理解他们的需求。
这些演示由 NVIDIA AI 软件和 Megatron 530B 提供支持,Megatron 530B 是目前世界上最大的可定制语言模型。
在 DRIVE Concierge AI 平台的演示中,中央仪表板屏幕上的数字助理,可帮助司机选择最佳驾驶模式,使其按时到达目的地,然后在汽车续航里程下降到 100 英里以下时,按他的请求设置提醒。
Maxine 项目更强调多种语言的实时翻译和转录。
借助 Maxine,这个人的话不仅被转录,还能以相同的声音和语调被实时转换成德语、法语等多种语言。
Maxine 使用计算机视觉来追踪人的面部,并识别其表情,3D 动画可为其制作虚拟而逼真的头像。
可以想象,在企业和开发人员中,每个行业都需要某种形式的虚拟化身。
使用 Omniverse Avatar 平台,你可以为视频会议和协作平台、客户支持平台、内容创建、应用收益和数字孪生、机器人应用等等构建定制的 AI 助理。
NVIDIA 的虚拟世界模拟 Omniverse 是打造虚拟世界的关键平台。从机器人、自动驾驶车队、仓库、工业厂房到整个城市,都能在 Omniverse 数字孪生中完成创建、训练和运行。
黄仁勋说,Omniverse 面向数据中心规模设计,有朝一日有望能达到全球数据规模。
爱立信正构建整个城市的数字孪生环境,帮助确定如何放置和配置每个站点以获得最佳覆盖范围和网络性能,可对整个 5G 网络执行逼真远程仿真。
AI 推理:Triton 推理,服务器助力实时大模型推理
目前微软、三星、Snap 等 25000 多家客户都在使用 NVIDIA 的 AI 推理平台。
今日,NVIDIA 推出多节点分布式推理功能的 NVIDIA Triton 推理服务器,以及 NVIDIA A2 Tensor Core GPU 加速器。
NVIDIA A2 GPU 是一个入门级、低功耗的紧凑型加速器,适用于边缘服务器中的推理和边缘 AI,推理性能比 CPU 高出 20 倍。
NVIDIA AI 推理平台此次更新包括开源 NVIDIA Triton 推理服务器软件的新功能,和对 NVIDIA TensorRT 的更新。
最新 NVIDIA Triton 推理服务器中的多 GPU、多节点特性,使大型语言模型推理工作负载能够实时在多个 GPU 和节点上扩展。
借助 Triton 推理服务器,Megatron 530B 能在两个 NVIDIA DGX 系统上运行,将处理时间从 CPU 服务器上的 1 分钟以上缩短到 0.5 秒,令实时部署部署大型语言模型成为可能。
在软件优化上,Triton 推理服务器的模型分析器,新工具可以自动化地从数百种组合中为 AI 模型选择最佳配置,以实现最优性能,同时确保应用程序所需的服务质量。
RAPIDS FIL 是针对随机森林和梯度提升决策树模型 GPU 或 CPU 推理的新后端,为开发者使用 Triton 进行深度学习和传统机器学习提供了一个统一的部署引擎。
Triton 与 AWS、阿里云等平台集成,并支持在各代 GPU、x86 CPU 和 Arm CPU 上优化 AI 推理工作负载。NVIDIA AI Enterprise 也集成了 Triton。
NVIDIA AI Enterprise 是一款经 NVIDIA 优化、认证和支持的用于开发和部署 AI 的端到端软件套件,客户可利用它在本地数据中心和私有云的主流服务器上运行 AI 工作负载。
NVIDIA 旗舰 TensorRT 推理引擎亦进行了更新,已原生集成到 TensorFlow 和 PyTorch 中,只需 1 行代码,就能提供比框架内推理快 3 倍的性能。
NVIDIA TensorRT 8.2 是 SDK 的最新版本,可实时运行数十亿个参数的语言模型。
NVIDIA 还宣布微软会议软件 Teams 采用 NVIDIA AI 和 Azure 认知服务。
微软 Azure 认知服务为高品质 AI 模型提供基于云的 API,以创建智能应用程序。他们在用 Triton 运行语音转文本模型,为微软 Teams 用户提供准确的实时字幕和转录。
微软 Teams 每月有近 2.5 亿活跃用户,微软 Azure 认知服务上的 NVIDIA GPU 和 Triton 推理服务器使用 28 种语言和方言,结合 AI 模型帮助提升实时字幕和转录功能的成本效益。
Mavenir 宣布由 NVIDIA Metropolis AI-on-5G 平台提供支持的 MAVedge-AI 智能视频分析,以加速企业人工智能,该方案预计 2022 年初提供给客户。
数据中心:全新网络安全功能
面向数据中心,黄仁勋宣布推出 BlueField DOCA 1.2 来支持全新网络安全功能,希望使 BlueField 成为业界构建零信任安全平台的理想之选。
目前有 1400 名开发者正在 BlueField 上进行开发,现在采用 BlueField 的网络安全公司已可提供零信任安全即服务。
NVIDIA 还发明了一个深度学习网络安全平台 Morpheus 来监控分析网络行为。
它构建于 NVIDIA RAPIDS 和 NVIDIA AI 之上,其工作流会为每种应用和用户的组合创建 AI 模型和数字指纹,并学习其日常的模式和寻找异常操作。这些异常操作将触发安全警告,并提醒分析员作出响应。
Bluefield、DOCA 和 Morpheus 都是数据中心的全堆栈加速 AI 解决方案的一部分。NVIDIA 将为其网络安全合作伙伴提供一个零信任的安全平台,从而提高安全性和应用程序性能。
Bluefield 坐在网络上,向 Morpheus AI 平台提供数据中心发生的所有活动。Morpheus 是一个深度学习网络安全平台,可以监控和分析来自每个用户、机器和服务的所有信息。
NVIDIA 今日也宣布了 Morpheus 早期访问 2 版本。
Morpheus 创建了预训练的用户活动指纹模型。当这些指纹发生变化时,它能够实时识别出异常交易正在发生,创建一个可疑行为正在发生的安全警报,并隔离活动和加以提醒。
医疗健康:合作癌症中心,推新机器人平台
在医疗健康领域,NVIDIA 宣布与多家先进癌症中心合作,将 AI 的力量带到癌症治疗。这些癌症中心将采用 NVIDIA DGX 来加速开发 AI 模型。
许多医疗设备公司正在将 AI 和机器人技术融入其中,在机器人手术、移动 CT 扫描、支气管镜检中使用 NVIDIA 加速计算平台。
为加速 AI 医疗设备的应用,NVIDIA 推出一个面向医疗健康行业的新计算平台 NVIDIA Clara Holoscan。
Holoscan 是继 Isaac 和 Drive 后,NVIDIA 的第三个机器人平台,能为可扩展、软件定义、端到端流媒体数据处理的医疗设备提供所需的计算基础设施。
该平台集成了 NVIDIA AGX Orin 和 ConnectX-7,FP32 算力达 5.2TFLOPS,AI 算力达 250TOPS,740Gbps 高速 IO 用于连接传感器。
添加 RTX A6000 Ampere GPU 后,可获得另外 39TFLOPS(FP32)和超过 600TOPS 的 AI 推理性能。
Clara Holoscan 是一个医疗设备与边缘服务器无缝连接的端到端平台,能助力开发者创建 AI 微服务,用以在设备上运行低延迟串流应用,同时将更复杂的任务传至数据中心资源。
借助 Clara Holoscan,开发者可以自定义应用,按需在其医疗设备中充分添加或减少计算和输入/输出功能,从而平衡延迟、成本、空间、性能和带宽的需求。
Clara Holoscan SDK 通过加速库、AI 模型和超声波、数字病理学、内窥镜检查等参考应用支持此项工作,以帮助开发者利用嵌入式和可扩展的混合云计算。
在药物发现方面,加拿大 AI 制药创企 Entos 发明了一种深度学习架构 OrbNet,用物理机器学习方法训练图神经网络,取代分子模拟中昂贵的原子间作用力,将分子模拟速度提高 1000 倍。
Quantum-2:史上最先进端到端网络平台
此次 GTC 期间,NVIDIA 还宣布了下一代 NVIDIA Quantum-2 平台,可进行云原生超级计算。
该网络平台由 NVIDIA Quantum-2 交换机、ConnectX-7 网络适配器、BlueField-3 数据处理单元(DPU)和支持新架构的所有软件组成。ConnectX-7 将于明年 1 月问世。
其中,Quantum-2 InfiniBand 交换机基于新的 Quantum-2 ASIC,采用台积电 7N 节点,包含 570 个晶体管,超过有 540 亿晶体管的 A100。
Quantum-2 InfiniBand 拥有 400Gbps,网络速度翻倍,交换机吞吐量增加了 2 倍,集群可扩展性增为原来的 6.5 倍,同时降低了数据中心的功耗。
其多租户性能隔离利用先进的基于遥测的拥塞控制系统,确保可靠的吞吐量,无论用户激增或工作量需求激增,都能确保可靠的吞吐量,从而防止一个租户的活动干扰其他租户的活动。
相比上一代,第三代 SHARPv3TM 网络计算技术的交换机计算能力比原来高 32 倍,用于加速 AI 训练。
新加速库:优化路线规划,加速量子模拟
最后,我们来看看 NVIDIA 推出的 3 个新加速库。
首先是 NVIDIA ReOpt,这是一款针对运筹优化问题的加速求解器,可实现实时路线规划优化。
以与 NVIDIA 合作的达美乐披萨为例,配送 14 个披萨的路径有 870 亿种,这意味达美乐要在 30 分钟内将披萨送达绝非易事。
运筹优化对“最后一英里”配送是必需的,路线规划是个极为棘手的物流问题,如果应用到行业中,即使是小规模的路线优化也能节省数十亿美元。
黄仁勋展示了一个用 NVIDIA Omniverse 虚拟仓库来展示优化路线在自动订单拣选场景中的影响,优化后的规划能使订单拣选节省一半的时间和路程。
当前路线优化求解器收到新订单后,需要数小时来重新运行和响应,而 ReOpt 能持续运行并实时动态地进行重新优化,在短短几秒钟内响应并扩展至数千个位置。
第二个是 cuQuantum DGX 设备,配备有针对量子计算工作流的加速库,可用态矢量和张量网络的方法来加速量子电路模拟。
谷歌 Cirq 将成第一个得到加速的量子模拟器。
借助该设备,曾经需要耗费几个月的模拟,现在几天就能完成。
NVIDIA 研究部门在量子算法模拟方面取得了重要里程碑,用 1688 个量子位为 3375 个顶点集求解 MaxCut 问题。
这是有史以来最大的精确量子电路模拟,比以往模拟的量子位多 8 倍。
cuQuantum DGX 设备将在第一季度推出。
第三个加速库是在 PyData 和 NumPy 生态系统的大规模加速计算 cuNumeric,它允许用户用 Python 代码在超级计算机上透明加速和扩展 NumPy 工作流,并无需更改代码。
它属于 NVIDIA RAPIDS 开源 Python 数据科学套件,RAPIDS 今年的下载量超过 50 万次,比去年增长了 4 倍多。NumPy 在过去 5 年下载量达到了 1.22 亿次,别用于 GitHub 上近 80 万个项目。
在著名的 CFD Python 教学代码中,cuNumeric 能扩展至 1000 个 GPU,而扩展效率仅比线性扩展效率损失了 20%。
结语
乘着 AI、高性能计算和元宇宙的东风,NVIDIA 今年过得可谓风生水起,市值一路扶摇直上,突破 7700 亿美元。其 Omniverse 平台更是被分析机构视作 NVIDIA 一项重要的平台扩张战略。
在这表面风光的背后,NVIDIA 的远见和前瞻性不容小觑。无论是如火如荼的 AI,还是方兴未艾的虚拟世界,NVIDIA 能成为科技热潮的直接受益者,都离不开过去多年对其软硬件产品的打磨。
此次 NVIDIA GTC 大会期间,我们还将看到更多覆盖深度学习、数据科学、高性能计算、机器人等领域的最新进展,而始于 NVIDIA CUDA 的加速计算正在这些领域催化效率提升,推动现代科技快速进化、走向未来。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。