5000 字长文,英伟达 GTC 2025:一场信息量巨大的 AI 创新盛宴

IP归属:广东

在刚刚结束的 GTC 2025 主题演讲上,英伟达创始人兼 CEO 黄仁勋再次以标志性的皮衣亮相。这家 AI 巨头再次向世界展示了其在人工智能、元宇宙、机器人技术等领域的强大实力和前瞻性布局,以及在推动 AI 发展方面的不懈努力。

本次大会不仅发布了一系列令人瞩目的新产品和技术,英伟达还一口气公布了未来 3、4 年的 AI 发展路线图。我们可以借助此次公布的路线图,提前畅想未来几年的 AI 将为整个社会带来多大的改变。

下一代 AI 芯片与未来路线图:性能飞跃,持续创新

在去年 10 月举办的 COMPUTEX 台北国际电脑展上,英伟达就宣布将从 2024 年开始改变其 GPU 架构的更新周期,从过去的平均每两年更新一次 GPU 架构转变为每年更新一次 GPU 架构。比如 2020 年英伟达发布了 Ampere,2022 年发布了 Hopper,2024 年则是发布了 Blackwell,2025 年则是要发布 Blackwell Ultra。不过在去年的 COMPUTEX 上,英伟达仅仅是公布了 Blackwell Ultra 的命名,并没有公开 GPU 架构的详细信息。

时间来到了 2025 年,英伟达自然也要公布其下一代 AI 芯片的具体信息了。

Blackwell Ultra:性能小幅升级,内存大幅提升

图源:英伟达

从命名也能看出 Blackwell Ultra 与 Blackwell 架构一脉相承,前者只是后者的增强版。虽然其 AI 性能仍保持在 20 petaflops,与标准版 Blackwell 芯片相同,但其 HBM3e 内存却从 192GB 大幅提升至 288GB。Blackwell Ultra 每秒可以处理 1000 个 tokens,是 2022 年硬件的十倍,能够显著提升 AI 推理任务的效率。例如,在 DeepSeek-R1 模型上,Blackwell Ultra 的响应时间仅为 10 秒,而上一代 H100 芯片则需要 1.5 分钟。Blackwell Ultra 芯片将于 2025 年下半年上市。

Vera Rubin:全新架构,性能实现质的飞跃

图源:英伟达

除了公布 2025 年即将上市的 AI 芯片,英伟达还介绍了 Blackwell Ultra 的下一代产品,也就是预计会在 2026 年推出的 Vera Rubin 架构。

首先值得关注的是 Vera Rubin 将带来高达 50 petaflops 的 AI 性能,相比 Blackwell Ultra 实现了性能翻倍。更值得关注的是,Vera Rubin 将首次采用英伟达自主设计的基于 Arm 架构的 CPU,代号 Olympus。此外,英伟达还计划从这代产品开始改变 GPU 的计数方式,Vera Rubin 实际上包含两个 die,但作为一个独立的芯片运行。

Vera Rubin 是以女性天文学家 Vera Florence Cooper Rubin (维拉·弗洛伦斯·库珀·鲁宾)的名字命名,她确立了暗物质的存在,还领导了对星系结构及其运动的研究。

未来展望:Rubin Ultra 与 Feynman

图源:英伟达

在 Vera Rubin 之后,英伟达还透露了更遥远的计划。Rubin Ultra 预计将于 2027 年下半年问世,其性能将达到 100 petaflops,内存高达 1TB,并且在一个封装内集成了四个 GPU 核心。而 2028 年的芯片则被命名为 Feynman,以纪念著名物理学家理查德 · 费曼。

从 Blackwell、Blackwell Ultra、Vera Rubin 和 Rubin Ultra 这几款产品的命名也能一窥英伟达 GPU 架构的升级思路,基本上可以总结为“一年一小改,两年一大改”。

进军推理模型:准确性提高 20%,速度提高 5 倍

在 DeepSeek R1 模型的推动下,今年各大 AI 模型的发力方向就是推理,包括 Claude 3.7 Sonnet、Gemini 2.0 Flash Thinking、Kimi 1.5 长思考、百度文心大模型 X1 也都以模型具备推理能力作为宣传点。

英伟达不甘寂寞,在此次 GTC 上不仅提供底层基础设施,还发布了驱动下一代自主 Agent 的模型和构建模块,正式进军开源推理模型市场。

英伟达发布的推理模型名为 Llama Nemotron AI,该模型基于 Meta 的 Llama 开源模型,并通过后训练增强技术提升了其多步数学、编码、复杂决策和推理能力。Llama Nemotron AI 模型的准确性比其基础模型提高了 20%,推理速度提高了五倍。开发者目前可以通过英伟达的 NIM 微服务平台获得 Llama Nemotron AI 模型,共包括 Nano、Super 和 Ultra 三种参数规模,并针对不同的应用场景进行了优化。就如同开头所说,Llama Nemotron 具有混合推理能力,可以根据查询的复杂程度切换推理模式,从而优化计算效率。微软、SAP 等众多合作伙伴已经开始使用 Llama Nemotron 模型构建强大的 AI Agent。

在 GTC 上,英伟达还发布了一系列额外的 Agentic AI 构建模块,包括:

  • Nvidia AI-Q Blueprint:一个开源框架,使开发者能够将 AI Agent 连接到企业系统和数据源,查询多种数据类型,并利用外部工具。它还为连接的 Agent 团队提供可观察性和透明度。

  • Nvidia AI Data Platform:一个可定制的参考设计,旨在帮助存储基础设施提供商开发更高效的 Agentic AI 推理工作负载数据平台。

  • 更新的 Nvidia NIM 微服务:用于优化 Agentic AI 推理,支持持续学习和适应性。

  • 增强的 NeMo 微服务:提供了一个框架,供开发者构建强大的数据飞轮,确保 AI Agent 可以基于人类和 AI 生成的反馈进行持续学习。

DGX Station 和 Spark:桌面级 AI 超算触手可及

如今,AI 技术已不再是遥不可及的高端技术,AI 已经以各种形式融入普通用户的日常生活,让每个人都能享受到科技进步带来的便利。

开源 AI 工具的兴起更是让普通用户有机会直接接触和使用先进的 AI 模型。许多免费或低成本的 AI 应用使得普通人也能利用这些工具提高工作效率、学习新技能或发挥创造力。为了让 AI 学习、开发和研究更加便捷,英伟达在本次 GTC 上还推出了两款全新的桌面级 AI 超算 —— DGX Station 和 DGX Spark。

图源:英伟达

英伟达曾推出过搭载 Tesla V100和 A100芯片的 DGX Station,然而随着 Hopper 架构的推出,DGX Station 也就此发生了中断,不再更新。如今借助 Blackwell Ultra 架构,英伟达 DGX Station 系列强势回归。毫无疑问 DGX Station 搭载的就是全新桌面级 Grace-Blackwell Ultra Superchip (GB300),能够提供 20 petaflops 的 AI 性能,该系统配备了单个 Blackwell Ultra GPU 和 Grace CPU,拥有高达 784GB 的统一内存,并内置了 800 Gbps 的 ConnectX-8 NIC。华硕、戴尔、惠普等 OEM 厂商将在今年晚些时候推出各自版本的 DGX Station。

在今年的 CES 上,英伟达曾以“Project Digits”代号推出了一款小巧而强大的 AI 工作站,在本次 GTC 上它以 DGX Spark 之名正式发布并开始接受预订,售价 3000 美元。DGX Spark 搭载了 GB10 Grace Blackwell 系统级芯片,能够提供高达 1000 万亿次/秒的 AI 计算能力和 128GB 的统一系统内存,并集成了 ConnectX-7 网络。

面向企业级的 AI 超算:DGX SuperPOD 搭载 Blackwell Ultra

除了推出桌面级 AI 产品,为了满足企业级用户对更高端 AI 基础设施的需求,英伟达在 GTC 上推出了基于 Blackwell Ultra GPU 的 DGX SuperPOD。

图源:英伟达

具体来看,DGX SuperPOD 有 DGX GB300 和 DGX B300 系统两个版本,DGX GB300 系统采用了 Nvidia Grace Blackwell Ultra Superchip,其中包括 36 个基于 Arm Neoverse 的 Nvidia Grace CPU 和 72 个 Blackwell Ultra GPU,并采用了专为高级推理模型上的实时 Agent 响应而设计的机架级液冷架构。该设置使 AI 模型能够利用强大的计算能力,为问题提出不同的解决方案,并将请求分解为多个步骤。DGX GB300 NVL72 的性能是其前代产品的 1.5 倍,与 Hopper 架构相比,Blackwell Ultra 可以将 AI 工厂的收入机会提高 50 倍。搭载 DGX GB300 系统的 Nvidia DGX SuperPOD 采用 DGX GB300 NVL72 机架设计作为一种开箱即用的架构。

另一方面,DGX B300 系统则采用了风冷的 Nvidia B300 NVL16 架构,旨在帮助各地的数据中心满足生成式 AI 和 Agentic AI 应用的计算需求。与 Hopper 架构相比,DGX B300 系统在推理方面的 AI 性能提升了 11 倍,在训练方面提升了 4 倍。每个系统提供 2.3TB 的 HBM3e 内存,并包含先进的网络功能,包括八个 NVIDIA ConnectX-8 SuperNIC 和两个 BlueField-3 DPU。

为了满足对先进加速基础设施不断增长的需求,英伟达还推出了 Nvidia Instant AI Factory,这是一项由 Blackwell Ultra 驱动的 NVIDIA DGX SuperPOD 托管服务。Equinix 将率先在其位于全球 45 个市场的预配置液冷或风冷 AI 就绪数据中心中提供新的 DGX GB300 和 DGX B300 系统。在性能方面,搭载 DGX GB300 系统的 DGX SuperPOD 的 AI 性能比基于 Nvidia Hopper 系统的 AI 工厂高出 70 倍,并提供 38TB 的快速内存,可在 Agentic AI 和推理应用的多步推理方面提供无与伦比的规模化性能。在软件支持方面,英伟达还发布了 Nvidia Mission Control,这是一款用于基于 Blackwell 的 DGX 系统的 AI 数据中心运营和编排软件,以帮助企业自动化其基础设施的管理和运营。Nvidia DGX 系统支持 Nvidia AI Enterprise 软件平台,用于构建和部署企业级 AI Agent,包括新的 Nvidia Llama Nemotron 开放推理模型系列和 Nvidia AI Blueprints。为了扩展 Blackwell Ultra 的应用,英伟达表示该平台将与 Nvidia Spectrum-X 以太网和 Nvidia Quantum-X800 InfiniBand 网络系统集成。包括思科、戴尔科技、HPE、联想和 Supermicro 等厂商以及众多合同设备供应商将提供 Blackwell Ultra 服务器。AWS、谷歌云、微软 Azure 和 Oracle Cloud Infrastructure 等云巨头以及 CoreWeave、Crusoe 和 Nebius 等专业 GPU 提供商也将提供 Blackwell Ultra 实例。

黄仁勋主题演讲中表示,AI 正以闪电般的速度发展,各公司都在竞相构建能够扩展以满足推理 AI 和推理时扩展处理需求的 AI 工厂。他认为,由于 Agentic AI 和推理的出现,我们现在所需的计算量轻易超过了之前的百倍。

Omniverse 持续进化:加速工业数字化转型

英伟达的 Omniverse 平台在本次 GTC 上也迎来了重大更新和扩展,通过高度逼真的实时 3D 图形协作和模拟平台,来加速工业领域的数字化转型。

图源:英伟达

以英伟达此次全新推出的 Omniverse Blueprint 为例,它包括两个部分,其中 Omniverse Blueprint for AI factory digital twins 可以专门用于设计和模拟千兆瓦级 AI 数据中心基础设施,包括冷却系统和电力网络等关键系统。工程师可以在虚拟环境中进行数千小时的加速模拟,从而在实际开工建设前就发现潜在问题并优化性能。Schneider Electric 和 ETAP 已经基于此蓝图推出了数据中心数字孪生解决方案。

另一个部分则是 Mega,可以用于在工业数字孪生中大规模测试多机器人舰队。Scheffler 和 Accenture 正在使用 Mega 测试 Agility Robotics 的双足机器人 Digit,而现代汽车集团则使用它来模拟 Boston Dynamics 的 Atlas 机器人在其装配线上的运行。富士康也在利用 Mega 在其制造园区内模拟工业机械臂、人形机器人和移动机器人。

除了上述提到的这几家企业,包括 Ansys、SAP、西门子等工业软件和服务提供商也正在将 Omniverse 集成到他们的解决方案中,以构建更智能的工厂、机器人和数据中心。自此 Omniverse 为开发者、艺术家和工程师提供了一个“元宇宙”的模拟平台,他们可以在其中可视化和生成项目的 3D 模型,并进行基于真实物理的模拟和测试。

Dynamo:开源推理框架,优化 AI 计算

Dynamo 是一个推理框架,可以分离 AI 推理过程并优化计算。黄仁勋将 Dynamo 视为“AI 工厂的操作系统”,它能够最大化 token 生成,并协调和加速跨 GPU 的推理通信。

图源:英伟达

Dynamo 的工作原理是将大型语言模型的处理和生成阶段分离到不同的 GPU 上,优化每个阶段使其独立并最大化资源利用率。Dynamo 也是英伟达 Triton Inference Server 的继任者,通过分离工作负载,Dynamo 可以使 AI 工厂的性能提高一倍。Dynamo 包含一个 GPU 规划引擎、一个 LLM 感知路由器(用于最小化重复结果)、一个低延迟通信库和一个内存管理器。在大型 DGX GB300 集群上运行 DeepSeek-R1 模型时,Dynamo 可将每个 GPU 的 token 数量提高 30 倍。

Dynamo 完全开源,支持 PyTorch、SGLang、Nvidia TensorRT-LLM 和 vLLM。此外,Dynamo 能够将先前请求在内存中保留的推理系统知识(KV 缓存)映射到数千个 GPU 上,然后将新的推理请求路由到具有最佳匹配的 GPU。

RTX PRO 系列 GPU:专业图形和 AI 应用的强大助力

在面向普通消费者的显卡中,英伟达还特别划分了专业图形显卡和游戏显卡两个类别,两者在设计理念、硬件优化、适用场景等方面存在明显差异。专业图形显卡注重“生成”,即根据设计师的指令精准生成复杂的三维模型、贴图和渲染效果,适合建筑设计、影视特效、工业设计等领域。游戏显卡则侧重于“显现”,将预先制作的场景以流畅的画面呈现。

在本次 GTC 上,英伟达就带来了全新的 RTX PRO Blackwell 系列 GPU,旨在满足专业设计师、开发者、数据科学家和创意人士的需求。顶级的 RTX PRO 6000 Blackwell 工作站 GPU 配备了 96GB 的 GDDR7 内存,功耗为 600 瓦,支持 PCIe Gen 5 和 DisplayPort 2.1,并采用了最新的 Blackwell 架构 RT Core 和 Tensor Core。该系列还包括桌面和笔记本电脑版本的 RTX PRO 5000、4500 和 4000,以及笔记本电脑版本的 3000、2000、1000 和 500 型号。

人形机器人迎来新时代:GR00T N1 基础模型发布

在 GTC 大会的最后环节,英伟达将目光投向了人形机器人领域,发布了 Isaac GR00T N1 基础模型,旨在加速人形机器人的开发和能力提升。

图源:英伟达

Isaac GR00T N1 是一个通用的人形机器人基础模型,具有开源、可定制的特性,其目的就是加速人形机器人的开发和能力提升。GR00T N1 采用了受人类认知启发的双系统架构,包括一个快速思考的动作模型和一个慢速思考的推理模型。该模型经过人类演示数据和 Omniverse 平台生成的合成数据训练,能够执行抓取、移动物体等常见任务,以及需要长期上下文和多技能组合的复杂任务。开发者可以根据特定需求对 GR00T N1 进行后训练。

图源:英伟达

包括 1X Technologies、Boston Dynamics、Agility Robotics 等领先的人形机器人开发公司已经获得了 GR00T N1 的早期使用权。英伟达还与 Google DeepMind 和 Disney Research 合作开发 Newton,一个用于机器人学习的开源物理引擎。此外,英伟达还发布了 Isaac GR00T Blueprint,用于生成大量的合成运动数据,以加速机器人训练。

广泛合作,共筑 AI 生态

惠普企业(HPE)与英伟达在本次 GTC 上宣布进一步深化合作,通过推出新的服务器、软件和存储解决方案,扩展双方去年宣布的“Nvidia AI computing by HPE”计划,专门针对人工智能应用场景。HPE 推出了新的 HPE Private Cloud AI 开发者系统,该系统集成了英伟达加速计算、控制节点、完整的 AI 开发软件套件和 32TB 集成存储。HPE 还扩展了其 Private Cloud AI 产品,支持新的 Nvidia AI Data Platform,这是一个可定制的参考设计,集成了英伟达的加速计算、网络、AI 软件和 HPE 存储。HPE 还推出了一个统一的 AI 数据层,支持跨混合云环境的结构化、非结构化和流数据。Alletra Storage MP 存储系统也进行了增强,以支持 Nvidia Networking,并提供 AI 模型所需的数据。

图源:英伟达

通用汽车(GM)也宣布与英伟达扩大合作,将 AI 技术应用于其业务的各个方面,包括工厂、机器人和自动驾驶汽车。GM 将使用 Nvidia Omniverse 和 Cosmos 训练 AI 制造模型,以优化工厂规划和机器人操作,并构建工厂和装配线的数字孪生,以进行虚拟测试和生产模拟。GM 还将在其未来的高级驾驶辅助系统和车内增强安全驾驶体验中使用 Nvidia Drive AGX 平台。

英伟达宣布与 T-Mobile、Mitre、Cisco、ODC 和 Booz Allen Hamilton 等电信行业领导者合作,共同研发用于 6G 的 AI 原生无线网络硬件、软件和架构。下一代无线网络需要与 AI 深度集成,以支持数千亿部手机、传感器、摄像头、机器人和自动驾驶汽车的连接。AI 原生无线网络将提供增强的服务,提高频谱效率,并为电信公司创造新的收入来源。英伟达正在与合作伙伴共同开发基于 Nvidia AI Aerial 平台的 AI 原生无线网络堆栈。该平台提供在英伟达加速计算平台上运行的软件定义无线电接入网络。

 

总结

GTC 2025 大会无疑是一场科技盛宴,是一场技术成果的集中展示,更是一次对未来科技发展方向的深刻洞察。从性能卓越的下一代 AI 芯片,到赋能各行各业的创新平台和解决方案,再到对人形机器人等前沿领域的积极探索,英伟达正以其强大的技术实力和前瞻性视野,引领着人工智能的浪潮奔涌向前。随着 Blackwell Ultra、Vera Rubin 等新一代芯片的到来,以及 Omniverse、Isaac 等平台的持续进化,我们有理由相信,英伟达将继续引领未来科技的浪潮,为各行各业带来深刻的变革。

本次大会另一个值得关注的是,英伟达显著加大了开源技术的投入,无论是推理框架 Dynamo、人形机器人基础模型 Isaac GR00T N1,还是各种 AI 蓝图和构建模块,都体现了其策略上的重大转变,相较以往的闭源策略有了质的飞跃。

陀螺科技现已开放专栏入驻,详情请见入驻指南: https://www.tuoluo.cn/article/detail-27547.html

前方智能专栏: https://www.tuoluo.cn/columns/author1911845/

本文网址: https://www.tuoluo.cn/article/detail-10120783.html

免责声明:
1、本文版权归原作者所有,仅代表作者本人观点,不代表陀螺科技观点或立场。
2、如发现文章、图片等侵权行为,侵权责任将由作者本人承担。

相关文章