科创丨探微芯联获数亿元融资,全自研对标英伟达NVLink方案

IP归属:广东

文章AI导读

一键萃取文章精髓,核心观点即刻呈现

前言

近日,成立仅7个月的北京探微芯联科技有限公司宣布完成天使+轮及Pre-A多轮数亿元融资。

这家公司成为国内首家全栈式对标英伟达“NVLink+NVSwitch”架构的Scale-up超节点解决方案提供商,补上了国产AI算力产业链最关键的一块拼图。

作者 | 方文三

图片来源 | 网络

被低估的算力瓶颈,互联才是隐形护城河

当大模型从千亿参数跃升至十万亿参数级别,训练任务需要数万甚至数十万张GPU协同作战时,单卡算力早已不是决定系统效率的核心。

如果把GPU比作跑车,互联技术就是承载它们的公路:再快的跑车,在泥泞小路上也只能龟速行驶。

英伟达能在AI领域筑起难以撼动的护城河,除了GPU性能和CUDA生态,NVLink与NVSwitch构成的高速互联体系同样功不可没。

NVLink是GPU间的点对点高速通信链路,NVSwitch则是连接多条链路的专用交换芯片,二者结合让整个集群化身一块“超级GPU”。

高性能卡间互联芯片,已是AI数据中心仅次于计算芯片的第二大核心资本开支。

传统以太网和InfiniBand在性能上与NVLink存在数量级差距:英伟达最新的NVLink 6能提供3.6TB/s的双向带宽,而目前最快的400G以太网实际有效带宽仅约50GB/s。

这意味着跨服务器传输数据时,GPU大部分时间都在空等,算力利用率会断崖式下跌。

国产GPU厂商近年进步显著,部分产品单卡性能已接近英伟达中高端水平,但互联技术的短板始终存在。

没有自主高速互联技术,国产GPU就无法组成大规模集群,也就无法训练真正的世界级大模型。

这正是探微芯联的出现,被行业视为里程碑事件的原因。

清华系的破局,全栈自研的“中国高速路”

大模型时代的算力需求,有一个很容易被忽略的变化:模型越大,算力越需要被组织起来。

问题也随之而来,多卡协作并不等于简单叠加。卡与卡之间要频繁交换梯度、激活值、权重分片、专家路由结果和KV缓存信息。通信一旦跟不上,昂贵的计算单元就会等待数据,峰值算力也会变成纸面数字。

换句话说,国产AI算力要继续向前,不能只补“计算芯片”这一块短板,还要补“系统级互联”这一块硬骨头。

国产AI芯片要追赶英伟达,不能只在单卡指标上做文章。真正难的是,能否让多张国产XPU在真实大模型任务中高效协同。谁能解决这个问题,谁就站在国产AI基础设施的关键路口。

从产品结构看,探微芯联试图构建“协议+模块+交换芯片+集合通信库+动态路由算法”的完整体系。

探微芯联的技术底气,源自清华大学类脑计算研究中心十余年的深厚积淀。该中心2014年成立,是国内最早开展全链条类脑计算研究的团队,成果曾两次登上《Nature》封面。

创始人刘学作为中心工程研究员、总工,主导研制了国内三代亿级神经元类脑集群,攻克了大规模并行计算系统的通信核心难题。

类脑计算与传统AI计算虽技术路线不同,但在大规模集群互联上面临着完全相同的挑战。

团队在类脑集群领域积累的数百人年工程经验,让探微芯联能在成立短短7个月内,拿出成熟的全栈式解决方案。

其核心的ACCLink+ACCSwitch技术,从底层通信协议、XPU通信模块、超高速交换芯片,到上层集合通信库、动态路由算法实现了100%自主可控。

ACCLink协议支持纳秒级低时延无损通信,具备完整的自研CTX通信语义,支持字节级对齐和任意地址数据搬移,还兼容多种Scale-up网络协议。

ACCSwitch交换芯片最高可支持4096个XPU互联、512个XPU组播优化,能将数千张国产GPU整合成统一的计算资源池。

在国产GPU架构百花齐放的当下,这种“分层设计”无需触及厂商的计算和存储核心技术,就能帮助国产XPU快速补齐互联短板,完美适配了国内算力生态的结构性需求。

目前,ACCLink IP已完成硅验证,探微芯联也与国内大部分XPU领先厂商达成合作,通过了部分客户的产品验证。

这些技术指标背后,真正重要的不是概念多复杂,而是它切中了国产XPU生态的现实痛点。

资本集体押注,超节点产业的黄金窗口

本轮融资的投资方阵容堪称豪华,涵盖国资、产业资本与市场化机构三大阵营,背后是全行业对Scale-up超节点赛道的一致看好。

国资阵营中,金浦投资、首都科技发展集团、中关村科学城等机构的入局,体现了国家对AI基础设施自主可控的战略重视;产业资本方面,浪潮信息、软通动力的战略投资尤为关键。

作为全球领先的AI服务器厂商和IT服务提供商,它们的加入不仅是技术认可,更意味着探微芯联的方案将快速融入国产算力产业链,实现深度适配与联合优化;华盖资本、创新工场等市场化机构的参与,则印证了其商业前景的确定性。

华泰证券测算,2028年国产超节点市场空间将达到3414亿元,2026至2028年复合年增长率高达194%;其中Scale-up交换芯片作为核心环节,同期市场规模将达129亿元,复合增长率212%。

超节点的核心价值,在于重新定义了算力的竞争逻辑。当芯片制程逼近物理极限,算力竞争已从单一的“单卡性能”转向“系统效率”的综合比拼。

客户一旦采用某家的超节点方案,从上层应用到底层调度都会深度绑定,形成极强的客户粘性。

商业想象力在“中立互联层”

硬科技公司最怕技术很强、位置很窄。探微芯联的看点在于,它不是只服务某一颗芯片,也不是只做某个单点模块,而是希望成为国产XPU生态里的中立互联层。

探微芯联的多模态Switch交换芯片,除支持自研ACCLink协议外,也支持多种Scale-up网络协议,以解决不同协议规范及厂商私有化修改带来的互连互通问题。

这句话背后是一个很现实的商业逻辑:国产AI芯片厂商短期内很难收敛到同一种架构、同一种协议、同一种软件生态。

多路线并存会持续很长时间。此时,谁能降低各家XPU进入超节点架构的门槛,谁就可能成为产业链里的“连接器”。

从客户角度看,探微芯联的价值可能体现在三层。

①帮助XPU厂商缩短Scale-up能力研发周期:自研高速互联协议和交换芯片门槛很高,涉及信号、协议、缓存一致性、流控、路由、集合通信、系统调度等复杂环节。单一芯片公司独自补齐,成本高、周期长、风险大。

②帮助整机厂商构建国产超节点方案:浪潮信息、软通动力等产业投资方出现在本轮融资名单中,本身就说明Scale-up互联已不只是芯片厂商的问题,也关系到服务器、智算中心、云服务和行业解决方案的落地。

③帮助终端客户获得更可控的国产AI基础设施:对运营商、云厂商、政企智算中心而言,国产算力替代最终要落到可交付、可扩容、可运维。互联层越成熟,国产集群的总体拥有成本和使用体验越接近商业化要求。

这就是探微芯联的产业价值:它不在聚光灯最亮的“芯片算力”位置,却可能决定国产芯片能否被组织成真正可用的大规模系统。

结尾:

在大模型的世界里,孤立的强大越来越难形成优势。真正稀缺的,是让许多强大单元高效协作的能力。

芯片决定算力的起点,互联决定算力的上限。

国产AI基础设施要走到更深处,下一场硬仗,就在卡与卡之间。

部分资料参考:36氪:《探微芯联连续完成数亿元融资,国内首家全栈式对标英伟达「NVLink+NVSwitch」架构》,TengNews财经网:《探微芯联完成数亿元天使+及Pre-A轮融资,资本合力推动国产Scale-up超节点完整解决方案》,Leads:《北京探微芯联科技有限公司分析报告》

陀螺科技现已开放专栏入驻,详情请见入驻指南: https://www.tuoluo.cn/article/detail-27547.html

AI芯天下专栏: https://www.tuoluo.cn/columns/author1911711/

本文网址: https://www.tuoluo.cn/article/detail-10129014.html

免责声明:
1、本文版权归原作者所有,仅代表作者本人观点,不代表陀螺科技观点或立场。
2、如发现文章、图片等侵权行为,侵权责任将由作者本人承担。

相关文章