前言:
长期以来,OpenAI采用英伟达GPU执行ChatGPT模型训练及推理任务。
OpenAI不仅是英伟达GPU在AI计算场景的早期采用者,亦是其长期核心客户。
然而,伴随大型模型计算需求与复杂度的指数级攀升,传统GPU架构在模型训练中暴露出的高成本、低算力利用率及高能耗局限日益显著。
作者| 方文三
图片来源|网 络
OpenAI有转向谷歌TPU芯片的倾向
据路透社等媒体报道,OpenAI近期开始租用谷歌的AI芯片,用以支持ChatGPT及其旗下其他产品。
据了解,此乃OpenAI首次正式采用非英伟达芯片,此举或将推动谷歌TPU成为英伟达GPU更具成本效益的替代方案。
具体使用方式方面,据TheInformation报道,OpenAI系通过谷歌云平台租用TPU。
然而,有谷歌云员工表示,鉴于OpenAI与谷歌在AI领域的竞争关系,谷歌不会向其提供最强大的TPU型号。
OpenAI用户规模增长迅猛(近日宣布已拥有300万付费企业用户),正面临严重的GPU短缺压力。
为确保ChatGPT的推理能力不受影响,寻求替代方案势在必行。
另一潜在动因或在于降低对微软的依赖程度,这也是OpenAI近期持续努力的方向。双方近期关系亦显紧张。
同时,这传递出一个明确的市场信号:AI基础设施并非仅限于英伟达,多元化已逐渐成为一种趋势。
OpenAI 确实租用了谷歌的TPU芯片,但此举并非[转向]。
OpenAI 发言人于周日向媒体表示,公司当前确实在测试谷歌的张量处理单元(TPU),但强调[此仅为早期尝试],目前并无大规模部署该芯片的计划。
事实上,在AI实验室中测试不同芯片属于常规操作。
然而,从测试到实际落地应用存在显著差距:这不仅涉及硬件本身的适配,还包括软件框架、编译链乃至整个部署架构的重建,此类工程往往需要耗时数月乃至一年以上。
因此,在相当长的一段时间内,OpenAI的算力核心仍将是英伟达的GPU。
OpenAI的真实核心诉求并非[转向],而在于[议价]。
尽管此次[芯片相关争议]表面看似乌龙事件,但深入分析即可发现:OpenAI的意图并非转向谷歌,而是向英伟达施加压力。
OpenAI当前最核心的需求十分现实——降低模型推理成本、掌握算力议价权。
据《The Information》报道,OpenAI正通过谷歌云租用TPU以测试模型推理任务。
这并非临时性决策,其目的在于寻求更具性价比的选项,作为GPU的潜在补充或谈判筹码。
同样值得注意的是,OpenAI亦在逐步降低对微软Azure数据中心的依赖。
作为投资方,微软为OpenAI提供了训练基础设施。
然而在实际推理阶段,OpenAI近年来已大量采购CoreWeave等第三方GPU云服务商的资源,显示出其[云平台分散化]的趋势。
对谷歌AI基础设施能力的重要认可
摩根士丹利指出,OpenAI是迄今为止最为关键的TPU客户(其他客户包括苹果、SafeSuperintelligence和Cohere)。
谷歌的TPU技术已历经十年演进,其初代TPU发布于2015年。
分析师认为,此项合作为谷歌带来两大积极影响:
该合作可能成为谷歌云收入加速增长的驱动因素,而该因素尚未在GOOGL股价中得以体现。
根据摩根士丹利的芯片模型预测,2027年及2028年,预计将分别有2430亿美元和2580亿美元投入于英伟达GPU,而同期TPU支出预计仅为约210亿美元和240亿美元(其中大部分为谷歌内部使用)。
由此可见,谷歌在市场份额转移或TAM(总可寻址市场)扩张方面存在显著机遇。
倘若OpenAI带动更多客户迁移至谷歌云平台,Google Cloud的Compute TAM有望获得快速上修。
随着开发者对TPU技术的熟悉度提升,谷歌体系外公司对TPU的进一步采用,可能成为谷歌云业务的额外增长驱动力。
OpenAI转向谷歌TPU的三重动因
持续增长的GPU计算成本与供应限制,促使OpenAI探索替代性AI芯片方案。
通过接入谷歌云对外开放的TPU资源,OpenAI得以运用专为张量计算优化的专用芯片。
此举预期降低单次模型计算成本,并可能获得独特的性能表现。
OpenAI业务呈高速增长态势。据路透社报道,截至2025年6月,其年化收入已突破100亿美元。
然而,计算资源短缺构成其发展的主要制约因素。
Sam Altman曾公开表示,因算力不足,原定于6月发布的开源模型已推迟至夏末。
一位微软合作伙伴高管向CRN透露:[即使微软亦难以满足OpenAI对AI算力的庞大需求。]
因此,OpenAI正寻求算力来源多元化,为其5000亿美元的Stargate项目,与CoreWeave、甲骨文及软银展开合作,并新增谷歌云作为供应商。
英伟达GPU利润率高达70%,被r/stocks用户指摘为[成本高昂、能效偏低]。
谷歌的TPU,特别是为推理优化的Ironwood,则能显著降低成本。
该系统支持万亿级Token推理任务,能源成本仅为传统方案的一半。
此外,OpenAI正与微软重新协商投资条款,涉及股权分配等事宜。
GPT-5预计于7月发布,OpenAI需提升与微软的谈判地位。
TPU提供的成本与规模优势,使OpenAI可减少对Azure有限资源的过度依赖。
核心原因在于价格过高+供应紧缺
OpenAI选择以谷歌TPU替代部分英伟达GPU,核心原因在于后者价格过高且供应紧缺。
据悉,英伟达旗舰芯片B200拥有2080亿晶体管数量与192GB HBM3E内存容量,提供8TB/s的内存带宽。
该芯片基于Blackwell架构,在FP8及FP6精度下均可实现20PFLOPS的AI算力,为前代Hopper架构H100(8PFLOPS)的2.5倍。
然而,配备8颗B200的英伟达DGX B200 AI服务器,售价高达50万美元。
摩根士丹利相关报告指出,英伟达Blackwell GPU未来12个月的产能已被预定一空。
相比之下,谷歌TPU芯片价格更具优势。
以苹果构建Apple Foundation Model模型时采购的谷歌TPU v5p为例,虽双方未披露订单详情,业界普遍认为其单价或在数千美元级别。
OpenAI与谷歌AI模型的API定价亦可佐证TPU v5p的低成本特质。
OpenAI旗舰模型GPT-4o提供的输入价格为10美元/百万tokens、输出价格为40美元/百万tokens;
而谷歌旗舰模型Gemini 2.5 Pro的输入价格与输出价格分别为1美元/百万tokens和4美元/百万tokens。
AI基础设施以及芯片逐渐走向多元化
OpenAI租用谷歌TPU的举措,其影响已超越单一项目的部署路径变更。
此举打破了AI芯片市场长期由英伟达主导的事实标准,同时为其他供应商的商业化开辟了结构性空间。
该动作已对多家芯片公司产生连锁反应,标志着AI推理基础设施正从单一芯片垄断向多源结构演进。
OpenAI长期作为英伟达H100的最大采购方之一,其模型训练、API推理及企业部署服务,几乎完全运行于英伟达GPU之上。
过去三年间,采用英伟达方案几乎是行业的默认配置。
短期内,英伟达的营收预计不会立即受到显著冲击。
训练任务仍高度依赖GB200和H100,OpenAI的核心模型也未迁移。
然而,结构性影响已开始显现:更多客户将评估第二供应来源,推动投产走向多元化。
推理正逐渐成为主要的成本中心。训练作为一种集中发生的投入,而推理则构成一项持续发生的运营成本。
谷歌提供的统一镜像管理、弹性扩容及负载均衡接口,可直接集成至OpenAI的API层服务调度体系中。
相较GPU自管模式,TPU租用模式更适配短期高峰需求或试验性功能的快速落地。
对于OpenAI这类拥有数十条独立产品线与模型分支的组织而言,此类[可用即调用]的架构选择在效率层面意义重大。
结尾:
北美AI领军企业的战略转向,彰显了AI产业更为深远的变革态势。
居于前列的大型模型开发商正积极寻求英伟达GPU之外的替代方案,推动基础设施多元化发展,并致力于采纳以TPU为代表的专用AI芯片架构。
部分资料参考:《OpenAI要抛弃英伟达?紧急辟谣:转向谷歌TPU是乌龙,根本无部署计划》,中昊芯英科技:《OpenAI转向谷歌TPU,解耦英伟达开启AI专用算力芯片时代》,Andy730:《谷歌TPU战略布局:OpenAI合作重塑AI芯片格局》,复利猫的慢思考:《TPUvsGPU:OpenAI首次使用谷歌TPU推理》