特斯拉接入 DeepSeek 与豆包;谷歌发布最强图像生成模型;英伟达公布最新财报,净利润同比增长 59%

IP归属:广东

文章AI导读

一键萃取文章精髓,核心观点即刻呈现

美国政府斥资 89 亿美元收购英特尔 10% 股份,成为英特尔最大股东

美国总统特朗普于 8 月 23 日在白宫新闻发布会上宣布,美国政府将通过已批准但尚未支付的《芯片法案》补助及安全隔离区计划(Secure Enclave)的资金,收购英特尔约 10% 的股份,总投资额达 89 亿美元。此次交易使美国政府成为英特尔最大股东之一,但不会获得董事会席位或公司治理权,仅为被动持股。

图源:英特尔

交易价格为每股 20.47 美元,低于同期软银以每股 23 美元收购英特尔股份的价格。英特尔股价受此消息影响上涨约 5-7%,公司市值接近 1100 亿美元。特朗普表示,这笔交易不仅有利于美国,也对英特尔发展至关重要,并承诺未来将推动更多类似的政府参股项目。

此次收购背景是英特尔近年来在芯片制造领域落后于竞争对手,急需资金支持以恢复技术领先地位。新任 CEO 陈立武(Lip-Bu Tan)此前因与中国关系遭到特朗普批评,但在会面后双方达成一致,政府以补助资金转换为股权方式入股英特尔。根据协议,若未来英特尔在其代工业务中的持股比例低于 51%,美国政府还可按每股 20 美元的价格再购入 5% 股份。

特朗普表示,未来可能会对更多芯片企业采取类似措施,以确保关键技术和制造能力留在美国本土。英特尔则重申将继续履行对国防部的安全芯片承诺,推动美国高端半导体制造的发展。

xAI 开源 Grok 2.5 模型,六个月内再开源 Grok 3

8 月 24 日,埃隆·马斯克旗下人工智能公司 xAI 宣布,Grok 2.5 模型及其权重现已开放下载,用户可在 Hugging Face 平台获取相关资源。马斯克在社交平台 X 上表示,Grok 2.5 是 xAI 去年表现最优的模型,未来六个月内,Grok 3 也将以开源形式发布。

图源:X

Grok 2.5 采用了 2680 亿参数的混合专家(MoE)架构,拥有 131k 的上下文窗口,包含 8 个专家(每次激活 2 个),支持 RoPE 编码,配备 64 层、64 个 GQA 注意力头和 8 个 KV 头。模型权重文件约 500GB,需至少 8 张 40GB 显存的 GPU 才能完整部署。

值得注意的是,Grok 2.5 的开源并非完全无条件,采用了 xAI 社区许可协议,允许研究和非商业用途,商业使用需遵循 xAI 指定的规则。协议还限制将 Grok 2.5 用于开发或训练其他大型 AI 模型,并要求分发时注明来源及“Powered by xAI”字样,也就是说该许可包含一定的反竞争条款。

Grok 系列模型在今年引发过多次争议,包括对极端话题的回应及系统提示公开等。

特斯拉接入 DeepSeek 与豆包,加速本土化智能座舱

特斯拉近日在官方网站发布《车机语音助手使用条款》,确认将把 DeepSeek 与字节跳动的豆包大模型接入中国市场车辆,模型托管于字节跳动旗下的火山引擎云平台,首批支持车型为刚发布的 Model Y L。

图源:特斯拉

条款显示,豆包负责处理导航、媒体播放、空调温度调节等语音指令,并可查询车主手册;DeepSeek 则承担更具对话性的 AI 互动功能,支持新闻和天气等信息查询。车主可通过“Hey,Tesla”或自定义唤醒词直接调用,无需像旧款车型那样按压方向盘滚轮。

图源:特斯拉

与北美车型依赖 xAI 的 Grok 不同,特斯拉在华选择本土大模型,业界普遍认为监管要求促使其放弃直接移植 Grok,并借此缩小与拥有本土语音助手的比亚迪、吉利等竞争对手的差距。这也被视为应对销量压力的策略:2025 年前七个月上海工厂交付量有六个月同比下滑,其中 7 月跌幅达 8.4%。在中国电动车市场,流畅的语音交互已成为标配功能,特斯拉必须追赶。

特斯拉官网条款亦提醒用户:生成式 AI 可能出现信息不完整或偏差,且不得输入违法、不当内容;违禁范畴包括危害国家安全、散布谣言等。

xAI 起诉苹果与 OpenAI,指控垄断与不正当竞争

8 月 25 日,埃隆·马斯克(Elon Musk)旗下人工智能公司 xAI 向美国德克萨斯州联邦法院提起诉讼,指控苹果公司与 OpenAI 合谋,通过在 iPhone 等设备深度集成 ChatGPT,并操纵 App Store 排名,打压包括 xAI 的 Grok 在内的竞争对手,涉嫌违反反垄断法。

图源:X

图源:网络

诉状称,苹果与 OpenAI 的合作使 ChatGPT 成为唯一原生集成于苹果操作系统的生成式 AI 聊天机器人,导致 iPhone 用户在启用 Apple Intelligence 时只能默认使用 ChatGPT,而无法选择其他创新产品如 Grok。xAI 指出,虽然用户可以下载其他聊天机器人应用,但其功能和集成度远不及 ChatGPT,与 Siri 等原生功能无法实现同等深度的结合。

xAI 同时指责苹果在 App Store 排名和审核流程中偏袒 OpenAI,延迟 Grok 应用的更新审批,并未将 X 和 Grok 纳入“必备应用”推荐区,导致其下载量和用户规模受限。xAI 认为,这一系列行为不仅巩固了苹果与 OpenAI 在智能手机和生成式 AI 市场的垄断地位,还阻碍了 AI 驱动的“超级应用”发展,使低价手机难以凭借 AI 功能与 iPhone 竞争,最终损害了消费者的选择权和创新环境。

OpenAI 回应称,马斯克此举是其持续“骚扰”的一部分。苹果则表示,App Store 的推荐机制公平且无偏。值得注意的是,DeepSeek 等其他 AI 应用曾在 App Store 排名中短暂登顶,但诉状强调原生集成和推荐机制才是决定市场份额的关键。

此次诉讼不仅要求法院叫停苹果与 OpenAI 的“反竞争行为”,还寻求巨额赔偿。该案或将成为美国司法体系首次界定 AI 相关市场垄断边界的重要标杆,对未来 AI 产业发展和竞争格局产生深远影响。

英伟达 Jetson Thor “机器人大脑”上市,AI 算力提升了 7.5 倍,实现本地实时推理

8 月 26 日,英伟达宣布其最新机器人芯片模块 Jetson AGX Thor 正式全球上市,开发者套件定价为 3499 美元(约合人民币 2.5 万元),生产模块 Jetson Thor T5000 单价为 2999 美元(需采购 1000 套以上,约合人民币 2.15 万元)。Jetson Thor 搭载最新的 Blackwell 架构 GPU,拥有高达 2070 TFLOPS(FP4)的 AI 算力和 128GB 内存,单模块功耗约为 130 瓦,AI 算力较上一代 Jetson Orin 提升了 7.5 倍,CPU 性能提升 3.1 倍,内存容量翻倍。这一突破将极大加速机器人在传感器数据处理和边缘视觉推理等高负载场景的实时反应能力。

图源:英伟达

Jetson Thor 支持多模态生成式 AI,包括大语言模型、视觉语言模型及专为机器人设计的 Isaac GR00T N1.5 等,能够在本地实时运行复杂的推理任务,显著减少对云端的依赖。英伟达同步发布了 Jetson T4000 轻量版,面向小型机器人应用,主打更低功耗。

图源:英伟达

目前,Agility Robotics、Boston Dynamics、Amazon Robotics 等企业已宣布将 Jetson Thor 集成至其新一代人形机器人和自动化设备中。Agility Robotics CEO 表示,Jetson Thor 的边缘处理能力将显著提升 Digit 机器人在仓储与制造场景中的实时响应和技能扩展能力。Boston Dynamics 则计划将其应用于 Atlas 人形机器人,实现服务器级别的本地 AI 推理。

除了人形机器人,Jetson Thor 还将赋能智能手术助手、农业自动化、工业机械臂、无人机及视觉 AI 代理等多领域应用。斯坦福大学、卡内基梅隆大学、苏黎世大学等顶尖科研机构也已采用 Jetson Thor,推动机器人在感知、规划和导航等前沿方向的创新。

英伟达强调,其 Jetson Thor 平台配套完整的软件生态,包括 CUDA、Isaac、Metropolis、Holoscan 等,支持开发者快速构建和部署多传感器输入、复杂推理及智能控制等物理 AI 工作流。硬件合作伙伴如 Advantech、Aetina、ConnectTech 等也在推出面向企业定制的量产方案。

随着 Jetson Thor 的上市,全球超过 200 万开发者将获得更强大的机器人 AI 能力,推动物理人工智能在工业、医疗、物流等领域的落地与创新。

钉钉十周年发布首款 AI 硬件 DingTalk A1,将于 9 月 15 日正式开售

8 月 25 日,钉钉在十周年暨新品发布会上正式发布了 8.0 版本及 AI 钉钉 1.0,同时推出了其首款 AI 硬件产品 DingTalk A1。该新品定位为超薄 AI 录音卡片,厚度仅 3.8 毫米,重量 40.8 克,可磁吸在手机背面使用,兼容 iOS 和安卓设备,主打高效记录、转写、翻译、总结及分析语音沟通内容,并与钉钉工作流程深度打通,为用户提供随身 AI 助理体验。

图源:钉钉

DingTalk A1 搭载 6nm 工艺的恒玄科技 BES2800 AI 音频芯片,配备 5 颗全向麦克风和 1 颗骨传导麦克风,支持 8 米超远拾音,具备强大的环境降噪和发言人定位能力。新品内置 36 个工作与生活场景模板,覆盖会议纪要、面试记录、课堂笔记、咨询会面等多种使用场景,支持语音转文字、AI 总结分析、实时翻译和多语种互译(中、粤、英、日、德、法、俄、韩八种语言),还可通过 AI 助理角色扩展销售、人事、行政等职场应用,并支持自定义配置和与 AI 表格协同。

在续航与存储方面,DingTalk A1 配备 660mA 电池,支持 45 小时连续录音和 60 天待机,采用 Type-C 通用充电接口,内置 64GB 本地存储。数据安全方面,录音文件在设备、App、云端三端加密,支持企业专属数据存储和统一管理。

DingTalk A1 共分旗舰版和青春版,售价分别为 799 元和 499 元。购机用户可获赠每月 1000 分钟语音转文字时长及 10GB 云存储空间。旗舰版还附赠一年尊享会员服务,权益包括不限时长的语音转写和云存储。首批限量 1000 台旗舰版在发布会现场已被抢购一空,9 月 15 日将在淘宝钉钉官方旗舰店正式开售。

谷歌揭秘 “Nano Banana”,Gemini 修图能力重磅升级

8 月 26 日,谷歌正式发布了全新升级的 Gemini 2.5 Flash Image(开发代号 Nano Banana),为 AI 图像生成与编辑带来了前所未有的精准与效率。此次更新已集成于 Gemini 应用,并同步开放给开发者,通过 Gemini API、Google AI Studio 及 Vertex AI 等平台使用,覆盖个人用户与企业客户。

图源:谷歌

值得一提的是,“Nano Banana”这个名字最初在 LMArena 等公开评测平台匿名亮相,凭借卓越的编辑一致性和指令理解能力迅速登顶榜单,引发技术圈和社交媒体广泛讨论。用户纷纷猜测其背后开发者,最终被确认来自谷歌 DeepMind,成为 Gemini 2.5 Flash Image 的代号。谷歌官方随后证实了这一身份,并将该模型集成进 Gemini 应用,全面开放使用。

图源:谷歌

新版本的 Gemini 2.5 Flash Image 支持用户通过自然语言对照片进行精细编辑,能够在保持人物、动物等主体一致性的同时,快速实现换装、场景变换、融合多张图片等复杂操作。无论是将自己与宠物合成一张新照片,还是将产品放入不同背景,模型都能高质量还原细节,避免以往 AI 编辑过程中出现的面部或背景失真问题。用户还可进行多轮编辑,逐步调整图片内容,且每一步都能保持主体外观与风格的一致。

图源:谷歌

Gemini 2.5 Flash Image 还具备设计混合、风格迁移等创新能力,可以将一张图片的色彩与纹理应用到另一对象上,大大提升了创意自由度。企业用户尤其重视的“角色一致性”问题也得以有效解决,确保品牌、产品或人物在不同场景下保持统一形象。

谷歌表示,所有由 Gemini 生成或编辑的图片均会添加可见水印与不可见的 SynthID 数字水印,以应对深度伪造等安全挑战。此次升级也被视为谷歌在 AI 图像生成领域追赶甚至超越 OpenAI、Meta 及 Adobe 等竞争对手的重要一步。谷歌 DeepMind 相关负责人表示,未来将持续完善模型在长文本渲染、一致性及细节表现等方面的能力,推动 AI 创意生产力再上新台阶。

加速 AI 布局,苹果内部讨论收购 Mistral 和 Perplexity

据 The Information 报道,苹果公司高层内部已就收购法国 AI 创企 Mistral 以及美国 AI 搜索引擎公司 Perplexity 进行过讨论。此举被认为是苹果加速人工智能布局、应对落后于 Google 和三星等竞争对手的重要信号。

图源:苹果

苹果服务部门负责人 Eddy Cue 是推动收购的主要支持者,他此前也曾建议公司收购 Netflix 和特斯拉,但均被 CEO Tim Cook 否决。与之相对,苹果软件主管 Craig Federighi 则倾向于自主研发 AI 技术,对大规模收购持谨慎态度。苹果历史上罕有超过数十亿美元的收购案例,最大的一笔是 2014 年以 30 亿美元收购 Beats。

Mistral AI 成立于 2023 年,总部位于巴黎,专注于开发高效、易于部署的开源大语言模型,被视为欧洲对抗 OpenAI 的代表。该公司去年融资后估值已超过 60 亿美元,近期更有传闻称其计划以 100 亿美元估值再融资。而 Perplexity 则以 AI 搜索引擎闻名,结合大语言模型与实时网页索引,强调结果透明和引用来源,目前估值高达 200 亿美元。

有分析指出,苹果之所以考虑收购 AI 企业,部分原因是与 Google 的默认搜索引擎合作面临法院裁决的不确定性。如果与 Google 的 200 亿美元搜索引擎协议被终止,苹果或需通过收购 AI 搜索公司填补空缺。

目前,苹果对大规模收购仍持保守态度,继续以小型收购为主,但 Tim Cook 最近也公开表示,公司对能加速 AI 路线图的并购持开放态度。业内普遍认为,苹果若想在 AI 领域迎头赶上,或许需要借助外部创新力量,而不仅仅依靠自身研发。

谷歌翻译推出 AI 语言学习与实时翻译功能

近日,谷歌翻译(Google Translate)正式上线了一系列由 AI 驱动的新功能,标志着其正式进军语言学习领域,并对 Duolingo 等同类应用发起挑战。此次更新不仅带来了个性化的语言学习体验,还大幅升级了实时翻译能力。

图源:谷歌

谷歌翻译新增的语言学习功能目前处于测试阶段,支持英语用户学习西班牙语和法语,同时也为西班牙语、法语和葡萄牙语用户提供英语学习服务。用户只需在应用中选择“Practice”按钮,设定自身的语言水平和学习目标,或选择如“专业交流”“日常互动”等场景,系统便会基于这些信息,利用 Gemini AI 模型生成定制化的学习内容。例如,若用户希望提升在国外留学期间的日常交流能力,谷歌翻译会推荐与用餐相关的对话场景,并提供听力和口语练习,帮助用户逐步提升实际沟通能力。

图源:谷歌

此外,谷歌翻译还推出了全新的实时翻译功能。用户可以在应用内与他人进行实时语音对话,系统会自动识别双方语言并进行即时翻译,支持超过 70 种语言,包括阿拉伯语、法语、印地语、韩语、西班牙语和泰米尔语等。新功能能够精准捕捉对话中的停顿、语调等细节,使交流更加自然流畅。谷歌表示,这项技术依托于 Gemini 语音和语音识别模型,即使在嘈杂的环境下也能保持高质量的翻译体验。

图源:谷歌

目前,这些功能率先在美国、印度和墨西哥上线,未来有望进一步扩展支持范围。谷歌强调,AI 赋能的语言学习和实时翻译不仅能帮助用户克服语言障碍,也为全球用户带来更智能、更便捷的跨语言沟通体验。

英伟达公布 Q2 财报,营收 467.4 亿美元,净利润同比增长 59%

8 月 27 日,全球市值最高公司英伟达公布了 2026 财年第二季度财报,营收达 467.4 亿美元,同比增长 56%,净利润跃升至 264.2 亿美元,较去年同期增长 59%。受益于人工智能基础设施的持续强劲需求,英伟达再次超出市场预期,调整后每股收益为 1.05 美元,高于分析师预估的 1.01 美元。

图源:英伟达

英伟达核心的数据中心业务本季度营收为 411 亿美元,同比增长 56%,但略低于市场预期的 413 亿美元。公司最新一代 Blackwell AI 芯片销售表现突出,环比增长 17%,占据数据中心营收约七成。与此同时,网络业务收入创下 73 亿美元新高,较去年同期增长近一倍,汽车业务营收也同比激增 69%,达 5.86 亿美元。

值得关注的是,英伟达本季度未向中国客户销售专为中国市场设计的 H20 芯片,部分库存则以 6.5 亿美元的价格售予海外客户。公司表示,受美中贸易和出口管制影响,第三季度业绩展望未包含任何对华 H20 芯片出货,预计营收为 540 亿美元,较去年同期增长 54%,但未能满足部分分析师更高的预期。

英伟达首席执行官黄仁勋在财报电话会议上表示,全球 AI 基础设施建设仍处于早期阶段,预计到本十年末相关投入将高达 3 至 4 万亿美元。尽管出口管制和地缘政治风险持续影响中国市场,公司长期前景依然乐观,并宣布董事会批准高达 600 亿美元的股票回购计划,彰显对未来增长的信心。

受数据中心业务略逊预期及中国市场不确定性影响,英伟达股价在盘后交易中一度下跌超过 3%。业内分析人士指出,尽管本季度部分指标未达顶级预期,但英伟达在 AI 芯片领域的技术和市场领导地位依然稳固,未来仍有望在全球人工智能热潮中持续受益。

Meta 高薪挖角后又遭遇人才流失,多位顶尖 AI 研究员跳槽回归 OpenAI

近日,Meta 的超级智能实验室(Meta Superintelligence Labs)在成立仅两个月后,已接连失去多位核心 AI 研究人员,其中部分成员短暂任职后便重返竞争对手 OpenAI。这一现象引发业界关注,凸显了 Meta 在全球 AI 人才争夺战中的挑战。

据报道,Meta 自今年 6 月起通过高薪和丰厚福利从 OpenAI、谷歌、苹果等公司挖来多名顶尖 AI 人才,包括 Avi Verma 和 Ethan Knight,两人均在 Meta 工作不到一个月即回归 OpenAI。此外,Meta 负责生成式 AI 产品管理的资深主管 Chaya Nayak 也宣布加入 OpenAI 特别项目团队。另一位研究员 Rishabh Agarwal 在社交平台发文表示,尽管 Meta 拥有强大的计算资源和优秀团队,但他选择离开,寻求新的风险和挑战。

图源:X

Meta 发言人回应称,激烈的人才竞争下,部分员工选择留在原公司或短暂试水后离职属于正常现象。然而分析指出,Meta 的 AI 团队在过去一年经历了多轮重组,内部结构不断调整,导致部分员工对工作稳定性和团队氛围产生疑虑。与此同时,Meta 原有的 Llama 开源模型团队也出现核心成员大量流失,部分成员投身初创企业或加入其他竞争对手,动摇了公司在开源 AI 领域的根基。

随着 OpenAI、Anthropic、Google DeepMind 等公司持续加码 AI 研发,全球科技巨头间的“人才争夺战”愈演愈烈。Meta 虽然投入巨资招揽顶级人才,但能否真正留住核心成员并形成稳定、高效的团队,仍面临巨大考验。业内人士认为,人才流失和组织动荡或将影响 Meta 在 AI 领域的长期竞争力。

雷朋母公司有意增持尼康,尼康股价大涨 21%

据海外媒体报道,法国-意大利眼镜巨头依视路陆逊梯卡(EssilorLuxottica)正在考虑将其在日本光学设备制造商尼康公司的持股比例从目前的近 9% 提升至约 20% 。受此消息影响,尼康在东京市场的股价创下历史最大单日涨幅,飙升 21% 。此前,尼康股价今年已累计下跌 11% ,公司市值约为 33 亿美元。

图源:网络

图源:网络

依视路陆逊梯卡与尼康自 2000 年起便有长期合作关系,双方共同运营眼镜相关的合资企业 Nikon-Essilor。此次增持计划受到日本政府关注,原因在于尼康部分技术涉及半导体光刻领域,具有较高的敏感性。尼康在光刻设备市场与全球领先企业 ASML 竞争,主要为芯片制造商如英特尔和台积电供应设备,但在极紫外(EUV)光刻机领域已落后于 ASML。

近期,尼康因影像和医疗业务放缓,下调了全年业绩预期近一半。依视路陆逊梯卡则在智能眼镜领域持续发力,旗下 Ray-Ban Meta 智能眼镜今年上半年销量同比增长超过三倍,并在最新财报中称尼康为镜片业务的重要合作伙伴。

目前,依视路陆逊梯卡增持尼康股份的相关讨论尚在进行中,双方均未对此事发表评论,交易能否最终达成仍存在不确定性。

苹果更新 Xcode 26 测试版,集成 GPT-5 与 Claude AI 模型

8 月 29 日,苹果发布了 Xcode 26 Beta 7 测试版,为开发者带来了两项重磅 AI 功能:支持 OpenAI 最新的 GPT-5 以及 Anthropic 的 Claude Sonnet 4 模型。此次更新不仅提升了开发者的编码效率,也丰富了智能助手的选择。

图源:苹果

根据 Xcode 官方文档,Xcode 26 Beta 7 现已将 GPT-5 设为默认 AI 模型,开发者可以在对话中选择 GPT-5 或回到以前的 GPT-4.1。GPT-5 针对快速、高质量的编码任务进行了优化,而“GPT-5(推理版)”则专为复杂任务设计,会投入更多时间思考,提升结果的准确性。

与此同时,Claude Sonnet 4 也首次以原生方式集成进 Xcode。开发者只需在智能设置面板中添加自己的 Claude 付费账号,即可直接调用 Claude Sonnet 4 进行代码辅助,无需繁琐的 API 配置。

苹果在今年 WWDC 上曾强调 Xcode 26 的 AI 集成能力,允许开发者利用 ChatGPT、Claude 等大模型编写代码、修复错误、查阅文档甚至迭代设计。除了内置的 ChatGPT 与 Claude,开发者还可通过 API 密钥接入其他 AI 平台,或在搭载 Apple 芯片的 Mac 上运行本地模型,满足个性化需求。

Zed 编辑器正式集成 Gemini CLI,推动 AI 编程工具开放标准

Google 宣布旗下开源 AI 工具 Gemini CLI 正式集成至高性能代码编辑器 Zed,为开发者带来更便捷的 AI 编程体验。

图源:谷歌

Gemini CLI 现已深度融入 Zed 编辑器,开发者可直接在编辑器内生成、重构代码,实时获取代码或错误解释,并能通过集成终端与 AI 进行自然语言互动。更重要的是,开发者可实时跟踪 Gemini AI 代理的操作流程,所有改动会以清晰的差异界面呈现,便于审核、接受或进一步修改,极大提升了代码质量与协作效率。此外,用户还可为 AI 代理提供超越本地代码库的外部文档或 API 说明,助力解决更复杂的开发问题。

此次集成得益于 Zed 团队推出的 Agent Client Protocol(ACP)开放协议。ACP 旨在打破传统编辑器与 AI 代理之间的壁垒,为第三方智能体提供标准化接入方式。Google Gemini CLI 成为首个深度支持 ACP 的参考实现,未来包括 Neovim 在内的更多编辑器和 AI 代理也有望加入这一开放生态。Zed 团队表示,ACP 的愿景是像 Language Server Protocol 一样,推动开发工具领域的标准化和多样化,让开发者自由选择和组合最适合自身需求的 AI 助手。

当前,主流代码编辑器如 VS Code 已集成多种 AI 助手,但受限于平台和扩展机制,难以实现真正的开放互通。Google 与 Zed 的合作则强调“自选编辑器”理念,避免开发者被单一平台锁定,为 AI 编程工具的创新和协作打开了更广阔的空间。

微软发布两款自研 AI 模型,强化 Copilot 产品线,与 OpenAI 展开竞争

8 月 28 日,微软宣布推出两款自主研发的人工智能模型 MAI-Voice-1 和 MAI-1-preview,正式加入全球顶尖 AI 模型的竞争行列。这一举措标志着微软在长期支持 OpenAI 之后,开始在基础模型领域加速自立,强化其在 AI 领域的竞争力。

图源:微软

MAI-Voice-1 是微软首个高度自然、富有表现力的语音生成模型,能够在单个 GPU 上于一秒内生成一分钟音频,效率居业界前列。该模型目前已集成至 Copilot Daily 和 Podcasts,并在 Copilot Labs 提供体验,支持多说话人场景和丰富的语音表达,被视为未来 AI 语音交互的重要接口。

与此同时,微软还发布了 MAI-1-preview,这是一款基于“混合专家”(mixture-of-experts)架构的大型文本模型,训练过程中动用了约 15000 块英伟达 H100 GPU。该模型专为理解指令和生成有用回复而设计,未来将逐步应用于 Copilot 助手的文本场景,并在 LMArena 平台开放测试。微软表示,MAI-1-preview 在硬件资源利用上极具成本效益,性能已接近业内顶级模型。

微软 AI 部门负责人 Mustafa Suleyman 在接受采访时强调,微软必须具备自主打造世界一流模型的能力,以保持在 AI 领域的长期领先。尽管与 OpenAI 的合作依然紧密,但微软自研模型的推出无疑将加剧双方在基础模型领域的竞争。微软还透露,下一代模型将基于最新的 GB200 GPU 集群进行训练,持续推进 AI 技术的边界。

陀螺科技现已开放专栏入驻,详情请见入驻指南: https://www.tuoluo.cn/article/detail-27547.html

前方智能专栏: https://www.tuoluo.cn/columns/author1911845/

本文网址: https://www.tuoluo.cn/article/detail-10124947.html

免责声明:
1、本文版权归原作者所有,仅代表作者本人观点,不代表陀螺科技观点或立场。
2、如发现文章、图片等侵权行为,侵权责任将由作者本人承担。

相关文章