软银出售所持英伟达所有股份;Meta 首席 AI 科学家将离职创业;Cursor 获 23 亿美元融资;

IP归属:广东

文章AI导读

一键萃取文章精髓,核心观点即刻呈现

近日,英国柯林斯词典将 “vibe coding” 评为 2025 年年度词汇。该词源自 OpenAI 联合创始人、前特斯拉 AI 负责人 Andrej Karpathy 在今年 2 月提出的概念,意指通过自然语言向 AI 描述需求,由 AI 生成并改进计算机代码。柯林斯给出的定义为“使用由自然语言驱动的人工智能来协助编写代码”,反映了人机交互方式正向“用英语(或母语)编程”的新范式演进。

图源:柯林斯词典

“Vibe coding” 的流行标志着软件开发门槛进一步降低:非专业人士可用简短指令快速产出基础应用,资深工程师也能用其原型验证与迭代,然而生成代码可能存在缺陷或安全漏洞,投入生产环境需格外谨慎。

从语言学角度看,柯林斯词典团队通过 240 亿词规模语料库观测到 “vibe coding” 的使用量自今年 2 月显著攀升。管理董事 Alex Beecroft 表示,该词精准捕捉了技术与语言并行演化的路径,也折射出 AI 让编程更易触达的行业趋势。

微软组建 MAI 超级智能团队,由 DeepMind 联合创始人带领

近日,微软正式宣布在微软 AI 首席执行官 Mustafa Suleyman(穆斯塔法·苏莱曼)的领导下,成立 MAI Superintelligence 团队,目标是研发以人为本的超级智能(Humanist Superintelligence,简称 HSI),并明确强调该技术必须“服务人类”、在明确边界内运行、保持人类对系统的持续控制。

图源:网络

官方强调,这不是技术竞赛,而是围绕具体社会难题,以可验证的安全与控制为前提推进超级智能。这一动向发生在微软与 OpenAI 调整合作关系后,微软加速构建自主 AI 能力的背景下。

在应用路径上,微软将优先推进三大方向:为大众提供可负担、可个性化的 AI 伴侣;打造医疗超级智能,在诊断全谱与临床运营预测中实现专家级表现;以及助推可再生能源的科学与工程突破。微软称其医疗研究编排器 MAI‑DxO 在《NEJM》病例挑战中达成 85% 诊断准确率,远超人类医生约 20% 的水平,这一更聚焦的“领域超级智能”有望降低对齐与约束的复杂度。

Suleyman 在接受 Semafor 采访时明确提出能力与安全的“取舍”:团队将优先保证人类可解释与可监督的交互,即便这意味着牺牲部分效率和峰值性能。他指出,人类不能在“向量空间”中与模型直接沟通,因此模型需以人类可理解的语言与规则受限运作,避免出现不可控的自治、自我改进与自定目标等能力以引发风险

英特尔首席技术官跳槽至 OpenAI

英特尔首席技术官与 AI 主管 Sachin Katti 已离开英特尔,加入 OpenAI,负责“设计与构建用于 AGI 的算力基础设施”。

图源:X

OpenAI 联合创始人兼总裁Greg Brockman在 X 上发文欢迎 Katti,并表示对其在算力架构与规模化应用方面的推进充满期待。Katti 随后在 X 发文确认加盟,称期待与 OpenAI 团队合作,并对过去 4 年在英特尔主导网络、边缘计算与 AI 的经历表示感谢。

英特尔方面证实这一人事变动,并宣布 CEO 陈立武将亲自统筹公司的 AI 与先进技术团队,强调 “AI 仍是英特尔的最高战略优先级”,公司将持续推进面向新兴 AI 工作负载的技术与产品路线图。此次变动发生在英特尔加速 AI 转型、但在数据中心 AI 芯片上仍面临与英伟达、AMD等对手竞争压力的背景下。此前,英特尔多位高管相继离任,公司也在调整数据中心与 AI 战略并推出新一代 GPU 与开放系统与软件架构。

Meta 开源 Omnilingual ASR,原生支持 1600+ 语言

11 月 10 日,Meta 发布全新开源语音识别套件 Omnilingual ASR,原生覆盖 1600+ 语言,其中包含 500 多种此前未被任何 ASR 系统支持的低资源语言。该系统采用大规模自监督的语音表征模型并提供两种解码架构(CTC 与 LLM‑ASR),在 7B 规模的 LLM‑ASR 模型上实现跨 1600+ 语言的先进识别效果,官方报告称有 78% 的语言字符错误率(CER)低于 10。

图源:Meta

与以往需要专家微调才能引入新语言的方案不同,Omnilingual ASR 引入零样本上下文学习:社区可在推理时提供少量音频‑文本配对样本,即可在无需再训练的情况下为未覆盖语言生成可用转写。这一架构从静态能力转向可扩展框架,理论上可推广至 5400+ 有已知书写系统的语言,显著降低了濒危与口述语言进入数字世界的门槛。

图源:Meta

在工程实现上,Meta 将 wav2vec 2.0 的语音编码器首次扩展至 7B 参数,结合CTC解码与受 LLM 启发的 Transformer 文本解码,形成覆盖从 300M 到 7B 的完整模型族。除模型外,Meta 还发布了覆盖 350 种欠服务语言的 Omnilingual ASR 语料库,以及可探索语言覆盖与在线体验的演示。上述代码与模型均以 Apache 2.0 许可开源,数据以 CC‑BY 许可发布,并基于 FAIR 的 fairseq2 框架构建。

软银出售所持英伟达所有股份,套现 58.3 亿美元

日本软银集团宣布在 10 月已清仓持有的全部英伟达股份,共计 3210 万股,套现约 58.3 亿美元;同时出售部分 T‑Mobile 股份,回收 91.7 亿美元,并以 Arm 股份设定保证金贷款,以增强现金储备。软银称此次减持是其“资产变现”策略的一部分,主要用于为对 OpenAI 的巨额投资提供资金支持,而非对英伟达基本面的负面判断。消息公布后,英伟达当日股价一度下挫约 2%—3%。

图源:网络

财务层面,软银在截至 9 月的财季录得约 2.5 万亿日元(约 162 亿美元)的净利润,同比翻倍,利润增长主要来自科技投资组合的估值收益,其中包括对 OpenAI 与日本移动支付 PayPay 的持股增值。公司管理层表示,年内对 OpenAI 的投资总额需超过 300 亿美元;其中已明确的 22.5 亿美元出资安排,将由清仓英伟达、减持 T‑Mobile、以及以 Arm 抵押融资等组成的“现金来源”共同支撑。软银方面强调,出售英伟达与对 AI 产业的乐观判断并不矛盾,核心在于资金再配置以把握下一个价值累积点。

在战略布局上,软银仍深度嵌入 AI 产业链上游与下游:一方面通过持有约 90% 的 Arm 巩固其在芯片生态中的地位,另一方面加码“物理 AI”与算力基础设施,包括拟斥资 65 亿美元收购 Ampere Computing、以约 54 亿美元收购 ABB 机器人业务,以及参与由 OpenAI 与 Oracle 推动的美国 Stargate 超级数据中心计划。随着 OpenAI 最新一轮资本重组及估值提升,软银持股比例预计提升至约 11%,公司亦宣布将于明年实施一拆四的股票拆分,以扩大投资者基础。

Meta 首席 AI 科学家 Yann LeCun 计划离职创业

根据《金融时报》报道,Meta 首席人工智能科学家、图灵奖得主 Yann LeCun 计划在未来数月离开 Meta,自立门户筹建初创公司。消息指出,他已与潜在投资方展开了初步融资洽谈。

图源:网络

多方信息显示,LeCun 的新公司将延续其在世界模型上的长期研究路径:通过让 AI 构建对环境的内部表征,模拟因果与规划能力,从而突破仅依赖语言的 LLM 的局限。他对于当下行业将大模型视为“万能解”的叙事一直持审慎态度。

此次人事变动的背景是 Meta 今年以来对 AI 组织的重构:扎克伯格将公司的 AI 布局重心转向更快迭代的模型与产品,成立 Meta Superintelligence Labs(MSL),并以约 143 亿美元对数据标注公司Scale AI进行战略投资与深度合作,邀请其创始人 Alexandr Wang 加盟并负责该新部门。在这一架构下,LeCun 从此前向 Chris Cox 汇报,改为向 Alexandr Wang 汇报。与此同时,Meta 的长期研究部门 FAIR(Fundamental AI Research)被弱化,前代模型 Llama 4 的发布与表现也被认为未能匹敌主要竞争对手。

多家媒体还提到,Meta 在推进“超级智能”愿景的过程中频繁组织与人员调整,既有高薪引入顶级人才,也伴随内部摩擦与效率争议;LeCun 的离开,被视为这一波动期内又一关键节点。尽管细节尚待后续披露,但从技术路线与组织优先级的分歧到产品化压力的加码,均成为此番变动的导火索。

OpenAI 推出 GPT‑5.1,语气更温暖,推理更聪明

OpenAI 宣布升级其旗舰模型家族,推出 GPT‑5.1 Instant 与 GPT‑5.1 Thinking。官方称,Instant 版默认语气更温暖、写作更自然、指令遵循更可靠,并首次引入面向日常使用的自适应推理:在问题更复杂时“先思考再回答”,在简单任务上则更快给出结果;Thinking 版则在复杂问题上花更长时间、简单问题更快并减少行话与不清晰术语,整体回应更易理解。OpenAI 同步上线 GPT‑5.1 Auto 自动路由,让系统为多数请求自动选择更合适的模型,无需用户手动切换。

图源:OpenAI

此次更新显著扩展聊天个性预设:在原有 Default、Friendly(原 Listener)、Efficient(原 Robot)、Nerdy、Cynical 的基础上,新增 Professional、Candid、Quirky,并提供更精细的风格调节,且这些偏好可跨会话即时生效,反映出 OpenAI 在“因人而异”的使用场景上对定制化的重视。

图源:OpenAI

在可用性与过渡期方面,GPT‑5.1 已陆续向 Pro、Plus、Go 与 Business 付费用户滚动推出,随后拓展至免费与未登录用户;旧版 GPT‑5 将在付费用户的“Legacy models”下保留约三个月,以便对比与平滑迁移。OpenAI 还计划在本周将两款 5.1 模型纳入 API,并将 gpt‑5.1‑chat‑latest 作为 Instant,GPT‑5.1 作为 Thinking 的接口名称,同时强调在 AIME 2025 与Codeforces等数学与编码评测上有“显著改进”。

总体来看,GPT‑5.1 的核心变化集中在三点:一是对话风格更自然并提供跨模型一致的个性化控制;二是通过自适应推理改善复杂任务的严谨性与简单任务的响应速度;三是以 GPT‑5.1 Auto 降低使用门槛并辅以明确的三个月迁移窗口。对于此前在数学、编码与路由体验上对 GPT‑5 表示不满的用户,此次更新旨在补齐能力与可用性两端的短板。

World Labs 正式推出 Marble,多模态世界模型面向公众开放,支持生成与编辑可下载的 3D 环境

由李飞飞创立的 World Labs 正式推出 Marble,这是一款面向大众的多模态世界模型,可将文本、图片、视频、3D 布局或全景输入生成持久、可编辑并可下载的 3D 环境,并支持导出为高斯点云、三角网格或视频。与同类演示型或实时生成方案不同,Marble 重点在于生成“持久世界”,从而减少边缘“形变”和一致性问题,并引入 AI 原生编辑能力,面向游戏、影视特效与 VR 等近场应用场景。

图源:World Labs

图源:World Labs

Marble 的核心能力围绕“多模态输入—可控生成—结构与风格解耦—世界扩展与组合—多格式导出”的完整链路:支持从文本、图像、视频或粗 3D 布局直接升维到完整 3D 世界;实验性 3D 编辑器 Chisel 允许先用墙体、盒体等粗粒度结构“搭骨架”,再用文本控制风格,实现结构与风格解耦;已生成的世界可进行一次扩展,在指定区域填充更多细节,并可通过 composer 模式拼接多个世界构建更大空间;输出方面,除了高斯点云(浏览器端可用 Spark/THREE.js 渲染)与高/低精度网格,还支持像素级相机控制的视频渲染与后期视频增强。World Labs 同步上线 Marble Labs,提供案例、教程与文档,面向游戏、VFX、设计、机器人等工作流。

商业模式方面,Marble 提供四档订阅:Free(文本/图片/全景 4 次生成)、Standard 每月 20 美元(12 次生成,含多图/视频输入与高级编辑)、Pro 每月 35 美元(25 次生成,含场景扩展与商业使用权)、Max 每月 95 美元(全部功能与 75 次生成)。在制作流程中,Marble 可为游戏开发者批量生成背景与环境资产,再导入 Unity 或 Unreal 添加交互逻辑;对影视特效,3D 资产使镜头与机位控制更为稳定、精确,并规避纯视频生成的一致性与相机控制问题;VR 行业“内容饥渴”背景下,Marble 生成的每个世界均可立即在主流头显查看。

在竞品对比上,Marble 与 Decart、Odyssey 的免费演示,以及 Google Genie 的研究预览不同,强调“可下载的持久 3D 世界”而非纯实时的“边走边生”。World Labs 此前的 RTFM(Real‑Time Frame Model)代表“实时生成”路线,而 Marble 将持久性与编辑可控性向前迈进一步。

从技术愿景上看,李飞飞提出的 “空间智能”(Spatial Intelligence)被视为大型语言模型之后的下一前沿:世界模型需具备生成一致性、多模态理解与交互式状态演进三大能力,才能让机器从“能读写”走向“能看、能建、能在三维空间中理解与行动”。Marble 被定位为迈向这一目标的第一步,未来将围绕交互性拓展,以支持人类与智能体在生成世界中的实时互动,服务模拟、机器人与科学探索等更长周期场景。

Cursor 获 23 亿美元融资,估值达 293 亿美元

面向开发者的 AI 代码编辑器 Cursor 宣布完成 23 亿美元 D 轮融资,投后估值达 293 亿美元。本轮由 Accel 与 Coatue 领投,谷歌与英伟达作为战略方加入,Thrive Capital、Andreessen Horowitz 与 DST 继续跟投。公司披露其年化收入已突破 10 亿美元,员工规模扩至 300 多人,安装基数覆盖数百万开发者与全球顶尖工程组织。

图源:Cursor

Cursor 由 4 名 MIT 毕业生于 2022 年创立,2023 年产品正式推出,近半年估值从 99 亿美元(2025 年 6 月 C 轮 9 亿美元)跃升至 293 亿美元,显示 AI 编码工具赛道的持续升温与资本看好。公司称与 OpenAI、Anthropic、谷歌等模型提供方保持合作,同时在自研方面加大投入以降低对第三方的依赖。

技术层面,Cursor 基于微软开源编辑器 VS Code 深度改造,引入可生成与修复代码的多模型工作流,并于 10 月推出自研混合专家模型 Composer,Composer 在可比质量下速度提升约 4 倍,部分组件通过直接以 PTX(非 CUDA 库)编写内核而获得 3 倍以上性能增益,并采用更紧凑的数据格式 MXFP8,针对 Blackwell B200 做了定制优化。Cursor 2.0 同步上线内嵌浏览器与并行多智能体,以加速网页应用的生成与测试。

百度发布文心大模型 5.0 与 M100/M300 自研 AI 芯片

11 月 13 日,百度在年度「百度世界 2025」大会上发布两款自研 AI 加速器与全新基础模型文心 5.0(ERNIE 5.0),并公布芯片集群与应用生态的阶段性路线图,意在降低推理成本、提升大模型训练与多模态能力,同时加速中国本土算力体系的构建与产业应用落地。

图源:百度

芯片方面,百度宣布由昆仑芯团队推出的 M100 将在 2026 年面向推理场景量产,重点优化混合专家(MoE)架构的推理效率;面向超大规模多模态训练的 M300 预计 2027 年推出。公司同步披露「天池」超节点集群计划:2026 年上半年上线「Tianchi256」以 256 片 M100 构成的机架级计算域,年内再扩展至「Tianchi512」;更长期目标是在 2030 年实现单集群百万卡规模的「超节点」。百度方面称,已在内部大规模部署的昆仑超节点首次公开亮相,单卡性能提升可达 95%,单实例推理性能最高提升 8 倍;新一代 256 卡方案的互联总带宽较今年 4 月发布的版本提升 4 倍,主流模型推理的单卡 Token 吞吐提升约 3.5 倍。

图源:百度

在基础模型层面,百度发布原生全模态基础模型文心 5.0,支持文本、图像、音频、视频的联合建模与生成,并上线预览版本(含偏重文本的 Preview 1022)。官方强调文心 5.0 在多模态推理、文档理解与图表问答等企业核心场景中表现领先或与西方顶级模型(如 GPT-5、Gemini 2.5 Pro)相当;视觉生成方面,基于内部 GenEval 评测显示其在语义对齐与画质上与 Veo3 旗鼓相当或更优。价格策略上,文心 5.0 处于百度企业 API 的高端定价档,输入约 0.85 美元 / 百万 Tokens、输出约 3.40 美元 / 百万 Tokens,相比文心 4.5 Turbo 明显溢价,定位复杂任务与多模态高能力场景。

陀螺科技现已开放专栏入驻,详情请见入驻指南: https://www.tuoluo.cn/article/detail-27547.html

前方智能专栏: https://www.tuoluo.cn/columns/author1911845/

本文网址: https://www.tuoluo.cn/article/detail-10126799.html

免责声明:
1、本文版权归原作者所有,仅代表作者本人观点,不代表陀螺科技观点或立场。
2、如发现文章、图片等侵权行为,侵权责任将由作者本人承担。

相关文章