甲骨文斥资 400 亿美元采购英伟达芯片,助力 OpenAI 建设美国最大 AI 数据中心
2025 年 5 月 24 日,甲骨文宣布将斥资约 400 亿美元,购买 40 万颗英伟达最新 GB200 高性能芯片,用于支持 OpenAI 在美国得克萨斯州阿比林(Abilene)建设全新巨型数据中心。该项目被称为“星际之门”(Stargate),由 OpenAI、软银和甲骨文共同推动,总投资预计高达 5000 亿美元的超大规模数据中心计划。
图源:路透社
阿比林数据中心预计将于 2026 年中期全面投入运营,完工后将拥有 1.2 吉瓦的电力,成为全球最大的数据中心之一。甲骨文将以 15 年长期租赁方式获得该中心的使用权,并把算力租赁给 OpenAI,用于训练和部署先进的人工智能模型。
该项目的场地由 Crusoe Energy 和 Blue Owl Capital 共同拥有,已通过债务和股权融资筹集了 150 亿美元,其中摩根大通提供了 96 亿美元贷款。项目前期,OpenAI 和软银将各自向“星际之门”项目投资 180 亿美元,甲骨文和阿布扎比主权基金MGX 则分别承诺投资 70 亿美元。
此次合作不仅有助于 OpenAI 减少对微软的依赖,还将推动美国 AI 行业基础设施的升级。与此同时,甲骨文也计划与 OpenAI 在阿联酋等地展开更多数据中心建设合作,持续扩大其在全球 AI 领域的影响力。
OpenAI 升级 Operator,o3 推理模型接棒 GPT-4o
5 月 23 日,OpenAI 宣布其 AI 代理Operator的底层模型正式从定制版 GPT-4o 升级为最新的 o3 推理模型。Operator 是 OpenAI 于 2025 年 1 月推出的半自动化智能体,能够在云端虚拟浏览器中自主浏览网页、填写表单、预订餐厅等,帮助用户高效完成各类在线任务。
图源:Getty Images
据 OpenAI 及多家科技媒体报道,o3 模型在数学和推理等复杂任务上的表现远超前代,基准测试显示其浏览器交互更加稳定、准确,任务完成率显著提升。用户反馈也显示,升级后的 Operator 回复更加清晰、结构化,信息量更丰富。
安全性方面,o3 Operator 继承并强化了多层安全机制,针对敏感操作会主动确认,并对高风险平台采取严格限制。技术报告显示,新模型在防范提示注入等 AI 攻击上表现更优,且不会主动搜索敏感个人数据。
目前,Operator 仍以“研究预览”形式开放,仅限 OpenAI 200 美元/月的 ChatGPT Pro 订阅用户使用。API 版本暂时继续采用 GPT-4o。此次升级不仅提升了 Operator 的实用性,也体现了 OpenAI 在安全和责任部署方面的持续投入。
字节跳动开源多模态大模型 BAGEL
2025 年 5 月,字节跳动团队正式开源了自主研发的多模态基础模型 BAGEL,在 GitHub、Hugging Face等平台同步上线。BAGEL 拥有 70 亿激活参数(总参数 140 亿),基于大规模交错的语言、图像、视频和网页数据进行训练,支持文本、图像的理解、生成与编辑,性能全面超越 Qwen2.5-VL、InternVL-2.5 等开源视觉语言模型,并在多项公开基准测试中取得领先成绩。
图源:BAGEL
BAGEL 采用 Mixture-of-Transformer-Experts 架构,结合双编码器设计,能够同时捕捉像素级和语义级的图像特征,实现统一的多模态推理和生成。模型不仅在传统图像编辑场景下表现优异,还具备自由视觉操控、多视角合成、世界导航等“世界建模”能力,突破了以往图像编辑模型的局限。
图源:BAGEL
据官方消息,BAGEL 在 MMBench、MM-Vet、MathVista 等多项视觉理解测评中均刷新开源模型纪录,在文本生成图像、智能编辑等任务上与专用生成器 SD3、FLUX 等媲美甚至超越。
BAGEL 项目采用 Apache 2.0 开源协议,所有代码、模型权重与文档均已开放。团队号召全球开发者共同参与模型优化与案例收集,推动多模态人工智能生态发展。
BAGEL 已上线 Gradio WebUI、ComfyUI、Windows 一键包等多种易用工具,支持开发者快速体验和二次开发。
OpenAI 将在韩国设立亚洲第三个办事处
5 月 27 日,多家媒体报道,人工智能公司 OpenAI 宣布已在韩国设立法人实体,并计划未来几个月内在首尔开设办事处。这将是 OpenAI 继日本、新加坡之后在亚洲的第三个办事处。公司同时启动本地招聘,以支持与企业及政策制定者的合作。
图源:Getty Images
OpenAI 首席战略官 Jason Kwon 表示,韩国拥有除美国之外全球最多的 ChatGPT 付费用户,过去一年韩国每周活跃用户数增长了 4.5 倍,显示出极强的 AI 应用活力。Kwon 强调,韩国从半导体到软件、从学生到老年人,具备完整的 AI 生态,是全球最具潜力的市场之一。
自 2022 年 11 月推出 ChatGPT 以来,OpenAI 持续加码亚洲市场布局。韩国新办事处将进一步推动 AI 技术在当地的普及与落地,深化与本地企业、开发者和政策方的合作。OpenAI 目前已在日本、新加坡、伦敦、纽约、巴黎等地设有分支机构。
Claude 推出语音模式,并免费开放网页搜索功能
近日,人工智能公司 Anthropic 宣布,其 AI 助手 Claude 在移动端应用中上线语音模式,并将网页搜索功能扩展至所有免费用户。语音模式目前处于测试阶段,支持 iOS 和 Android 平台,用户可以与 Claude 进行完整的语音对话,体验更自然、流畅的交流方式。该功能还允许用户在语音和文字输入之间无缝切换,并在对话结束后生成摘要和文字记录。
图源:X
据官方介绍,Claude 语音模式支持五种不同声音选择,用户可根据个人偏好自定义体验。付费用户还可通过语音让 Claude 访问 Google 日历、Gmail 邮箱及 Google Docs 文档,实现日程管理、邮件摘要和文档检索等多种场景的智能助理服务。语音对话数量对于免费用户有限制,每日大约可进行 20 至 30 次,付费订阅则享有更高上限。
图源:X
与此同时,Claude 的网页搜索功能也已向所有免费用户开放。用户可直接通过 Claude 获取实时互联网信息,并在回答中获得来源引用,提升信息的权威性与实用性。此次更新进一步缩小了 Claude 与 OpenAI ChatGPT、Google Gemini 等竞品在语音交互和信息整合方面的差距。
Neuralink 融资 6 亿美元,估值飙升至 90 亿美元
据多家媒体 5 月 27 日报道,埃隆·马斯克(Elon Musk)旗下脑机接口公司 Neuralink 最新一轮融资筹集了 6 亿美元,公司估值跃升至 90 亿美元。此前,Neuralink 在 2023 年的估值约为 35 亿至 50 亿美元。
图源:网络
Neuralink 近期已将脑机芯片植入三位瘫痪或无法说话的患者体内。最新一位为一名患有渐冻症(ALS)的亚利桑那州男子,他通过芯片实现了用大脑控制电脑、上网、发帖和移动光标等操作。马斯克表示,未来该技术有望帮助更多健康或残障人士,甚至实现网络冲浪和“心灵感应”交流。
Neuralink 目前尚未实现商业化,但已获得美国食品药品监督管理局(FDA)的“突破性”标签,显示其技术在医疗领域具有重要潜力。业内分析认为,随着更多志愿者参与试验和技术的不断进步,Neuralink 有望加速推进脑机接口的实际应用。
DeepSeek R1 模型小幅升级,强化编程能力
2025 年 5 月 28 日,国内 AI 初创公司 DeepSeek 宣布对其 R1 推理模型进行“小版本试升级”,并已在 Hugging Face 平台开放新版模型下载。此次升级不仅保持了 API 接口和使用方式的稳定,还显著提升了模型的编程能力,支持用户直接生成并测试 Python 和 HTML5 互动小游戏,降低了技术门槛,方便教育和公益等场景的应用。
图源:Getty Images
据悉,R1 模型自年初发布以来,因在推理基准测试中超越多家国际领先模型而备受瞩目。此次更新后的 R1 模型参数规模达到 6850 亿,并采用 MIT 开源协议,支持商业化使用。DeepSeek 鼓励开发者通过官网、App 及小程序等渠道反馈升级体验。
业内人士指出,DeepSeek 在持续技术迭代的同时,也面临来自国际监管和硬件限制的压力。公司通过提升模型计算效率,积极应对算力和政策挑战。
英伟达发布 Q1 财报,业绩超预期,但受中美贸易影响损失近百亿美元
5 月 29 日,英伟达公布了 2026 财年第一季度财报,营收同比大增 69%,达到 440.6 亿美元,净利润 188 亿美元,均超出市场预期。数据中心业务表现尤为突出,收入同比增长 73%,达到 391 亿美元,占公司总营收的 88%。受此利好消息推动,英伟达股价盘后上涨约 4%。
图源:Getty Images
然而,受美国政府最新出口管制政策影响,英伟达面向中国市场的 H20 AI 芯片销售被迫中止,公司因此在本季度计提 45 亿美元存货和采购承诺减值,并损失 25 亿美元的 H20 芯片销售收入。英伟达预计,相关政策将在第二季度带来高达 80 亿美元的营收损失,使得公司二季度营收指引下调至约 450 亿美元,远低于此前的 530 亿美元预期。
英伟达 CEO 黄仁勋在财报电话会上表示,H20 芯片出口禁令已让英伟达在中国的 Hopper 数据中心业务“彻底终结”,中国 500 亿美元的 AI 芯片市场“实际上已对美国企业关闭”。他警告称,限制中国市场只会削弱美国企业的全球竞争力,反而助推中国本土芯片企业崛起。
尽管面临地缘政治和贸易政策的不确定性,英伟达凭借全球范围内对 AI 基础设施的强劲需求,继续保持高速增长。公司预计,随着生成式 AI 和智能体应用的普及,AI 计算需求将持续攀升,英伟达仍处于行业变革的核心位置。
FLUX.1 Kontext 发布,速度比 GPT-Image 快 8 倍
5 月 29 日,知名 AI 初创公司 Black Forest Labs(BFL)正式推出全新一代图像生成模型 FLUX.1 Kontext。这一模型不仅支持文本生成图片,还能通过文本和参考图片进行精准编辑,实现真正的“in-context”上下文图像生成,极大提升了 AI 管道的灵活性和效率。
图源:BFL
据 BFL 官方介绍,FLUX.1 Kontext 家族目前包含 [pro] 和 [max] 两个版本,分别侧重于多轮迭代编辑与高性能快速生成。用户可以通过输入文本和参考图片,分步细致调整图像内容,并保持人物、风格等元素在不同场景中的一致性。官方数据显示,FLUX.1 Kontext 在推理速度上较同类领先模型快 8 倍,在文本编辑和角色保持等多项基准测试中表现优异。
此外,BFL 还同步上线了 FLUX Playground,用户无需第三方平台即可在线体验模型的强大功能。新用户注册后可免费获得 200 积分,约可生成 12 张图片。值得一提的是,BFL 还推出了 FLUX.1 Kontext [dev] 版本,现已开放私测,未来将以开放权重形式支持研究与安全测试。
小米发布全新开源视觉语言模型 MiMo-VL-7B,超越 GPT-4o
5 月 30 日,小米正式发布并开源了新一代视觉语言模型(VLM)MiMo-VL-7B 系列,包括 MiMo-VL-7B-SFT 和 MiMo-VL-7B-RL 两个版本。该系列模型以 70 亿参数为基础,聚焦于多模态推理、图像与文本理解、尤其在数学推理和复杂逻辑问题上表现突出。
图源:Hugging Face
据技术报告介绍,MiMo-VL-7B-SFT 通过四阶段预训练,结合高质量、多样化的推理数据,显著提升了模型的推理能力。而 MiMo-VL-7B-RL 则在此基础上引入了混合 On-policy 强化学习(MORL),进一步优化了模型在感知、视觉定位、逻辑推理和人类偏好对齐等多方面的表现。在权威基准测试如 AIME 等公开测评中,MiMo-VL-7B 以 7B 参数规模超越了 OpenAI GPT-4o 及阿里 Qwen2.5-VL-72B 等更大参数量的模型,成为同级别开源模型中的佼佼者。
MiMo-VL-7B 系列模型已在 Hugging Face 和 ModelScope 平台同步开源,便于开发者部署和本地推理。小米方面表示,未来将持续优化 MiMo 体系,并积极推动其在智能终端、机器人和自动驾驶等场景的落地应用。