DeepSeek 发布开源 OCR 系统;阿里云将英伟达 GPU 使用量削减 82%;OpenAI 推出 AI 浏览器;

IP归属:广东

文章AI导读

一键萃取文章精髓,核心观点即刻呈现

定制芯片可让 OpenAI 采购成本最高降低 30%

OpenAI 正在与 Broadcom 深度合作,共同设计并开发定制的 AI 芯片和网络组件,目标在未来几年新增 10 吉瓦数据中心容量,并于 2026 年底开始部署。这一举措标志着 OpenAI 的芯片战略从主要依赖英伟达与 AMD 的通用产品,转向“自研 + 合作定制”的多元化路径,以更好匹配自身模型的推理与系统架构需求。

图源:Broadcom

OpenAI 预计通过与 Broadcom 的联合开发,芯片支出可较采购英伟达芯片降低约 20%–30%。鉴于建设 1 吉瓦数据中心约需 500 亿美元,其中约 350 亿美元用于先进芯片,潜在节省规模可观。除成本外,定制化还将提升 OpenAI 对 AI 供应链的掌控力,缓解英伟达 GPU 积压订单导致的供给不确定性,并将模型研发反馈至硬件设计,形成“模型—芯片—数据中心”的闭环优化。

虽然英伟达在训练环节仍占主导,但推理侧的专用芯片与高带宽内存(如与三星、SK 海力士的合作)正成为提效降本的关键。同时,Broadcom 的数据中心网络与光互联能力(例如面向 AI 集群的交换与互联方案)也是支撑“千兆瓦级 AI 超级计算机”的必要拼图。随着 OpenAI、谷歌、亚马逊、Meta、微软等加码自研或定制芯片,AI 计算的软硬件协同正从通用平台走向按需定制的系统工程。

美光拟退出中国数据中心服务器内存市场

受 2023 年中国对其产品在“关键信息基础设施”中的禁用影响,美光科技计划停止向中国大陆数据中心客户供应服务器用内存芯片(包括 DRAM 等)。据悉,美光将继续向中国的汽车与手机行业供货,并为两家在境外运营大型数据中心的中国客户供货,其中一家为联想。公司对相关消息未予证实,仅表示其在中国业务受到禁令影响,并将遵守适用法规。

图源:网络

美光的退出将进一步改变中国服务器内存市场格局。韩国厂商三星与 SK 海力士受益显著,本土企业长江存储和长鑫存储在政策推动下扩产,但在性能与良率方面仍存在差距。与此同时,美国对高端芯片的出口限制使英伟达、英特尔、AMD 等在华销售受阻,市场上相继出现安全风险指控。

除了美光,近日多个大型科技公司亦加速将服务器与终端制造环节迁出中国:微软计划将大部分 Surface 与数据中心服务器生产外移并提升非中国供应比例;谷歌在泰国扩产服务器组装;亚马逊云服务将敏感 AI 服务器生产转向境外。

根据路透对政府采购文件的梳理,中国与 AI 相关的数据中心投资在去年约为 247 亿元人民币,增幅明显。尽管美光错失中国本地的 AI 基建红利,其全球业务受海外 AI 需求驱动、HBM 与内存价格回暖带动,录得创纪录季度收入。同时,美光在中国西安继续扩展封装业务,并强调中国仍是其与半导体行业的重要市场。

DeepSeek 发布开源 OCR 系统:以“光学压缩”让 AI 轻松处理超长文档

10 月 21 日,中国人工智能公司 DeepSeek 推出并开源 DeepSeek-OCR 系统,首次提出“上下文光学压缩(Contexts Optical Compression)”路径:将数字文本以图像形式编码并大幅压缩,再由语言模型解码回文本,在长上下文处理与训练数据生产方面实现显著效率提升。根据技术报告,系统在约 10× 压缩比下可保持约 97% 的信息保真度;即使提高到 20× 压缩,准确率仍约 60%,为长文本场景提供可用的性能-成本折中。

图源:DeepSeek

图源:DeepSeek

DeepSeek-OCR 架构由负责图像处理的 DeepEncoder 与基于 DeepSeek3B-MoE 的文本生成器组成。DeepEncoder 结合 Meta 的 SAM 图像分割与 OpenAI 的 CLIP 视觉-文本对齐,并通过 16× 卷积压缩模块显著减少视觉 token 数量:一张 1024×1024 图像由 4096 个 patch token 经压缩缩减至约 256 个,再交由 CLIP 与解码器处理。系统提供从 Tiny(64 token)到 Gundam(最高约 800 token)的多分辨率模式,能在演示文稿、书籍报告到复杂报刊等不同文档类型中自适应地平衡压缩率与识别精度。

图源:DeepSeek

在公开基准 OmniDocBench 上,DeepSeek-OCR 使用约 100 个视觉 token 即超越 GOT-OCR 2.0(每页 256 token),在少于 800 个视觉 token 的条件下也优于 MinerU 2.0(每页 6000+ token)。模型训练数据覆盖约 3000 万页 PDF(近百种语言,其中中英文约 2500 万页),并包含合成图表、化学公式与几何图形等结构化要素,推理阶段可将金融报告图表解析为结构化数据并生成 Markdown 表格,支持版面保持与纯文本输出。

在生产场景中,单块 NVIDIA A100-40G 显卡每天可处理超过 20 万页;部署 20 台服务器(每台 8×A100)可实现日处理约 3300 万页的吞吐。这一能力适用于为大模型快速构建高质量训练语料,同时也被提出用于“压缩式对话记忆”:将较久远的会话以更低分辨率的视觉表示存储,模拟人类记忆随时间淡化的特性,在不显著增加计算成本的情况下延长上下文。

开源方面,DeepSeek 已在 GitHub 与 Hugging Face 发布代码与模型权重。视觉 token 直接处于连续嵌入空间、信息密度高,可在不依赖庞大离散词表的前提下承载更多内容;这为“图像胜千言”的信息论直觉提供了实证参照。与此同时,开发者实践亦显示模型在复杂版面解析、坐标标注与布局保持方面具备可用性,但对极复杂表格与跨页结构等场景仍需管线化组合与进一步评估。

总体来看,DeepSeek-OCR 不仅是高效的文档 OCR 工具,更是长上下文处理与训练数据生产的通用“压缩前端”。随着开源推进与社区验证,它有望成为多模态架构中连接视觉表示与语言解码的关键基础设施,为低成本的超长上下文 AI 系统提供新的技术路径。

阿里云发布推理调度系统 Aegaeon:将英伟达 GPU 使用量削减 82%

阿里云与北京大学在韩国首尔举办的第 31 届 SOSP(ACM Symposium on Operating Systems Principles)上发布论文,称其新一代推理调度与资源池化系统 Aegaeon 在生产环境试运行三个月期间,将服务数十个大语言模型所需的 Nvidia H20 GPU 数量从 1192 块降至 213 块,削减幅度达 82%。

图源:SOSP

这一成果聚焦于云端并发推理的资源利用率问题:在阿里云模型市场中,热门模型(如 Qwen、DeepSeek)占据了大部分请求,而大量“冷门模型”仅被零散调用,导致资源长期低效闲置。Aegaeon 的核心做法是将 GPU 访问虚拟化到“token 级”,在生成过程的中途对不同模型进行细粒度切换与调度,从而实现“单卡多模型”的高效共用,并显著降低模型间切换带来的额外延迟。

系统在“有效产出”(goodput)上最高可达 9 倍增幅,模型切换相关延迟下降 97%;一次部署中,跨区域集群的 213 块 H20 同时服务了 47 个 LLM(其间包含 28 个 1.8–7B 与 19 个 32–72B 参数规模的模型),并已在阿里云企业模型市场「百炼」中落地服务。

Aegaeon 在基准测试中相较 ServerlessLLM、MuxServe 的 goodput 提升约为 1.5–9 倍,其两项关键技术是“多模型打包上卡”与“token 级自动扩缩”,在生成过程中动态分配算力而非按请求预留资源,显著提高 GPU 利用率与整体吞吐。

阿里云长期深度自研并整合了网络与推理栈(如 eRDMA 弹性网络与高度耦合的 GPU 服务体系),Aegaeon 的效果可能依赖于这种垂直一体化环境,能否在其他云或不同硬件网络条件下取得同等幅度的收益,尚待更多第三方验证。

OpenAI 推出 AI 浏览器 ChatGPT Atlas

10 月 21 日,OpenAI 通过直播正式发布 AI 浏览器 ChatGPT Atlas,并率先在全球范围内登陆 macOS(后续将支持 Windows、iOS 与 Android)。Atlas 以 ChatGPT 为核心,将对话式交互嵌入浏览体验:用户可在任意网页右侧开启“Ask ChatGPT”侧边栏,实时总结内容、比较产品、分析数据或整理代码,并可直接在输入框、邮件、文档等页面内进行句子润色与改写(功能名为“Cursor Chat”)。此外,Atlas 提供浏览器记忆,允许在用户授权下基于历史访问进行更个性化的回应,支持随时查看、管理与清除。

图源:OpenAI

值得关注的是“Agent 模式”。在付费的 ChatGPT Plus、Pro、Business 版本中,Atlas 能在用户许可下自动执行跨网页的多步骤任务,例如预订餐厅、生成并结算购物清单、研究与整理行程等。OpenAI 表示该功能处于预览阶段,所有敏感操作将暂停并征得用户确认,且代理不可在本地运行代码、下载文件或访问其他应用,以降低风险。

图源:OpenAI

在检索与搜索体验上,Atlas 默认将网页与对话分屏呈现,鼓励用户与结果进行多轮交互式探索;同时提供传统搜索入口、图片与新闻等内容视图,试图兼顾熟悉的浏览范式与新型的 AI 导航。界面方面,Atlas 基于 Chromium,保留了标签页、书签、历史、密码等常规功能,并支持 Chrome 扩展;首页风格近似 ChatGPT,降低上手门槛。

当前可用性方面,Atlas 对免费与付费用户开放下载,但 Agent 模式仅限 Plus、Pro 与 Business;OpenAI 表示将“快速”提升代理的稳定性与时延,并计划引入多用户档案与开发者工具,扩展 Apps SDK 的生态可发现性。

Anthropic 与 Google 洽谈数百亿美元云计算合作

AI 初创公司 Anthropic 正与 Google 洽谈一项规模在「数百亿美元」级别的云计算服务合作,用以获取额外算力支持。消息传出后,Google 母公司 Alphabet 股价在盘后交易上涨,涨幅报道在 2.3%—3.5% 区间。

图源:网络

Anthropic 成立于 2021 年,因其 Claude 大语言模型家族而知名,与 OpenAI 的 GPT 系列形成直接竞争。为满足模型训练与推理对算力的持续攀升需求,Anthropic 近年来密集募资:约一个月前刚完成 130 亿美元融资,由 Iconiq Capital 领投,Fidelity Management and Research Co. 与 Lightspeed Venture Partners 共同领投,最新估值约 1830 亿美元(含募集资金)。在战略合作与持股方面,Google 先后在 2023 年承诺投资 20 亿美元、今年再增投 10 亿美元,累计约 30 亿美元;Amazon 则投入约 80 亿美元,Anthropic 亦是 AWS 的关键 AI 客户并大规模使用其定制 AI 芯片。若此次云计算服务交易达成,将在既有「投资 + 云服务」关系上进一步加深。

但鉴于交易仍处早期阶段,条款和规模存在不确定性,后续进展需以正式公告为准。

Meta 裁撤 AI 团队约 600 人,重组 Superintelligence Labs 以提速

近日有报道指出,Meta 正在其 AI 部门推进组织重组,裁撤约 600 个岗位,涉及 FAIR 研究、产品相关 AI 与基础设施团队,最新成立的 TBD Lab 不受影响。根据内部备忘录,Alexandr Wang 表示此次调整旨在减少决策链路、提升个体承担度与影响力。美国员工将在太平洋时间周三早上 7 点前获知结果,受影响人员被鼓励申请公司内其他岗位。

图源:Meta

Meta 向外媒确认相关报道属实,并称公司仍在为新团队持续招聘,受影响员工中的大多数预计能在内部转岗。这一举措与此前强调“效率年”的思路一致,更多是人员与资源的再配置,而非简单缩编。裁撤后 Superintelligence Labs 人员总数降至 3000 人以下。

Meta 近月来在 AI 人才与算力上激进投入:在 Llama 4 反响平平后,扎克伯格对“既有 AI 管线缺乏突破”表示担忧,推动重组并加速外部引才;公司仍在为 TBD Lab 招募顶尖研究人员,近期包括来自 OpenAI 的 Ananya Kumar,以及 Thinking Machines Lab 联合创始人 Andrew Tulloch。

Reddit 起诉 Perplexity 及三家数据抓取公司,指控非法规避与盗用平台内容

10 月 23 日,社交平台 Reddit 在美国纽约南区联邦法院提起诉讼,指控 Perplexity AI 以及三家所谓的“数据抓取服务商” SerpApi、Oxylabs UAB 与 AWM Proxy 通过规避技术与利用 Google 搜索结果抓取 Reddit 内容,并将这些数据用于训练或喂给 AI 系统。

图源:Reddit

Reddit 称上述行为违反了 DMCA(数字千年版权法)关于“绕过技术保护措施”和“贩售规避技术或服务”的禁止性规定,同时还构成不正当竞争、非当得利益与民事共谋等。Reddit 正寻求禁令以阻止继续抓取,并索赔损失。

Reddit 在起诉书与媒体声明中表示,AI 公司争夺高质量的“人类对话与知识”内容,催生了“工业化的数据洗白经济”。据称,因为无法直接抓取 Reddit,被告方通过伪装身份、隐藏位置与变形爬虫,从 Google SERP(搜索结果页)中获取 Reddit 的帖子与讨论。Reddit 透露曾在站内设置“仅能被 Google 搜索引擎爬取、互联网其他路径不可访问”的测试帖子,数小时内 Perplexity 的答案引擎就出现了该贴内容,Reddit 因此主张 Perplexity 自身或其合作方抓取了 Google 的搜索结果并迅速纳入系统。

在今年 8 月,Cloudflare 亦曾公开点名 Perplexity 的爬虫无视网站的“禁止抓取”指令。

《幻兽帕鲁》开发商明确拒绝发布含生成式 AI、Web3 或 NFT 的游戏

《幻兽帕鲁》开发商,日本游戏公司 Pocketpair 近日表示,其今年成立的发行部门将不与使用生成式 AI、Web3 或 NFT 的游戏合作。Pocketpair 通讯总监兼发行经理 John “Bucky” Buckley 在 Gamescom Asia 接受媒体采访时称:“人们会说我在撒谎,但这就是事实。我们不相信它。如果你在做 AI 相关的东西,或者你的游戏使用了 Web3 或 NFT,我们不是合适的合作伙伴。”

图源:Pocketpair

Buckley 指出,未来两三年内,游戏行业可能会进入一个“低质量 AI 游戏”涌现的时期,并预判玩家与市场将逐步回归“真实创作”的市场,更重视真正投入在做特别作品的团队。

Pocketpair 过去一直否认在《幻兽帕鲁》中使用了生成式 AI。针对近期被指控在部分语种的本地化中使用机器翻译的指控,Pocketpair 再次予以否认。Buckley 解释,相关猜测源于不完整的制作人员名单。在与本地化公司协作并获批后,Pocketpair 已补充公布了译者姓名,以澄清误解。

Buckley 表示,与其陷入不断拉锯的社交媒体争论,公司更愿用实际工作态度与成品质量回应质疑。

部署 100 万块 TPU,Anthropic 与 Google 达成数百亿美元合作

Anthropic 与 Google 宣布扩大云端合作,Anthropic 将可使用多达 100 万块 TPU(Tensor Processing Units),并在 2026 年带来超过 1 吉瓦的 AI 计算能力。双方均称该合作规模为“数百亿美元”,是 Anthropic 迄今最大规模的 TPU 承诺。行业估算显示,1 吉瓦级数据中心的总成本约为 500 亿美元,其中约 350 亿美元通常用于芯片。

图源:Anthropic

Anthropic 在声明中强调其多云、多芯片架构:Google TPU、Amazon Trainium 与 Nvidia GPU 分别承担训练、推理与研究等不同工作负载,以在价格、性能与能耗之间取得最优组合。Google Cloud CEO Thomas Kurian 表示,TPU 的“价格、性能与效率”是 Anthropic 扩大采用的关键,并点名第七代 Ironwood 加速器。

业务层面,Anthropic 的年化收入已逼近 70 亿美元,Claude 服务的企业客户超过 30 万家,过去两年增长约 300 倍;大客户(年化贡献超过 10 万美元)数量在一年内增长近 7 倍。此外,面向开发者的智能编程助手 Claude Code 在上线两个月内年化收入即达 5 亿美元。

OpenAI 收购前苹果快捷指令团队,计划将功能融入 ChatGPT

OpenAI 宣布收购由前苹果员工创立的 Software Applications Incorporated,及其尚未面向公众发布的 Mac 自然语言界面产品 Sky。OpenAI 表示将把 Sky 与 macOS 深度集成的功能与产品打磨能力引入 ChatGPT,Software Applications 全体成员将加入 OpenAI。

图源:OpenAI

Sky 以“浮层式”界面运行在 Mac 桌面之上,能够理解屏幕内容并在本地应用中执行操作,旨在在用户写作、规划、编码与日常管理中充当可行动的 AI 助手。OpenAI ChatGPT 负责人 Nick Turley 称,目标是让 ChatGPT 不仅回答指令,更“为你实际办事”,包括在本地应用上采取行动。

Software Applications 的创始人 Ari Weinstein 与 Conrad Kramer 曾打造 iOS 自动化应用 Workflow,并于 2017 年被 Apple 收购,成为如今跨 iOS、iPadOS、macOS 的 Shortcuts(快捷指令)基础。两人随后在苹果工作多年,分别于 2019 年与 2023 年离职后创立新公司,第三位联合创始人兼 COO Kim Beverett 亦在苹果担任产品与项目管理近十年,涉足 Safari、WebKit、Messages、Mail、FaceTime、Phone 与 SharePlay 等。

此次收购的具体财务条款未披露。据报道,Software Applications 曾获约 650 万美元融资,投资者包括 OpenAI CEO Sam Altman(通过相关基金的被动持股)、Figma CEO Dylan Field 等。OpenAI 表示,该交易由 Nick Turley 与 Applications 业务负责人 Fidji Simo 牵头,已获公司董事会独立交易与审计会批准。

收购发生之际,OpenAI 刚在本周推出首款 ChatGPT 集成的 Mac 浏览器 Atlas,并与 Jony Ive 合作推进 AI 硬件。业内分析认为,Sky 团队的 macOS 深度能力或有助于 OpenAI 将 ChatGPT 进一步“代理化”,在 Mac 上为用户自动化日常任务。

陀螺科技现已开放专栏入驻,详情请见入驻指南: https://www.tuoluo.cn/article/detail-27547.html

前方智能专栏: https://www.tuoluo.cn/columns/author1911845/

本文网址: https://www.tuoluo.cn/article/detail-10126224.html

免责声明:
1、本文版权归原作者所有,仅代表作者本人观点,不代表陀螺科技观点或立场。
2、如发现文章、图片等侵权行为,侵权责任将由作者本人承担。

相关文章