OpenAI 正式发布视频生成模型 Sora，服务出现全面瘫痪；谷歌推出新一代量子计算芯片

前方智能原创 2024-12-16 10:06 热度 76194

微信扫一扫：分享

微信里点“发现”，扫一下
二维码便可将本文分享至朋友圈

IP归属：广东

文章AI导读

一键萃取文章精髓，核心观点即刻呈现

# 梳理该事件的完整脉络

# 该文章有哪些有意思的观点或数据

# 大家对该事件的态度表现如何？

Anthropic 旗下最快 AI 模型 Claude 3.5 Haiku 全面开放使用

Anthropic 已于近日正式向所有 Claude 用户开放其最新模型 Claude 3.5 Haiku 的使用权限，该模型此前仅对通过 API 接入的开发者开放。

图源：Anthropic

作为 Anthropic 产品线中速度最快、成本最低的模型，Claude 3.5 Haiku 在处理大型数据集、分析财务文档和长文本信息等实时任务方面表现出色。该模型拥有 20 万 token 的上下文窗口，超过了 OpenAI GPT-4o 的 12.8 万 token 限制。

在功能方面，Claude 3.5 Haiku 支持图像和文件分析，并可与 2024 年 6 月推出的 Claude Artifacts 功能集成，为用户提供实时内容协作和优化的工作空间。不过该模型目前尚不支持网页浏览和图像生成功能。

在定价方面，通过 API 使用 Claude 3.5 Haiku 的成本为每百万输入 token 0.8 美元，每百万输出 token 4 美元。普通用户可以通过网页版和移动端免费使用该模型，但每日消息数量有限制。如需更多使用额度，用户可以订阅每月 20 美元的Claude Pro计划，该计划还提供高峰时段优先访问权限、新功能抢先体验等特权。

ChatGPT推出视频识别分析和屏幕共享功能

在12天直播的第6天，OpenAI 宣布在高级语音模式中添加了视频和屏幕共享功能，允许用户以不同的方式与聊天机器人互动。

这两项功能现在都可以在iOS和Android移动应用程序上为ChatGPT Teams、Plus和Pro用户提供，并将于1月向ChatGPT Enterprise和Edu订阅者推出。但是欧盟等地区或国家的用户将无法访问高级语音模式。

图源：OpenAI

用户可以通过高级语音模式屏幕上的新按钮访问并启动视频功能。视频模式类似于 Facetime一样的视频通话，ChatGPT会实时响应用户在视频中显示的内容，可以看到用户周围的事物，识别物体，甚至记住自我介绍的人。

在官方演示中，用户可以使用ChatGPT视频功能帮助冲泡咖啡，ChatGPT在看到咖啡用具后，将自动提醒用户何时放入过滤器。

这一功能与谷歌最近宣布的Project Astra非常相似。用户可以在其中打开视频聊天，而Gemini 2.0 将回答有关它所看到的内容的问题，例如识别在伦敦街道上发现的雕塑。

OpenAI 还在高级语音模式下添加了圣诞老人语音作为预设语音，可供所有移动、Web和桌面应用程序用户使用。该功能将通过ChatGPT中的雪花图标访问，并将在全球范围内推出，时间持续到1月初，与圣诞老人的聊天不会保存在聊天记录中，也不会影响 ChatGPT 的记忆。

新的屏幕共享功能则更侧重于浏览器场景。用户可以在手机上打开应用程序，并向ChatGPT询问有关屏幕显示内容的问题。在演示中，OpenAI研究人员触发了屏幕共享，然后打开消息应用程序，向ChatGPT寻求帮助以回复通过短信发送的照片。

同样的，这一功能也类似于微软上周发布的Copilot Vision预览版，这一功能允许用户在浏览网页时打开Copilot，并通过Copilot Vision查看商店网站上的照片，甚至帮助玩地图猜谜游戏Geoguessr，而谷歌的Project Astra也可以以同样的方式阅读浏览器界面。

微软发布小型 AI 模型 Phi-4

微软于 12 日推出新一代人工智能模型 Phi-4，这款仅有 140 亿参数（14B）的小型模型在数学推理能力方面表现出色。

图源：微软

Phi-4 与 OpenAI 的 GPT-4 和 Google 的 Gemini Ultra 等拥有数千亿甚至可能高达万亿参数的模型相比，Phi-4 凭借其精简的架构在复杂数学推理方面展现出优越性能。该模型在美国数学竞赛（AMC）的标准化数学竞赛题目上取得了令人瞩目的成绩，展示了其在科学研究、工程和金融建模等领域的潜在应用价值。

对企业计算而言，这一突破具有重要意义。目前的大型语言模型需要庞大的计算资源，导致企业部署 AI 解决方案的成本和能耗居高不下。Phi-4 的高效性能可能大幅降低这些运营开销，使中型企业和计算预算有限的机构也能够获得先进的 AI 能力。

微软采取谨慎的方式发布 Phi-4，首先通过 Azure AI Foundry 平台以研究许可协议的形式提供使用，并计划后续在Hugging Face上更广泛发布。该平台为开发者提供了评估模型质量和安全性的工具，以及防止滥用的内容过滤功能。

苹果发布 iOS 18.2，
引入全新 Apple 智能功能及 ChatGPT 集成

苹果在今日正式发布了 iOS 18.2、iPadOS 18.2 和 macOS Sequoia 15.2 更新。此次更新带来了多项重要的 Apple 智能新功能，包括 Genmoji 自定义表情符号、Image Playground 图像生成工具以及与 ChatGPT 的深度集成。

图源：苹果

这些新功能仅支持 iPhone 15 Pro 系列、iPhone 16 全系列、搭载 A17 Pro 及 M 系列芯片的 iPad 和搭载 M 系列芯片的 Mac 设备。在语言支持方面，除了美式英语外，本次更新还新增了澳大利亚、加拿大、爱尔兰、新西兰、南非和英国的本地化英语支持。其他语言版本，包括中文、法语、德语、意大利语、日语、韩语、葡萄牙语和西班牙语的支持将于 2025 年陆续推出。

图源：苹果

新版本中的 Image Playground 应用让用户可以通过文字描述创建各类图像，支持多种艺术风格，并可以结合用户相册中的照片进行创作。该功能已集成至信息和 Freeform 等应用中，并将向第三方开发者开放接口。

Genmoji 功能允许用户直接在键盘中创建自定义表情符号。用户只需描述所需的表情，系统就会生成多个选项供选择。该功能还支持基于照片库中的人物照片创建个性化表情。

在 ChatGPT 集成方面，用户可以通过 Siri 或写作工具直接访问 ChatGPT 服务。值得注意的是，使用该功能无需 ChatGPT 账户，请求将保持匿名且不会用于训练 OpenAI 的模型。用户也可以选择登录 ChatGPT 账户以获取更多权益。

在此次更新中，苹果还为 iPhone 16 系列机型带来了独有的Visual Intelligence（视觉智能）功能。用户只需长按相机控制键，即可使用该功能来识别和了解周围的物体或场景。系统会分析相机画面中的内容，并提供两种深入了解的方式：通过 Google 搜索获取相关信息，或使用 ChatGPT 进行更详细的解释和互动。

ChatGPT、Sora 及 API 服务全面瘫痪

据 OpenAI 官方状态页面显示，旗下的 ChatGPT、Sora 以及面向开发者的 API 服务于当地时间 2024 年 12 月 11 日下午遭遇重大故障（北京时间 12 日上午），截止发稿服务仍未完全恢复。

图源：OpenAI

OpenAI 表示已确定了修复方案并着手处理，值得注意的是，此次服务中断已持续超过数小时，具体原因尚未公布。

这次故障恰逢苹果在 iOS 18.2 系统中推出 ChatGPT 整合服务之际，有用户在社交媒体上反映，由于服务中断，Apple Intelligence 中的 ChatGPT 功能同样也无法使用。此外，OpenAI 本周初刚刚公开发布 Sora 服务，首席执行官 Sam Altman 承认公司低估了用户需求，不得不限制注册人数。许多成功注册的用户在发布首日因服务器负载已满而无法生成视频。

苹果正与博通合作开发AI芯片

据外媒报道，苹果正在与博通合作开发其首款专为人工智能处理设计的服务器芯片，旨在与其他大型科技公司保持一致，减少对芯片供应商英伟达的依赖。

消息称，苹果AI芯片内部代号为Baltra，该公司计划使用台积电最先进的N3P制造工艺，并将于2026年实现量产。

图源：网络

苹果和博通对此目前并未有回应，不过，消息传出后，博通股价已经上涨了5%。

据悉，苹果在去年就已经和博通签署了一项5G射频组件开发的数十亿美元的协议，此外，苹果在 6月的年度开发者大会上还表示，未来将使用自己的服务器芯片为其设备上的AI功能提供支持。

与苹果一样，谷歌也正在与博通合作开发人工智能芯片。大型科技公司推动供应链多样化，使博通成为生成式AI热潮的最大受益者之一，其股价在去年几乎翻了一番后，在2024年上涨了54%。

OpenAI 向所有用户开放 ChatGPT Canvas 功能

OpenAI 于今日宣布，将其数字编辑空间功能 Canvas 扩展至所有 ChatGPT 用户。这是该公司"12 Days of OpenAI"公告系列中的第四个公告。Canvas 功能此前仅向付费用户开放，包括 ChatGPT Plus、Teams、Edu 和 Enterprise 订阅用户。

图源：OpenAI

Canvas 功能可在桌面网页浏览器中使用，它将传统的 ChatGPT 界面改造为左侧边栏对话框，右侧则新增了一个用于显示用户正在处理内容的空间，比如应用程序的代码块或文本文档。当用户与 ChatGPT 对话并要求更改右侧边栏的内容时，更改会自动在那里显示，而不是在传统界面中生成新的文本响应。

在此次更新中，Canvas 新增了运行 Python 代码、支持更多文本粘贴的功能，并可在自定义 GPT 中启用。用户可以将 Python 代码粘贴到 ChatGPT 中，系统可能会自动打开 Canvas。此外，Canvas 还可以仅通过代码创建和预览图形，使开发人员或分析师能够在完成图表之前调整公式或数据。该功能还具有查找代码错误并提供修复建议的特性。

面壁智能获新一轮数亿元融资，加速端侧AI布局

今日，国内大模型公司面壁智能宣布完成新一轮数亿元融资，本轮融资由龙芯创投、鼎晖百孚、中关村科学城基金和赛富投资基金联合领投，北京市人工智能产业投资基金与清科创投跟投，万甲资本担任本轮独家财务顾问。

图源：面壁智能

本轮融资完成后，面壁智能将进一步提速以端侧AI为代表的高效大模型商业化布局，以同等参数、更高性能、更低能耗、更快速度的高效大模型深度服务行业，为用户创造具体可感知的价值。

据悉，过去一年，面壁智能基于高效大模型和端侧AI的商业化布局和业务推进，搭建了精锐的专家型团队，深度扎根垂直行业、务实解决场景问题，推动大模型高效落地。在端侧智能方面，面壁智能正在与华为、联发科技、联想、英特尔、长城汽车、易来智能等行业标杆企业紧密协作，业务覆盖 AI Phone、AI PC、智能座舱、智能家居与具身机器人等领域。

Google 发布新一代量子计算芯片 Willow

Google 于近日宣布推出新一代量子计算芯片 Willow，并在量子纠错和计算性能方面实现了两项重大突破。

图源：Google

在量子纠错方面，Willow 首次突破了量子纠错阈值，随着量子比特数量的增加，错误率呈指数级下降。研究团队在测试中发现，当量子比特阵列从 3×3 扩展到 5×5，再到 7×7 时，每次都能将错误率降低一半。这一突破解决了量子计算领域近 30 年来的关键挑战。

在计算性能方面，Willow 在随机电路采样（RCS）基准测试中完成了一项惊人的壮举：在不到 5 分钟内完成了一项运算，而这项运算如果在当今最快的超级计算机上进行，将需要 10 万亿亿亿年（10 的 25 次方年），远超宇宙年龄。

这款新型芯片搭载了 105 个量子比特，在 Google 位于圣巴巴拉专门建造的量子芯片制造工厂中生产。与上一代芯片相比，Willow 在量子比特相干时间方面提升了 5 倍，达到接近 100 微秒，这一指标对于实现更复杂的量子计算至关重要。

这项研究成果已发表在《自然》杂志上。随着量子计算技术的不断发展，未来有望在人工智能训练数据收集、复杂系统建模等领域发挥重要作用。

xAI 获 60 亿美元融资，计划大规模扩建超算设施

马斯克旗下的人工智能公司 xAI 于近日宣布完成 60 亿美元融资。据报道本轮融资后，xAI 的估值约为 450 亿美元，这是继今年春季 60 亿美元融资后的又一重大筹资。

图源：X

作为融资后的重要举措，xAI 计划将其位于田纳西州孟菲斯市的 Colossus 超级计算机集群进行十倍扩容。目前该设施拥有 10 万个英伟达 GPU，扩建后将增至超过 100 万个。为支持这一扩张计划，Nvidia、Dell 和 Super Micro 将在孟菲斯设立运营机构。大孟菲斯商会称这是该地区历史上最大规模的资本投资，并成立了专门的运营团队提供全天候支持服务。

值得注意的是，xAI 的旗舰产品 Grok 聊天机器人最近也迎来重大更新。该公司已将 Grok 的访问权限扩展至免费用户，免费用户每两小时可向 Grok 发送最多 10 条消息，xAI 还计划在 12 月推出独立的消费者应用。

自 2023 年成立以来，xAI 在 AI 领域快速发展。公司员工规模从 2023 年 3 月的十余人增长至如今的超过 100 人。

可生成最长20秒视频，刚上线服务器就被挤爆，鸽了整个2024的Sora终于来了

OpenAI于12月10日在其"12天直播"活动中正式发布视频生成模型Sora及其新版本Sora Turbo。据悉，该模型支持文本生成视频、图像动画化及视频重混功能，将面向美国及大部分国家用户开放使用。