在科技行业即将收官的 2024 年 12 月,OpenAI 上演了一场令人瞩目的圣诞直播活动。这场活动不仅是对过去一年技术成果的集中展示,也是一场面向未来的技术预告。从全新的 o1 模型到鸽了几乎一整年的 Sora 视频生成技术,从面相技术开发者的强化微调到面向普罗大众的电话服务,OpenAI 用 12 天时间勾勒出了 OpenAI 的技术蓝图。在硅谷近期遭遇寒冬,众多科技公司削减开支的背景下,OpenAI 此次密集发布的创新成果,不仅展现了其强大的研发实力,更是向市场传递了 AI 技术持续演进的强烈信号。
图源:OpenAI
相信一直在关注「12 Days of OpenAI」活动的读者都已经知道 OpenAI 在这 12 个工作日里都发布了些什么内容,我们也跟踪报道了其中一些主要内容,但如果你没有持续关注,或者想在全部活动结束后一次性回顾所有内容,我们刚好为你准备了这次活动的全部汇总信息,从 12 月 5 日到 12 月 20 日所有消息一网打尽。
第 1 天,完整版 o1 模型的惊艳亮相
OpenAI 在活动的第一天发布了其 o1 模型的完整版,并且在发布的同时就向 ChatGPT Plus 订阅用户开放。完整版 o1 模型的运行速度比此前的预览版 o1-preview 更快,并且在数学、代码、博士级别的科学问题中都有更好的表现,还在复杂的现实世界问题上减少了 34% 的重大错误。
图源:OpenAI
o1 模型还在 o1-preview 的基础之上,新增了图像分析的功能,允许用户上传并接收视觉内容的详细解释。OpenAI 还计划扩展 o1 的功能,包括在 ChatGPT 中增加网页浏览和文件上传的功能。OpenAI 还预告了开发者通过 API 访问 o1 模型的功能也将很快推出,API 版本将支持视觉任务、函数调用和系统集成的结构化输出。
图源:OpenAI
在第一天,OpenAI 还推出了一项价格为每月 200 美元的全新订阅计划 —— ChatGPT Pro,该计划提供了对 o1、GPT-4o 和高级语音功能的 “不限量” 访问权限。除此之外,ChatGPT Pro 的订阅用户还会获得一个独有的 o1 Pro Mode 模式,该模式会使用额外的计算能力来解决复杂问题。
第 2 天,革新性的强化微调技术
相比第一天的活动,第二天的活动就稍显平淡。OpenAI 发布了强化微调(RFT),这是一种模型定制方法,允许开发者针对特定任务修改“o 系列”模型。
图源:OpenAI
这项技术超越了传统的监督微调,通过使用强化学习帮助模型通过反复迭代提高其推理能力。换句话说,OpenAI 创建了一种新的训练 AI 模型的方法,让它们能够通过实践和反馈进行学习。在实际运用中,RFT 使 o1-mini 模型在特定任务上超越了基础模型 o1。
图源:OpenAI
OpenAI 表示,伯克利实验室的计算研究员 Justin Reese 测试了 RFT 用于研究罕见遗传疾病,而 Thomson Reuters 为其 CoCounsel AI 法律助手创建了一个专门的 o1-mini 模型。该技术要求开发者提供数据集和评估标准,OpenAI 的平台管理强化学习过程。
OpenAI 目前通过其强化微调研究计划为研究人员、大学和公司提供有限的访问权限,并计划在 2025 年初向公众发布 RFT。
第 3 天,千呼万唤始出来,Sora 视频生成模型正式发布
在第三天,OpenAI 终于发布了万众期待的 Sora 视频生成模型,提供了从文本到视频、图像到视频等高级功能(我们也专门针对 Sora 出了一篇评测文章)。
图源:OpenAI
Sora 并没有集成在 ChatGPT 网页中,而是需要在 sora.com 这个独立网页中访问和使用,相比今年 2 月展示的版本,新版 Sora 使用了更先进的 Sora Turbo 模型,支持生成任意长宽比的视频,分辨率从 480p 到 1080p,时长从 5 秒到 20 秒,能一次生成多个方向的视频版本。
图源:OpenAI
Sora 的新功能包括 Remix(重混)、Re-cut(重新剪辑)、Storyboard(故事板)、Loop(循环)、Blend(混合)以及 Style presets(风格预设)。
订阅了 ChatGPT Plus/Pro 的用户可以使用 Sora,Sora 采用积分制度定价,Plus 用户每月有 50 次生成额度,Pro 用户有 500 次快速生成额度或不限量的慢速生成额度。
图源:OpenAI
Sora 正式上线后,由于用户热情高涨,网站一度发生崩溃,并暂停了新用户的注册。Sora 暂不支持 ChatGPT Team、Enterprise 和 Edu 用户,同时也不向 18 岁以下用户开放。
第 4 天,Canvas 功能全面升级
在第 4 天,OpenAI 重新发布了 Canvas 功能,这项功能也从之前的测试版转变为正式版,并对包括免费用户在内的所有 ChatGPT 用户开放使用。Canvas 为 ChatGPT 提供了一个专门的界面,左边为常规的聊天界面,右边为 Canvas 编辑区,用于展示超出标准聊天格式的文本和编码内容,并能够实时编辑和协作。
图源:OpenAI
更新后的 Canvas 还允许用户在界面内运行 Python 代码,并包括一个文本粘贴功能以导入现有内容,导入后 ChatGPT 会自动切换到代码编辑模式,帮助调试或查找错误,支持直接运行代码。
OpenAI 还为 Canvas 新增了一个 “显示更改” 功能,用于跟踪写作和代码的修改。
第 5 天,深度整合苹果生态
在第五天,OpenAI 宣布 ChatGPT 将随着 iOS、iPadOS 和 macOS 系统更新直接集成进苹果设备,此次功能集成适用于 iPhone 16 系列、iPhone 15 Pro 系列、配备 A17 Pro 或 M1 芯片及更高版本的 iPad,以及配备 M1 处理器或更新版本的 Mac,需运行各自最新的操作系统。
图源:OpenAI
功能集成后,用户能够通过苹果的系统级的 AI 功能直接调用 ChatGPT,包括图像和文档分析。苹果用户无需注册账号就能使用 ChatGPT。然而,无论是苹果自己的 Apple Intelligence,还是 ChatGPT 目前都不支持中国大陆地区。
图源:OpenAI
集成在 iOS、iPadOS 和 macOS 系统中的 ChatGPT 会在苹果的隐私框架内运行,OpenAI 不会保存隐私记录,也不会使用用户数据训练模型。
也就在这一天,OpenAI 的服务器出现大面积故障,导致 ChatGPT、Sora 和面向开发者的 API 服务全部中断,一开始有人猜测宕机可能与苹果发布系统更新集成了 ChatGPT 有关,因为新系统发布后导致大量用户涌入。
但实际上本次宕机完全是 OpenAI 自身的原因。OpenAI 的工程师原本计划部署了一项新的遥测服务,目的是提高系统可靠性和监控能力,但在部署过程中出现配置错误,导致每个节点同时执行大量 Kubernetes API 操作,而大量的 API 操作使服务器不堪重负,最终导致控制平面在大多数大型集群中瘫痪。
控制平面瘫痪又引发了 DNS 解析问题,导致服务之间无法相互通信,最终导致所有 OpenAI 服务都出现了严重降级或完全不可用的情况。
第 6 天,视觉与语音交互升级,圣诞模式限时上线
在第六天,OpenAI 为 ChatGPT 的语音功能添加了几个新特性:为 ChatGPT Plus 和 Pro 订阅者提供的视频通话及屏幕共享支持,以及一个季节性圣诞老人语音预设 Santa Mode。
图源:OpenAI
新的视觉高级语音模式功能通过手机端的应用程序实现,让用户在语音对话中展示他们的周围环境或与 AI 模型共享屏幕,提供更直观的指导和帮助
图源:OpenAI
借助这个功能,ChatGPT 能够实现诸如通过视频教用户冲咖啡,识别场景中的物体,并主动发现潜在需求,提供具体的操作步骤和及时反馈。
虽然该功能的推出覆盖了大多数国家,但包括欧盟成员国、瑞士、冰岛、挪威和列支敦士登在内的几个欧洲国家的用户暂时无法使用这些功能,企业和教育用户则需要等待到一月份才能获得这些功能。
作为圣诞特色,圣诞老人语音选项 Santa Mode 则是在移动设备、网页浏览器和桌面应用程序中都可以使用,这个功能会在 ChatGPT 界面中以雪花图标出现,此模式下的对话不会影响聊天记录或记忆功能。当然,在这个模式中许下的愿望自然也不会被圣诞老人实现。
第 7 天,Projects 智能化项目管理新工具
图源:OpenAI
OpenAI 在第 7 天推出了 Projects,这是 ChatGPT 中的一项新组织功能,允许用户将相关的对话和文件分组。该功能与公司的 GPT-4o 模型兼容,并提供了一个集中管理与特定任务或主题相关资源的位置 —— 有点像 Claude 的 “Projects” 功能。
图源:Claude
ChatGPT Plus、Pro 和 Team 订阅者目前可以通过 chatgpt.com 和 Windows 桌面应用访问 Projects,移动设备和 macOS 目前还只支持查看。用户可以通过点击侧边栏中的加号图标来创建项目,在这里他们可以添加文件和提供未来对话上下文的自定义说明。
OpenAI 表示,计划在 2024 年为 Projects 推出更多功能,包括支持更多文件类型、通过 Google Drive 和 OneDrive 进行云存储集成,并与其他模型如 o1 兼容。
第 8 天,搜索功能全面开放
在第 8 天,OpenAI 将 ChatGPT 的搜索功能向所有用户开放,同时改进了搜索速度和移动端的体验,强化了实时多模态信息获取能力。
在功能上,新版 ChatGPT Search 支持实时网页搜索、多语言翻译、视频播放等,基本上用户可以像使用传统搜索引擎一样来使用 ChatGPT 的搜索功能,尽管在实际使用中,它目前的搜索结果还没有 Google 搜索那么准确与全面。
图源:OpenAI
除了将搜索功能开放给免费用户使用,在当天的更新中 OpenAI 还改进了搜索结果中的地图界面、允许用户将 ChatGPT 设置为浏览器默认搜索引擎,并将搜索与高级语音功能进行了集成,允许用户在语音对话中进行搜索,获取实时信息。
图源:OpenAI
根据海外媒体报道,OpenAI 正在寻找用户体验和商业变现之间的平衡点,将考虑是否在 ChatGPT 中引入广告。
第 9 天,开发者生态迎来升级,API 功能增强
虽然 OpenAI 在第一天就发布了 o1 模型的完整版,但当时并没有向开发者开放 o1 模型的 API,不过开发者并没有等待太久。在活动的第 9 天,OpenAI 就通过其 API 平台发布了 o1 模型,增加了对函数调用、开发者消息和视觉处理能力的支持,稍显遗憾的是 o1 模型的 API 尽向 Level 5 级的开发者开放。
图源:OpenAI
OpenAI 还将 GPT-4o 音频定价降低了 60%,并推出了一种 GPT-4o mini 选项,价格为之前音频费率的十分之一。
图源:OpenAI
OpenAI 还简化了其 WebRTC 集成,方便开发者构建更高效的实时语音应用,并推出了 Preference Fine-Tuning(偏好微调),允许开发者通过直接偏好优化(DPO)创建更符合用户偏好的模型。OpenAI 还推出了 Go 和 Java 编程语言的 SDK 测试版,并简化了登录、注册、获取 API 密钥的流程,提升了开发者体验。
第 10 天,创新电话服务,ChatGPT 触手可及
在第 10 天,OpenAI 做了一件有趣的事情,他们专门为 ChatGPT 推出了一个热线电话服务,用户通过拨打电话(1-800-242-8478)或者用 WhatsApp 给这个号码发送信息就可以与 ChatGPT 聊天。有美国电话号码的用户每月可以免费通话 15 分钟,这个功能无需开通账号,增强了 ChatGPT 的易用性,再加上这个服务不光支持智能手机,也支持老旧的功能手机和座机,也提升了服务的广度。
图源:OpenAI
OpenAI 表示,开通热线电话服务是为了让那些缺乏稳定高速互联网接入的用户也能方便使用 ChatGPT,或者是那些想要使用更加熟悉的方式尝试 AI 工具的用户。
图源:OpenAI
不过需要注意的是,这项服务背后的功能不如完整版 ChatGPT 那么丰富,如果有更高需求的用户建议还是继续使用 App 或网页版的 ChatGPT。
第 11 天,桌面应用重大更新,深度集成办公与开发环境
在第 11 天,OpenAI 的桌面版 ChatGPT 迎来重大更新,增加了对更多编码环境和生产力软件的支持。此次更新增加了对 Jetbrains IDE(如 PyCharm 和 IntelliJ IDEA)、包括 Cursor 和 VSCodium 在内的编程工具,以及 BBEdit 和 TextMate 等文本编辑器的支持。
图源:OpenAI
桌面版 ChatGPT 还新增了苹果备忘录、Notion、Quip 三种笔记应用的支持,改善了写作体验,同时还增加了高级语音模式。用户需要为每个应用手动激活这些功能,并且暂时仅对付费订阅用户开放。
图源:X
在同一天,OpenAI CEO Sam Altman 还发布了一条推文 “ho ho ho”,暗示可能即将发布下一代推理模型 o3。
第 12 天,压轴大戏,震撼发布 o3 系列模型
在活动的最后一天,正如 Sam Altman 发布的推文预告一样,OpenAI 公开了下一代推理模型 o3 和 o3-mini,同时向安全研究人员开放了测试申请。o3 在命名上跳过了 o2,主要是为了避免与英国电信运营商 O2 产生版权冲突。
图源:OpenAI
o3 在 AIME 2024 数学竞赛评测中准确率高达 96.7%,在博士级科学问答基准 GPQA Diamond 上准确率为 87.7%,而在 Frontier Math 基准上准确率为 25.2%,在 ARC-AGI 基准测试中,o3 还打破了所有 AI 纪录并接近人类水平。
o3-mini 也展现了新成本效益推理前沿,引入了三档思考级别,可以根据具体需求调整模型的推理深度。
图源:OpenAI
尽管 o3 在多项基准测试中都超越了之前的完整版 o1 模型,并在数学、编程等领域刷新了 SOTA,但 o3 并非 AGI,仍然存在简单任务表现不佳的问题。
虽然 OpenAI 尚未给出 o3 模型的具体上线时间表,但 Sam Altman透 露,o3-mini 有望在 1 月底与用户见面,而更强大的完整版 o3 模型则需要更长的打磨时间。
结语
这场为期 12 天的活动不仅展示了 OpenAI 在 AI 领域的领导地位,更勾画出了 AI 技术在 2025 年的发展方向。从算法突破到用户体验优化,从开发者工具到应用,OpenAI 正在将 AI 技术推向新的高度。
纵观这 12 天,OpenAI 正在大力投资于多模态能力,o1 模型的发布、Sora 从研究预览到产品的演变,以及高级语音功能新增的视频通话,都指向能够无缝处理文本、图像、语音和视频的系统。
OpenAI 同样也在大力推进开发者工具和定制化功能,以便能够继续扩展业务范围,并将其产品集成到其他应用程序中。在 API 发布、强化微调和扩展的 IDE 集成之间,OpenAI 正在为开发者和企业构建其生态。而 o3 的推出表明,OpenAI 仍在努力推动技术边界,即使在训练 LLM 基础模型的收益递减的情况下。
OpenAI 似乎已经为 AI 在 2025 年的发展做好了准备,届时生成式 AI 有望超越文本聊天机器人和简单的图像生成器,进入我们可能还无法预测的新应用领域。我们可以期待在新的一年里,AI 技术将为我们带来更多令人振奋的突破和创新。