OpenAI 遭遇本月第二次大规模宕机,高通赢得 Arm 芯片授权诉讼

IP归属:广东

OpenAI 发布新一代推理模型 o3,性能大幅提升

在 OpenAI 12 天发布会的最后一天,CEO Sam Altman 宣布了新一代推理模型 o3 及其精简版 o3-mini。该公司选择跳过 o2 命名,主要是为了避免与英国电信公司 O2 的商标冲突。

图源:OpenAI

据 OpenAI 介绍,o3 在多个基准测试中都创造了新纪录。在编程测试(SWE-Bench Verified)中,o3 的表现超过前代产品 o1 达 22.8 个百分点。在 2024 年美国数学邀请赛(AIME)考试中,o3 仅错一题,得分率达 96.7%。在研究生级别的生物学、物理学和化学问题测试(GPQA Diamond)中,其得分达到 87.7%。

特别值得注意的是,o3 在 ARC-AGI 测试中取得重大突破。在低计算资源配置下,o3 得分为 75.7%,而在高计算资源配置下,得分更是达到了 87.5%。相比之下,GPT-3 在该测试中得分为 0%,GPT-4o 仅获得 5% 的得分。

目前,o3 及 o3-mini 尚未正式发布。OpenAI 已开放安全研究人员的测试申请,计划于 2025 年 1 月底推出 o3-mini,随后发布 o3。这一举措是对现有前沿模型测试流程的补充,包括严格的内部安全测试、外部红队测试,以及与美国和英国 AI 安全研究所的合作。

百川智能发布金融大模型Baichuan4-Finance,
领先GPT-4o近20%

12月23日,百川智能宣布发布全链路领域增强大模型 Baichuan4-Finance。

据介绍,Baichuan4-Finance在高质量金融数据的基础上,实现了金融能力和通用能力同步提升的效果,极大提高了金融场景的整体可用性,其金融专业能力和场景应用能力均领先 GPT-4o。

在中国人民大学财政金融学院12月17日发布的金融评测体系FLAME中,Baichuan4-Finance在银行、保险、基金、证券等多个资格认证领域的准确率均突破了95%,整体准确率93.62%,大幅领先GPT-4o和XuanYuan3-70B-Chat,超出GPT-4o近20%。

图源:百川智能

在国内主流开源金融评测基准FinanceIQ评测中,Baichuan4-Finance同样超越了GPT-4o和XuanYuan3-70B,整体准确率达到79.23%,领先GPT-4o近13%。

图源:百川智能

此外,在FLAME-Sce评测中,Baichuan4-Finance一级核心金融业务场景的整体可用率达84.15%,金融数据计算、金融知识理论等场景的可用率超过90%。

百川智能表示,Baichuan4-Finance能够在效率提升、风控合规、客服、决策支持等诸多层面为金融行业带来全方位的价值提升,帮助金融从业者处理文档审核、客户咨询、产品营销等大量日常工作,还能依托金融专业知识和法律法规理解能力,为机构提供风险识别和合规保障服务,亦或是凭借数据分析能力为管理层提供市场洞察和决策建议。

目前,Baichuan4-Finance API已在百川智能官网正式上线。

高通赢得 Arm 芯片授权诉讼

近日,在特拉华州联邦法院进行的一场高通与 Arm 之间的授权纠纷案有了初步结果。陪审团在经过五天的审议后,就三个关键问题中的两个做出了有利于高通的裁决,但对第三个问题未能达成一致意见。

图源:高通

这场法律纠纷源于高通在 2021 年以 14 亿美元收购芯片初创公司 Nuvia,Arm 指控高通在收购 Nuvia 后违反了授权协议条款。本次审判的核心争议在于 Nuvia 的 Arm 架构授权是否可以在未经 Arm 许可的情况下转让给高通,以及高通是否可以按照其较低的授权费率使用 Nuvia 的技术。

陪审团裁定高通没有违反 Nuvia 与 Arm 的架构授权协议,同时确认高通基于 Nuvia 收购所获得的 CPU 设计已得到适当授权。这一裁决让高通得以继续开发和销售其基于 Oryon 架构的产品,包括用于 AI PC 的骁龙 X Elite 和 X Plus 处理器,以及骁龙 8 Elite 智能手机芯片。

然而,陪审团未能就 Nuvia 是否违反其与 Arm 的授权协议达成共识。对此,Arm 表示将寻求重审,称"从一开始,我们的首要任务就是保护 Arm 的知识产权和我们与合作伙伴共同构建的独特生态体系"。

国内AI大模型独角兽阶跃星辰宣布完成数亿美元B轮融资

近日,国内大模型独角兽阶跃星辰宣布已完成数亿美元B轮融资。

核心投资方包括上海国有资本投资有限公司及其旗下基金,战略和财务投资人包括腾讯投资、五源资本、启明创投等。资金将用于继续投入阶跃星辰基础模型研发,强化多模态和复杂推理能力,并通过产品和生态加大覆盖C端应用场景,提供丰富的用户体验。

据悉,阶跃星辰成立于2023年4月,研发团队于当年7月起正式开始训练模型,而到了今年3月,公司才以独角兽规模第一次公开对外亮相。作为国内大模型初创企业的代表,阶跃星辰与月之暗面、MiniMax、智谱、零一万物、百川智能合称“国产大模型创业六小强”。

截至目前,阶跃星辰一共发布了11个自研基座模型,包括千亿、万亿参数的语言大模型,图像、视频理解大模型,图像、视频生成大模型以及不久前发布的国内首个端到端千亿参数语音模型。

其万亿参数⼤模型Step-2在LiveBench评测榜单中超越了gpt-4o-2024-08-06 、gemini-1.5-pro-002等主流模型,性能表现逼近OpenAI的o1-mini-2024-09-12,位列国产基座大模型第一,全球第五,是唯一进⼊榜单前十名的中国语言大模型。

图源:阶跃星辰

OpenAI正在考虑开发人形机器人

据外媒报道,OpenAI最近正在考虑开发一款人形机器人。

报道援引两位知情人士的话称,在过去的一年里,OpenAI对机器人重新产生了兴趣,并提出了开发人形机器人的可能性。不过目前关于该潜在项目的细节很少,也尚不清楚OpenAI何时能推出这款机器人以及具体的应用场景。

据悉,OpenAI此前也曾开展过机器人研究。直到2021年,OpenAI还一直运营着一个专门为自主机器人开发AI模型的部门。该部门在关闭前已经实现了对一个“可以还原魔方”的机械臂的训练,并开源了一个模拟工具Roboschool,可用于训练机器人的板载AI软件。

图源:网络

但对于OpenAI来说,与其他专注于机器人的初创公司合作构建人形机器人可能比从头开始自研更加轻松。

目前,人形机器人初创公司专注于两个主要用例,包括通过自动化任务提高仓库/工厂的效率,或是帮助完成家务。OpenAI在过去一段时间也投资了几家这样的机器人公司。

今年2月,OpenAI以26亿美元的估值为Figure AI提供了6.25亿美元的融资。这家初创公司最新的类人机器人Figure 02使用OpenAI模型处理工厂环境下的语音命令。

此外,OpenAI还是Figure竞争对手1X的投资者。该公司开发了一种名为EVE的人形机器人,可以借助轮子以高达每小时9.8英里的速度行驶。1X目前正在开发另一种面向普通消费者的机器人,以执行更广泛的任务。

通义千问发布开源视觉推理模型 QVQ-72B-Preview

2024 年 12 月 25 日,阿里通义千问团队发布了一款名为 QVQ-72B-Preview 的开源多模态推理模型。该模型基于 Qwen2-VL-72B 构建,专注于增强 AI 的视觉理解和复杂问题解决能力。

图源:通义千问

QVQ-72B-Preview 在 MMMU 评测中取得了 70.3 的优异成绩,显著超越了其前身 Qwen2-VL-72B-Instruct。在数学和科学问题相关的基准测试中,包括 MathVista、MathVision 和 OlympiadBench,该模型均展现出卓越表现,有效缩小了与业界领先模型的差距。

该模型采用 Apache 2.0 开源协议,开发者可以通过 Hugging Face、ModelScope 等平台获取。值得注意的是,QVQ-72B-Preview 目前仅支持单轮对话和图像输出,不支持视频输入。

然而,QVQ-72B-Preview 作为一个实验性研究模型,仍存在一些局限性:模型可能会出现语言混合和切换现象,影响响应的清晰度;在推理过程中可能陷入循环逻辑模式;在多步骤视觉推理过程中,模型可能会逐渐失去对图像内容的关注,导致产生幻觉。

谷歌被指使用Anthropic Claude模型优化Gemini AI

据外媒报道,谷歌谷歌正利用Anthropic的Claude模型优化自家的Gemini AI。

图源:网络

这个过程包括使用Claude进行性能基准测试,并根据Claude生成的结果评估Gemini AI模型的输出。整个评估过程侧重于准确性、真实性和详细程度等标准,每个提示最多允许30分钟,确保两个AI模型之间的全面比较。

根据内部测试结果,Claude的回答通常比Gemini的回答更严格地优先考虑安全。Claude会拒绝回应它认为不安全的提示,而Gemini的回复可能会包含不适当的内容。

不过,虽然谷歌是Anthropic的主要投资者,但Anthropic的服务条款明确禁止在未经事先批准的情况下使用Claude开发或训练竞争的AI模型。

针对此事,谷歌DeepMind发言人McNamara回应称,DeepMind确实会比较模型输出以进行评估,但并未在Anthropic模型上训练Gemini。他强调,任何关于谷歌使用Anthropic模型训练Gemini的说法都是不准确的。

谷歌 DeepMind 发布 MegaSaM,从 2D 视频还原 3D 场景

谷歌 DeepMind 近日发布了一项名为 MegaSaM 的 AI 系统,该系统可以从随意拍摄的普通动态视频中快速、准确地估算相机参数和深度图。这项突破性的技术解决了传统视觉计算方法在处理动态场景时的诸多限制。

图源:DeepMind

研究团队通过对深度视觉 SLAM 框架进行改进,使系统能够处理复杂的动态场景和不受限制的相机运动路径,即使是视差很小的视频也能应对自如。

与传统方法相比,MegaSaM 在处理随意拍摄的动态视频时表现出色。传统的运动结构和单目 SLAM 技术主要用于处理静态场景,且需要较大的视差,在不满足这些条件时容易产生错误估计。而 MegaSaM 通过深度神经网络的方法克服了这些挑战。

经过在合成和真实视频上的广泛测试,结果表明 MegaSaM 在相机姿态和深度估计方面的准确性和稳健性都显著优于现有技术,同时保持了较快或相当的运行速度。该系统几乎可以处理任何视频,包括那些随意拍摄、相机运动剧烈或场景动态变化的视频,处理速度约为每秒 0.7 帧。

ChatGPT 及 Sora 服务遭遇本月第二次大规模宕机

据多方消息报道,OpenAI 旗下的 ChatGPT、Sora 视频生成服务以及开发者 API 接口再次遭遇大规模宕机。此次宕机始于美国东部时间下午 1 点 30 分左右(北京时间 12 月 27 日凌晨 2 点 30 分),许多用户在访问 ChatGPT 时遇到"内部服务器错误"提示,或无法正常处理对话请求。

图源:X

OpenAI 在其状态页面上确认,此次宕机是由"上游供应商"问题引起。虽然公司未明确指出具体供应商,但其独家云服务提供商微软同一时间报告了数据中心出现电力故障,影响了北美地区的服务。微软表示,在美国东部时间下午 5 点左右已完全恢复了受影响数据中心的供电。

经过约 4 小时的修复工作,OpenAI 宣布 Sora 服务已完全恢复运行,ChatGPT 和 API 服务也开始逐步恢复。值得注意的是,这是继本月中旬之后,OpenAI 服务本月第二次发生大规模宕机。此前的宕机是由于在 Kubernetes 环境中添加新的遥测收集组件导致的。

此次宕机还影响了部分集成了 ChatGPT 的第三方服务,包括 iOS 18.2 系统中集成的 ChatGPT 功能。

传小米正搭建GPU万卡集群,将对AI大模型大力投入

有国内媒体报道称,小米正在着手搭建自己的GPU万卡集群,将对AI大模型大力投入。小米大模型团队在2023年4月成立时已有6500张GPU资源。

图源:网络

消息援引知情人士的话称,该计划已施行数月之久,雷军在其中扮演了重要的领导角色。小米认为,在AI硬件上,最核心的是手机而不是眼镜,小米在这个领域不all in是不可能的。

而在不久前,就有消息传出雷军正在加紧招募AI人才。12月20日,DeepSeek开源大模型 DeepSeek-V2的关键开发者之一罗福莉被曝已加入小米,或供职于小米AI实验室,领导小米大模型团队。

截至目前,小米暂未对传言作出回应。

陀螺科技现已开放专栏入驻,详情请见入驻指南: https://www.tuoluo.cn/article/detail-27547.html

前方智能专栏: https://www.tuoluo.cn/columns/author1911845/

本文网址: https://www.tuoluo.cn/article/detail-10118985.html

免责声明:
1、本文版权归原作者所有,仅代表作者本人观点,不代表陀螺科技观点或立场。
2、如发现文章、图片等侵权行为,侵权责任将由作者本人承担。

相关文章