早在今年 9 月,就有消息传出 OpenAI 或将推出每月 2000 美元(折合人民币约14598元)的 ChatGPT 订阅计划,而根据该公司高管 Sarah Friar 近期的言论,OpenAI 这一天价收费计划或许真的即将上线。
据外媒报道,OpenAI 首席财务官 Sarah Friar 近日表示,OpenAI 正在为其 AI Agent 产品计划推出 2000 美元/月的订阅会员,由于该产品具备“博士级智能”,能够自主完成诸如旅行预定、科学研究等复杂任务,因此,OpenAI 将其定位为企业雇主的人类员工“替代品”。
图源:网络
好家伙,当各大厂商还在布局 AI 办公工具的时候,月薪 2000 美元的 AI 马上就要取代月薪 3000 的打工人了。
2000 美元的“博士级智能”,智能在哪里
在 9 月传出的消息中,这份每月 2000 美元的 ChatGPT 订阅计划将包括代号为“Strawberry”和“Orion”的模型,其中 Strawberry 即为此前推出的推理模型 o1。
2024 年 9 月,OpenAI 正式推出推理模型 o1 的预览版,并在 12 月发布正式模型。与 OpenAI 之前的模型相比,o1 在编写代码和解决多步骤问题方面做得更好,在经过训练后可以比人类更快地回答更复杂的问题。
在 OpenAI 的设想中,一个成熟的 AI 代理工具将可以取代一般人类员工,而要想实现这一目标,AI 就必须学会一个“成熟打工人”必要的三种能力:思考、合作以及行动。拥有思维链的 o1 解决的就是 AI 在工作中的思考问题。
图源:OpenAI
o1 模型在推理能力上相比 OpenAI 之前的模型更加出色,在做出反应前会花更多时间思考,通过复杂的过程进行推理,解决比以往更难的科学、编码和数据问题。
例如在官方提供的测试数据中,o1 在 AIME 数学考试中解决了 83% 的问题,而 GPT-4o 仅正确解决了 13%;在 Codeforces 编程竞赛中,o1 排名前 89%,而 GPT-4o 表现较差。此外,在 MMLU 基准测试的 57 个不同科目中,o1 在 54 个科目上的表现也优于 GPT-4o,展现出更广泛的知识理解能力。
o1 能在复杂推理任务中取得重大突破的关键在于其思维链技术。OpenAI 使用大规模强化学习算法对 o1 模型进行训练,让模型在数据高效训练时学会用思维链进行高效思考。通过不断调整模型的参数,使其能够在面对问题时自动构建和运用思维链。
类似于人类在回答困难问题之前长时间思考的方式,o1 模型在解决问题时会将复杂问题分解为多个简单的子问题,然后逐步分析、推理和验证,形成一个完整的思维链。在这个过程中,模型会不断尝试不同的策略,识别和纠正自己的错误,直到找到最终的答案。
而在 OpenAI 日前 12 天直播的收官场中,OpenAI 更是直接端上了 OpenAI o3 模型,将大模型推理能力再次拔高到了一个新的高度。
可以说,o3 模型对比现在所有模型几乎都是降维打击。根据 OpenAI 的介绍,o3 模型在主要通过图形逻辑推理测试模型推理能力的 ARC-AGI 基准上获得了破纪录的分数,在低计算场景中,o3 的测试得分为 75.7%,而在高计算测试中,该分数甚至达到了 87.5%。
图源:OpenAI
要知道,就算是 o1 模型的得分也仅在 25%到 32%之间,o3 的表现不仅三倍吊打 o1,更是超越了该基准测试 85%的人类水平门槛,在某些条件下接近实现 AGI。
此外,o3 在同样的 AIME 数学竞赛中取得了 96.7%准确率的高分,超过 o1 的 83%;在 OpenAI 于 8 月推出的 SWE-bench Verified 代码生成评估基准中,o3 的准确率为 71.7%,比 o1 高出了 22.8 个百分点;在由 60 多位顶尖数学家的合作开发,旨在评估人工智能在高级数学推理能力的 EpochAI“FrontierMath”数学基准测试中,o3 更是直接解决了 25.2%的问题,而作为对比的 GPT-4 和 Gemini 1.5 Pro 成功率则不足 2%。
图源:OpenAI
根据 OpenAI 的测试,无论在软件工程、编写代码,还是竞赛数学、掌握人类博士级别的自然科学知识能力方面,o3 都明显高出 o1 一筹。某种程度上说,o1 的推理行为参考了人类的思考过程,为 AI 在工作中接受任务、思考解决方案、提出解决方法提供了思考流程,而 o3 的出现则将这一思考、推理过程更加智能化,AGI 的曙光初现为 AI 平替打工人提供了第一个要素。
当然,仅仅是 o3 的出现也并不意味着 OpenAI 计划中的 AI 代理时代已经到来。在定义中,AI 代理是一种能够感知环境、进行决策并采取行动以实现特定目标的人工智能实体,重点在于“通过行动解决问题”。
仅靠 o1、o3 的能力大概率支撑不起每月 2000 美元的订阅费用,高昂会员费用的价值大头最终还是要放到 OpenAI 下一代“颠覆性”的旗舰模型上。
从 2023 年 3 月发布 GPT 4 模型开始,OpenAI 就一直在开发 GPT-4 的继任者、下一个旗舰级模型 GPT 5。有说法称,此前有透露过消息的代号为“Orion”的模型就是 GPT-5。
据 OpenAI 内部人士透露,Orion 模型的运算能力预计将是 GPT-4 的 100 倍,同时有报道称,Orion/GPT-5 或许将拥有能够解锁新的科学发现的能力,并拥有完成诸如预约或航班等日常人类任务的 AI 代理能力。
这种自主处理任务的能力将成为 AI 独立工作的第二个要素,但相比前面提到的思考能力,OpenAI 真正赋予 AI 行动能力的时间可能要比我们想的来得更晚些,在面临延误、成本增加和对其可行性的怀疑之后,GPT-5 的上线时间仍遥遥无期。
模型研发受阻,OpenAI 的 AI 代理何时推出仍存疑
此前,OpenAI 最大投资者微软曾预计 GPT-5 将于 2024 年年中发布,然而根据外媒报道,在历经 18 个月的开发后,GPT-5 目前进展并不顺利,正式上线时间已被推迟至 2025 年底至 2026 年初。
图源:网络
有 OpenAI 内部人士表示,整个 GPT-5 开发过程至少有两次主要训练运行未能达到预期的结果,“研究人员每次都会遇到不可预见的问题。”
其中在 2023 年年中,OpenAI 启动了一项名为“Arrakis”的训练运行,但该训练运行缓慢,每次训练都需要数月时间来处理大量数据,同时未来的训练运行仍将需要非常长的时间。
据估计,GPT-5 为期六个月的训练仅在计算成本方面就花费了约 5 亿美元,相比之下,目前的 GPT-4 的训练成本约为 1 亿美元。但即使经过了长时间的开发,与从 GPT-3 过渡到 GPT-4 时引入的增强功能相比,GPT-5 的新增强功能似乎并未见到更多突破,离 OpenAI 首席执行官 Sam Altman 此前承诺的“重大飞跃”还存在较大距离。
Altman 将 GPT-5 推迟的原因归咎于公司项目的分散导致 GPT-o1 占据了开发团队更多的精力。但《华尔街日报》有报道称,GPT-5 落后于计划并且成本高昂,主要原因还是在于缺乏高质量的数据以及财务问题。
其中数据稀缺并不是 OpenAI 一家的问题,有研究预测,随着模型训练的加快加深,到 2028 年,大模型或将耗尽互联网上可用的训练材料。OpenAI 前首席科学家 Ilya Sutskever 曾在公开场合将训练数据描述为“AI 的化石燃料”,并暗示现在的互联网数据增长已经停滞不前。
图源:网络
有 OpenAI 研究人员表示,未来公共互联网所能提供的模型开发所需的高质量、多样化的数据集将越来越少。为了解决这个问题,OpenAI 已经转向合成数据训练,公司聘请了软件工程师、数学家和理论物理学家创建原创内容,这些专家编写软件代码,数学问题解决过程,提供推理的详细解释,使 Orion 能够更深入地了解复杂问题。
但显然,该方式过于依靠人力,无论是速度还是训练质量都会影响 GPT-5 的最终上线时间。
据悉,GPT-4 使用了大约 13 万亿个 tokens 进行了训练,而一个由 1000 人组成的团队需要花几个月的时间才能生成 10 亿个 tokens。
也正因此,数据的缺乏使得正在开发中的 GPT-5 给人的感觉还是不够强。OpenAI 的研究人员依靠主观使用体验来评估 Orion 是否准备好被冠以 GPT-5 之名,但到目前为止,结果并不令人兴奋,以至于 Altman 在 11 月表示,“2024 年内不会发布任何名为 GPT-5 的产品”。
而在财务问题方面,OpenAI 目前正面临着巨大的风险,Orion 相较于 OpenAI 其他模型并未有断层领先的优势,且训练成本还在不断上升,Altman 曾表示,未来的 AI 模型成本预计将超过 10 亿美元,这意味着 Orion 相较于 GPT-4 的性价比并不高,很难说服投资人在一个不甚明朗的项目中投入巨大成本。
此外,该公司 1570 亿美元的估值也主要取决于对 GPT-5 的承诺,而随着谷歌 DeepMind、Anthropic 和微软等竞争对手相继在 AI 创新领域加大投入、意图建立主导地位,OpenAI 更是面临着来自外部的压力。
11 月,亚马逊宣布将向 Claude AI 母公司和 OpenAI 竞争对手 Anthropic 再投资 40 亿美元,使其总融资金额达到 80 亿美元。
本月早些时候,Elon Musk 的 xAI 宣布计划将其可支配的 GPU 数量增加五倍,并将其位于美国田纳西州孟菲斯的 Colossus 超级计算机扩展到至少有 100 万个 GPU。
图源:网络
GPT-5 的进展只要慢于预期,就可能会为竞争对手提供取得进展甚至重塑市场动态的机会,让 OpenAI 更难在后续吸引到关键投资。
从这点上看,OpenAI 急着推出“12 天直播计划”、急着推出 Sora、o3 或许也是想继续维持住 OpenAI 的高关注度,但就像 Altman 说的一样,更多的项目分散了 OpenAI 的注意,开发新产品的团队和 GPT-5 研究人员之间需要争夺有限的计算资源,让原本就已到瓶颈期的 GPT-5 雪上加霜。
OpenAI 的一切都处于危险之中,没有失败的余地。GPT-5 的推出时间存疑,其溢价定价的策略也很可能吸引不到付费用户,且不说 GPT-5 相比前代产品能有多大提升,2000 美元的月服务费用就不是大多数人能够负担得起的。
对于金融、医疗保健、科学研究领域的公司,使用更强的模型处理大量信息并产生准确的判断见解可能物超所值,对于普通用户来说,20 美元的 plus 会员甚至是免费使用带来的工作提升已经绰绰有余。
2000 美元的“博士 AI 员工”会比人类员工更有性价比吗
个人用户每月花费 2000 美元订阅 OpenAI 的博士级智能还是过于奢侈了,那么对于企业来说,用这一服务来替代人类员工会是一个可行的方案吗?
在过去的两年中,我们常常能听见企业“因 AI 裁员”的消息。
去年年底,谷歌被曝出用 AI 取代 3 万销售的工作;今年 4 月,特斯拉宣布全球裁员超 1.4 万人,AI 在其业务中的应用使得一些传统岗位的需求减少;8 月,英特尔宣布全球裁员 1.5 万人,相当于总员工的 15%,裁员理由同样是 AI 等技术的发展推动了公司的业务转型和人员结构调整。
图源:网络
因为生成式 AI 的兴起,营销、设计等岗位成为互联网公司“优化”的重灾区。
日前,有消息传出国内游戏公司福州网龙将进行一轮裁员。消息援引内部员工的话称,“P8 职级以下的员工大多受到了波及,也就是说几乎所有的基层员工都有可能是被裁员的对象。”
此外,消息中还提到了网龙 CEO 刘德建曾在某次会议中提到,“在战略层面上,公司这个阶段应该把注意力转移到以 AI 生产线为抓手,将网龙转向新型 AI 组织。”
这不免让人将此次裁员传言与 AI 联系起来。据社交平台上网龙员工透露的信息,UI 设计岗位是此次裁员的绝对重灾区,而这也符合目前生成式 AI 取代人工的基本认识。
而随着 AI 代理的出现,不少人认为,AI 取代人类员工的进程还要加快,且不同于过去,这波 AI 技术影响到的几乎是所有岗位的员工。
10 月份,Anthropic 推出了名为 computer use 的 AI 代理工具,开发者可以通过 API 上的新功能指导 Claude 模型模仿键盘输入、鼠标点击和鼠标手势,类似于让 AI“模仿人类的计算机操作”。
上海交通大学 GAIR 实验室研究团队的 PC Agent 研究更是将 AI 代理的使用场景带入了写字楼,不仅能让 AI 自己做海报,甚至更复杂的 PPT 制作、网站创建也能让 AI 自动完成,团队将相关研究论文命名为《PC Agent: While You Sleep, AI Works》,妥妥的是让 AI 帮助人类实现“睡后收入”。
此外,现在的手机也都开始在陆续接入 AI 代理功能,帮人类订航班、叫外卖成了 AI 的新工作。AI 能做的事情越来越多,那么这是否就意味着,随着技术的发展,AI 终有一天会强大到接手人类所有的日常杂事甚至是具体的工作,直至取代人类呢?
图源:网络
答案充满了不确定性。
从目前的 AI 代理表现上来说,AI 和人类的表现各有优劣。单从工作效率一点上来说,AI 代理在处理大量数据上比人类更有优势。AI 在处理大量数据和重复任务时速度极快,在数据分析领域,AI 可以在短时间内处理海量的数据,完成数据清洗、分类和初步分析等工作。对于金融机构处理交易数据、电商平台分析用户购买行为等任务,AI 代理能够快速提供结果,而人类可能需要花费数倍的时间。
但在某些具体的简单操作上,AI 代理的表现反而不如人类。
在评估 AI 模型能否像人类一样使用计算机的 OSWorld 多模式代理基准测试中,computer use 功能在仅屏幕截图类别中的得分为 14.9%,当获得更多步骤来完成任务时,Claude 得分上升到了 22.0%。但这一成绩相比人类操作 70-75%的得分根本不在一个层级,说明目前的 computer use 想要完全取代人类还为时尚早。
此外,以 computer use 为代表的 AI 代理还会犯一些常见的错误,包括交互的延迟、生成特定坐标动作时的幻觉、选择工具时的幻觉、鼠标滚动或拖动时的操作范围限制、以及模型随时会“不听指示”等。即使和初学者相比,AI 操作鼠标的效率也是很难胜过人类。
而在诸如情感理解沟通、复杂学习能力等方面,对 AI 和人类的比较讨论也很多,产生的意见分歧也较大。
只有在价格一点上,或许大多数人都能达成共识:这么发展下去,AI 的使用成本可能真的要比人工更贵了。
在过去的例子中,企业们因 AI 裁员的原因无非是在一些岗位,AI 要比人类员工更加便宜。
根据斯坦福大学发布的《2024 年人工智能指数报告》数据显示,在人工智能赋能下,企业特别是制造业的利润切实得到提升,其中有 42%的受访企业表示应用 AI 技术后经营成本降低,有 59%的受访企业表示收入增加。
而据微盟集团在其今年举办的技术开放日暨 AI 产品发布会上的数据,功效护肤品牌 PhM 华西珐玛在 2024 年 618 大促中使用微盟 WAI 后,大促期间的整体成本同比降低了 60%。其成本减少主要来自两方面,一是无需再请兼职的设计、美工,二是自身文案、私域运营、新媒体运营、电商运营等员工的时间成本大幅降低。
图源:网络
这些企业使用 AI 降本增效是基于 AI 对现有员工的辅助作用,引入 AI 工具后,一个人用同样的时间或许就能完成过去两个、三个、甚至更多人份的工作量,这时的 AI 还只是工具属性,功能不甚强大但够用,成本也较为低廉。
但当 AI 进化到可以取代所有工作岗位,在工作中起到主导地位时,AI 就不再是辅助工具,而是上升到了具体的工作个体,这个时候我们就会发现,强大的生成能力、推理能力背后是更加庞大的算力加持,结合前面提到的数据缺乏以及可能带来的能源危机,完全能取代人类的 AI 代理的价格相比 OpenAI 提出的 2000 美元会只多不少,而这一数字已经高过目前国内大多数人的月工资了。
根据国家统计局《中国统计年鉴 2024》的数据,2023 年全国城镇非私营单位就业人员年平均工资为 120698 元,月均工资刚刚超过 1 万元;城镇私营单位就业人员年平均工资为 68340 元。即使按照城镇非私营单位员工的数据,想要用 AI 完全取代人类也不是一个更具性价比的选择。
谁能想到,原先打着辅助人类、帮助人类解放生产的 AI 工具,月薪已经要开始高过人类了。是 AI 代理技术还没有开发到足以大规模推广的时候,还是人类员工们不够努力呢?