AI芯天下丨热点丨OpenAI即将推出Agent模式,AI能力又进一步

IP归属:广东

前言

2025年下半年伊始,始终致力于定义AI领域的OpenAI,正式推出了其Agent模式的解决方案。

这一方案使ChatGPT能在虚拟沙盒中调用文本浏览器、可视化浏览器和终端工具,自主完成多步骤复杂任务,实现从信息检索到在线购物等操作,开启了从Chat到Agent的跨越。

作者| 方文三

图片来源|网 络

OpenAI自己的Agent模式亮相

近日,萨姆·奥尔特曼与四位OpenAI研究员通过直播形式介绍了即将发布的Agent模式。

观其演示过程可发现,该模式在用户交互层面的直观体验,与数月前引发广泛关注的Manus模式极为相似。

当用户提出需求后,系统均会自动创建一个虚拟环境,并开始执行任务。

任务执行期间,Agent会反复请求用户确认操作步骤,并允许用户随时手动接管进程。

同时,用户亦可在任务执行过程中插入新的需求指令,实现实时交互。

OpenAI首席执行官山姆・奥特曼表示,目睹ChatGPT智能体运用计算机执行复杂任务,使其真切感受到AGI的存在。计算机自主完成思考、规划与执行的过程,将产生显著差异的体验。

所有操作均在ChatGPT Agent专属虚拟计算机中完成,此举可在调用多工具时完整保留任务上下文信息。

该智能体可根据需求选择文本浏览器或可视化浏览器访问网页,执行文件下载操作,通过终端命令处理文件,并借助可视化浏览器审阅输出结果。

同时能够动态调整任务策略,以实现高效、精准的快速执行。

ChatGPTAgent专为迭代式、协同式工作流程设计,其交互性与灵活性远超既往模型。

任务执行过程中,用户可随时中断进程:进一步澄清指令以修正执行方向,或直接变更任务目标。智能体将基于新增信息继续推进工作,且完整保留先前进度。

同理,ChatGPT亦会在必要时主动要求用户补充细节,确保任务执行不偏离既定目标。

若任务耗时超出预期或陷入停滞,用户可选择暂停进程、获取进度摘要,或终止任务以提取现有成果。

当用户安装移动端ChatGPT应用时,系统将在任务完成后推送通知。

由Operator+Deep Research工具整合而成

根据OpenAI的介绍,Agent模式可调用三种工具:文本浏览器、可视化浏览器及终端。模型具备自主选择并切换这些工具的能力。

此工具组合的设计颇具巧思:文本浏览器专司大量文本信息的浏览与检索,可视化浏览器则负责在定位信息后执行键鼠操作或读取图像信息。

而终端工具,则用于运行代码、生成包括演示文稿与电子表格在内的文件,并调用特定的云端应用程序接口。

OpenAI此次推出的新型Agent模式,并非一项全新的技术创新,实则由该公司上半年发布的两项工具——Operator与Deep Research整合而成。

Operator原为仅向Pro用户开放的浏览器Agent工具,具备分析图形操作界面并执行基础操作的能力。

Deep Research则是一款深度研究分析工具,可读取大量网页内容并直接生成调研报告。

OpenAI在分别推广这两项工具时发现,许多用户通过Operator提交的提示指令更趋近于DeepResearch的任务范畴,例如[规划旅行行程并进行预订];

而Deep Research用户强烈呼吁的[登录网站、访问受保护资源]功能,实为Operator已具备的能力。

这两个从不同维度推进的Agent项目最终实现整合,产生了显著的协同效应。

既规避了单纯依赖浏览器图形界面处理文本材料的低效问题,又使得生成深度研究报告所需时长显著缩短。

实现了通用智能体能力的关键升级

与过往的基础大模型迭代不同,通用Agent能够自主调用多种工具进行任务规划,协助用户完成复杂操作,包括自动查阅用户日历、生成可编辑的PPT文档、运行代码等。

ChatGPT Agent可连接用户的Gmail、GitHub等平台获取信息并解决问题,同时通过API接口访问各类应用程序。

OpenAI采用模拟复杂现实任务的基准测试对该模型进行评估。

经Agent技术增强后,AI智能水平实现大幅提升。

基于ChatGPTAgent的模型在HLE基准测试中获得41.6%的评分,达到O3与O4-mini模型性能的近两倍。

在内部构建的复杂经济价值知识型任务评估体系中,ChatGPTAgent的产出质量约半数情况下达到甚至超越人类水平,任务完成时间存在浮动区间,且显著优于o3与o4-mini模型。

在SpreadsheetBench表格操作测试中,该智能体处理复杂电子表格的编辑、函数应用及格式规范能力取得显著突破,以45.5%的得分达到GPT‑4o性能的两倍,首次逼近ExcelCopilot商业级解决方案水平。

网页操作领域,ChatGPT Agent在WebArena测试中成功执行账户登录、页面跳转、数据采集等现实任务,其表现已接近人类平均水准。

信息检索能力方面,该智能体于BrowseComp基准测试中以68.9分创下当前最高记录。此项指标直接决定其自主执行任务时的可靠性水平。

尾:

OpenAI的正式入场,或将重塑Agent创业领域的整体叙事框架。

数月前,Manus尚被誉为[国产Agent的希望]:其于业界尚未充分理解Agent概念之际,率先向市场展示了未来图景,实证了AI执行复杂任务的现实潜力。

然今年7月初,Manus官网悄然关闭,中国大陆业务全面暂停,仅保留海外产品线——此举促使外界重新审视Agent初创企业的真实生存状态。

数日前,朱啸虎曾公开断言:大模型将吞噬90%的Agent市场。

毋庸置疑,此现象背后交织着监管政策、合规要求与资本环境等多重复杂因素。

但现在的问题又来到了,当OpenAI亲自下场,初创通用型Agent的机会已经不多了。

部分资料参考:极客公园:《刚刚,OpenAI发布了自己的Agent模式,ManusStyle》,机器之心:《刚刚,OpenAI通用智能体ChatGPTAgent正式登场》,果壳:《终于来了,OpenAI的智能体,但这次掌声不多》,网易科技:《凌晨,OpenAI卷进[通用Agent],Manus们算白忙活吗?》

陀螺科技现已开放专栏入驻,详情请见入驻指南: https://www.tuoluo.cn/article/detail-27547.html

AI芯天下专栏: https://www.tuoluo.cn/columns/author1911711/

本文网址: https://www.tuoluo.cn/article/detail-10123772.html

免责声明:
1、本文版权归原作者所有,仅代表作者本人观点,不代表陀螺科技观点或立场。
2、如发现文章、图片等侵权行为,侵权责任将由作者本人承担。

相关文章