可以自己操作计算机的AI模型来了!
昨天,Anthropic发布了升级版 Claude 3.5 Sonnet和新型号Claude 3.5 Haiku,以及一个一项突破性的新功能“computer use”。根据Anthropic方面的说法,开发者现在可以通过API上的新功能指导Claude模型模仿键盘输入、鼠标点击和鼠标手势,类似于让AI“模仿人类的计算机操作”。
近年来,AI公司一直在推动大语言模型变得更加自主,让大模型不仅可以控制自身,也可以控制外部设备,没想到这一想法这么快就变为现实。
Claude几乎可以自动完成所有人类计算机操作
根据介绍,用上最新的computer use功能后,新版本 Claude 3.5 Sonnet 可以在唤醒对应软件设置运行时,按照用户的命令在计算机屏幕上移动光标,单击相关位置,并通过虚拟键盘输入信息,模拟人们与自己的计算机交互的方式。
这可以认为是Claude现在已经接受了一些计算机技能的培训,使其能够脱离人类的帮助使用各种标准工具和软件程序,通过这种方式,应用程序可以使用 Claude 来感知计算机界面并与之交互。而软件开发人员要做的只是集成API,使 Claude 能够将文本输入提示转换为特定的计算机命令。
具体来看,computer use整套操作流程只有四步:
1、为 Claude 提供电脑使用工具和用户提示,包括将 Anthropic 定义的计算机使用工具添加到用户的 API 请求中;
2、Claude加载存储的计算机使用工具定义,并评估是否有任何工具可以帮助用户进行查询,当获得肯定的回答后,构建格式正确的工具使用请求;
3、从 Claude 的请求中提取工具名称和输入并使用该工具;
4、Claude 继续调用计算机使用工具,直到完成任务。此时若Claude认为需要使用另一个工具,则会通过另一个 tool_usestop_reason进行响应,返回第 3 步。
而在调用Claude模型时,开发人员可以访问三个新的集成工具,这些工具提供了一组虚拟操作控制计算机:
ComputerTool(计算机交互工具):通过接收屏幕截图和目标作为输入,并返回为实现该目标而应执行的鼠标和键盘操作的描述。例如,Computer tool可以要求Claude将光标移动到特定位置、单击、键入和截取屏幕截图。
EditTool(文件编辑工具):通过使用此工具,模型可以要求执行查看文件内容、创建新文件、替换文本和撤销编辑等操作。
BashTool(命令行工具):可以返回可在计算机系统上运行的命令,以便在用户于终端中键入时在较低级别进行交互。
借助这些工具,一个由 Claude 3.5 Sonnet 提供支持的应用程序可以像人类一样与计算机交互,浏览多个桌面工具,包括终端、文本编辑器、互联网浏览器,并且还能够填写表格甚至调试代码。
官方演示中,Claude现在几乎可以自动完成任何在计算机上的人类工作。包括复杂任务的自动操作、繁琐的流程计划制定工作、亦或是具体的编程工作。
可以看到,全程用户需要做的只是在输入框中输入任务指令,之后便不用再动一下鼠标、按一下键盘,computer use就可以像收到任务的助手一样,“控制”计算机所有的交互工具,执行信息搜索、数据检查、文字输入、表格制作等一系列需要高度协作能力的任务。
有网友尝试使用computer use功能,可以看到,基本与官方的演示一致,只不过agent的思考过程有点漫长,且费用并不小,短短三分钟的测试过程总共花费了0.12美元。
从演示效果上来看,这项功能很类似于传统的宏自动化工具,但根据Anthropic的说法,computer use区别于以往所有的传统自动化工具,其并不局限于执行特定的工作流程或软件程序,而是在开发人员要求 Claude 使用计算机软件并为其提供必要的访问权限后,通过查看用户可见内容的屏幕截图,推理如何以及何时执行特定操作以响应屏幕上的内容,之后与各种应用程序交互,并在出现不同任务时进行调整。这种灵活性使其比机器人流程自动化(RPA)技术更加通用。
能力评估甩开其他AI一大截,但还是远不如人类
在评估AI模型能否像人类一样使用计算机的 OSWorld 多模式代理基准测试中,Claude 3.5 Sonnet 在仅屏幕截图类别中的得分为 14.9%,明显高于第二好 AI 系统的 7.8% 得分。而当获得更多步骤来完成任务时,Claude 得分更是上升至 22.0%。 只不过相比人类操作70-75%的得分,Claude显然还是很那比得过,想要完全取代人类还为时尚早。
在展示computer use功能时,Anthropic也承认 Claude 3.5 Sonnet 目前使用计算机的能力并不完美,并且会犯一些AI代理常见的错误,包括交互的延迟、生成特定坐标动作时的幻觉、选择工具时的幻觉、鼠标滚动或拖动时的操作范围限制、以及模型随时会“不听指示”等。
在一个测试出错的案例中,Claude在执行任务时被发现开起了小差,反而转头去浏览起了黄石国家公园的照片,某种程度上来说,像极了一个频繁摸鱼的打工人,这也被调侃为“AI最像人类的一次”。
为此,Anthropic方面也发出警告:computer use功能会带来与标准 API 功能或聊天界面不同的独特风险。当使用计算机与互联网交互时,这些风险会加剧。为了最大限度地降低风险Anthropic建议:
使用具有最低权限的专用虚拟机,以防止直接系统攻击或事故。
避免让模型访问敏感数据,例如账户登录信息,以防止信息被盗。
将 Internet 访问限制为域允许列表,以减少接触恶意内容的风险。
请人工确认可能导致有意义的现实后果的决定,以及任何需要明确同意的任务,例如接受 Cookie、执行财务交易或同意服务条款。
AI代理竞争加剧
对于现阶段的工作流程来说,创建AI代理几乎是利大于弊的,AI不仅能监控工作动向,还会根据任务要求或是突发状况及时采取行动,这在生产效率和时间效率上都是质的飞跃。
研究机构Gartner预测,到 2028 年,至少 15% 的日常工作决策将通过代理 AI 自主做出(高于 2024 年的 0%)。而根据Capgemini 最近的一项调查显示,目前全球10% 的企业组织已经在使用 AI 代理,82% 的组织将在未来三年内集成AI代理工具。
在计算机上自动执行任务的工具并不是什么新想法,此前的RPA 供应商、微软、Relay、Induced AI和 Automat 等AI公司都有相关工具和研究项目,与Anthropic直接竞争的对手OpenAI也一直在开发类似工具。
可以说,对于AI代理的开发是AI行业一场新的军备竞赛,如果这些工具能按预期发展,它们将在未来几年内成为整个行业新的风口。
而作为全球范围内致力于构建 AI 代理的多家公司之一,Anthropic的突出之处其开发速度更快,并且做到了将 AI 聊天机器人从文本框中释放出来,使得AI不再局限于提供基于文本、语音回复,而是可以代表人类自动完成小型项目。
在Anthropic看来,AI 代理可以比人类更高效、更经济地处理大部分办公室工作。而computer use功能的公开测试是Anthropic朝着其AI愿景迈出的又一步。
当然,AI工具的使用必然伴随着争议,一个有潜力取代人类的AI在帮助人们变得更轻松的同时势必也会带来一定程度的安全隐患。
不过,目前也不用太过担心computer use带来的风险,computer use功能还处在beta测试阶段,Anthropic预计将在未来几个月内改善当前遇到的问题,届时Claude 3.5 Sonnet在解放双手的基础上也会更加安全。