AI开始学会主动工作，Claude新升级把人类都优化掉了

前方智能原创 2024-10-25 09:56 热度 51294

微信扫一扫：分享

微信里点“发现”，扫一下
二维码便可将本文分享至朋友圈

IP归属：广东

可以自己操作计算机的AI模型来了！

昨天，Anthropic发布了升级版 Claude 3.5 Sonnet和新型号Claude 3.5 Haiku，以及一个一项突破性的新功能“computer use”。根据Anthropic方面的说法，开发者现在可以通过API上的新功能指导Claude模型模仿键盘输入、鼠标点击和鼠标手势，类似于让AI“模仿人类的计算机操作”。

近年来，AI公司一直在推动大语言模型变得更加自主，让大模型不仅可以控制自身，也可以控制外部设备，没想到这一想法这么快就变为现实。

Claude几乎可以自动完成所有人类计算机操作

根据介绍，用上最新的computer use功能后，新版本 Claude 3.5 Sonnet 可以在唤醒对应软件设置运行时，按照用户的命令在计算机屏幕上移动光标，单击相关位置，并通过虚拟键盘输入信息，模拟人们与自己的计算机交互的方式。

这可以认为是Claude现在已经接受了一些计算机技能的培训，使其能够脱离人类的帮助使用各种标准工具和软件程序，通过这种方式，应用程序可以使用 Claude 来感知计算机界面并与之交互。而软件开发人员要做的只是集成API，使 Claude 能够将文本输入提示转换为特定的计算机命令。

具体来看，computer use整套操作流程只有四步：

1、为 Claude 提供电脑使用工具和用户提示，包括将 Anthropic 定义的计算机使用工具添加到用户的 API 请求中；

2、Claude加载存储的计算机使用工具定义，并评估是否有任何工具可以帮助用户进行查询，当获得肯定的回答后，构建格式正确的工具使用请求；

3、从 Claude 的请求中提取工具名称和输入并使用该工具；

4、Claude 继续调用计算机使用工具，直到完成任务。此时若Claude认为需要使用另一个工具，则会通过另一个 tool_usestop_reason进行响应，返回第 3 步。

而在调用Claude模型时，开发人员可以访问三个新的集成工具，这些工具提供了一组虚拟操作控制计算机：

ComputerTool(计算机交互工具)：通过接收屏幕截图和目标作为输入，并返回为实现该目标而应执行的鼠标和键盘操作的描述。例如，Computer tool可以要求Claude将光标移动到特定位置、单击、键入和截取屏幕截图。

EditTool(文件编辑工具)：通过使用此工具，模型可以要求执行查看文件内容、创建新文件、替换文本和撤销编辑等操作。

BashTool(命令行工具)：可以返回可在计算机系统上运行的命令，以便在用户于终端中键入时在较低级别进行交互。

借助这些工具，一个由 Claude 3.5 Sonnet 提供支持的应用程序可以像人类一样与计算机交互，浏览多个桌面工具，包括终端、文本编辑器、互联网浏览器，并且还能够填写表格甚至调试代码。

官方演示中，Claude现在几乎可以自动完成任何在计算机上的人类工作。包括复杂任务的自动操作、繁琐的流程计划制定工作、亦或是具体的编程工作。

可以看到，全程用户需要做的只是在输入框中输入任务指令，之后便不用再动一下鼠标、按一下键盘，computer use就可以像收到任务的助手一样，“控制”计算机所有的交互工具，执行信息搜索、数据检查、文字输入、表格制作等一系列需要高度协作能力的任务。

有网友尝试使用computer use功能，可以看到，基本与官方的演示一致，只不过agent的思考过程有点漫长，且费用并不小，短短三分钟的测试过程总共花费了0.12美元。

从演示效果上来看，这项功能很类似于传统的宏自动化工具，但根据Anthropic的说法，computer use区别于以往所有的传统自动化工具，其并不局限于执行特定的工作流程或软件程序，而是在开发人员要求 Claude 使用计算机软件并为其提供必要的访问权限后，通过查看用户可见内容的屏幕截图，推理如何以及何时执行特定操作以响应屏幕上的内容，之后与各种应用程序交互，并在出现不同任务时进行调整。这种灵活性使其比机器人流程自动化（RPA）技术更加通用。

能力评估甩开其他AI一大截，但还是远不如人类

在评估AI模型能否像人类一样使用计算机的 OSWorld 多模式代理基准测试中，Claude 3.5 Sonnet 在仅屏幕截图类别中的得分为 14.9%，明显高于第二好 AI 系统的 7.8% 得分。而当获得更多步骤来完成任务时，Claude 得分更是上升至 22.0%。只不过相比人类操作70-75%的得分，Claude显然还是很那比得过，想要完全取代人类还为时尚早。

在展示computer use功能时，Anthropic也承认 Claude 3.5 Sonnet 目前使用计算机的能力并不完美，并且会犯一些AI代理常见的错误，包括交互的延迟、生成特定坐标动作时的幻觉、选择工具时的幻觉、鼠标滚动或拖动时的操作范围限制、以及模型随时会“不听指示”等。

在一个测试出错的案例中，Claude在执行任务时被发现开起了小差，反而转头去浏览起了黄石国家公园的照片，某种程度上来说，像极了一个频繁摸鱼的打工人，这也被调侃为“AI最像人类的一次”。

为此，Anthropic方面也发出警告：computer use功能会带来与标准 API 功能或聊天界面不同的独特风险。当使用计算机与互联网交互时，这些风险会加剧。为了最大限度地降低风险Anthropic建议：

使用具有最低权限的专用虚拟机，以防止直接系统攻击或事故。

避免让模型访问敏感数据，例如账户登录信息，以防止信息被盗。

将 Internet 访问限制为域允许列表，以减少接触恶意内容的风险。

请人工确认可能导致有意义的现实后果的决定，以及任何需要明确同意的任务，例如接受 Cookie、执行财务交易或同意服务条款。

AI代理竞争加剧

对于现阶段的工作流程来说，创建AI代理几乎是利大于弊的，AI不仅能监控工作动向，还会根据任务要求或是突发状况及时采取行动，这在生产效率和时间效率上都是质的飞跃。

研究机构Gartner预测，到 2028 年，至少 15% 的日常工作决策将通过代理 AI 自主做出（高于 2024 年的 0%）。而根据Capgemini 最近的一项调查显示，目前全球10% 的企业组织已经在使用 AI 代理，82% 的组织将在未来三年内集成AI代理工具。

在计算机上自动执行任务的工具并不是什么新想法，此前的RPA 供应商、微软、Relay、Induced AI和 Automat 等AI公司都有相关工具和研究项目，与Anthropic直接竞争的对手OpenAI也一直在开发类似工具。

可以说，对于AI代理的开发是AI行业一场新的军备竞赛，如果这些工具能按预期发展，它们将在未来几年内成为整个行业新的风口。

而作为全球范围内致力于构建 AI 代理的多家公司之一，Anthropic的突出之处其开发速度更快，并且做到了将 AI 聊天机器人从文本框中释放出来，使得AI不再局限于提供基于文本、语音回复，而是可以代表人类自动完成小型项目。

在Anthropic看来，AI 代理可以比人类更高效、更经济地处理大部分办公室工作。而computer use功能的公开测试是Anthropic朝着其AI愿景迈出的又一步。

当然，AI工具的使用必然伴随着争议，一个有潜力取代人类的AI在帮助人们变得更轻松的同时势必也会带来一定程度的安全隐患。

不过，目前也不用太过担心computer use带来的风险，computer use功能还处在beta测试阶段，Anthropic预计将在未来几个月内改善当前遇到的问题，届时Claude 3.5 Sonnet在解放双手的基础上也会更加安全。

Claude 人工智能代理模式

陀螺科技现已开放专栏入驻，详情请见入驻指南： https://www.tuoluo.cn/article/detail-27547.html

前方智能专栏： https://www.tuoluo.cn/columns/author1911845/

本文网址： https://www.tuoluo.cn/article/detail-10117060.html

免责声明：
1、本文版权归原作者所有，仅代表作者本人观点，不代表陀螺科技观点或立场。
2、如发现文章、图片等侵权行为，侵权责任将由作者本人承担。

上一篇： Humane将Ai Pin价格下调200美元

下一篇：新能源车企血拼，福耀玻璃创下业绩新高

阿里即将发布AI眼镜，AI+AR眼镜或将于今年双11正式...

“多核驱动”，阿里巴巴正组成史上最强高管阵容

美团等入股具身智能公司它石智航

对未来的一些想法——写在英伟达市值破4万亿美元之后

英特尔前 CEO 推出全新 AI 基准测试

服务于AI/AR眼镜，Meta斥资1600万美元构建音频...