大厂们争着做的代理人工智能,可能要让这个被嘲许久的 AI 硬件起死回生了

IP归属:广东

在长期冷淡的市场反馈下,Rabbit R1 似乎还想再次通过 AI 证明自己区别于传统手机的智能硬件身份。

不久前,Rabbit R1 上线了名为“教育模式(teach mode)”的 AI 代理功能,允许 Rabbit R1 学习用户演示的操作,并自动创建可重复执行类似任务的 AI 代理。

图源:Rabbit

作为近期的行业热门,AI 代理被视作人工智能技术的重要发展方向,有望逐步改变我们的工作方式,并在未来几年内彻底革新各个行业。而 Rabbit R1 此次试水 AI 代理功能,或许也能够在一定程度上为 Rabbit R1 创造新的 AI 体验,减少该产品过去带给消费者的“无聊”感觉。

实验性的代理 AI 功能,跨出了 Rabbit R1“智能设备的第一步”

Rabbit R1 将其 AI 代理功能命名为“teach mode”,意在强调其“人类对机械设备教化”的定位。

根据官方一个月前就已经放出的演示视频,通过 teach mode 功能,用户可以教会 Rabbit R1 如何自动完成社交媒体帖子起草、在音乐软件中保存音乐等操作。

具体来看,用户需要先通过登录Rabbithole(用于管理 R1 设备的 Web 界面)来访问该功能。

图源:Rabbit

在管理界面,用户需要描述任务并记录自己执行任务的过程创建“课程”。演示中,官方人员通过在 PC 端管理界面执行“视频生成操作”,向 Rabbit R1 传输从打开网页到输入命令再到视频生成的完整过程。

图源:Rabbit

AI 代理学习“课程后”,将在用户提出命令请求时回忆所学内容并自动完成任务。当用户提出“生成万圣节幽灵兔子”的命令后,Rabbit R1 将通过语音提示用户命令处理情况,并在显示界面展示命令处理过程进度条,最后自行重复此前的“课程”,完成视频生成操作。

图源:Rabbit

除去最开始的课程录入阶段,用户在全过程中唯一的操作只有最开始的语音命令输入。

根据 Rabbit 的说法,用户可以在 Spotify、X、YouTube、Discord 等 “所有网站” 上使用该功能,AI 代理的加入将使得 Rabbit R1 的操作更加智能,将用户从繁琐的智能设备操作中解放出来。

此外,用户还可以访问社区中其他早期参与测试者创建的 AI 代理,并将其加入自己设备的学习列表中,甚至省去了自己录制课程的一步。

图源:Rabbit

可以说,AI 代理的加入使得 Rabbit R1 变得稍微那么有用了一点。

在这之前,媒体对其印象还停留在“未完成的产品”“失败的玩具”“时尚小垃圾”上,而现在,Rabbit R1 能完成的任务操作更多了,简洁的语音操作和程序自动化运行也使其比以前的版本看起来更像是一台主打 AI 功能的智能设备。

不过,目前的 teach mode 功能还是测试版,问题不少,且 Rabbit 对这一功能盈利模式也比较模糊。

teach mode 虽然赋予了 Rabbit R1 新的打开方式,但其操作逻辑还是没有跳脱出传统的应用程序操作,但这不只是 Rabbit R1 一家的问题,Agentic AI 的概念本就是通过环境感知让 AI 执行相应的动作,从而完成各种任务,只不过相比其他可以通过机器学习技术自行学习和适应的 AI 代理系统来说,teach mode 需要用户自己进行“操作课程录制”,这也让原本应该体现出更多智能的 AI 代理显得机械化。

而比起复杂的课程录制过程,teach mode 带来的操作流程简化才是用户应该关注的重点。“只需录入一次网上购物的流程,或许用户的无数次购物就只需要用 R1 的自带相机拍摄购物清单,一次操作就能一次购物到家的操作。”

图源:网络

同时,teach mode 的意义还在于几乎能一机完成日常生活中的所有信息、设备交互。Rabbit 提供了一个智能家居场景,想象一下,当 Rabbit R1 学习完所有的智能家具控制课程后,我们完全可以抛弃所有的遥控器,改用 Rabbit R1 这一万能的智能管家,让其同时管理不同品牌、不同形态的智能家居产品。

当然,这一点对于消费者来说,Rabbit R1 也只是提供了智能家具控制的另一个选择,现在的智能家具基本都配备了品牌专属的 App,用户通过手机同样也能完成与 Rabbit R1 相同的操作。从这点上看,Rabbit R1 还是未能摆脱“翻版安卓手机”的标签。

不过别急,虽然 AI 代理的使用场景未能和智能手机做出区分,但对于 Rabbit R1 来说,目前还真有一个出乎意料的,或许能对智能手机造成“威胁”的杀手锏——AI 代理应用商店,已经开始浮出水面。

图源:Rabbit

前面提到,Rabbithole 提供了多种用户自定义的社区课程,而 R1 用户可以选择将这些课程添加到自己的设备上。这听起来是不是很熟悉?不就是一个 AI 代理版本的软件应用商店嘛。

虽然目前 Rabbit 的 teach mode 测试版本还未明确透露收费计划,但在 Rabbit 的设想中,随着 AI 代理生态的发展,人们会和之前的软件应用、AI 应用一样,更倾向于在对应的应用商店中下载软件,而非自己制作。这也意味着随着用户上传的 teach mode 课程越来越多,再加上 teach mode 的后续更新将不再局限于浏览器,而是学会使用更复杂的应用程序,以 Rabbithole 社区为基础的 AI 代理应用商店也将初具雏形。

届时,Rabbit 应该也会学习苹果等软件应用商店厂商,为 AI 代理应用创作者提供部分收益,自己也能在庞大的应用生态中分得一杯羹,实现双方的共赢。

前有 Computer Use 后有 Jarvis,这 AI 代理可太香了

别说 Rabbit 对 AI 代理兴趣盎然,AI 行业的头部厂商们就没几个不对 AI 代理趋之若鹜的。

目前,微软、OpenAI、Anthropic、谷歌等多家头部人工智能公司均已推出或在研 AI 代理系统,旨在提高工作效率、自动化任务执行以及提升用户体验。

今年 10 月,Anthropic 推出了名为“Computer Use”的功能,不仅能够像人类一样控制计算机,包括移动光标、点击按钮等操作,还能与浏览器进行互动,甚至直接控制用户计算机上的多个应用程序。

图源:Anthropic

微软也发布了基于视觉的纯 GUI 代理“OmniParser”,其能够查看和理解屏幕布局,提取文本、按钮和图标等重要信息,并将其转换为结构化数据,被视为计算机用户界面的“翻译器”。

OmniParser 结合了微调后的 YOLOv8 模型和 BLIP-2 模型,分别负责定位和理解,同时还整合了 OCR 模块,以进一步提高对用户界面的理解。

具体来看,OmniParser 主要通过两步流程来理解屏幕内容:

  • 可交互区域检测:识别用户界面中的按钮和图标等可点击元素,采用在不同网页数据集上训练的专门模型,即使在复杂的用户界面中,也能准确检测到交互元素;

  • 语义字幕:为检测到的元素指定有意义的描述,结合光学字符识别(OCR)和字幕模型,为准确生成操作提供上下文。

在 SeeClick、Mind2Web 和 AITW 等不同的基准测试中,OmniParser 的表现都优于 GPT-4V 和 OpenAI 的 GPT-4 视觉。

图源:微软

OmniParser 发布仅一周,就登顶Hugging Face开源模型趋势。与 computer use 不同的是,OmniParser 的使用场景不局限于 Web 浏览器或移动 App 等特定环境,OmniParser 的跨平台和 GUI 的通用性使得其能够成为任何支持视觉的 LLM 的工具,与包含计算机、嵌入式屏幕等各种数字界面进行交互。

从目前微软的布局看来,AI 代理目前最有可能在办公领域大规模率先落地。不久前,微软还一口气发布了五款 AI 代理工具,这些 AI 代理工具都具备记忆功能,类似于 AI 代理版本的“办公套件”,能够跨越不同的应用程序获取需要的数据,独立运作、自主行动,并在指令的引导下主动完成任务:

  • SharePoint 代理:帮助客户自动回信确认订单、设定会议日历,或者即时响应聊天,解决日常中繁琐的事务;

  • 会议主持代理:在 Teams 中记录笔记、总结会议内容、引导会议的进行;

  • 即时翻译代理:支持在 Teams 会议中进行多达 9 种语言的即时翻译,还能模拟人的声音;

  • 项目管理代理:能自动化项目的整个流程,从规划到执行都能高效处理;

  • 员工自助服务代理:处理 HR 和 IT 问题,例如申请电脑,查询工资。

在微软看来,以 OmniParser 为代表的 AI 代理工具应用潜力广泛,从最普遍的工作场景上看,AI 代理能够自动完成重复性的电脑操作,有助于创建跨平台的自动化工具,帮助 AI 识别电脑屏幕并进行相应操作,催生更加智能的“AI 打工人”。而从更加细分的群体上看来,AI 代理或许也能新的计算机智能辅助工具,帮助残障人士更方便地使用电脑。

图源:Hugging Face

又是产品还未大规模落地,模型厂商就已经规划好了一切。AI 代理的风口太大,是个公司就不想在新一轮产品能力测试中被对手落下。

几乎与微软、Anthropic 同一时间,国内的智谱 AI、国外的谷歌也有 AI 代理的消息。其中智谱 AI 推出的为自主智能体 AutoGLM,能够模拟用户使用手机界面的过程,在手机应用程序以及网页上进行操作,包括根据用户给出的指令完成购物、进入应用程序完成文字填充、总结等。

目前,Au­t­o­G­LM 已在 PC 端开放,仅需安装清言插件即可使用,手机端则已开放安卓版的内测。应用场景上,由于 Au­t­o­G­LM 目前已经适配微信、淘宝、美团等 App,因此,让 AI 帮你回微信、点外卖也已不成问题。

谷歌相比前面三家跑得要慢一些,可以接管用户的网络浏览器、自动执行如收集研究资料、购买产品和预订航班等任务的“Jarvis”要到下个月才发布预览版,在目前谁快谁有理的 AI 圈子中,谷歌可能要和 OpenAI、苹果等一桌吃饭了。

图源:网络

结语

从今年 5 月以来“Agentic AI“与“AI 代理”开始在互联网上频频出现,到如今各家都争着推出新品抢占市场,人们对人工智能的印象已经发生了改变,现在,人工智能已不再仅仅只是躲在电脑屏幕后面计算数学难题或是搜罗问题答案,其变得更像是具有一定决策能力的“实体”,揭开了人机交互的新篇章。

虽然从目前的实验结果来看,AI 代理显然还远远落后于人类的表现,但其多模态能力和推理框架的融合却带来了很多“有前途”的功能,在 PC、手机端,泛化后的 AI 代理可能比生成式 AI 更加重要,毕竟让 AI 写文章、画画不会成为所有人的需求,让 AI 点外卖、回消息、处理工作问题反而很大概率会成为每个人都离不开的功能。

而将 AI 代理的媒介放宽到所有硬件设备上时,或许会诞生出“真正的 AI 硬件”,现在,我们把搭载了大模型的电子设备都叫做 AI 硬件,但在未来,评判一个硬件产品是否具有 AI 属性的要求中必然还会加上一条“自主性”的条件。

这一点可以反过来看看 Rabbit R1,从被嘲“套壳安卓”到现在的“自动 AI 启动器”,Rabbit R1 带来的科技感提升的不是一点半点,也总算有了实际可用的应用场景。

当然,现在手机厂商也都在往 AI 代理上靠,Rabbit R1 要想走出差异化还要看未来的 AI 代理商店能否做出新花样,否则,等智能手机全面上线 AI 代理功能后,“套壳安卓”的帽子恐怕又要扣回到 Rabbit 头上了。

图源:网络

陀螺科技现已开放专栏入驻,详情请见入驻指南: https://www.tuoluo.cn/article/detail-27547.html

前方智能专栏: https://www.tuoluo.cn/columns/author1911845/

本文网址: https://www.tuoluo.cn/article/detail-10118075.html

免责声明:
1、本文版权归原作者所有,仅代表作者本人观点,不代表陀螺科技观点或立场。
2、如发现文章、图片等侵权行为,侵权责任将由作者本人承担。

相关文章