目前正处于AR眼镜爆发前夜,很多人都在探索所谓的杀手级应用是什么,并且对于答案也众说纷纭:虚实结合、3D观影、新的生活场景、AI助理、导航、翻译......
现如今,得益于AI模型能力的提升,部分初创企业乃至科技巨头给出了全新的答案:那便是主动式AI(Proactive AI/Agentic AI)。
从生活相机谈起,有人味的AI究竟是什么?
近期,前美团硬件负责人孙洋所创办的硬件公司Looki发布了其首款硬件产品Looki L1,该产品引起了广泛关注。Looki L1是一款吊坠式相机,起售价199美元,它主要用于记录用户一天生活并自动剪辑出vlog。
在此基础之上,团队还在为其开发一些主动式AI能力,如它能主动识别食物卡路里并告知用户,提醒瑜伽训练动作是否标准等。
孙洋表示,很多AI硬件的AI功能其实手机也可以做到,但是里面涉及到一个主动被动的关系,比如我们可以通过手机主动使用AI翻译功能,相对而言AI则是被动的。“我们期望能够改变这一状况,让AI变得主动,而人则保持被动。因为在物理世界中,人类本质上是被动的生物。”
Looki L1就像是一个超级傻瓜式相机,它无需按快门,能自动帮你记录生活,并且也像一个私人管家,关键时候能给予一些生活帮助。或许正是其独特的产品理念,Looki成为了资本市场的宠儿,成立短短一年内便拿到了三轮融资,金额超千万美金。
Looki L1,图源:网络
这里,我们可以先对于主动式AI做一个简单定义:它与传统的被动式AI不同,是一种不依赖用户明确指令,而是基于上下文、环境感知和预测来提前采取行动或给出建议的人工智能。主动式AI能够预判用户需求,并主动执行相关任务,它在概念上比较接近市场上热议的Agentic AI。
话说回来,主动式AI也是今年AI行业的重要探索方向,甚至业内将2025年称之为Agent落地元年。自2022年ChatGPT发布,短短数年时间AI模型能力有了巨大提升,它能像真人一样聊天,可以生成图片/视频甚至游戏,已经渗透到生活的很多方面。不过在这之前,它仍依赖于关键词指令,到了现在,随着一系列标准化协议以及Agent编排框架的逐渐成熟,主动式AI的苗头已经越来越明显。
数据机构Gartner曾预测,到2028年,至少15%的日常工作决策将通过Agentic AI自主做出,而2024年这一比例为0%。此外,到2028年,33%的企业软件应用程序将包含Agentic AI,而2024年这一比例还不到1%。
图源:网络
除了前面所提到的Looki外,近期谷歌所发布的最新的Pixel 10系列手机,也对它的主动式AI功能(Magic Cue)做了重点宣传,目前它能实现以下主要功能:
-
旅行场景:当用户致电航空公司更改座位,Magic Cue会自动调出邮件的航班座位号信息并显示在前台,方便用户沟通;
-
订餐场景:用户的好友询问晚餐预定信息时,Magic Cue会从地图、日历等APP中调出相应的地点以及时间信息;
-
查找图片:聊天时好友提到某张特定照片,当用户想要分享图片时,Magic Cue会率先帮你找到这张照片。
图源:谷歌
为什么说眼镜才是主动式AI的更佳硬件载体?
为了让AI发挥更大的“主观能动性”,背后离不开两大要素:一是Agent足够智能,能够“理解”用户所发生的事情并知道其中关联;二是能够对用户有足够洞察,即AI需要与我们的生活贴近,了解我们的个性化偏好以及所经历的事情。前者考验的是AI模型能力,后者则依赖于随身硬件。
硬件方面,智能手机等产品对于主动式AI而言已经显得有点力不从心,因为它很多时候只是放在我们口袋,它们无法真正感知到用户在现实环境中所发生的事情。孙洋透露,美团曾试图开发一个AI外卖助手以更好向用户推荐美食,但是最终团队发现,背后的阻碍并非模型能力而是硬件。“模型上知天文下知地理,但是不知道你今天有没有喝水。”
这意味着,个性化的主动式AI,需要新的硬件终端出现,而这个硬件终端,很可能是AR眼镜等新形态产品。展开来看,主动式AI可能会在非特定时间、场合提供一些帮助,比如在聊天时解释某个陌生单词的意思,在路上你突然好奇眼前建筑的历史等,它要求设备能够时刻待命。AR属于近眼显示设备,可以很方便呈现这些内容。
其次,主动式AI需要捕获足够多的上下文信息,这是提供个性化帮助的必要基础。恰好AR眼镜属于一个随身设备,能看我所看,听我所听,它就是我们生活的亲历者,具有其他产品所不具备的洞察能力。值得一提的是,Looki团队最开始所考虑的就是智能眼镜形态,不过受限于供应链能力不成熟,最终采用了吊坠相机方案。
图源:网络
主动式AI需要智能眼镜等全新硬件才能获得完美体验,反过来看,对于AR眼镜而言,主动式AI很可能会成为其独一无二的杀手级应用场景。目前市场上已经有两家AR厂商开始关注并开发主动式AI功能,其中包括开放式AR眼镜系统MentraOS,以及今年热门AR眼镜品牌Halliday。
去年7月,MentraOS团队负责人Cayden Pierce曾在一次演讲中曾提到了对于智能眼镜应用场景的看法。他指出,目前很多开发者或者企业在做智能眼镜功能演示时仍停留在查看天气、发送邮件等,而这些功能只不过是手机的单调重复。
“为了让智能眼镜发挥100倍的实用性,我们需要一种全新的应用程序,它是情境化、主动化以及智能化的。这个主动式系统不仅仅在你要求它做某事时才给予反应,并且,它还会根据你的具体情况,判断它能做什么。”
在演讲中,Cayden Pierce同样提到了不少关于主动式AI的潜在用例:
-
凌晨你在一个陌生城市落机,此时的你已经疲惫不堪只想打车到预定的酒店休息。在以往情况下,你需要逐个打开手机的地图、打车、旅行等软件从而完成这个简单的任务。主动式AI出现后,将会帮你无痛完成整个过程;
-
你与朋友闲聊时,有时候会在某些问题上出现争执,如某种食物热量、某个城市所在位置等,AI在你谈话期间会主动检索这些对用户有用的信息并在屏幕上显示出来;
-
逛商场时,主动式AI能够针对性地展示对用户有用的信息,比如会重点标注用户感兴趣的门店并展示评分、促销商品等。
现如今,MentraOS团队已经开发出了一个名为Merge的主动式AI功能,介绍指出它能“在对话中通过自动提供有用信息(如回答和事实核查)来帮助你。”
无独有偶,Halliday眼镜也将主动式AI功能作为产品重要卖点,宣传资料指出:“它可以聆听对话并提供基于上下文的建议和信息支持,从而增强讨论、采访和商务会议的效果。”
图源:Halliday
更加好用的主动式AI:数据以及注意力问题
从长远来看,主动式AI或许会跟自动驾驶一样,分为L0、L1......L5等不同等级,当前主动式AI体验依然十分薄弱,只能帮我们处理词义分析、邮件/备忘录提醒等简单任务。朝着更高阶能力迈进过程中,主动式AI仍需要解决以下挑战:
1、AI是否具备足够多的数据权限。以Magic Cue为例,AI功能的整合仍只局限在谷歌的生态里面,比如Gmail、Calendar、Google Maps、Messages等,其他第三方应用的信息难以获取,这使得它的能力仍有很大局限。对于AR眼镜而言,想要打通现有的移动互联网生态并不容易。
2、如何准确识别用户意图并给予用户想要的帮助。教研机构The Synteraction Lab的学子曾开发了一款主动式AI助手AiGet,它能结合多模态AI给用户分享一些现实生活的小知识,比如眼前的花朵名称、宠物的一些特殊习性等。在应用开发过程中,团队透露了他们的两大难点:一、用户的偏好不明确,你无法知道用户究竟更青睐植物知识还是地理环境知识;二是内容的推送要恰到好处,否则可能会干扰用户的主要任务。
图源:The Synteraction Lab
3、隐私问题。这里面其实存在一个悖论,AI越强大,那么它就需要获取更多用户数据,隐私风险也就越高。对于智能眼镜,目前尚未看到有厂商主动强调主动式AI的隐私保护问题。而谷歌曾透露,Magic Cue只会在设备端进行,背后依赖于Gemini Nano V3模型以及Tensor G5芯片的本地处理能力。
4、受到续航、散热等硬件限制,主动式AI仍难以保持全天在线。如Looki L1,该产品其实不会全天候记录用户的生活画面,相反,它采用了记录切片的运行方式,如三分钟记录15秒的短视频。另外,无论是MentraOS亦或是Halliday,眼镜的主动式AI均不是系统级功能,它需要主动打开才能使用,并且它们只支持麦克风监听这一基础能力,尚不支持多模态。
总的来看,目前主动式AI在各行业中的应用仍处于初步萌芽的阶段,但是未来可期,如果说钢铁侠的贾维斯在未来某一刻出现,那它很可能会作为杀手级应用率先在眼镜端落地。
此前市场上很多人都在探讨未来手机与AR眼镜的关系,笔者认为,两者会长期共存,但两者之间可能会因为“主动式AI”功能划分出一条泾渭分明的界限:手机计算平台的地位不变,但后续它更多聚焦于多样化的应用生态数据整合,如常规网络购物、社交、游戏娱乐等;而AR眼镜则聚焦于即刻以及现实的响应,并通过AI给予用户更加个性化的生活服务。
因而,主动式AI,或许会是科技发展之路上的一大岔路口,它将让AR眼镜赛道变得熠熠生辉并且充满独特价值。让我们期待在随后数年中该功能的持续跃迁。