文/VR陀螺 冉启行
AI 眼镜爆发的近一年时间里,从互联网大厂、手机厂商到 XR 创业公司纷纷入局。
然而,喧嚣之下,路径选择的困惑与场景定位的迷思,依然是悬在所有玩家头顶的达摩克利斯之剑。AI 眼镜的价值锚点究竟是什么?它是在复刻一个“戴在脸上的手机”,还是在开创一个全新的 AI 交互范式?
要回答这个问题,最有效的方式就是拆解其功能矩阵,解析场景背后的产品逻辑。 基于此,VR陀螺整理了 24 款主流 AI 眼镜产品功能矩阵,试图从中量化出市场的真实格局与选择。
在本文中,VR陀螺将 AI 眼镜功能分为「基础功能」和「进阶功能」两类,基础功能主要指高度依赖硬件原生能力、技术成熟度高且已形成市场标配的功能,而「进阶功能」指需深度整合 AI 大模型、云服务或复杂算法,更能体现产品差异化与核心竞争力的功能。
市场共识:三大应用场景,最高100%重合度
“脑”的能力——「AI对话」首当其冲, 场景渗透率达到 100%。通过语音与设备交互,已经成为 AI 眼镜的主流交互方式,这是其区别于传统“蓝牙眼镜”的关键所在。当然,这也是分类为 AI 眼镜的最基础「标准」,它们通常以 Agent 的形式存在,不仅仅支持普通的 AI 问答式的对话,还有「系统级的指令」执行,如播放XXX的音乐,拍一下照片。为达到更好的拾音效果,3-5 个麦克风成为不少 AI 眼镜的标配,当然音频算法也非常重要。
“说”的能力——「蓝牙音频」次之, 场景渗透率达到了96%。开放式音频让用户在接收 AI 大模型内容、倾听音乐或通话的同时,依然能保持对周围环境的感知,这被普遍认为是眼镜形态相比耳机的核心优势,正如大家经常戏谑道的——“你的下一款 AirPods 何必是耳机”。在陀螺君收集的 24 款产品中唯一款特别的是主打 AR 提示眼镜的 EVEN G1,虽然没有蓝牙音频,不过其在显示上弥补了人机交互上的不足。在 AI 眼镜这个「寸土寸金」的设备里,“如何端好一碗水”是大家一直在做的必修课。
“沟通”能力——「同声传译」,场景渗透率达到了 83%。该功能实际上既可以依靠传统翻译 API 实现,也能利用 AI 大模型更加精准输出,对于 AI 眼镜的传感器配置最低要求仅为「麦克风与扬声器」,当然,AR 实时翻译字幕显示效果更佳。作为渗透率排名第三的功能,其在出国旅行,商务交流等场景上表现为准刚需能力。对于厂商而言,「同声传译」功能能够基于现有硬件配置进行高效的场景延伸,构成了极具吸引力的产品卖点,并精准触达了高净值用户群体。
AI 对话、开放式音频与同声传译,以其极高的渗透率,共同构成了当前 AI 眼镜市场的“最大公约数”,它们回答了“AI眼镜首先应该是什么”的根本问题。从这个“地基”之上,我们看到了第一个重要的分化方向——视觉能力的引入与深化。
「视觉能力」持续深入,从可选到标配
“眼”的能力——「摄影摄像」,搭载该功能的比例为 58%。在 Ray-Ban Meta 引发市场关注以来,摄像头也逐渐开始成为不少 AI 眼镜的标配,解放双手,“第一视角”拍摄与记录的概念开始更加深入人心。但值得注意的是,摄像头的加入也让 BOM 成本水涨船高。区别于普通 AI 音频眼镜只需要单个蓝牙主控芯片的设计,AI 拍摄眼镜至少需要一个蓝牙主控芯片加一个 ISP 芯片,又或是系统级 SoC 芯片,如骁龙 AR1、W517 等。所以,目前整个 AI 眼镜市场使用摄像头搭配比例并不算特别高,同时也形成了一个千元级别的价格差分水岭。
当然,在近半年时间以来,我们也看到了如全志、杰理等「华强北」芯片解决方案的涌入,预计 2025 年会出现更多「华强北系」 AI 拍摄眼镜。当然,在不追求较高拍摄质量,仅依赖于 AI 识图等功能的背景下,「华强北芯片组合」也是一个非常不错的性价比选择。
“视觉”能力——「AI识图」,搭载该功能的比例为 58%。当 AI 眼镜搭载摄像头,可以实现基础拍摄能后,基于多模态 AI 大模型的图片识别功能便成为自然延伸 —— 摄像头作为图像采集入口,为数据接口提供原始视觉信号,而多模态 AI 大模型则通过深度学习算法,将像素信息转化为语义可理解的结构化数据。目前,市面上的主要 AI 拍摄眼镜均已具备 AI 图片翻译、AI 物体识别、AI 图片分析等功能。
“跨终端”能力——「通知提醒」,搭载该功能比例为 54%。通知提醒本质上是基于手机配件的产品逻辑,实现跨终端信息同步。在 AI 大模型没有普及之前,该功能已经在 AR 眼镜、智能音频眼镜上有所普及,通知提醒功能以监控手机信息通知栏为主,将原本在手机上显示的信息,转移到眼镜上,以 AR 显示或语音播报的形式出现。对于部分开车场景、运动场景下,该功能可以保证信息实时接收的同时,有效减少注意力分离,提升安全性。得益于手机系统级的底层权限,在部分手机玩家厂商的手里,AR 眼镜的通知提醒还支持「快捷回复」,如星纪魅族系列 AR 眼镜产品。
超过 60% 的场景重合度,共同勾勒出 AI 眼镜当前的基础形态——一个以“语音交互”为核心,以“视听感知”为主要入口的智能设备。但这仅仅是起点,真正的差异化与价值创造,更在于“进阶功能”的场景博弈。
AR显示,迈向“生产力工具”的场景分层
当基础功能趋于同质化,进阶功能的布局便成为各家厂商定义产品价值、抢占用户心智的主战场,而这些进阶功能通常表现在「AI+AR拍摄眼镜」上,如雷鸟 X3 Pro、Rokid Glasses 等
“信息记录”能力——「AI会议纪要」,搭载该功能比例为 50%。AI 会议纪要功能主要依托于麦克风进行语音记录,其后端处理流程包括声纹识别、语音转文字+AI 文生文等。事实上,类似的功能已经在手机、电脑上有了一定沉淀。而 AI 眼镜的核心优势还是在于解放双手下的无感记录,以及「一键操作」的便捷性。该功能在商务会谈、客户访谈等高信息密度的场景下价值尤为突出,属于生产力功能。不过,需要注意的是 AI 眼镜有限的续航能力下,也极大压缩了「录音」的总时长。
“空间感知与视觉引导”能力——「AR导航」,搭载该功能比例为 38%。AR 导航将虚拟的路线指引信息与真实世界环境进行融合,目前主要是基于 GPS+陀螺仪等技术进行 AR 指示,部分产品融入了一定空间标定算法,可实现贴地导航。对于用户而言,这意味着不再需要频繁低头查看手机,导航指令直观地呈现在眼前,与道路融为一体,在骑行、跑步、甚至开车时等高速场景下,拥有更好的体验。
雷鸟X3 Pro地图导航展示(图源:VR陀螺)
“辅助表达”能力——「AR提词器」,搭载该功能比例为 38%。年初 Rokid CEO Misa 爆火的演讲视频,正是使用了该技术。AR 提词器是将预设文本以半透明形式悬浮于用户眼前,实现“看着观众读稿”的效果,是一种轻量但高效的生产力工具。该功能的技术逻辑相对直接,核心是将手机 App 作为内容输入和控制端,通过无线连接(如蓝牙)将文稿数据发送至 AR 眼镜。
相比传统提词器,AR 提词器极大地降低了使用门槛和设备成本,能让演讲者向观众或对话人呈现出一种更为自然的沟通姿态。当然,受限于当前 AR 光波导技术光学特性,AR 眼镜的提词器还难以做到完全的私密性,在某些角度下,显示内容仍有可能被窥见。
那些渗透率不足20%的“未来场景”
数据中最有趣的部分,往往是那些渗透率极低的“异常值”。它们代表了技术的前沿、市场的蓝海,也预示了AI 眼镜未来可能进化的方向。在我们分析的 24 款产品中,直播与支付功能的渗透率不足 5%。
直播,该功能场景高度绑定于“内容创作者经济”。不过,渗透率非常之低,一方面,直播功能受限于各大直播平台,它们没有更开放的 API 接口可以直接给到眼镜厂商去做推流。目前,已上市的眼镜中,仅有 Ray-Ban Meta 支持,因为 Meta 拥有自家的社交平台 Instagram 作为接口支持。
从硬件本身看,AI眼镜在续航、算力和传感器规格上与手机存在天然差距,这决定了它无法提供媲美专业设备的直播体验。此前,VR陀螺测试了 Ray-Ban Meta 在 Instagram 上的直播功能,不仅延迟较大(不排除网络原因),并且画质体验较差。当然,凭借「第一人称视角」的录像方式,以及增强型的摄像头规格、类似于颈环电池等专业向配置,可能会在某些场景下带来全新的直播体验,简化直播形式。
星纪魅族支付功能演示
支付,这是所有场景中最稀缺、也最大胆的探索。虽然目前还没有任何一款 AI 眼镜能真正实现支付功能,但包括星纪魅族、雷鸟创新和 Rokid 等在内的厂商已在积极探索。
我们不禁要问,当手机已拥有扫码、NFC、人脸等成熟的支付方案后,AI 眼镜的机会在哪里?考虑到眼镜离五官最近的独特形态,以及对 BOM 成本和功耗的极致要求,利用现有麦克风实现“声纹支付”,成为了大家一致的技术路径。
将用户的声音作为独一无二的“钥匙”,无疑是种优雅且经济的设想。它避免了为支付功能增加额外硬件的复杂性和成本。不过,这个方案的根本挑战在于:如何确保声纹识别在开放环境下的精准度和安全性,使其达到金融级别的可靠性。
写在最后
在深度体验了多款产品后我们发现,AI 眼镜的功能并非越多越好,场景的精准契合远比功能的盲目堆砌更能打动用户。
或许,AI 眼镜,本身就没有统一的产品形态与场景标准。
受限于供应链技术、整体市场规模等因素,我们不得不承认,目前 AI 眼镜虽然在部分应用场景上呈现出趋同性,但整体来看,依旧是“百花齐放”。AI 大模型的注入,为这个赛道带来了前所未有的想象空间,但一个仅重 50g 的硬件,终究无法承载用户对手机、PC 的同等性能预期。这并非是 AI 眼镜的缺陷,而是其生来就应遵循的克制。
当然,如果仅仅将其视为「手机配件」,我们可以发现它相对于传统耳机、手表而言,已经展现出截然不同的交互范式和信息维度。耳机延伸了听觉,手表占据了手腕,它们本质上是手机的“传声筒”和“速览窗”。而 AI 眼镜,不仅是传统视力工具的功能增值,更是大模型时代下,一个极具代表性的硬件新物种。