2025年9月10日下午,由VR陀螺与CIOE中国光博会联合主办的「AI ·光启新元|第六届中国AR技术应用高峰论坛」在深圳国际会展中心(宝安新馆)圆满落幕。
本届AI+AR技术应用高峰论坛以“AI ·光启新元”为主题,共探智能眼镜产业生态构建与协同发展路径,论坛特邀多位行业专家、企业代表、媒体人,聚集AR产业链展会一线,讨论市场行情、展望AR潜力,共同助力产业的升级与发展。演讲内容干货满满,现场气氛火爆。
其中,恒玄科技商务拓展副总裁高亢为与会来宾奉上了《全天候多模态-恒玄科技低功耗多模态AI眼镜方案》的主题演讲。
以下为演讲实录(内容略有删减调整):
谢谢主办方,也谢谢各位到场的同仁们一起交流,恒玄作为芯片企业,也想就之前这位同仁提出的成本问题讲一下。芯片非常重要,大家也看到像现在高通骁龙AR1这样的芯片,在整个眼镜里面成本占比较高,我可以提出一个可见的预测,应该不用三年,成本会进一步下降,而且性能上会有大幅度的优化。
那么我今天的介绍会分成五个部分,从行业的背景洞察分享开始,最后也和大家一起对未来做一个展望。其实很多数据大家应该都有关注到,那目前来看这个市场总体来讲已经进入一个非常火热的状态,一个较为中肯的数据是,2025年全球AI带拍摄眼镜销量预计达1450万台,其中有150万台应该会在我们中国市场。
其中2025年到2029年,这几年接下来的全球市场复合增长率会达到50%以上,即2029年销量有望达6000万副,以我们过往在耳机行业的经验来看的话,这个差异会是10倍的数量差异。
如此火热的市场,我们重点应该还是回归到产品本身,大家一起来看一看用户的需求,消费者需要什么?有哪些痛点?那这其中有两个特别就是值得大家关注的,第一个就是全天候佩戴的需求,这个前面徐博士也提到了全天候佩戴这点是产品能不能成为一个爆品,成为一个现象级的,成为一个人手必备产品的先决条件。
要实现全天候佩戴,首先要保证眼镜得舒适、好看、清亮,还得功能强,让大家觉得有用。而“清亮”的核心技术瓶颈,在于材料和核心器件的重量。目前光波导、摄像头等器件减重已大幅推进,但电化学领域(尤其是电池)减重速度较慢。未来几年电池技术虽有进步,可迭代远不如芯片、光机快,所以减轻电池重量的唯一办法,就是降低功耗,且持续降低。
第二条是让产品从“呆板、不智能”变得更智能。大家对几年前的智能音箱行业可能还有印象,不少人买了之后,现在都把音箱扔在墙角闲置,核心原因就是过去的智能音箱不够智能、不好用。现在有了大模型,智能音箱有了变好的可能,但智能眼镜和智能音箱不一样——眼镜没法只靠语音交互,必须做到多模态交互。接下来,我重点介绍恒玄的芯片方案,看看我们在低功耗、长续航和交互体验上做了哪些工作。
先跟各位同仁快速汇报下恒玄的芯片规划:2023年底(也就是2024年主力推广)的BES2800系列芯片,采用6nm集成工艺,集成度很高,内置四核处理器、DSP、GPU,还把常用的双频Wifi 6和蓝牙整合到了单芯片里。到今年年底,我们预告下2026年的主力产品——BES6000系列芯片,它会用新一代的6纳米工艺,漏电率进一步降低;在保留原有优势的基础上,连接技术全面升级,Wifi速率提升,蓝牙支持7.0 Ready,后续为其完成7.0认证,功能更强;更重要的是处理能力提升,除了四核处理器和DSP,还整合了视觉处理功能,下面给大家详细说说。
恒玄在智能眼镜芯片领域,在国内同行里一直比较积极,走得相对靠前,一直在推进6nm这样的先进制程。为什么要用先进制程?核心是为了解决前面提到的低功耗、多模态交互两大问题。具体来说,先进制程有个明显优势:在芯片功耗不大幅增加的前提下,能大幅提升性能。比如BES6000系列对比2800系列,AI算力、NPU算力会有10倍以上的提升。
低功耗方面,落到具体应用有两种交互场景:语音交互的待机功耗会降到10mW级别,always-on视觉交互功耗降到50mW级别。这背后靠的是我们加入了更多专用计算单元,也就是DSP和NPU。无线连接上,我们也顺应云端结合、端侧与个人计算结合的特点,加入了蓝牙7.0和更快的Wifi 6。未来大家除了戴眼镜、带手机,可能还会带个“小盒子”,可能是耳机盒、眼镜盒,也可能是手机壳,这些设备能提供算力和连接功能,通过蓝牙7.0和Wifi 6跟眼镜联动。
接下来具体聊聊多模态交互体验。首先是语音交互:最近我们拜访了很多无线麦克风企业,跟每一家都提过——未来你们最强的竞争对手,不一定是同行,因为智能眼镜会成为极强的音频处理单元。简单来说,未来眼镜能实现语音唤醒、语音交互,体验比现在好很多:现在每次交互都要喊“天猫精灵”“小爱同学”,但未来眼镜端侧会集成流式ASR模型,一次唤醒就能多轮交互,甚至在自然聊天时,能自动识别关键信息,触发记录或AI功能,落地到语音支付、翻译、对话纪要等场景。
另外,现在很多主播用领夹麦克风,大多是单声道或立体声录音,但未来AR眼镜会配5个以上麦克风,能实现全景声沉浸式录音——这是很重要的升级,也就是说,好的AR眼镜完全能取代无线麦克风,而且录音效果更好。
再说说视觉交互:近两年出货量最大的眼镜都带摄像头,但消费者买回去主要用来记录生活,因为记录功能做得完善,视觉交互功能却不行。未来两年,随着芯片能力提升,视觉交互体验会大幅升级、功能加速普及,这背后靠的是芯片端加入了低功耗的端侧视觉处理能力,有ISP、VPU、NPU三方支撑。重点应用场景会先覆盖医疗、交通等行业,再普及到教育、导航、娱乐、出行翻译等领域。其中,手势追踪和眼球追踪是优化重点——要想不增加系统成本,又实现无打扰、自然的交互,就得重点优化这两项技术。当然也可以用戒指、手环当配件补充交互,但会增加使用成本。
除了语音和视觉交互,我们的用户体验目标很明确:在保证眼镜舒适、不增加电池容量的前提下,实现16小时全天候续航。结合现在硅负极材料的普及,未来有望用300mAh的电池,既不增加整机重量,又能满足16小时续航,同时结合语音和视觉能力,实现流畅的手势+眼动追踪交互。
接下来做下方案对比,在座都是专家,肯定也看过不少行业方案。首先对比安卓方案——现在行业里做眼镜的,很多都用安卓方案,比如Meta的AR1,就是基于安卓改的。但安卓有天生缺陷,比如我用小米眼镜时,最崩溃的是开机要等很久,最后换成了轻量化的小米眼镜,开机快多了。更严重的是功耗问题:安卓的底子决定了,音频处理、图像处理、Wifi和蓝牙连接这些基础任务,会浪费大量电量。我们新方案的功耗,预计比安卓方案降低40%以上。同时,新一代方案端侧会保留够用但有限的算力,大概1 TOPS左右。成本上更是优势明显,预计比安卓方案会有大幅度降低。
再对比其他MCU+ISP方案:现在行业里有不少用ISP加多个厂家MCU拼接的方案,但这种方案功能完成度有很多欠缺。而BES6000单芯片就集成了六核处理器、音频DSP、NPU、视频ISP、VPU,很少有拼接方案能实现这么复杂的异构处理,而且我们主推款还会把内存集成到芯片里,集成度很高。这种方案在行业里很难找,对比多芯片方案,成本和功耗优化的优势很明显。
最后展望下未来:如果看未来3到5年,我们的产品会往这些方向优化。第一是工艺制程进一步升级,虽然现在获取先进制程有不少挑战,但恒玄已经顺利量产了好几代6nm芯片,接下来会继续推进更先进的工艺。第二是端侧算力提升,我们会遵循“不提升功耗”的原则,在同样功耗下,尽可能把算力做大,让大家能开发更丰富的端侧应用。第三是功能扩展性,支持更强的CC Hub和更多传感器数据处理,未来眼镜除了显示、音频、摄像头,还能集成更多传感器。就像最近的苹果发布会,最新款苹果耳机集成了心率血氧传感器,拿到的数据越多,AI助手就越智能、越懂你。
今天来参加活动,还有个重要目的:向行业伙伴传递信息,恒玄会持续推进生态合作,寻找值得合作的伙伴,不管是整机ODM、方案商、其他芯片原厂、关键器件厂家,还是下游终端品牌,我们都期待合作。这中间,恒玄会做好基础搭建,比如底层SDK、底层驱动,还有大模型接入等基础工作。以上就是我今天的分享,谢谢大家。
现场提问环节:
问题:要是光机用刚才提到的Micro LED,再加上你们的Soc,智能眼镜里这两部分的功耗大概占比多少?第二个问题,能不能实现这样的功能,戴智能眼镜上学时,看到讲课的PPT,做个手势就能把PPT存到手机里,回家再编辑?实现这个功能有什么瓶颈?
回答:用户戴AI眼镜,一天里除了8小时睡觉,剩下16小时大多是待机状态,等着接收任务,未来还会更多地记录生活,像小秘书一样记录看到、听到的内容。要分两部分看功耗:一部分是Soc,一部分是人机交互(HMI),包括显示、摄像头、麦克风。今天看了徐博士的分享,目前芯片功耗还是占大头。比如蜂鸟系列光机功耗能做到95毫瓦,但不管是高通芯片还是我们的芯片,工作时的电流都是蜂鸟系列的好几倍。更头疼的是,16小时里麦克风要一直监听周围声音,摄像头要每秒抽取几帧画面,累积下来电流很大。我大概估算下,目前两者功耗可能是三七开,这个比例比较夸张,所以芯片进一步优化功耗很重要。
第二个问题,你说的功能肯定能实现,而且是未来产品必须有的,如果明年的产品没有这个功能,其实不够理想。最近有个吊坠形态带摄像头的新产品叫Looki,理论上就是做这个场景的,但吊坠是额外挂饰,不是所有人都喜欢,而眼镜是更自然的形态,肯定能实现这个功能。