百度首款 AI 眼镜、0 代码编程工具打包发布！李彦宏：AI 时代普通人靠想法就能赚钱

前方智能原创 2024-11-13 09:59 热度 74368

微信扫一扫：分享

微信里点“发现”，扫一下
二维码便可将本文分享至朋友圈

IP归属：广东

文章AI导读

一键萃取文章精髓，核心观点即刻呈现

# 梳理该事件的完整脉络

# 该文章有哪些有意思的观点或数据

# 大家对该事件的态度表现如何？

2024 年 11 月 12 日，百度世界大会在上海世博中心隆重开幕。

百度创始人李彦宏以“应用来了”为题发表演讲，深入剖析了百度在人工智能方面的技术突破与应用成果，并展望了行业未来趋势。

图源：网络

从大会亮点上看，百度此次发布了两项 AI 新技术和一项 AI 新硬件，分别为检索增强的文生图技术“iRAG”、无代码编程工具“秒哒”、以及“小度 AI 眼镜”，宣告百度正式加入 AI 眼镜厂商行列。

百度首款 AI 眼镜价格待定

今年的 AI 硬件市场无疑是 AI 眼镜的天下。Meta Ray-Ban 眼镜的爆火，让各家科技公司快速跟进，其中也包括百度。

早在百度世界大会前，就有消息传出百度将推出一款内置 AI 助手的眼镜，而现在，我们终于可以见证全球首款搭载中文大模型的原生 AI 眼镜——“小度 AI 眼镜”的落地。

图源：百度

在百度的定义中，AI 眼镜作为人类第一视角的设备，能够完美捕捉视觉声音和位置等信息，是人类前所未有的感官延伸，也是更高效、更便捷的人机交互入口。

小度 AI 眼镜以百度文心大模型为底座，搭载了此前应用在 AI 桌面机器人上的 dueros AI 原生操作系统，在自然语言交互、多模态感知和拟人化呈现方面都有极佳表现。不仅可以全双工对话，而且响应速度更快且可以随时随地打断。

在硬件配置方面，小度 AI 眼镜搭载了 1600 万像素的超广角摄像头，“显著优于行业的 1200 万像素的标杆水平”，当然，我们都知道这个行业标杆指的应该就是 Ray-Ban 眼镜。同时，小度 AI 眼镜还搭载了百度自研的 AI 防抖算法，据称无论是静态风景还是动态场景都有完美的表现。

图源：百度

四阵列麦克风设计和定制的开放式扬声器单元不仅可以更立体地捕捉声音，有效过滤杂音，保障嘈杂环境下通话的清晰度，还能更准确地识别声源方向，区分佩戴者和身边的人，精准实现角色分离识别，确保了出色的声音捕捉和播放效果。

图源：百度

在功耗方面，百度表示，小度 AI 眼镜采用了低功耗电路架构设计，能实现 56 个小时的待机，连续听歌 5 个小时，充满电也仅需 30 分钟，长时间待机和续航能力拉满，避免了“上午是智能眼镜，下午变成普通眼镜”的尴尬处境。

图源：百度

此外，小度 AI 眼镜轻巧的设计也使得其佩戴舒适度极高，眼镜重量仅为 45g，比 Meta Ray-Ban 还轻了 4g，用户可以轻松自如地长时间佩戴。

图源：百度

在百度的现场视频演示中，小度 AI 眼镜可以在旅游出行、出国开会、阅读学习等多种场景下为用户提供贴心服务。作为私人导游，它能结合视觉和定位技术，实时提供历史文化风土人情信息；作为翻译助手，它能实时翻译并智能分析拍照内容；作为笔记助手，它能轻松记录重点文字并形成备忘。

不过，百度此次并未透露小度 AI 眼镜的具体价格，只强调了“价格一定诚意满满，物超所值”，结合 Ray-Ban 眼镜 299 美元和售价，合理怀疑百度的诚意价格应该接近或者略低于 Ray-Ban 眼镜。

而再根据该款眼镜上市时间已经排到了明年上半年的这一情况，在产品力竞争越来越激烈的趋势下，小度 AI 眼镜的最终价格可能还会更低。

图源：百度

检索增强的文生图技术 iRAG

百度此次推出的 iRAG 检索增强文生图技术结合了百度搜索的海量图片资源与先进的基础模型能力，解决了图像生成中常见的幻觉问题，使图像生成技术的应用更具可行性和实用性。

图源：百度

会上，李彦宏回顾了去年 3 月文心一言发布时提到的百度大模型特色——知识增强和检索增强，并指出检索增强目前已逐渐成为行业共识。他强调，消除幻觉对于基于大模型开发应用至关重要，否则模型将无法获得用户信任，应用也将无从谈起。

李彦宏表示，过去两年中，AI 行业最大的变化之一便是大模型基本消除了幻觉，大幅提升了回答问题的准确性，使 AI 从不可靠变得可用。然而，尽管文字层面的 RAG 技术已取得显著进展，但图像等多模态内容与 RAG 的结合仍显不足，导致文生图模型的幻觉现象普遍存在。

为解决这一问题，百度于今年年初决定开发 iRAG 技术。该技术将百度搜索的一级图片资源与强大的基础模型能力相结合，以生成超真实图片。李彦宏现场演示了 iRAG 生成大众揽巡汽车飞越长城的写实场景，效果逼近实拍品质，且模型正确无误地生成了提示词中的汽车品牌，在消除幻觉方面超越以往文生图模型。

图源：百度

除了特定物品，iRAG还可以将特定人物与任意场景的背景结合。在演示中，iRAG 不仅生成了我们一眼就看得出的爱因斯坦形象，甚至于背景的天坛看起来都像照片实拍。

图源：百度

iRAG 技术的推出意味着AI生成图片的可用性大幅提升，应用空间也随之打开。在品牌宣传场景中，使用 iRAG 的创作成本接近于零，相较于传统拍摄方式可节省大量资金。此外，iRAG 还可将特定人物与任意场景背景结合，生成高度逼真的图片。

在李彦宏看来，iRAG 作为一项基础技术，在影视作品、漫画作品、连续话本和海报制作等领域具有广泛应用前景。未来的 AI 生图将大幅降低创作成本，助力各行业实现创新发展。

全新形态的 AI 创作工具“自由画布”

会上，李彦宏还提出了一个关键问题：“AI 的应用从哪里来到哪里去？”

而对于百度来说，这个问题的答案指向了两个应用方向：智能体和产业应用。

李彦宏认为，智能体将成为 AI 应用的主流形态，并即将迎来爆发点。“尽管全球顶尖科技公司都在关注智能体，但像百度这样将智能体作为最重要战略方向的公司并不多。”

图源：百度

李彦宏表示，智能体与 PC 时代的网站制作或移动时代的自媒体账号制作有着本质的不同。智能体能够实现比人类更高级的智能，甚至在销售、客服和助理等方面超越人类。智能体的应用门槛低，任何人都能在百度的文心智能体平台上轻松操作，甚至是 11 岁的小学生也在创造智能体并通过搜索和其他渠道分发。

同时，智能体的潜力巨大，可以实现功能强大的应用，多个智能体的协作能解决更复杂的问题。从分类上看，智能体目前可以分为公司类、角色类、工具类和行业类四种类型，而百度在这四个领域均有成功案例。

公司类智能体

公司类智能体类似于 AI 时代的公司官网，但具有传统官网所缺乏的主动推荐、及时响应和一对一服务的能力。例如，比亚迪的智能体可以提供个性化的车型推荐和详细的性能比较，甚至可以直接导航到线下门店试驾，智能体还能快速获取最新信息并提供满意答案，大幅提升互动营销效率。

李彦宏提到，比亚迪官方智能体上线后销售线索转化率提升了 119%，联想 AI PC 智能体的互动率和销售线索转化率也分别提升了89%和 80%。未来，公司官方智能体有可能替代传统官网，成为直接面向消费者的主要界面。

图源：百度

角色类智能体

角色类智能体类似于我们常见的数字人概念。通过与多模态技术的有效结合，角色类智能体除了具备独立的人设和知识库外，还能做出与语言相匹配的动作，实现了高度拟人化的表现。

在先进大模型的支持下，角色类智能体改进了以往数字人“缺乏表情、声音肢体动作和口型机械化”的短板，逐渐变得更加聪明、有情感和态度，能够胜任教育辅导老师、留学顾问、心理咨询师及私人健身教练等多样化角色。

如今，在百度搜索相关关键字时，用户可在搜索结果页中看到更加自然流畅的数字人。得益于大量的数据积累和对直播互动规律的深入提炼，这些数字人动作幅度更大，且能在适当时候能即时回应网友提问，用户难以察觉其非真人身份。

此外，角色类智能体的脚本完全由 AI 生成，即便面对真人直播中难以记住的大量细节，数字人也能应对自如。当数字人在知识量和反应能力上超越普通真人，互联网将出现更多名师、名医、王牌律师或金牌销售的数字分身，创造出巨大的产业价值。

图源：百度

工具类智能体

作为 AI 领域的热门赛道，工具类智能体涵盖了 AI 写作、设计助手、logo 生成器等多种典型应用。

而百度此次展示的是一种全新形态的创新工具——“自由画布”，该智能体由百度文库与百度网盘联合开发，将于不久后上线，旨在彻底革新内容创作与分享流程。

自由画布以多模态内容为核心，允许用户将传统的图文表格、发布会视频、电话会录音等多种形式整合，打造更为全面丰富的报告。其强大功能体现在三个层面：资料获取的自由、编辑的自由以及创作的自由。

图源：百度

在资料获取方面，自由画布打通了公私域数据界限，用户可一键摘录文库上的公开文档、外部网页内容，以及网盘中存储的电话会录音、专业视频等私域素材，无需关注格式与来源。

编辑过程中，自由画布摒弃了传统的繁琐排版工作，让用户通过批注方式指导 AI 利用素材，确保生成内容紧密贴合用户意图。

创作环节，用户只需框选素材并一键生成 AI，系统便能根据输入和要求生成结构清晰的全新富媒体内容。此外，用户还可对文档进行局部编辑、改写、扩写和续写等操作。

此外，自由画布还实现了分享自由，生成的内容可保存在本地或上传至个人云，同时支持链接分享，适应各种平台和设备。

而除了办公场景应用，自由画布在个人创作领域也展现出巨大潜力。例如，基于“黑神话悟空”IP，用户可以利用自由画布生成大圣穿越至现代的探险漫画，并可将漫画转化为视频，增强故事表现力。

放在教育领域，自由画布以其强大的多模态处理能力和激发灵感创造力的特点，让每个孩子都能凭借想象成为故事的主角、漫画家或短视频导演。

图源：百度

行业智能体

第四类智能体——行业智能体主要针对细化的行业领域。例如在法律行业，百度推出的“法行宝”智能体就专注于个人在工作中遇到的法律问题提供高效、专业的解答。

法行宝能够针对车祸责任划分等问题提供详细的法律指导，并配备赔偿计算器，根据用户提供的详细信息计算总损失赔偿金。此外，法行宝还能调用大模型生成能力生成起诉状，并根据用户需求推荐知名律师提供进一步咨询。

自上线半年多以来，法行宝已为 940 多万人提供高效可信赖的法律服务、回答超过 1660 万个法律问题，成为普通人的专属 AI 免费律师。

图源：百度

四大类型智能体构筑出了百度的 AI 战略护城河，根据大会上百度提供的数据，截至目前，文心智能体平台吸引了 15 万家企业和 80 多万名开发者参与，覆盖多种应用场景。会上，百度还邀请英伟达作为技术合作伙伴，共同发起文心智能体创新大赛，在百度 Top100 智能体名单之上，发掘出更多有价值的智能体应用。