2024 年 11 月 12 日,百度世界大会在上海世博中心隆重开幕。
百度创始人李彦宏以“应用来了”为题发表演讲,深入剖析了百度在人工智能方面的技术突破与应用成果,并展望了行业未来趋势。
图源:网络
从大会亮点上看,百度此次发布了两项 AI 新技术和一项 AI 新硬件,分别为检索增强的文生图技术“iRAG”、无代码编程工具“秒哒”、以及“小度 AI 眼镜”,宣告百度正式加入 AI 眼镜厂商行列。
百度首款 AI 眼镜价格待定
今年的 AI 硬件市场无疑是 AI 眼镜的天下。Meta Ray-Ban 眼镜的爆火,让各家科技公司快速跟进,其中也包括百度。
早在百度世界大会前,就有消息传出百度将推出一款内置 AI 助手的眼镜,而现在,我们终于可以见证全球首款搭载中文大模型的原生 AI 眼镜——“小度 AI 眼镜”的落地。
图源:百度
在百度的定义中,AI 眼镜作为人类第一视角的设备,能够完美捕捉视觉声音和位置等信息,是人类前所未有的感官延伸,也是更高效、更便捷的人机交互入口。
小度 AI 眼镜以百度文心大模型为底座,搭载了此前应用在 AI 桌面机器人上的 dueros AI 原生操作系统,在自然语言交互、多模态感知和拟人化呈现方面都有极佳表现。不仅可以全双工对话,而且响应速度更快且可以随时随地打断。
在硬件配置方面,小度 AI 眼镜搭载了 1600 万像素的超广角摄像头,“显著优于行业的 1200 万像素的标杆水平”,当然,我们都知道这个行业标杆指的应该就是 Ray-Ban 眼镜。同时,小度 AI 眼镜还搭载了百度自研的 AI 防抖算法,据称无论是静态风景还是动态场景都有完美的表现。
图源:百度
四阵列麦克风设计和定制的开放式扬声器单元不仅可以更立体地捕捉声音,有效过滤杂音,保障嘈杂环境下通话的清晰度,还能更准确地识别声源方向,区分佩戴者和身边的人,精准实现角色分离识别,确保了出色的声音捕捉和播放效果。
图源:百度
在功耗方面,百度表示,小度 AI 眼镜采用了低功耗电路架构设计,能实现 56 个小时的待机,连续听歌 5 个小时,充满电也仅需 30 分钟,长时间待机和续航能力拉满,避免了“上午是智能眼镜,下午变成普通眼镜”的尴尬处境。
图源:百度
此外,小度 AI 眼镜轻巧的设计也使得其佩戴舒适度极高,眼镜重量仅为 45g,比 Meta Ray-Ban 还轻了 4g,用户可以轻松自如地长时间佩戴。
图源:百度
在百度的现场视频演示中,小度 AI 眼镜可以在旅游出行、出国开会、阅读学习等多种场景下为用户提供贴心服务。作为私人导游,它能结合视觉和定位技术,实时提供历史文化风土人情信息;作为翻译助手,它能实时翻译并智能分析拍照内容;作为笔记助手,它能轻松记录重点文字并形成备忘。
不过,百度此次并未透露小度 AI 眼镜的具体价格,只强调了“价格一定诚意满满,物超所值”,结合 Ray-Ban 眼镜 299 美元和售价,合理怀疑百度的诚意价格应该接近或者略低于 Ray-Ban 眼镜。
而再根据该款眼镜上市时间已经排到了明年上半年的这一情况,在产品力竞争越来越激烈的趋势下,小度 AI 眼镜的最终价格可能还会更低。
图源:百度
检索增强的文生图技术 iRAG
百度此次推出的 iRAG 检索增强文生图技术结合了百度搜索的海量图片资源与先进的基础模型能力,解决了图像生成中常见的幻觉问题,使图像生成技术的应用更具可行性和实用性。
图源:百度
会上,李彦宏回顾了去年 3 月文心一言发布时提到的百度大模型特色——知识增强和检索增强,并指出检索增强目前已逐渐成为行业共识。他强调,消除幻觉对于基于大模型开发应用至关重要,否则模型将无法获得用户信任,应用也将无从谈起。
李彦宏表示,过去两年中,AI 行业最大的变化之一便是大模型基本消除了幻觉,大幅提升了回答问题的准确性,使 AI 从不可靠变得可用。然而,尽管文字层面的 RAG 技术已取得显著进展,但图像等多模态内容与 RAG 的结合仍显不足,导致文生图模型的幻觉现象普遍存在。
为解决这一问题,百度于今年年初决定开发 iRAG 技术。该技术将百度搜索的一级图片资源与强大的基础模型能力相结合,以生成超真实图片。李彦宏现场演示了 iRAG 生成大众揽巡汽车飞越长城的写实场景,效果逼近实拍品质,且模型正确无误地生成了提示词中的汽车品牌,在消除幻觉方面超越以往文生图模型。
图源:百度
除了特定物品,iRAG还可以将特定人物与任意场景的背景结合。在演示中,iRAG 不仅生成了我们一眼就看得出的爱因斯坦形象,甚至于背景的天坛看起来都像照片实拍。
图源:百度
iRAG 技术的推出意味着AI生成图片的可用性大幅提升,应用空间也随之打开。在品牌宣传场景中,使用 iRAG 的创作成本接近于零,相较于传统拍摄方式可节省大量资金。此外,iRAG 还可将特定人物与任意场景背景结合,生成高度逼真的图片。
在李彦宏看来,iRAG 作为一项基础技术,在影视作品、漫画作品、连续话本和海报制作等领域具有广泛应用前景。未来的 AI 生图将大幅降低创作成本,助力各行业实现创新发展。
全新形态的 AI 创作工具“自由画布”
会上,李彦宏还提出了一个关键问题:“AI 的应用从哪里来到哪里去?”
而对于百度来说,这个问题的答案指向了两个应用方向:智能体和产业应用。
李彦宏认为,智能体将成为 AI 应用的主流形态,并即将迎来爆发点。“尽管全球顶尖科技公司都在关注智能体,但像百度这样将智能体作为最重要战略方向的公司并不多。”
图源:百度
李彦宏表示,智能体与 PC 时代的网站制作或移动时代的自媒体账号制作有着本质的不同。智能体能够实现比人类更高级的智能,甚至在销售、客服和助理等方面超越人类。智能体的应用门槛低,任何人都能在百度的文心智能体平台上轻松操作,甚至是 11 岁的小学生也在创造智能体并通过搜索和其他渠道分发。
同时,智能体的潜力巨大,可以实现功能强大的应用,多个智能体的协作能解决更复杂的问题。从分类上看,智能体目前可以分为公司类、角色类、工具类和行业类四种类型,而百度在这四个领域均有成功案例。
公司类智能体
公司类智能体类似于 AI 时代的公司官网,但具有传统官网所缺乏的主动推荐、及时响应和一对一服务的能力。例如,比亚迪的智能体可以提供个性化的车型推荐和详细的性能比较,甚至可以直接导航到线下门店试驾,智能体还能快速获取最新信息并提供满意答案,大幅提升互动营销效率。
李彦宏提到,比亚迪官方智能体上线后销售线索转化率提升了 119%,联想 AI PC 智能体的互动率和销售线索转化率也分别提升了89%和 80%。未来,公司官方智能体有可能替代传统官网,成为直接面向消费者的主要界面。
图源:百度
角色类智能体
角色类智能体类似于我们常见的数字人概念。通过与多模态技术的有效结合,角色类智能体除了具备独立的人设和知识库外,还能做出与语言相匹配的动作,实现了高度拟人化的表现。
在先进大模型的支持下,角色类智能体改进了以往数字人“缺乏表情、声音肢体动作和口型机械化”的短板,逐渐变得更加聪明、有情感和态度,能够胜任教育辅导老师、留学顾问、心理咨询师及私人健身教练等多样化角色。
如今,在百度搜索相关关键字时,用户可在搜索结果页中看到更加自然流畅的数字人。得益于大量的数据积累和对直播互动规律的深入提炼,这些数字人动作幅度更大,且能在适当时候能即时回应网友提问,用户难以察觉其非真人身份。
此外,角色类智能体的脚本完全由 AI 生成,即便面对真人直播中难以记住的大量细节,数字人也能应对自如。当数字人在知识量和反应能力上超越普通真人,互联网将出现更多名师、名医、王牌律师或金牌销售的数字分身,创造出巨大的产业价值。
图源:百度
工具类智能体
作为 AI 领域的热门赛道,工具类智能体涵盖了 AI 写作、设计助手、logo 生成器等多种典型应用。
而百度此次展示的是一种全新形态的创新工具——“自由画布”,该智能体由百度文库与百度网盘联合开发,将于不久后上线,旨在彻底革新内容创作与分享流程。
自由画布以多模态内容为核心,允许用户将传统的图文表格、发布会视频、电话会录音等多种形式整合,打造更为全面丰富的报告。其强大功能体现在三个层面:资料获取的自由、编辑的自由以及创作的自由。
图源:百度
在资料获取方面,自由画布打通了公私域数据界限,用户可一键摘录文库上的公开文档、外部网页内容,以及网盘中存储的电话会录音、专业视频等私域素材,无需关注格式与来源。
编辑过程中,自由画布摒弃了传统的繁琐排版工作,让用户通过批注方式指导 AI 利用素材,确保生成内容紧密贴合用户意图。
创作环节,用户只需框选素材并一键生成 AI,系统便能根据输入和要求生成结构清晰的全新富媒体内容。此外,用户还可对文档进行局部编辑、改写、扩写和续写等操作。
此外,自由画布还实现了分享自由,生成的内容可保存在本地或上传至个人云,同时支持链接分享,适应各种平台和设备。
而除了办公场景应用,自由画布在个人创作领域也展现出巨大潜力。例如,基于“黑神话悟空”IP,用户可以利用自由画布生成大圣穿越至现代的探险漫画,并可将漫画转化为视频,增强故事表现力。
放在教育领域,自由画布以其强大的多模态处理能力和激发灵感创造力的特点,让每个孩子都能凭借想象成为故事的主角、漫画家或短视频导演。
图源:百度
行业智能体
第四类智能体——行业智能体主要针对细化的行业领域。例如在法律行业,百度推出的“法行宝”智能体就专注于个人在工作中遇到的法律问题提供高效、专业的解答。
法行宝能够针对车祸责任划分等问题提供详细的法律指导,并配备赔偿计算器,根据用户提供的详细信息计算总损失赔偿金。此外,法行宝还能调用大模型生成能力生成起诉状,并根据用户需求推荐知名律师提供进一步咨询。
自上线半年多以来,法行宝已为 940 多万人提供高效可信赖的法律服务、回答超过 1660 万个法律问题,成为普通人的专属 AI 免费律师。
图源:百度
四大类型智能体构筑出了百度的 AI 战略护城河,根据大会上百度提供的数据,截至目前,文心智能体平台吸引了 15 万家企业和 80 多万名开发者参与,覆盖多种应用场景。会上,百度还邀请英伟达作为技术合作伙伴,共同发起文心智能体创新大赛,在百度 Top100 智能体名单之上,发掘出更多有价值的智能体应用。
0 代码编程工具“秒哒”
“百度不仅要推出一个超级应用,还是要不断帮助更多人和企业打造数以百万级的超级应用。”
现在,百度就带了这样一个可以“授人以渔”的超级应用——秒哒。
图源:百度
作为一款 0 代码编程工具,秒哒通过无代码编程、多智能体协作和规模化调用各种工具的能力,将复杂的技术任务变得简单易行,旨在让不具备编程知识的人也能轻松实现创意。
秒哒的强大功能体现在三个方面:无代码编程、多智能体协作和多工具调用。用户无需编写一行代码,即可通过自然语言交互完成整套系统的搭建。多智能体协作基于文心大模型的思考和规划能力,实现对不同类型智能体的调度编排。此外,秒哒还能调用各种工具,如网页检索、图片生成和地图 API 等。
以创建一个发布会邀请系统为例,用户只需上传相关文件,秒哒便能自动生成邀请函、收集反馈并搭建报名界面。整个过程仅需三分钟,极大地提高了工作效率。
图源:百度
“有了秒哒,一个人通过自然语言交互就可以完成整套系统搭建。这意味着未来的项目将不需要招募项目经理、设计人员、开发人员和测试人员等,一个人就可以指挥多个智能体协同完成任务。”
在李彦宏看来,0代码编程工具的出现代表着只靠想法就能赚钱的时代已经到来,过去有想法还不够,执行需要花费巨大的人力物力,而现在只要有想法,秒哒就可以帮你心想事成。
图源:百度
结语
在整场百度 AI 新技术的展示中,李彦宏回顾了过去 24 个月全球生成式人工智能变革带来的应用大爆发,从过去的 PC 时代到如今的人人都能创造属于自己的 AI 应用/智能体,AI 时代的应用形态已经发生了天翻地覆的变化,大模型技术能力以指数级跃迁,自然语言成为了这个时代最重要的编程语言。
李彦宏认为,过去流行的“软件吞噬世界”的说法已经过时了,世界不应该被吞噬,在 AI 时代,世界应该被创造。
根据百度的数据,截至 11 月初,百度文心大模型的日均调用量已经超过 15 亿,相较一年前首次披露的 5000 万次,增长约 30 倍。文心大模型的增速超过预期,陡峭增长的 AI 需求也证明 AI 正在凭借大模型应用的爆发快速创造一个前所未见的新世界。
图源:百度
不过,对于百度来说,新变化的节点至少要到 2025 年才会到来,百度秒哒计划于明年一季度正式发布、小度 AI 眼镜也将于明年上半年上市,届时,百度这些“高调推出的 AI 工具”能否颠覆以往,还要看市场最终的检验。