作者|参商 Valentina
编辑|星奈
媒体|AI大模型工场
国内大模型发展趋势|8月份解读
一、具身智能上桌
2024年8月,AI 领域机器人发展迅猛。前有华为天才少年 “稚晖君” 的智元机器人一口气发布五款商用人形机器人,后有世界机器人大会27款人形机器人亮相。苹果也宣布将进军机器人行业,推出一款代号为J959的带有机械臂的桌面机器人,这一举措被认为是苹果进军智能家居市场的重要一步。同时,国内具身智能热也从产业端蔓延至投融资领域,热钱疯狂涌入。根据来觅PEVC的数据显示,2024年一季度机器人领域合计发生融资案例59起,涉及融资金额45.22亿元。其中,最为疯狂的是,智元机器人成立17个月就完成了7轮融资,投前估值已达70亿元。
具身智能最大的特点是自主学习和适应性。具身智能系统可以通过在实际环境中的不断尝试和实践,自主地学习和积累经验,从而提高自身的性能和适应性。这种自主学习能力使得具身智能能够不断适应新的任务和环境,而无需人工进行大量的重新编程和训练。目前,具身智能已经在众多领域展现巨大的应用潜力。在制造业中,可用于自动化生产、质量检测等任务,提高生产效率和质量;在医疗领域,能够辅助手术、康复治疗等,为患者提供更好的医疗服务;在家庭服务中,可以承担家务劳动、照顾老人和孩子等工作;在教育领域,可以作为智能教学助手,为学生提供个性化的学习支持等。
尽管未来市场前景广阔,但产业仍处于早期阶段,距离规模化商业化应用还有很长的路要走,其发展面临诸多挑战。
对于具身智能本身训练来说,虽然有丰富的数据资源,但获取高质量的、与实际环境紧密相关的数据并不容易。特别是对于一些复杂的场景和任务,需要专门的设备和手段来采集数据。同时,对这些数据进行准确的标注也是一项艰巨的任务,需要耗费大量的人力和时间。
对于具身智能发展产业来说,商业化前景不明朗,盈利艰难是显著困难之一。以号称“人形机器人第一股” 的优必选为例,已连续四年亏损,累计亏损超38亿元,且毛利率不断下滑;其次是落地难,当前人形机器人主要应用于工业、交互服务、营销及商业3C等场景,家庭服务领域的全面普及还需较长时间,更多应用场景仍在探索试验阶段,部分企业虽已小规模量产,但远未达到市场需求。
二、国产「Her」来袭,大模型厂商入局多模态拟人交互
近半年来,一些 AI 创业公司和行业巨头为我们揭开了人机沉浸式交互的新形态。今年5月中旬,OpenAI推出GPT-4o,凭借突破性的智能交互能力,颠覆了人们对人机交互的认知,掀起多模态大模型的新浪潮。
三个月后,科大讯飞正式推出星火极速超拟人交互,并将其能力落地在讯飞星火APP“小星畅聊”功能中。星火极速超拟人交互在响应和打断速度、情绪感知情感共鸣、语音可控表达、人设扮演四个方面实现突破。
紧接着,智谱宣布清言app迎来“视频通话”功能,这也是国内首个面向C端开放的视频通话功能。清言视频通话跨越了文本模态、音频模态和视频模态,并具备实时推理的能力。
用户拨打清言的视频通话窗口,即可与它进行流畅通话,即便频繁打断它也能迅速反应。只要打开摄像头,用户看到的画面,清言也可以看到,同时可以听懂指令并准确执行。
除此之外,SAC成员企业云知声在8月23日推出山海多模态大模型。通过整合跨模态信息,山海多模态大模型能够接收文本、音频、图像等多种形式作为输入,并实时生成文本、音频和图像的任意组合输出,带来实时多模态拟人交互体验。
国产大模型厂商争先入局多模态拟人交互,一部分原因是市场对AI提供情绪价值、情感体验的空前需求。社会压力与日俱增,现实社交“太麻烦”,许多年轻人转向其它的情感慰藉获取途径,包括养宠物、网络交友、追星,甚至是与AI应用对话这样的“赛博社交”等。
当用户要求AI不仅要遵循指令完成任务,还要它们能提供足够的情绪价值,满足情感需求时,从功能「基操」到情感「进阶」,AI要掌握的技能就要升级了。因此,多模态情感识别成为AI领域的活跃研究课题。能读懂情绪并传达情感的 AI成为业界追逐的新热点,也被认为是AI领域下一个重大突破。
不过要想在拟人化情感识别领域更进一步,仍需解决有标签数据稀缺、主观情绪识别不稳定和不准确等问题。高质量、多样化的情感标注数据仍然稀缺,这对于训练准确的情感识别模型是一个挑战。同时,情感识别是一个复杂的过程,不仅因为人类情感的多样性和复杂性,还由于文化背景的不同可能导致同样的表情或语气背后蕴含着不同的情感。因此,提高情感识别的准确性也是关键挑战之一。
三、轻量级端侧模型密集发布,推动AI加速落地
2024年8月,AI领域迎来了轻量级端侧模型的密集发布浪潮,这股浪潮为AI技术的加速落地注入了强大的动力,其中面壁智能、微软、商汤等公司的表现尤为突出。
面壁智能在8月的表现令人瞩目。8月7日,面壁智能宣布正式开源其最新的端侧AI多模态模型——MiniCPM-V 2.6。该模型以其仅8b的参数,实现了单图、多图、视频理解的全面性能提升,甚至超越了GPT-4V。9月5日,面壁智能发布了新一代基座模型面壁小钢炮MiniCPM 3.0 ,再次以小博大,以4B参数,带来超越GPT-3.5的性能,被称为“瑞士军刀般全面开挂的基座模型”。
8月21日,微软推出了phi-3.5系列轻量级模型。这三款新Phi-3.5模型包括参数为38.2亿的Phi-3.5-mini-instruct、参数为419亿的Phi-3.5-MoE-instruct以及参数为41.5亿的Phi-3.5-vision-instruct,分别设计用于基本/快速推理、更强大的推理和视觉(图像与视频分析)务。其开源的举措更是推动了整个 AI 社区的发展,让更多的开发者能够参与到模型的改进和创新中来。
商汤在8月的发展重点聚焦于端侧模型的应用和推广。近日,商汤交出了一份亮眼的半年报。财报披露,商汤的日日新大模型客户从互联网行业扩展至智能硬件、电动汽车、机器人、医疗、金融等行业,整体调用量实现了400%的增长。这也充分证明了端侧模型在各行业中的广泛应用前景。
端侧大模型,是运行在设备端的大模型,通常比我们熟悉的GPT等大模型参数量更小,因此可以使用端侧算力直接运行。端侧AI有着在任何网络条件下都可以生成回答、隐私不必离开设备、且无需云端算力因此成本更低等种种优势。
随着大模型的参数规模不断增长,带来了巨大的计算和推理压力。因此,将一些处理从云端转移到边缘终端,可以减轻云基础设施的压力并减少推理服务成本。同时,随着大模型技术的不断成熟,模型的轻量化和小型化也成为了发展趋势,为端侧模型的应用提供了技术支持。
对于企业来说,端侧模型可以降低对云端计算资源的依赖,减少云计算成本,同时也可以提高数据的安全性和隐私保护,具有较高的商业价值。此外,端侧模型的应用可以为企业带来新的业务模式和增长点,如智能硬件、智能家居等领域的发展。
国内主要大模型最新进展
腾讯
八月份,腾讯AI原生应用“腾讯元宝”主要上线了两款新功能,分别是月初上线的长文精读能力,以及8月20日上线的AI相册功能。
长文精读能力是继多文件、超长文泛读总结后,腾讯元宝在AI辅助提效方面的又一新进展。在最新版本的腾讯元宝中,当用户上传论文、财报、研报等专业内容的URL链接或文件,除获得文字概括总结外,还可进入深度阅读模式,对长文进行精读。
8月20日腾讯元宝APP上线的AI相册功能,则允许用户通过上传1-6张照片创建个人数字分身,并利用海量模板一键生成免费写真。
除此之外,八月腾讯发布了2024年Q2财报,当季总营收1611亿元,同比增长8%。其中,企业服务业务收入实现双位数增长率,受益于云服务业务收入增长(包括企业微信商业化的提升),以及视频号商家技术服务费的增长。
财报显示,腾讯Q2研发开支达172.77亿元,自2018年至今六年研发投入超过3026.09亿元,持续发力核心技术自研、提升产品竞争力。
在大模型方面,9月5日在腾讯全球数字生态大会上,腾讯宣布推出新一代大模型“混元Turbo”,相比前代模型训练效率提升108%,推理效率提升100%,推理成本降低 50%,解码速度提升20%,效果在多个基准测试上对标GPT-4o。
腾讯副总裁、云与智慧产业事业群COO兼腾讯云总裁邱跃鹏表示,腾讯混元Turbo输入和输出价格只有前代模型的一半,企业和开发者可以直接在云上接入使用。
科大讯飞
8月6日,科大讯飞智能办公本Air 2在科大讯飞举行“AI懂你,轻得自在”智能办公本新品发布会上发布。Air 2融合了星火大模型能力,除了有“更聪明”的开放式问答及划词搜索功能外,还带来了三大AI绝招——会议纪要、笔记分析、AI写作。
产品更新方面,8月12日,科大讯飞宣布旗下智能文档产品——讯飞智文2.0全新版本正式上线。新版本基于讯飞星火V4.0大模型底座,引入全新的PPT文本生成大模型、AI PPT编排创作引擎和PPT在线编辑模组,大幅提升编辑自由度和样式多样性。据悉,讯飞智文自2023年11月上线以来,生成文档数已超千万。
除此之外,科大讯飞还在8月19日宣布了星火语音大模型更新,正式推出星火极速超拟人交互,打造国内首个全新中文交互模式,并将在8月底率先开放全民使用。这意味着国内首个对标GPT-4o语音功能的产品正式到来。据悉,星火极速超拟人交互响应速度更快,对话更加自然流畅,在响应和打断速度、情绪感知情感共鸣、语音可控表达、人设扮演四个方面实现突破。
百度
8月22日百度发布了2024年Q2财报。财报表示,第二季度百度营收339亿元,百度核心营收267亿元;同时,百度核心经营利润56亿元,同比增长23%。得益于全栈AI技术优势,以及基于文心大模型构建的AI应用快速普及,百度正在扩大AI落地规模,以解决现实世界中的问题,为外部客户和内部产品创造巨大价值。
与发布财报同日,百度智能云千帆平台开始支持对文心大模型的最新旗舰版ERNIE 4.0 Turbo进行精细化调整,以满足企业客户的特定业务需求。通过模型精调,企业能够根据自己的业务数据训练出更加贴合自身需求的大模型,从而显著提升模型在实际业务中的使用效果。通过该服务,百度希望帮助更多客户探索大模型在不同业务场景下的应用,推动AI技术在企业中的深入应用和价值实现。
在8月底,全球领先的IT市场研究和咨询公司IDC发布报告《中国大模型平台市场份额,2023:大模型元年——初局》,百度智能云位列2023年中国大模型平台,市场份额第一,达到19.9%。
近日,百度官宣文心一言App正式升级为文小言,定位百度旗下“新搜索”智能助手。据百度相关负责人介绍,区别其它搜索产品,文小言推出了富媒体搜索、多模态输入、文本与图片创作、高拟真数字人等“新搜索”能力,能全面满足用户搜、创、聊需求。
同时,文小言独家首发记忆和自由订阅等全新功能。百度表示,为让用户享受更强大的搜索体验,文小言即日起还将免费开放文心4.0大模型能力,所有用户整个9月均可免费使用。
字节跳动
8月6日,字节跳动旗下剪映团队研发的一站式AI创作平台“即梦 AI”移动版上架到苹果App Store应用商店。
据介绍,即梦 AI是一个专为创意爱好者打造的AI表达平台,其中包括AI图片创作、视频创作、探索创意世界等功能,效果直逼OpenAI 的Dall-E、Sora,以及快手旗下 AI 视频生成产品可灵、AI图片生成产品可图。
在8月21日开始的火山引擎AI创新巡展上海站上,字节跳动也带来了许多精彩大模型升级。次巡展的亮点之一是豆包大模型的全新升级,此次升级不仅提升了豆包语音模型和视觉模型的性能,还进一步强化了对话式AI的实时交互解决方案,为AI交互体验带来了显著的改善。
与此同时字节跳动旗下的火山引擎推出了一项对话式AI实时交互解决方案,该方案整合了火山引擎的RTC技术与豆包大模型,旨在提供更自然、流畅的AI实时语音通话体验。这项服务通过高效的语音数据采集、处理和传输,结合语音识别和语音合成模型,简化了语音与文本之间的转换过程,使企业能够快速实现用户与云端大模型间的实时语音交流。
此外,8月21日字节跳动还推出Seed-ASR语音模型,能识别转录多语言和方言。Seed-ASR1是一种基于大型语言模型(LLM)的语音识别模型。Seed-ASR是在音频条件大语言模型(AcLLM)框架上开发的,利用了大型语言模型的强大能力,将连续的语音表示和上下文信息输入到语言模型中。
通过分阶段的大规模训练以及语言模型中上下文感知能力的引入,Seed-ASR 在综合评估集上(涵盖多个领域、口音/方言和语言)比传统的端到端模型有了显著提升。
近日,字节跳动还表现出了对“硬件+AI”的极大兴趣,开始探索AI耳机、眼镜等产品。字节AI硬件团队的第一款产品是集成豆包大模型的智能耳机。用户在戴上该智能耳机后,可通过语音对话随时使用豆包,同时在豆包App上也可以操控这款耳机。同时,字节跳动也表现了对AI眼镜领域表现出了浓厚的兴趣,并可能通过投资或内部团队研发的方式进入这一市场。据悉,字节跳动已经与某互联网公司的前大模型核心技术人物合作,共同研发AI眼镜。
智谱AI
八月末,智谱AI迎来了一系列更新和发布。
8月27日,智谱 AI宣布GLM-4-Flash大模型免费开放,通过智谱 AI大模型开放平台调用。GLM-4-Flash适用于完成简单垂直、低成本、需要快速响应的任务,生成速度能达到72.14 token/s,约等于 115 字符/s。GLM-4-Flash具备多轮对话、网页浏览、Function Call(函数调用)和长文本推理(支持最大 128K 上下文)等功能,同时支持包括中文、英语、日语、韩语、德语等在内的 26 种语言。
紧接着,8月28日智谱 AI开源了CogVideoX-5B视频生成模型,相比此前开源的CogVideoX-2B,官方称其视频生成质量更高,视觉效果更好;8月29日,智谱清言App将上线视频通话功能。智谱方面介绍,清言App的视频通话功能,具有跨文本、音频和视频进行实时推理的能。
在融资方面,近日,智谱以200亿元的投前估值,完成了新一轮融资,这是2024年以来智谱完成的第三笔。
目前,智谱的股东阵容包括高瓴资本、启明创投、君联资本等知名投资机构以及美团、阿里、腾讯、小米在内的互联网大厂。
阿里
8月6日,通义 App上线新功能“角色扮演”。据介绍,“角色扮演”功能背后的“核心技术”是通义实验室研发的AI模型 Motionshop。其支持在不改变周边场景的情况下,利用视频处理、角色跟踪 / 分割、姿态估计、路径追踪渲染等多种技术,使动态视频中的主角“跨越现实与虚拟的界限”。
两天后,阿里云宣布域名产品服务完成AI化系列改造,推出首个基于通义大模型的域名AI应用,升级后的阿里云万网可通过输入品牌名称和所属行业大模型批量生成创意域名。此次阿里云上新的域名后缀包括“.ai”“.car”“.me”等。同时,阿里云也进一步扩充热门域名资源。数据显示,“.ai”域名的注册量较2023年同比增长72.96%,谷歌、脸书、微软等公司纷纷注册了带“.ai”后缀的网站,引流到AI产品页面。
在语言大模型的开源和突破上,八月阿里也取得了突出进展。8月13日,阿里通义大模型对外宣布开源Qwen2系列音频语言模型Qwen2-Audio。Qwen2-Audio可以不需文本输入,直接进行语音问答,理解并分析用户输入的音频信号,包括人声、自然音、音乐等。
通义团队还同步推出了一套全新的音频理解模型测评基准,相关论文已入选本周正在举办的国际顶会ACL 2024;8月30日,阿里通义千问发布第二代视觉语言模型Qwen2-VL,旗舰模型 Qwen2-VL-72B的API已上线阿里云百炼平台。在多个权威测评中,Qwen2-VL部分指标甚至超越了 GPT-4o 和 Claude3.5-Sonnet 等闭源模型。
360
8月12日,360集团创始人、董事长周鸿祎在网络社交平台发布视频表示,大模型提供了两个巨大的机会。
他谈到,大模型带来了新的商业化机会。周鸿祎表示,用大模型赋能互联网用户,可能能帮助360尽快从广告模式转向用户使用各种能力付费订阅的模式,“这样也可以解决广告给用户带来的困扰。”
在应用更新方面,八月360AI 助手推出了全新的"模型竞技场"功能。用户可以从多个大模型中选择,输入相同的提示词,直观地比较不同模型的输出结果。
该功能还提供了丰富的提示词题库,涵盖逻辑推理、语言理解等多个维度,帮助用户全面评估各大模型的性能。这将让用户的模型选择更加客观和全面。
值得注意的是,此前360创始人周鸿祎曾宣布360浏览器将新增AI助手悬浮按钮,整个360生态也将围绕AI助手进行布局。
昆仑万维
8月14日,昆仑万维正式发布全球首个AI流媒体音乐平台Melodio,并同步推出AI音乐商用创作平台Mureka。两款产品均搭载昆仑万维新款自研DiT(Diffusion Transformer)架构音乐大模型Skymusic 2.0,这也是业内首个能够持续稳定生成特定风格歌曲的AI音乐大模型。
除此之外,8月19日,昆仑万维推出了全球首个集成视频大模型与3D大模型的 AI短剧平台 SkyReels。SkyReels平台搭载了昆仑万维自研的剧本大模型SkyScript、分镜大模型StoryboardGen、3D生成大模型Sky3DGen,以及创新平台WorldEngine,这些技术的支持使得平台能够一键生成完整的剧本、分镜、人物对白与背景音乐,并自动转换为1080P 60帧的高清视频,单次生成视频长度可达180秒,极大提高了视频创作效率并降低了成本。
SkyReels 平台的推出预示着“一人一剧”时代的加速到来,它不仅为专业内容创作者提供了强大的创作工具,也极大地降低了AI短剧创作的门槛,使得非专业用户也能轻松上手。这一工具有望促进AI短剧用户生成内容(UGC)与专业用户生成内容(PUGC)的爆发式增长,推动短剧内容创作与消费市场的进一步快速增长。
商汤科技
月初,商汤科技推出一款帮助用户生成创意写真、自拍合照的AIGC产品“秒画趣拍”小程序版。据悉,上线9天,日活跃用户数破52万大关,用户总量更是飙升至146万,日页浏览量(PV)高达4117万次,网络请求量更是突破亿次。
月末,商汤「办公小浣熊」正式在联想应用商店上线,为广大PC用户提供AI时代的新质生产力,提升办公效率。借助联想应用商店平台,「办公小浣熊」用户可以在PC端就能高效地体验AI大模型能力在财务分析、商业分析、销售预测、市场分析等办公场景的应用。
除此之外,八月份商汤集团发布了2024上半年业绩公告,报告显示,上半年收入17.4亿元,同比增长21%,生成式AI业务收入近11亿元,同比大幅增长256%,占集团收入跃升至6成。集团整体毛利润为近8亿元,同比增长18%,毛利率为44%。相较去年同期,整体期间亏损同比减少约7亿元。日日新大模型推理成本快速下降,模型调用量显著增长。
面壁智能
八月份面壁智能在开源模型上取得了新进展。
8月6日,面壁智能开源了 MiniCPM-V 2.6模型,仅 靠8B参数取得 20B以下单图、多图、视频理解3 SOTA成绩。官方表示将端侧AI多模态能力拉升至全面对标GPT-4V水平。
近日,面壁智能宣布推出开源MiniCPM3-4B AI模型,声称“端侧 ChatGPT 时刻到来”。MiniCPM3-4B 是MiniCPM系列的第三代产品,整体性能超过了Phi-3.5-mini-Instruct和GPT-3.5-Turbo-0125,媲美多款 70亿~90亿参数的AI模型。
夸克
8月27日,阿里智能信息事业群旗下夸克发布PC端,升级了AI搜索、AI写作、AI PPT、AI文件总结等一系列“系统级全场景AI”功能。此前,夸克已在App端推出全新AI搜索。
据悉,近日夸克在App端推出的全新AI搜索,此次一并在PC端发布,并升级了更强的模型能力,提升到更快的交互速度。夸克AI回答的首字出现速度和吐字速度大幅领先行业,瞬时就能给出精准答案。三栏式的界面设计能更清晰地展现图文、视频等生成式回答和网页,让用户一眼就能得到核心信息。