Google I/O 2025 全回顾:Gemini 全线碾压 OpenAI、AI 搜索大变革,天价会员服务每月 250 美元

IP归属:广东

北京时间 2025 年 5 月 21 日凌晨,谷歌在加州山景城 Shoreline Amphitheater 举办了一年一度的 Google I/O 开发者大会。这场活动不仅是谷歌展示最新技术的舞台,更是全球科技行业的风向标。今年的主题只有两个词:Gemini 和 AI。从开场到结束,谷歌提及 Gemini 95 次,提及 AI 92 次,Gemini 和 AI 贯穿了整个大会的每一个角落。

图源:谷歌

无可匹敌:Gemini 2.5 Pro 重塑 AI 巅峰

图源:谷歌

本次 I/O 的绝对主角,是谷歌最新一代大模型 —— Gemini 2.5 Pro。自 2023 年 12 月 Gemini 横空出世,谷歌在短短一年半的时间里就完成了三次大升级。2.5 版本不仅在文本、代码、图像等多模态任务上全面提升,谷歌在本次 I/O 大会还为 Gemini 2.5 Pro 带来了“Deep Think”深度思考模式,支持更复杂的推理与更长的上下文。

图源:谷歌

图源:谷歌

大会上,谷歌 CEO 反复强调 Gemini 在各类权威榜单上的领先地位:在 LMArena 榜单中,Gemini 2.5 Pro 不光综合成绩排名第一,还在数学、编码等所有单项测试中均位列第一,实现榜单全面夺冠。在 WebDev Arena 代码榜单中同样位列第一,可以说 Gemini 2.5 Pro 目前就是推理、学习、长文本处理等各项指标中业界顶尖的存在。

图源:谷歌

图源:谷歌

Gemini 2.5 Pro 甚至能完成《宝可梦蓝》(Pokemon Blue)全通关,成为 API 中的新标杆,这也是其他 AI 模型暂时不能做到的一点。在这里谷歌 CEO 还不忘玩一个“谐音梗”,将 API 翻译成 Artificial Pokemon Intelligence(人工宝可梦智能),迎来了这场活动中最热烈的掌声。

纵观这些榜单的排名与 Gemini 模型在《宝可梦蓝》中所实现的成就,Gemini 2.5 Pro 模型的能力自然不用多说,但这还不是 Gemini 2.5 Pro 的能力上限。

图源:谷歌

谷歌 DeepMind 的 CEO Demis Hassabis 在本次 Google I/O 上还为 Gemini 2.5 Pro 带来了全新的 “Deep Think”深度思考模式。

图源:谷歌

Deep Think 是 Gemini 2.5 Pro 的增强推理模式,采用了最新的研究方法,让模型在回答前可以并行考虑多种假设,显著提升复杂数学和代码任务的能力。Deep Think 在 2025 年美国数学奥林匹克(USAMO)、LiveCodeBench 编程竞赛、MMMU 多模态推理等权威基准上进一步提高了成绩,相比没有开启 Deep Think 模式的 Gemini 2.5 Pro 模型,成绩又有了显著提升(如上图,最左侧浅蓝色条形图)。

目前 Deep Think 处于受控测试阶段,谷歌会先邀请受信任的测试者通过 Gemini API 体验并反馈,等完成前沿安全评估后,才会面向更广泛用户开放。未来 Deep Think 会作为 Google AI Ultra 订阅计划的高级功能正式上线。

Gemini 2.5 Flash:超越一众顶尖模型,仅次于 Gemini 2.5 Pro

如果说 Gemini 2.5 Pro 代表谷歌在复杂推理、代码、多模态上的巅峰实力,那么 2.5 Flash 则主打“快、轻、准”,是面向大规模实际应用和开发者生态的明星产品,也是谷歌在 Google I/O 大会上重点推出的高效大模型版本。

Gemini 2.5 Flash 最大的特点就是“快”。它针对高并发、低延迟场景进行了极致优化,在处理复杂任务时也能做到几乎实时响应。相比上一代模型,2.5 Flash 新版本在推理、代码、多模态任务上的速度提升显著,且生成内容的延迟大幅降低,非常适合需要即时反馈的产品和服务。

图源:谷歌

2.5 Flash 在多个关键基准上都实现了突破:推理能力、代码生成、长文本处理、多模态理解等方面均有提升。它在 LiveCodeBench、AIME 数学竞赛、GPQA 科学问答等多项权威测试中表现优异。在 LMArena 榜单中,2.5 Flash 的成绩仅次于谷歌自己的 2.5 Pro,排名第二,超越了部分 AI 公司的旗舰大模型。

新一代 2.5 Flash 在效率上也有重大进步。根据谷歌官方数据,2.5 Flash 的 token 消耗比上一代减少了 20-30%,在保证同等甚至更高质量的前提下,大幅降低了调用成本。这对于需要大规模部署 AI 服务的企业和开发者来说,意味着更低的运营费用和更高的可扩展性。

图源:谷歌

Gemini 2.5 Flash 将于 6 月初全面开放使用,目前,开发者可以通过 Google AI Studio、Vertex AI 等平台,以及 Gemini App 中率先使用预览版。

Gemini 2.5 Pro 与 2.5 Flash 形成高低搭配,既能满足对极致性能的需求,也能兼顾成本与效率。

Gemini Diffusion:重新定义 AI 文本生成

Gemini Diffusion 是谷歌在 2025 年 Google I/O 大会上首次公开展示的前沿 AI 生成式文本模型,也是 Gemini 2.5 家族中最具实验性和创新性的成员之一。它的出现,代表着谷歌在文本生成领域迈入了全新的技术范式。

图源:谷歌

简单来说,Gemini Diffusion 是一种“扩散式”文本生成模型。与传统的自回归大模型(如 GPT-4、Claude)自左到右逐字生成文本不同,Diffusion 模型借鉴了图像扩散生成的思路:它通过不断“去噪”、多轮并行编辑的方式,从一段“模糊”或“含噪音”的初始文本中,逐步推敲、修正、优化,最终生成高质量、结构完整的文本内容。

在演讲中,谷歌团队专门演示了 Gemini Diffusion 的生成过程,现场展示了一个数学题解答的例子。相比传统大模型通常是从左到右生成答案,遇到复杂推理时容易前后不一致或者卡住。Gemini Diffusion 则是“全局并行”地思考和生成,在每一步都可以对中间结果进行自我纠错和多次修正。结果就是,Gemini Diffusion 模型不仅生成速度极快(就是一眨眼的功夫,比谷歌当前最快的 Flash lite 模型还要快 5 倍),而且能在复杂逻辑、数学、代码等任务中大幅提升准确率和可靠性。

Gemini Diffusion 不仅解决了传统自回归模型在长文本、复杂推理任务上的“生成瓶颈”,也为未来的 AI 写作、自动化科研、智能编程等领域打开了更广阔的空间。

目前 Gemini Diffusion 还处于小范围测试阶段,但谷歌已在 I/O 大会宣布会持续推进相关研究,并计划将 Diffusion 技术逐步应用到 Gemini 家族的各类产品和 API 中,未来值得重点关注。

AI 搜索大变革:AI Mode 与个人化智能

图源:谷歌

如果说 Gemini 是谷歌的“大脑”,那么 Search 就是谷歌的“眼睛和手”。今年 I/O,谷歌正式推出了全新的 AI Mode 搜索体验,标志着搜索引擎进入了“智能体时代”。

图源:谷歌

AI Mode 是一个全新的搜索入口,支持更长(2-3 倍)、更复杂的自然语言问题,能自动拆解问题、发散搜索、聚合多源信息,并以可视化、结构化、交互式的方式呈现答案。比如查询 MLB 棒球新型球棒的影响,AI Mode 能自动查询球员、赛季数据、生成图表、对比分析,并支持多轮追问。

图源:谷歌

图源:谷歌

AI Mode 还内置了 Project Mariner 智能体,可以自动帮你订票、预约餐厅、安排日程。比如“帮我找两张本周六辛辛那提红人(Cincinnati Reds)比赛的下层票”,搜索会自动横扫全网票务平台,帮你筛选、比价、下单,整个过程无需人工干预。

图源:谷歌

AI Mode 同时也支持“个人上下文”,用户可选择将 Gmail、日历、地图等谷歌服务与搜索打通,实现真正的“懂你”。比如你在旅游,AI Mode 会结合你的邮件、酒店预订、过往兴趣,自动推荐展览、餐厅、路线等个性化内容。

Project Astra 开启智能体时代

Project Astra 是谷歌重点展示的下一代通用 AI 助手项目,也是 Gemini 多模态能力和“智能体”理念的集大成者。

Astra 的最大亮点在于其高度的多模态感知与理解能力。它可以同时处理文本、语音、图像、视频等多种输入,具备实时摄像头识别、屏幕内容分析、语音交互、环境感知等能力。在 I/O 现场,谷歌工程师用 Astra 通过手机摄像头“看见”现实世界,识别物品、读取说明书、查找邮箱内容、自动拨打电话、预约服务、甚至帮用户选购配件和规划路线。整个过程无需繁琐的指令,用户只需用自然语言对话,Astra 就能理解意图、主动分解任务、跨应用操作,并持续跟进上下文。

stra 还具备“记忆”与“多轮对话”能力。它能够记住用户之前的请求和偏好,支持跨时空、多场景的连续协作。例如在演示中,Astra 不仅帮用户找到了自行车的配件型号,还自动联系了附近的自行车店,完成了预约和订单。Astra 能够调用 Gmail、Drive、地图、日历等谷歌生态服务,实现真正的“数字分身”体验。

与传统 AI 助手相比,Project Astra 更强调“Agentic AI”的概念。它不仅能被动回答问题,更能主动感知、推理和执行复杂任务。Astra 可以自动拆解目标、规划步骤、调用第三方服务,甚至与其他智能体协作,成为用户生活和工作的得力助手。

Astra 是 Gemini 2.5 多模态模型和 Project Mariner 智能体技术的深度融合产物。它未来将支持 XR 眼镜、手机、电脑等多终端形态,成为企业、开发者和普通用户的通用 AI 平台。谷歌还计划将 Astra 的能力逐步开放给第三方开发者,推动“智能体生态”繁荣。

Imagen 4:更快、更细腻、更懂设计

如今,谷歌的 Imagen 3 图片生成模型和 Veo 2 视频生成模型已经成为生成式 AI 媒体领域的两大明星产品,也为内容创作、设计、影视等行业带来了全新可能。在今天的 Google I/O 大会上,Imagen 和 Veo 两大模型同时迎来了升级换代,两款模型在图像和视频生成方面都实现了新的突破。

与上一代相比,Imagen 4 在速度、分辨率、细节表现、文本生成能力等方面实现了全面升级。

主要亮点:

  • 高分辨率与真实感:支持最高 2K 分辨率输出,能够精准还原布料、毛发、水珠等细腻细节,无论是写实风格还是抽象艺术,都能轻松驾驭。

  • 更强的文本理解与排版:Imagen 4 在生成带有文字的图片时表现极为出色,字体、排版、拼写准确,适合生成海报、宣传物料、创意广告等需要高度定制的场景。

  • 超快生成速度:相较于 Imagen 3,Imagen 4 标准版已大幅提速,并将在近期上线 10 倍速版本,满足高频次、批量生成的需求。

  • 多样化风格和比例:支持多种画幅比例,适合社交媒体、商业设计、艺术创作等不同应用场景。

  •  

Veo 3:视频生成正式迈入“有声时代”

图源:谷歌

Veo 3 则是谷歌发布的最新一代 AI 视频生成模型,代表了当前业界最前沿的视频合成技术。它不仅能根据文本或图片提示生成高质量短视频,还首次实现了“视频+音频+对话”的一体化生成。

主要亮点

  • 原生音频生成:Veo 3 支持自动为视频生成背景音乐、环境音效、人物对话,并能实现口型同步,让视频内容更真实、更具沉浸感。

  • 更强的物理与场景理解:Veo 3 在运动捕捉、环境交互、场景一致性等方面全面升级,生成的视频画面更加连贯自然。

  • 多模态输入与丰富控制:支持文本、图片等多模态输入,创作者可以通过简单描述就生成复杂的分镜、角色、场景,还能自定义镜头运动、角色行为等细节。

  • 与 Flow 平台深度集成:Veo 3 已集成到谷歌新发布的 AI 影视创作平台 Flow,支持多镜头、多场景拼接、音乐添加等完整“电影级”制作流程。

图源:谷歌

谷歌还将与导演 Eliza McNitt 合作,拍摄一部基于真实故事改编的电影 —— Ancestra,将展示 Veo 3 在真实电影制作中的应用,帮助导演实现传统拍摄难以完成的镜头和特效,影片将于 6 月 13 日上映。

谷歌推出 Ultra 高端订阅,每月 250 美元

随着 Gemini 2.5 Pro、Gemini 2.5 Flash、Gemini Diffusion、Imagen 4、Veo 3 等模型的亮相,谷歌也顺势推出了 Gemini AI Pro 和 Gemini AI Ultra 两档全新的订阅计划,全新的订阅计划也成为谷歌生成式 AI 服务体系中的核心入口。这两档服务不仅在定价和功能上做出区隔,也体现了谷歌对标 OpenAI、Anthropic 等行业领先者的野心和策略。

图源:谷歌

Gemini AI Pro 月费约为 20 美元,面向个人和专业用户,主打高性价比和全面的 AI 能力。订阅后,用户可以获得 Gemini 2.5 Pro 模型的完整访问权限,享受更大上下文窗口、更强推理和代码能力、Imagen 4 图像生成、Veo 2 视频生成、NotebookLM 高级文档分析、Whisk 跨模态内容生成等功能。Pro 用户还可在 Gmail、Docs、Chrome 等谷歌生态中直接调用 Gemini,获得 2TB Google 云端存储空间,以及更多 Gemini Live、Canvas、Gems 工具的高级配额。对于开发者来说,Pro 计划支持更高的 API 调用额度和更丰富的模型选择,适合内容创作、办公自动化、开发测试等多元场景。

Gemini AI Ultra 则定位于顶级创作者、企业和重度 AI 用户,月费高达 250 美元。Ultra 用户不仅拥有 Pro 的全部功能,还能优先体验 Gemini 2.5 Pro Deep Think(推理增强模式)、Veo 3 最新视频生成、Imagen 4 Ultra 超高分辨率图像生成,以及 Flow 电影级视频编辑、NotebookLM 五倍音频转写、30TB Google 云存储、YouTube Premium 等专属权益。Ultra 计划还开放了 Mariner 智能体、Jules 代码助手等前沿工具的全部能力,支持更大规模的文件上传和更复杂的多模态任务。对于需要高并发、大批量生产内容、AI 影视创作、企业级数据分析的用户,Ultra 是目前谷歌最高规格的服务。

与行业其他主流 AI 订阅计划相比,Gemini Pro 在定价和功能上与 OpenAI 的 ChatGPT Plus(20 美元/月)、Anthropic 的 Claude Pro(20 美元/月)相当,但在多模态能力、Google 原生集成、存储空间、API 额度等方面更有优势。Gemini Ultra 则对标 OpenAI ChatGPT Pro、Anthropic Claude Max 等高端套餐,价格更高但功能也最全,尤其在视频、图像、文档处理和大规模多模态任务上有独特卖点。

结语:AI 时代的谷歌,正站在新起点

下一个十年,AI 将如何影响我们的生活、工作、学习、娱乐?谷歌用一场盛大的 I/O 给出了自己的答案:让 AI 成为每个人的“超级助手”,让科技为所有人服务。

最后,正如大会结尾那句:“All you have to do is ask.” —— 只要你提问,AI 就会帮你找到答案。AI 时代的大门,已经打开。

陀螺科技现已开放专栏入驻,详情请见入驻指南: https://www.tuoluo.cn/article/detail-27547.html

前方智能专栏: https://www.tuoluo.cn/columns/author1911845/

本文网址: https://www.tuoluo.cn/article/detail-10122238.html

免责声明:
1、本文版权归原作者所有,仅代表作者本人观点,不代表陀螺科技观点或立场。
2、如发现文章、图片等侵权行为,侵权责任将由作者本人承担。

相关文章