【送码】Dia 初体验：AI Agent 已具雏形，免费不限量使用顶级模型

前方智能原创 2025-04-07 11:27 热度 16102

微信扫一扫：分享

微信里点“发现”，扫一下
二维码便可将本文分享至朋友圈

IP归属：广东

文章AI导读

一键萃取文章精髓，核心观点即刻呈现

# 梳理该事件的完整脉络

# 该文章有哪些有意思的观点或数据

# 大家对该事件的态度表现如何？

在 2024 年 10 月，The Browser Company 宣布停止对 Arc 浏览器的进一步开发，后续仅仅只会提供稳定性更新和错误修复，同时将开发重心转向一款更简洁易用的新浏览器，新浏览器将集成更多 AI 功能，目标是将浏览器打造成 AI 平台，并预告新浏览器将于今年年初发布。

关于 Arc 浏览器，可以阅读我们曾写过的这篇文章：《Arc 浏览器的终结与新生，重新思考 AI 浏览器的未来》。

近日，这款新浏览器以 Dia 之名发布，开启了 Alpha 测试，我们有幸也拿到了测试资格。

熟悉软件开发的读者可能知道 Alpha 是一个比 Beta 测试还要早的阶段，也就意味着在 Alpha 阶段软件会遇到更多 Bug、错误、不稳定的情况，功能也不够完整（甚至很多功能在 Alpha 阶段根本还没做），即便是现有的功能也可能会在后续开发过程中进行重新调整和优化，从而出现很大的变化。

在去年年底，The Browser Company 发布了一个长达 11 分钟的视频，里面介绍了他们对 Dia 的愿景，以及预览了一些会在 Dia 上出现的功能，感兴趣的读者可以先看看这个视频，再结合我们的评测，能够更好地了解 Dia 现阶段处于什么位置，以及距离他们的终极目标还有多远的距离。

注：本次测试基于 Dia 0.23.0 版本，Chromium 135 版本，现在评测正式开始。

图源：前方智能

AI 为核：Dia 的设计理念

图源：前方智能

在 Dia 的官网首页写着这么一句话：

AI 不会作为一个应用程序或一个按钮存在。它会是一个全新的环境 —— 建立在网络浏览器之上。

既然 Dia 将 AI 作为产品的最大卖点进行宣传，而且相信大家最关心的功能也就是 AI，那么我们不妨就直接从 AI 开始介绍 Dia。

自带 AI 搜索，融合多模态模型，使用不限量

Dia 的主界面非常简洁，没有任何多余元素，大家的目光自然就会聚焦在界面中间的输入框上。这个输入框就是 Dia 很多 AI 功能的入口。

图源：前方智能

在 Dia 的终极目标中，浏览器的输入框可以实现非常丰富的功能，包括使用自然语言命令来执行检索文档、发送电子邮件或安排会议等任务，也就是要在浏览器中实现 AI Agent 的功能。

图源：前方智能

现在 AI Agent 是很多 AI 科技公司都在争相探索的领域，当前版本的 Dia 暂时没能实现全部功能。不过为了实现这个终极目标，Dia 已经在输入框中融合了自然语言输入、AI 搜索、多模态模型这几项功能，算是给 AI Agent 先打好了一个基础。

图源：前方智能

当我们在输入框中输入想要搜索的内容后，Dia 的候选窗口中会有 Google 和 Chat 两个选项（为了以示区别，在文本提示和颜色上有差异），第一个顾名思义就是传统的 Google 搜索，会跳转到 Google 搜索你的问题；而第二个 Chat 就是指 AI 搜索。我们就以这个问题来试试 Dia 的 AI 搜索。

图源：前方智能

在测试中我们发现，针对 AI 搜索，Dia 有两种不同的处理方式。针对一些简单问题，Dia 会直接调用 AI 模型给出答案，就如上面这个例子一样（应该是 AI 模型的训练数据中已经包含了答案）。

图源：前方智能

比如询问 “The Browser Company 创始人” 这个问题，Dia 在提示中表示使用了 ChatGPT，虽然提示显示使用了 ChatGPT 和 ChatGPT 有所重复，但这里应该是一个 Bug。在后续测试其他问题时，还有显示使用了 ChatGPT 和 Gemini 模型的提示，这里显示应该是正常的。

图源：前方智能

根据我们的反复测试，目前 Dia 应该只使用了 ChatGPT 和 Gemini，不知道随着后续开发，是否会加入更多模型，或者给予用户自己选择模型的选项。

图源：前方智能

针对一些 AI 模型无法直接给出答案的复杂情况，Dia 就会通过网络搜索相关信息，再用 AI 总结搜索到的信息。比如上面这个例子，Dia 获取了知乎等多个平台的信息，然后通过 AI 总结这些信息给出答案。

图源：前方智能

Dia 同样也会给出信息来源，方便用户回溯来源并检查是否有错误。

在测试中我们也发现了 Dia 的 AI 搜索目前存在的一些问题。比如当我们使用中文询问 The Browser Company 正在开发的新浏览器叫什么的时候，Dia 通过网络搜索（Web Search）了一番之后，给出了尚未公布名称的错误答案。

图源：前方智能

但是当我们使用英文去询问同一个问题时，Dia 就会给出正确答案。

图源：前方智能

经过分析两次结果在网络搜索阶段所做的事情后能够发现，当使用中文询问 Dia 时，Dia 只会搜索中文互联网上排名靠前的媒体，然后给出总结。由于 Dia 实在是太新了，在中文互联网上暂时没有讨论度，因此无法找到答案。但在海外，Dia 已经引发了很多讨论，很多知名媒体或多或少也都报道过 Dia 的相关消息，所以在使用英文询问时，结果就很丰富，最后给出的答案也是正确的。

因此在后续的版本更新中，我们希望 Dia 可以在搜索时加入更智能的跨语言检索功能，在一种语言信息不足时，能自动寻找其他语言的信息并提供翻译。

图源：前方智能

细心的读者或许会发现，Dia 浏览器的输入框有上下两行字，第一行“Search or ask a question”（搜索或询问问题）就是我们前面所做的介绍，它是 AI 搜索功能的入口；而第二行“Add tabs or files”（添加标签页或文件）就是 Dia 的多模态模型入口了，在这里用户可以让 AI 协助分析你已经打开的网页或者是上传的文档或图片。

为了测试多模态模型的极限，我们选择了一份 PDF 格式的书籍，这本书共有 270 页，Dia 可以正常分析并按照章节总结这本书的内容，用户还能根据需求追问更多、更详细的问题。

图源：前方智能

除了 PDF 这类文档，Dia 还能分析带有图表的截图，给出具体的数据分析，也可以分析图画、图像中的内容。

图源：前方智能

经过我们的测试，Dia 支持同时上传多个文件，单个文件大小不能超过 100MB，但总文件大小可以超过 100MB，没有文件数量限制。

图源：前方智能

AI Agent 已具雏形，打破网页壁垒，执行复杂指令

介绍完 “Add tabs or files”（添加标签页或文件）中的添加文件后，我们就要聊聊添加标签页的功能了，这是 Dia 最与众不同的功能，也是最贴近 AI Agent 的功能了。

这个功能可以跨网页整合信息，理解用户需要处理的任务并执行复杂指令，不好理解这句话就直接看我们的测试。

图源：前方智能

在 Dia 中我开启了 4 个网页（如上图所示），其中前 3 个网页都是有关 MCP 的资料，而第 4 个网页是我的个人在线文档页面，里面列举了一些有关 MCP 的疑问，是我想要深入了解的内容（如下图，部分问题的截图）。

图源：前方智能

按照过去传统的学习方法，我需要详细阅读前 3 个页面，然后自己划重点、归纳总结得出结论，最后再将结论写进文档中。

即便如今有了 AI 技术加持，我也需要打开 ChatGPT、Gemini 或者 DeepSeek，然后把前 3 个网页的内容复制粘贴进这些大模型，然后再把我的疑问也复制粘贴进去，让 AI 大模型结合网页信息回答我的问题。在这个例子中，我只选了 3 个网页研究，如果用户需要研究的网页多达 5 个、10 个，甚至更多，复制粘贴过程太繁琐不说，如果网页内容太长或者给出的回答太长，也容易触发这些 AI 大模型的上下文限制。

图源：前方智能

接下来就是重点了，Dia 给出了更加简洁的解决方案，直接@你想要研究的网页和需要回答的问题即可，例如上面的这个例子，通过@让 Dia 分析前 3 个网页，然后再通过@让 Dia 回答第 4 个网页，也就是在线文档中的问题。

图源：前方智能

注：如上图，当用户在输入框输入@这个符号后，Dia 会自动弹出一个下拉框，用户可以选择需要用到的网页或者是一次性选择全部网页。

接下来，Dia 就会分析用户选择的网页和下达的指令执行对应的操作，在这个例子中我是让 Dia 分析网页中的信息并回答我在文档中列出的每一个问题。就如前面的问题截图所示，我针对 MCP 列出了大大小小十几项不同问题，Dia 完完全全会遵循文档列出的问题，一一回答。

图源：前方智能

换句话说，这个功能已经属于自主网络操作的范畴，现阶段 Dia 能够独立执行一些复杂任务，一定程度上实现了部分 AI Agent 的功能了。

为了进一步探究 Dia 的功能，我还测试了一下预订酒店的任务。我让 Dia 帮我在 Booking 上预订酒店，由于我第一次提供的信息比较有限（只提供了入住时间和地理位置），Dia 会让我补充一些入住的信息。

图源：前方智能

当我后续补充完足够信息后，Dia 会结合所给出的所有条件帮我筛选酒店，并给出结果。略有遗憾的是，即便我已经登录了我的 Booking 账号，但 Dia 只会反馈给我筛选出的酒店链接，无法直接完成预订的所有环节，还是需要用户手动点击链接跳转预订。

图源：前方智能

转念一想，这或许也是为了保护用户资金安全，不至于随便一条指令就产生财产纠纷。

让 AI 帮忙总结视频内容也是很多用户的一个刚需，既然 Dia 能够完成前面那些更加复杂的任务，总结视频反而是十分轻松的一项工作。

使用方法跟前面一样，只要@你想要分析的视频，再加上提示词即可。

图源：前方智能

为了便于用户阅读和理解视频内容，Dia 会根据视频内容给出表格、时间线、emoji 来提升阅读体验。

图源：前方智能

不过需要注意的是，Dia 给出的视频总结是基于视频本身的字幕和简介，不能总结没有字幕和简介的视频，也就是在技术上还没能实现音频转文本再给出总结，暂时不知道 Dia 有没有后续加入这个功能的计划。

智能光标：触手可及的 AI 助手

如果你看了文章开头的 Dia 宣传视频，或许看到了这么一幕 —— 用户将鼠标停留在文本光标上，就能调用文本相关的 AI 功能，比如帮忙撰写一下段话、获取文本灵感、总结内容等。

图源：前方智能

当前版本的 Dia 已经具备了智能光标功能，但是实现方式跟动画有所区别，暂时也没有动画中这么丝滑流畅。

图源：前方智能

我随机打开了过去的一篇文档进行测试，当我将鼠标移动到文章的光标上后，此时光标会变成橙色，并弹出一个提示“Help me write”，点击之后浏览器会单独打开一个侧边面板，其中会列出 6 项用户可能会用到的快捷操作，包括总结文章、创建文章大纲、列出关键亮点等，用户根据需求点击对应的按钮，Dia 就会自动调用 AI 执行这项操作。

图源：前方智能

根据我们的测试，这 6 项快捷操作中，前三项，也就是“总结文章、创建文章大纲、列出关键亮点”是固定不变的，后三项会根据 Dia 对文章或段落的分析给出不同的快捷操作，例如动图中给出的是 “Al 策略分析、比较 AI 模型、技术创新趋势”，而在测试的另一篇文章中（上图），给出的则是“域名价值分析、AI 品牌趋势、市场影响研究”。

当然，如果给出的快捷操作都不符合你的需求，侧边面板的下方还留了一个文本输入框，用户可以在里面输入你的需求。比如我们使用中文要求 Dia 扩展原文中的一个段落，Dia 会先确认需要扩展的文章段落，然后执行扩展任务，从结果来看，执行得还算不错，并且还给出了“插入”和“复制”按钮，免去了手动框选和粘贴的麻烦。

图源：前方智能

很多用户在浏览器中使用在线文档、搜索引擎、邮件、社交媒体、论坛和博客时，或多或少都需要在输入文本时得到额外的信息补充和查询，Dia 的智能光标就是一个非常直观的 AI 功能入口，用户不用打开额外的 AI 网站或浏览器扩展，只需要点击一下光标就能方便调用 AI，这几乎没有学习成本。

智能光标会出现在任何需要输入文本的位置，就像是一个时刻跟随光标移动的 AI 助手，等待用户随时激活。

从前面的诸多例子也能看出，Dia 实际上能够完美支持中文内容的输入和输出，或许现在还是 Alpha 测试阶段，还没做好产品的本地化工作，随着 Dia 不断完善，相信很快就会解决这个问题。

我们前面曾提到 Dia 内置的 AI 功能主要依赖于 ChatGPT 和 Gemini，但在使用 Dia 时用户并不需要注册或登录这些账号，也不需要为 AI 功能付费，同时在使用上没有限制，我们唯一测试出来的限制就是上传的单个文件不能超过 100MB。反而用免费账号在官网使用 ChatGPT 和 Gemini 时，用户会经常遇到上下文限制或者对话次数限制的问题，Dia 比 ChatGPT 和 Gemini 本身都要良心。