作者|西梅汁
编辑|星奈
媒体|AI大模型工场
18日中午,马斯克掏出号称“地表最强”大模型Grok3。
官方宣称,Grok 3和Grok 3 mini在数学、科学和编程基准测试上超越了所有主流模型,包括GPT-4o、Claude 3.5 Sonnet、DeepSeek-V3和Gemini-2 Pro等。
同时,具备推理能力的Grok-3 Reasoning Beta和Grok-3 mini Reasoning则是超越了包括DeepSeek-R1和OpenAI的o3 mini在内的推理模型。
不过,这次Grok 3并不免费,DeepSeek并没有卷到XAI:X Premium+ 订阅用户将首先获得 Grok 3,其他功能需要订阅 xAI 称之为 SuperGrok 的版本。独立APP上,则需要订阅SuperGrok——30美元/月或300美元/年。而且在国内,因为一些众所周知的原因,尽管付费购买也无法使用。
DeepSeek的爆火,让推理模型成为全球关注的焦点,除了此次刚刚发布的Grok 3和DeepSeek-R1外,OpenAI的o3 mini和阿里的Qwen2.5-Max也是市面上推理模型的“王牌选手”。
为此,AI大模型工场决定拉上三位强劲对手来一场“神仙打架”,这三位选手风格迥异,各有绝活,谁能在这场测评中拔得头筹?接下来,我们就从性能、应用场景以及用户体验,全方位扒一扒它们的实力!
一、谁更懂弯弯绕绕?
先来小试牛刀一下,猜谜语虽然很简单,但其实考验的时AI大模型对语言的理解和逻辑推理能力。
1、通义Qwen 2.5 Max
”豆子捅了包子一刀 打一食物“这个谜语,通义Qwen 2.5 Max首先给出答案”豆沙包“,解析过程简单明了,不愧是咱们的国产大模型,推理能力相当在线。
2、O3-mini
之前就听说O3-mini开始用中文进行思考,但这次回答“包子”倒是让人有点苦笑不得了,虽然逻辑上没什么毛病,但是不得不说有点太直线思维了,缺乏推理能力。
也不知道是不是混合的语言模式太多了,学杂了呢?
3、DeepSeek
DeepSeek同样回答正确,还详细拆解”豆→沙→包“的递进关系,也印证其多步推理能力。
稳稳的让人很安心~
二、贪吃蛇游戏大考验,谁才是代码大神?
编程能力是大模型的“硬核实力”之一。我们这里用经典的贪吃蛇游戏来测试它们,看看谁能够写出可以运行的代码,让编程小白也可以体验到自主开发一款小游戏的快乐~
1、通义Qwen 2.5 Max
一站式生成代码,果然是“编程大神”,不仅让游戏顺利运行,还实现了网页端操作。这就好比它不仅会做菜,还能把菜送到你面前,让你吃得方便又开心。
2、O3-mini
虽然游戏可以运行,但是不能在网页端实现一键操作,需要将代码保存为一个 .html 文件,再使用浏览器打开该 HTML 文件。
在根据O3-mini提示方法,AI大模型工场试着用浏览器调用了该代码看看是否可以运行。
代码逻辑没问题,但缺少了一些便捷性,显得有点“冷冰冰”了。
3、DeepSeek
代码同样可以跑通,且支持生成代码+一键运行。
但是它到现在为止还是经常处于繁忙阶段,需要“钻空子”去进行提问,在一定程度还是比较影响用户体验的。
三、考研问题来啦,哪位“学霸”最终上岸?
再试着用考研题目来检验一下它们对专业知识的掌握程度和逻辑推理能力。
1、通义Qwen 2.5 Max
这位“学霸”再次展现出了强大的实力,轻松地就答对了题目。看来它对专业知识的掌握非常扎实,逻辑推理能力也是一流的,这就好比一个学霸在考试中轻松拿到高分。
2、O3-mini
o3这道题有点“翻车”,答错了题目。这个可能是它对某些知识点的理解还不够深入,在逻辑推理上同样存在失误,给出的两个选项都完美避开正确答案。
3、DeepSeek
DeepSeek表现稳健,同样答对了题目。
但思考时间相对没有通义Qwen 2.5 Max给出的速度快。
四、艺术细胞大比拼,谁的脑洞最大?
同样,文本创作能力是大模型的“艺术细胞”所在。我们让三位选手写一篇科幻小说,看看大家深度如何。
1、通义Qwen 2.5 Max
开头就是引入“人工智能、基因编辑和量子计算"作为未来社会结构,妥妥的理科脑袋!
2、o3-mini
o3-mini则是以未来地球资源枯竭,人类需要寻找新家园为主题。
嗯?剧情有一种莫名的熟悉感,流浪地球既视感哈哈哈。
3、DeepSeek
DeepSeek的文本创作能力向来不是说着玩的,当你在给出任务1时,它可以自动脑补出任务2、3。
它不仅给出了世界观设定、故事梗概,甚至还贴心的整理出故事背后的逻辑以及隐喻。
五、PK榜单
从评分结果来看,通义 Qwen 2.5 Max 以总分 36 分的优异成绩拔得头筹,其在理科问题和编程问题上的表现尤为出色,展现出强大的综合实力。DeepSeek R1 以总分 32 分紧随其后,在文本创作、猜谜语、理科问题以及编程问题上同样发挥稳定,基本扣分项都是在用户体验上。O3-mini 则以总分 25 分位列第三,整体表现相对较为平庸,需要在专业知识、逻辑推理和编程能力等方面进一步提升。
这场测评不仅让我们看到了国产大模型的弯道超车,更是让人对未来AI大模型的发展充满了期待!