啊!从"馕言"到扫雷,Grok3竟靠邓丽君歌词逆袭?

IP归属:北京

作者|西梅汁

编辑|星奈

媒体|AI大模型工场

才测完阿里的Qwen2.5-Max的新模型没多久,这不,最近阿里又推出了第一款推理模型QwQ-Max的预览版。

据了解,QwQ是在QWQ-MAX-PREVIEW支持下,一个基于Qwen2.5-Max的推理模型,可同时支持深度思考和联网搜索,并会展示完整的思维链。

官方表示,在不久的未来将开源QwQ—Max,当天晚上,阿里又同步开源视频模型万相2.1,截至目前,该模型已经登顶全球开源榜首!阿里这波"源神"操作,属实把开源精神玩明白了。

话都说到这了,那AI大模型工场再把最近马斯克号称「地表最强」的 Grok3以及我们的国产黑马DeepSeek拉出来跑跑~

一、挑战”馕言馕语“

最近新疆人的说话语序可被大家玩坏了,看到好多新疆“馕言文”真的太有意思了,有一种看得懂,但是一辈子都说不出来的比喻,那我们试试问问AI是否可以翻译出来呢!

1、QWQ-MAX

2、Grok3

3、DeepSeek

你别说,你还真别说!推理模式下,QWQ、Grok3、DeepSeek这三个AI对新疆“馕言”的独特句式都分析的头头是道,并且也都翻译出了“喝酒不开车,开车不喝酒”的意思。

根据显示可以看到Grok3的资料库还挺丰富,引用的资料中居然还包含了邓丽君的歌词!

二、跑跑数学竞赛

在翻译完句子后,再用一道数学竞赛题,测测看几个模型的表现

1、QWQ-MAX

2、Grok3

3、DeepSeek

三款模型给出的答案都是正确的,但解题思路差异明显,QWQ解题过程相对比较简洁,过程中还有一些看不懂的字母;Grok3题目解析思路很清晰,步骤详尽且符合教育场景需求,更加适合辅助学习;DeepSeek思路也同样清晰,目前测下来,系统繁忙的次数也减少很多。

三、扫雷游戏的开发竞技

最后,咱们再通过生成扫雷游戏代码验证开发能力,三者均支持网页端一键运行,对编程“小白”友好,但细节处理存在差异。

1、QWQ-MAX

2、Grok3

3、DeepSeek

精细度把握上,可以看到QwQ-Max与Grok3更加注重代码交互细节,在扫雷游戏中嵌入了“雷”的视觉图标,提升用户界面(UI)的直观性;DeepSeek代码逻辑简洁高效,但界面设计较为基础,更适合对界面要求低但重视代码健壮性的场景。

整体来看,QwQ-Max依托超大规模MoE架构,在开源与综合性能上具备潜力;Grok3细节处理与资料整合能力突出;DeepSeek则保持稳定高效的国产黑马姿态。三款模型各有所长,展现了AI推理领域多样化的技术路径与竞争格局!

陀螺科技现已开放专栏入驻,详情请见入驻指南: https://www.tuoluo.cn/article/detail-27547.html

AI大模型工场专栏: https://www.tuoluo.cn/columns/author1911862/

本文网址: https://www.tuoluo.cn/article/detail-10120298.html

免责声明:
1、本文版权归原作者所有,仅代表作者本人观点,不代表陀螺科技观点或立场。
2、如发现文章、图片等侵权行为,侵权责任将由作者本人承担。

相关文章