在 AI 领域,开源模型与闭源模型的竞争一直是热门话题。近日,Allen Institute for AI (AI2) 发布的 Molmo 系列模型为开源这一方阵营又增添了一些砝码,让天平朝开源又倾斜了一些。
图源:X
可能很多人对 AI2 都不太了解,甚至在此之前都没听过,但 AI2 的来头实则不小,这里有必要提前介绍一下。AI2 是一家非营利性研究机构,由已故的微软联合创始人保罗·艾伦(Paul Allen)创立,目前 AI2 的首席执行官是 Ali Farhadi,他曾是苹果机器学习的负责人,他在 2023 年 7 月离开苹果后,加入了 AI2。
Ali Farhadi,图源:网络
AI2 此次开源的 Molmo 是一系列多模态 AI 模型,能够处理文本和图像输入,该系列包括四个主要模型:
-
Molmo-72B: 72B 参数的旗舰模型
-
Molmo-7B-D
-
Molmo-7B-O
-
MolmoE-1B: 基于混合专家模型的轻量级版本
通过官方的视频可以看到,Molmo 视觉能力十分出色,在识别画面中的人数、对图表内容进行格式转换、生成自行车介绍等多个方面都轻松应对。截至目前,视频展示的都是 Molmo 的指令跟随能力,但从视频 50 秒开始,AI2 还展示了 Molmo 可以基于图像内容与用户语音提供的额外信息进行综合回复。最后,AI2 则是展示了 Molmo 的网页读取能力,通过一个简单的智能体,就能实现点外卖全流程。
视频中有两个特别值得注意的地方,第一个就是大部分演示场景使用的设备都只是手机,这就要归功于 MolmoE-1B 模型,这是一个只有 10 亿参数的多模态模型,在移动端部署毫无压力,这个参数量甚至比很多「非多模态」模型都要小。
第二个就是在识别过程中,Molmo 会用发光的粉红色圆点对目标进行标注,这个功能使 Molmo 能够提供视觉解释并与物理环境更有效地交互,这是目前大多数其他多模态模型所缺乏的功能。
不过演示毕竟只是演示,要想更好地评价一个模型的实力,还是要看详细的基准测试对比。
图源:AI2
根据基准测试我们可以看到,Molmo 系列的四款模型在多个第三方基准测试中表现都非常出色。例如,具有 10 亿参数的轻量级版本 MolmoE-1B,其表现与法国 AI 初创公司Mistral AI此前发布的 120 亿参数模型 Pixtral 12B 相当,MolmoE-1B 还超过了 Claude 3 Opus 和 Claude 3 Haiku 这样的顶级闭源模型。
Molmo-7B-D 这个 70 亿参数的模型,其基准测试表现则是与 GPT-4o、Gemini 1.5 Pro、Claude 3.5 Sonnet 旗舰模型相当,并且在参数小了 10 倍的基础上,与 Qwen 72B、Intern 76B 这样的模型相当。
至于 Molmo 系列中最顶尖的 Molmo-72B,则是凭借 720 亿参数就在 11 项关键基准测试中获得了最高分,即便是在真人偏好评估方面也仅次于 GPT-4o,排名第二。
不限制商用,真开源
Molmo 完全免费且开源,模型权重和训练数据都对公众开放,而且体积小到可以在本地运行。无需 API、无需订阅、无需高性能 GPU 集群。Molmo 一系列模型均在宽松的 Apache 2.0 许可下可用,几乎可以用于任何类型的研究和商业用途。目前市面上的开源模型众多,以 Meta 的 Llama 模型系列为例,虽然 Llama 也是开源的,但是会限制用户的商业用途。
AI2 的高级研究总监 Ani Kembhavi 表示,其他大型多模态模型通常是在包含数十亿张从互联网上收集的图像和文本样本的庞大数据集上进行训练的,它们可能包含数万亿个参数。这个过程会给训练数据带来大量噪音,并产生幻觉。相比之下,AI2 的 Molmo 模型是在规模小得多且经过精心策划的数据集上进行训练的,该数据集仅包含 60 万张图像,这种对高质量数据而不是无差别抓取数据的关注,使得模型能够以更少的资源实现良好的性能。
随着 Molmo 发布,开发者们现在有了更多选择,也能以更低的成本创作出更多由 AI 驱动的应用程序、服务和体验,有理由期待 Molmo 可以为 AI 社区带来更多创新和突破。