伴随着 AI 技术进步,各种各样的 AI 模型在近两年是层出不穷,在这些模型中有既有 ChatGPT、Claude、Gemini 这样的闭源模型,也有 Llama、Stable Diffusion、Mistral 这样的开源模型。
AI 模型是近两年才进入大众视野的新鲜玩意,国际上一直没有一个对开源 AI 模型的准确定义,模型是否属于开源范畴,此前全凭各个厂商自己来定标准,而在实际这些所谓的开源模型时,又往往带有诸多使用限制,与开源精神背道而驰。在 AI 技术日新月异的今天,明确的标准和定义显得尤为重要。它们不仅关系到技术发展的方向,更关系到整个行业的生态健康。
图源:OSI
如今,在经过近两年的深入讨论和全球协作后,开放源代码促进会(Open Source Initiative,简称 OSI)于近日正式发布了开源 AI 定义(Open Source AI Definition,简称 OSAID)1.0 版本,为判定一个 AI 模型是否真正开源提供了明确标准。
OSI 是什么?
在介绍开源 AI 定义的明确标准之前,我们还是得先来说说开放源代码促进会(OSI),这是个怎样的组织,为什么开源 AI 可以由他们来定义。
图源:网络
OSI 成立于 1998 年,由 Bruce Perens 和 Eric Raymond 等开源运动先驱创立,是一个久负盛名的国际性非营利组织,其最重要的贡献是制定并维护开源软件定义(Open Source Definition,OSD)。在过去的 25 年里,OSI 的开源定义在全球软件开发领域得到广泛认可和采用,已经成为判定一个软件是否为开源软件的权威标准。
OSI 在开源许可证认证方面也具有绝对权威,当一个组织想要发布新的开源许可证时,通常会寻求 OSI 的认可。只有通过 OSI 审核的许可证才被视为符合开源标准的许可证。这种认证机制在全球范围内得到了开发者社区的普遍认可。
OSI 还获得了包括微软、谷歌、亚马逊、英特尔、IBM、Meta,以及 Mozilla 基金会、Linux 基金会、Apache 软件基金会等全球知名科技巨头的支持,这也进一步强化了 OSI 的公信力。
OSI 背后有众多科技巨头支持,这些巨头也互相形成了牵制,使得 OSI 仍然可以保持独立性和非营利性,维持中立的立场,决策过程公开透明,不受单一商业实体影响。
开源 AI 定义的核心内容
OSI 采用了经济合作与发展组织(OECD)对 AI 模型的基本定义作为起点:一个基于机器的系统,能够根据接收到的输入,为明确或隐含的目标推断如何生成输出,如预测、内容、建议或决策,这些输出可能影响物理或虚拟环境。
图源:OSI
基于此,一个真正的开源 AI 模型必须提供以下三个关键组成部分:
-
完整的源代码:必须提供用于训练和运行 AI 系统的完整源代码。这包括了训练过程中使用的所有程序代码,以及系统实际运行时需要的代码。这些代码必须采用 OSI 认可的开源许可证。
-
模型参数信息:需要提供模型的参数设置,包括权重和其他配置设置。这些技术细节对于理解和复现模型的行为至关重要。这些参数同样需要在 OSI 认可的条款下提供。
-
训练数据信息:这是最具争议性的部分,虽然不要求直接提供训练数据集本身,但必须提供"足够详细的数据信息",包括:
-
数据的来源和出处
-
数据的处理方法
-
如何获取或许可这些数据
-
确保具备相关技能的人能够使用相同或类似的数据重建出实质等效的系统
-
图源:OSI
除了定义开源 AI 模型本身需要具备的条件,根据 OSAID,开源 AI 模型还必须保证用户具有以下权利:
-
可以出于任何目的使用该 AI 模型
-
无需征得许可即可修改模型
-
可以自由地研究系统的工作原理
-
可以自由分享和传播
OSI 的执行董事 Stefano Maffulli 表示,这个新的定义是他们与超过 35 个国家的各领域专家讨论后的结果,其中包括了机器学习和自然语言处理专家、哲学家,以及音乐、美术等创意领域的内容创作者。这为行业提供了一个标准,来验证一个 AI 模型是否可以被视为开源。
Llama、Stable Diffusion
都被踢出开源之列
图源:网络
OSAID 标准一出,一直宣称 Llama 为开源模型的 Meta 第一个跳出来表示不同意 OSI 的定义,Meta 发言人 Faith Eischen 表示:
尽管我们在许多方面与我们的合作伙伴 OSI 达成一致,但 Meta 不同意这个定义。没有单一的开源 AI 定义,定义它是一项挑战,以前的开源定义难以涵盖当今快速发展的 AI 模型的复杂性。
那我们就结合上面的标准,并以 Meta 的 Llama 模型为例,看看 Llama 到底有哪些地方不符合 OSAID 的要求:
-
Llama 对超过 7 亿月活用户的平台使用设置了商业限制
-
Llama 未完全公开训练数据信息
-
Llama 对某些商业用途(如改进其他大语言模型)设置了限制
-
OSAID 允许用户出于任何目的使用 AI 模型,而 Llama 则是禁止可能违法或造成伤害的使用
不光是 Meta 的 Llama 模型,StabilityAI 推出的 Stable Diffusion 过去也是一直以开源模型来宣传自己,但该系列模型采用的是 StabilityAI 自己的许可证发布,而且企业的年收入超过 100 万美元就需要申请企业版许可。由于禁止商业用途,法国 AI 初创公司 Mistral 推出的同名 AI 模型同样也不符合开源标准。
OSI 的执行董事 Stefano Maffulli 还公开批评了 Meta 将其 Llama 模型称为“开源”的决定,因为在经过讨论后,谷歌和微软都同意放弃对不符合 OSAID 定义的模型使用“开源”这个术语,而 Meta 拒绝了这个要求。
值得一提的是,Meta 跟众多科技巨头一样,原本就是 OSI 的支持者,也是 OSI 的资金资助方,此次 Meta 的 Llama 模型被踢出开源之列,也从侧面印证了 OSI 确实不受这些科技公司影响,保持独立性,但这可能也会影响双方后续的关系。
争议点
在开源 AI 定义中,争议最大的一点是训练数据的开放程度。有观点认为,如果不完全公开训练数据,就无法真正复制和研究 AI 系统,因此不能称其为开源。但另一派则认为,数据受不同国家的法律管辖,各国的版权法不同,数据的许可也并不总是非常清晰和容易找到,如果你无意中或错误地分发了你没有权利的数据集,你将承担法律责任。
而且 AI 公司从社交媒体和网站上抓取大量的图像、音频、视频等,并在这些通常被称为“公开可用数据”的数据上训练他们的模型。在当今竞争激烈的市场中,公司的数据集组装和精炼方法也被视为竞争优势,这也是很多公司不愿披露的主要原因之一。
最终,OSI 采取了一个折中方案:要求提供"足够详细的数据信息",使得专业人士能够使用相同或类似的数据重建出实质等效的系统。
还会逐步改进标准
OSI 目前已经成立了一个专门的委员会来监督 OSAID 的实施情况,并将根据实践经验和技术发展对定义进行更新。毕竟这只是 OSAID 1.0 版本,随着 AI 技术的发展,定义也将不断完善。
OSI 的执行董事 Stefano Maffulli 在一份声明中表示:
尽管这个过程复杂,充满了不同的意见和未知的前沿技术,偶尔也会有激烈的交流,但结果与两年前开始时设定的期望是一致的。这是一个起点,旨在继续与社区互动,以便随着我们与更广泛的开源社区共同发展,逐步改进定义。