英伟达曾被认为是一家不喜欢开源、拒绝开源文化的公司,主要原因包括其长期以来对开源的保守态度和对专有技术的依赖。但近日,英伟达以一种十分低调的方式,在 Hugging Face 平台上开源了一个全新的大型语言模型 Llama-3.1-Nemotron-70B-Instruct,并在各项测试中交出了令人瞩目的成绩。
英伟达在过去很长一段时间里拒绝开源其 GPU 内核驱动,而且英伟达只为 Android 平台提供驱动,但对基于同样内核的 Linux 平台却不管不顾,这种只使用 Linux 赚钱却不为 Linux 用户提供支持的行为引发了开源社区和 Linux 开发者的广泛批评。
图源:网络
Linux 之父 Linus Torvalds 也曾公开批评过英伟达,并称英伟达是 “最糟糕的公司”,在一次公开演讲中 Linus 直接用粗口表达了对英伟达的不满 —— “NVIDIA,F**K YOU”,并对镜头竖起了中指,这一幕也被广大网友截图下来做成了表情包,这个表情包也经常在各种不满英伟达的帖子、评论中被引用,对这个公开演讲感兴趣的网友可以去考个古。
各种封闭的策略,以及对不同平台有差异的对待方式也就限制了开发者在使用英伟达硬件时的灵活性和可定制性,不过从今年开始,我们看到英伟达也有了一些逐步拥抱开源的行动。
图源:英伟达
比如在前两个月,英伟达就宣布将全面转向开源 GPU 内核模块。
图源:Hugging Face
两天前,英伟达更是以一种出人意料的低调方式,在 Hugging Face 平台上发布了一个全新的大语言模型 Llama-3.1-Nemotron-70B-Instruct,而且这个模型在多个基准测试中的表现都令人瞩目,不仅超越了 OpenAI 的 GPT-4o,还胜过了 Anthropic 的 Claude 3.5 Sonnet。
性能仅次于 o1 模型
根据英伟达发布的数据,Llama-3.1-Nemotron-70B-Instruct 在三个关键评估指标上都取得了领先成绩:
- Arena Hard:85.0(通过人类评判来对比不同 AI 模型回答质量)
- AlpacaEval 2 LC:57.6(对开放域对话能力的综合评测,包括响应的真实性、安全性、指令跟随能力)
- MT-Bench:8.98(测试模型的多轮对话能力,包括对话连贯性、上下文理解能力、回答一致性)
为了更直观地理解这些数据的含义,我们可以将其与其他主流模型进行对比:
图源:网络
可以看到,Llama-3.1-Nemotron-70B-Instruct 在这三项测试中的成绩都优于 Claude 3.5 Sonnet 和 GPT-4o。
图源:网络
目前性能比 Llama-3.1-Nemotron-70B-Instruct 优秀的模型也只有 OpenAI 最新 o1 大模型了。
在具体使用中,像是 Strawberry 这个单词有几个字母 R 这样的问题,已经无需任何专门提示就能正确回答出来。
图源:Hugging Face
Temperature 这个单词中,每个字母出现的频率也是轻松拿捏。
图源:Reddit
这个模型的成功背后融合了多项关键的技术创新。在基础模型选择方面,团队采用了 Meta 的 Llama-3.1-70B-Instruct 作为初始策略模型,并在这个开源基础上进行了深度优化和改进。
在训练方法上,模型采用了 RLHF(基于人类反馈的强化学习)技术,具体使用 REINFORCE 算法进行训练,同时结合了 Llama-3.1-Nemotron-70B-Reward 奖励模型,并使用 HelpSteer2-Preference prompts 进行指导。
在模型特性方面,它支持最大 128k tokens 的输入,输出限制为 4k tokens,平均响应长度达到 2199.8 字符。值得注意的是,该模型无需特殊提示或额外推理标记即可准确回答问题。
为了方便大家使用,英伟达还为这个模型提供了完整的部署方案。在硬件要求方面,需要至少 4 张 40GB 显存的 GPU 或 2 张 80GB 显存的 GPU,以及 150GB 以上的可用磁盘空间。
支持的硬件架构也十分广泛,包括英伟达 Ampere、Hopper 和 Turing。部署流程包括通过英伟达 NGC 获取访问权限,使用 Docker 容器进行部署,支持通过 Triton 进行推理服务,并提供 OpenAI 兼容的 API 接口。
不再只卖“铲子”
英伟达凭借其在图形处理器和专用 AI 芯片领域的技术优势,成功把握住了 AI 浪潮带来的巨大商机。英伟达的数据中心业务收入在近年来呈现爆发式增长,也主要得益于其 AI 芯片在大语言模型训练和推理方面的卓越性能。如今英伟达的 H100 等 AI 芯片已经成为了各大科技公司、云服务提供商和研究机构的标配。
图源:英伟达
开源 Llama-3.1-Nemotron-70B-Instruct 也展示出英伟达不光具备硬件的研发能力,同样也有 AI 大模型的开发能力。目前我们并不清楚英伟达开源 Llama-3.1-Nemotron-70B-Instruct 只是一次“玩票”性质的实验,还是公司 AI 战略上的一次转变。如果是后者的话,这有可能会改变 AI 行业的动态,毕竟自家就生产 AI 芯片,而且今年年底还会推出更强大 B200 芯片,自产自销,加上优先供货,英伟达足以挑战 OpenAI、Anthropic,甚至是 Google、微软这样的 AI 巨头,实现后来居上。
尽管模型表现优异,英伟达也明确指出了一些局限性。Llama-3.1-Nemotron-70B-Instruct 没有针对数学等特定领域进行优化,而且在某些专业领域可能需要额外的微调。
需要再次提醒的是,Llama-3.1-Nemotron-70B-Instruct 的硬件要求非常高,需要至少 4 张 40GB 显存的 GPU 或 2 张 80GB 显存的 GPU。