苹果发布 OpenELM，基于开源训练和推理框架的高效语言模型

2024-04-25 10:50:03 分享

4 月 24 日消息，在 WWDC24 之前，苹果在 Hugging Face 平台上发布了一个「具有开源训练和推理框架的高效语言模型」，名为 OpenELM，其源码及预训练的模型权重和训练配方可在苹果 Github 库中获取。官方简介如下：大型语言模型的可重复性和透明性对于推进开放研究、确保结果的可信度以及调查数据和模型偏差以及潜在风险至关重要。为此，我们发布了 OpenELM，一个最先进的开源语言模型。 OpenELM 使用分层缩放策略，可以有效地分配 Transformer 模型每一层的参数，从而提高准确率。例如，在参数量约为 10 亿的情况下，OpenELM 与 OLMo 相比准确率提升了 2.36%，同时所需的预训练 tokens 数量仅有原来的 50%。（IT之家）