分享好友 健康资讯首页 健康资讯分类 切换频道

马斯克开源Grok-1:3140亿参数迄今最大,权重架构全开放,磁力下载

2024-03-18 21:09510

开源社区有福了。

说到做到,马斯克承诺的开源版大模型 Grok 终于来了!

今天凌晨,马斯克旗下大模型公司 xAI 宣布正式开源3140亿参数的混合专家(MoE)模型「Grok-1」,以及该模型的权重和网络架构。

这也使得Grok-1成为当前参数量最大的开源大语言模型。

图片

封面图根据 Grok 提示使用 Midjourney 生成的:神经网络的3D 插图,具有透明节点和发光连接,以不同粗细和颜色的连接线展示不同的权重。

这个时候,马斯克当然不会忘了嘲讽 OpenAI 一番,「我们想了解更多 OpenAI 的开放部分」。

图片

回到模型本身,Grok-1从头开始训练,并且没有针对任何特定应用(如对话)进行微调。相对的,在 X(原 Twitter)上可用的 Grok 大模型是微调过的版本,其行为和原始权重版本并不相同。

Grok-1的模型细节包括如下:

xAI 遵守 Apache2.0许可证来开源 Grok-1的权重和架构。Apache2.0许可证允许用户自由地使用、修改和分发软件,无论是个人还是商业用途。项目发布短短四个小时,已经揽获3.4k 星标,热度还在持续增加。

图片

项目地址 https://github.com/xai-org/grok-1

该存储库包含用于加载和运行 Grok-1开放权重模型的 JAX 示例代码。使用之前,用户需要确保先下载checkpoint,并将 ckpt-0目录放置在 checkpoint 中, 然后,运行下面代码进行测试:

pipinstall-rrequirements.txtpythonrun.py

项目说明中明确强调,由于 Grok-1是一个规模较大(314B 参数)的模型,因此需要有足够 GPU 内存的机器才能使用示例代码测试模型。此外,该存储库中 MoE 层的实现效率并不高,之所以选择该实现是为了避免需要自定义内核来验证模型的正确性。

用户可以使用 Torrent 客户端和这个磁力链接来下载权重文件:

magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

看到这,有网友开始好奇314B 参数的 Grok-1到底需要怎样的配置才能运行。对此有人给出答案:可能需要一台拥有628GB GPU 内存的机器(每个参数2字节)。这么算下来,8xH100(每个80GB)就可以了。

图片

知名机器学习研究者、《Python 机器学习》畅销书作者 Sebastian Raschka 评价道:「Grok-1比其他通常带有使用限制的开放权重模型更加开源,但是它的开源程度不如 Pythia、Bloom 和 OLMo,后者附带训练代码和可复现的数据集。」

图片

DeepMind 研究工程师 Aleksa Gordié 则预测,Grok-1的能力应该比 LLaMA-2要强,但目前尚不清楚有多少数据受到了污染。另外,二者的参数量也不是一个量级。

图片

还有一位推特用户 @itsandrewgao 详细分析了 Grok-1的架构细节,并做出了一下几点总结。

图片

首先 Grok-1是8个专家的混合(2个活跃)、860亿激活参数(比Llama-270B还多),使用旋转嵌入而非固定位置嵌入。

图片

tokenizer 词汇大小为131,072(类似于 GPT-4)2^17,嵌入大小6,144(48*128),64个 transformer 层(sheesh), 每层都有一个解码器层:多头注意力块和密集块,键值大小128。

图片

多头注意力块:48个 head 用于查询,8个用于键 / 值(KV)。KV 大小为128。密集块(密集前馈块):加宽因子8,隐藏层大小32768。每个 token 从8个专家中选择2个。

图片

旋转位置嵌入大小为6144,与输入嵌入大小相同。上下文长度为8192tokens,精度为 bf16。

图片

此外还提供了一些权重的8bit 量化内容。

图片

当然,我们还是希望 xAI 官方能够尽快公布 Grok-1的更多模型细节。

Grok-1是个什么模型?能力如何?

Grok 是马斯克 xAI 团队去年11月推出的一款大型语言模型。在去年11月的官宣博客中(参见《马斯克 xAI 公布大模型详细进展,Grok 只训练了2个月》), xAI 写道:

Grok 是一款仿照《银河系漫游指南》设计的 AI,可以回答几乎任何问题,更难能可贵的是,它甚至可以建议你问什么问题!

Grok 在回答问题时略带诙谐和叛逆,因此如果你讨厌幽默,请不要使用它!

Grok 的一个独特而基本的优势是,它可以通过 X 平台实时了解世界。它还能回答被大多数其他 AI 系统拒绝的辛辣问题。

Grok 仍然是一个非常早期的测试版产品 —— 这是我们通过两个月的训练能够达到的最佳效果 —— 因此,希望在您的帮助下,它能在测试中迅速改进。

xAI 表示,Grok-1的研发经历了四个月。在此期间,Grok-1经历了多次迭代。

在公布了 xAI 创立的消息之后,他们训练了一个330亿参数的 LLM 原型 ——Grok-0。这个早期模型在标准 LM 测试基准上接近 LLaMA2(70B) 的能力,但只使用了一半的训练资源。之后,他们对模型的推理和编码能力进行了重大改进,最终开发出了 Grok-1,这是一款功能更为强大的 SOTA 语言模型,在 Humaneval 编码任务中达到了63.2% 的成绩,在 MMLU 中达到了73%。

xAI 使用了一些旨在衡量数学和推理能力的标准机器学习基准对 Grok-1进行了一系列评估:

图片

在这些基准测试中,Grok-1显示出了强劲的性能,超过了其计算类中的所有其他模型,包括 ChatGPT-3.5和 Inflection-1。只有像 GPT-4这样使用大量训练数据和计算资源训练的模型才能超越它。xAI 表示,这展示了他们在高效训练 LLM 方面取得的快速进展。

不过,xAI 也表示,由于这些基准可以在网上找到,他们不能排除模型无意中在这些数据上进行了训练。因此,他们在收集完数据集之后,根据去年5月底(数据截止日期之后)公布的2023年匈牙利全国高中数学期末考试题,对他们的模型(以及 Claude-2和 GPT-4模型)进行了人工评分。结果,Grok 以 C 级(59%)通过考试,Claude-2也取得了类似的成绩(55%),而 GPT-4则以68% 的成绩获得了 B 级。xAI 表示,他们没有为应对这个考试而特别准备或调整模型。

图片

下面这个表格展示了 Grok-1的更多信息(来自2023年11月的博客,部分信息可能存在更新):

图片

在博客中,xAI 还公布了 Grok 的构建工程工作和 xAI 大致的研究方向。其中,长上下文的理解与检索、多模态能力都是未来将会探索的方向之一。

xAI 表示,他们打造 Grok 的愿景是,希望创造一些 AI 工具,帮助人类寻求理解和知识。

具体来说,他们希望达到以下目标:

他们的最终目标是让他们的 AI 工具帮助人们寻求理解。

在 X 平台上,Grok-1的开源已经引发了不少讨论。值得注意的是,技术社区指出,该模型在前馈层中使用了 GeGLU,并采用了有趣的 sandwich norm 技术进行归一化。甚至 OpenAI 的员工也发帖表示对该模型很感兴趣。

图片

不过,开源版 Grok 目前还有些事情做不到,比如「通过 X 平台实时了解世界」,实现这一功能目前仍需要订阅部署在 X 平台上的付费版本。

鉴于马斯克对开源的积极态度,有些技术人员已经在期待后续版本的开源了。

图片

举报
收藏 0
打赏 0
评论 0
氪星晚报 |华为发布首款鸿蒙AI眼镜;天齐锂业:一季度净利润同比预增1530.31%—1818.01%
大公司:天齐锂业:一季度净利润同比预增1530.31%—1818.01%36氪获悉,天齐锂业披露业绩预告,预计2026年一季度归属于上市公司股东的净利润为17亿元—20亿元,同比增长1530.31%—1818.01%。盛屯矿业:一季度净利润10.2亿元,同比增长250.4%36氪获悉,盛屯矿业披露一季报,公司2026年一季度实现营业收入93.54亿元,同比增长65.08%;归属于上市公司股东的净利

0评论2026-04-204

美伊冲突、油价破百,你的奶茶也快涨价了?
“老板,塑料杯要涨价了。”近期,多家茶饮包材企业反馈,中东局势的升级已经影响到生产成本,行业已经进入新一轮成本承压周期。红餐供应链指南也注意到,霍尔木兹海峡关系到全球约五分之一的石油供应,从3月开始,随着海峡封锁状态持续,原油运输受阻,国际油价一路冲高,直至站稳100美元关口,创下近三年新高。化工产业链随之出现剧烈波动。原油作为工业血液,其价格波动会沿着产业链层层传递。石油炼化产出的石脑油,是生产

0评论2026-04-202