马斯克突然开源了Grok:一个拥有3140亿个参数的庞然大物,免费且商业化
2025-07-11 05:40

马斯克突然开源了Grok:一个拥有3140亿个参数的庞然大物,免费且商业化

  

  

  Grok-1说开源就是开源

  在这个开放源码中,xAI发布了Grok-1的基本模型权重和网络架构。

  具体来说,是2023年10月预训练阶段的原始基础模型,它没有针对任何特定应用(如对话)进行微调。

  在结构上,Grok-1采用混合专家(MoE)架构,包括8位专家,总参数量为314B(3140亿)。处理Token时,将激活2位专家,激活参数体积为86B。

  仅从激活参数的数量来看,它已经超过了致密模型羊驼2的70B。对于MoE体系结构,将如此多的参数称为巨兽并不夸张。

  不过,在GitHub页面上,官方还提醒,由于模型规模较大(314B参数),需要一台具有足够GPU和内存的机器来运行Grok。

  这里MoE层的实现效率不高。选择这种实现方法是为了避免在验证模型正确性时需要自定义内核。

  模型的权重文件以磁铁链接的形式提供,文件大小接近300GB。

  而且对这种“够用GPU”的要求一般都不高——YC上有网友猜测,如果是8位量化,可能需要8个h100。

  除了前所未有的参数数量,Grok在工程架构方面也采取了不同的方法

  我们没有使用常见的Python、PyTorch或Tensorflow,而是选择了Rust编程语言和新的深度学习框架JAX。

  除了官方的公告,许多大公司已经通过代码挖掘和其他方法透露了Grok的更多技术细节。

  例如,来自斯坦福大学的Andrew Kean Gao对Grok的技术细节进行了详细的解释。

  首先,Grok采用旋转嵌入方法,而不是固定位置嵌入。旋转位置的嵌入大小为6144,与输入嵌入相同。

  当然,还有更多的参数信息:

  窗口长度为8192个令牌,精度为bf16

  标记器词汇表大小为131072(2^17),接近GPT-4;

  嵌入尺寸为6144 (48 × 128);

  Transformer层数为64层,每层有一个解码器层,包括多头注意块和密集块;

  键值大小为128;

  在多头注意块中,查询用48头,KV用8头,KV大小为128;

  密实块(密实前馈块)的膨胀系数为8,隐藏层尺寸为32768。

  除了高外,NVIDIA AI科学家Ethan He指出,Grok在专家系统处理方面也不同于另一个知名的开源MoE模型Mixtral

  Grok对所有8位专家应用softmax函数,然后选择前2位专家,而Mixtral先选择专家,然后应用softmax函数。

  至于是否有更多的细节,这可能取决于官方是否会发布进一步的消息。

  此外,值得一提的是,Grok-1使用Apache 2.0许可证,这意味着它在商业上是友好的。

  公开对OpenAI的愤怒

  大家都知道,马斯克已经向旧金山高等法院提起诉讼,正式起诉OpenAI,因为OpenAI没有开放。

  然而,当时马斯克自己的Grok并不是开源的,只对付费用户开放。他不可避免地会受到双重标准的质疑。

  可能是为了解决这个问题,马斯克上周宣布:

  本周,xAI将开放Grok的源代码。

  虽然时机似乎是马斯克一贯的迟到,但xAI的Open现在看来并没有什么大不了的,还是给网友们带来了一点冲击。

  一位新入职的xAI员工感慨地说:

  这将是激动人心的一年,所以请系好安全带。

  有些人已经在期待Grok作为一个开源模型来进一步激起大模型的竞争。

  然而,并不是每个人都相信马斯克的说法:

  但毕竟,在多个领域工作的马斯克,最近不仅仅是开源Grok。

  作为一家多公司、多业务的时间管理大师,马斯克旗下的特斯拉刚刚全面推出了端到端纯视觉自动驾驶系统FSD V12。所有北美车主和用户都有OTA更新升级,可以实现所有道路场景。任何点对点的人工智能驾驶。

  SpaceX公司完成了第三次星际飞船发射。虽然最终失败了,但却迈出了前所未有的一步。

  Twitter开放了其推荐算法,迎来了自然流量的新高峰。

  另一些人则会说,“你可以吗?”“不可以吗?”马斯克不一样,“bb up”不会选择,他一边喊一边工作,而且他完成了任务。

  参考链接:

  [1] https://github.com/xai-org/grok-1

  [2] https://x.ai/blog/grok-os

本内容为作者翻译自英文材料或转自网络,不代表本站立场,未经允许不得转载
如对本稿件有异议或投诉,请联系本站
想要了解世界的人,都在 爱云网

相关推荐