马斯克突然开源了Grok：一个拥有3140亿个参数的庞然大物，免费且商业化_IT科技_科技世界_爱云网

　　Grok-1说开源就是开源

　　在这个开放源码中，xAI发布了Grok-1的基本模型权重和网络架构。

　　具体来说，是2023年10月预训练阶段的原始基础模型，它没有针对任何特定应用(如对话)进行微调。

　　在结构上，Grok-1采用混合专家(MoE)架构，包括8位专家，总参数量为314B(3140亿)。处理Token时，将激活2位专家，激活参数体积为86B。

　　仅从激活参数的数量来看，它已经超过了致密模型羊驼2的70B。对于MoE体系结构，将如此多的参数称为巨兽并不夸张。

　　不过，在GitHub页面上，官方还提醒，由于模型规模较大(314B参数)，需要一台具有足够GPU和内存的机器来运行Grok。

　　这里MoE层的实现效率不高。选择这种实现方法是为了避免在验证模型正确性时需要自定义内核。

　　模型的权重文件以磁铁链接的形式提供，文件大小接近300GB。

　　而且对这种“够用GPU”的要求一般都不高——YC上有网友猜测，如果是8位量化，可能需要8个h100。

　　除了前所未有的参数数量，Grok在工程架构方面也采取了不同的方法

　　我们没有使用常见的Python、PyTorch或Tensorflow，而是选择了Rust编程语言和新的深度学习框架JAX。

　　除了官方的公告，许多大公司已经通过代码挖掘和其他方法透露了Grok的更多技术细节。

　　例如，来自斯坦福大学的Andrew Kean Gao对Grok的技术细节进行了详细的解释。

　　首先，Grok采用旋转嵌入方法，而不是固定位置嵌入。旋转位置的嵌入大小为6144，与输入嵌入相同。

　　当然，还有更多的参数信息:

　　窗口长度为8192个令牌，精度为bf16

　　标记器词汇表大小为131072(2^17)，接近GPT-4;

　　嵌入尺寸为6144 (48 × 128);

　　Transformer层数为64层，每层有一个解码器层，包括多头注意块和密集块;

　　键值大小为128;

　　在多头注意块中，查询用48头，KV用8头，KV大小为128;

　　密实块(密实前馈块)的膨胀系数为8，隐藏层尺寸为32768。

　　除了高外，NVIDIA AI科学家Ethan He指出，Grok在专家系统处理方面也不同于另一个知名的开源MoE模型Mixtral

　　Grok对所有8位专家应用softmax函数，然后选择前2位专家，而Mixtral先选择专家，然后应用softmax函数。

　　至于是否有更多的细节，这可能取决于官方是否会发布进一步的消息。

　　此外，值得一提的是，Grok-1使用Apache 2.0许可证，这意味着它在商业上是友好的。

　　公开对OpenAI的愤怒

　　大家都知道，马斯克已经向旧金山高等法院提起诉讼，正式起诉OpenAI，因为OpenAI没有开放。

　　然而，当时马斯克自己的Grok并不是开源的，只对付费用户开放。他不可避免地会受到双重标准的质疑。

　　可能是为了解决这个问题，马斯克上周宣布:

　　本周，xAI将开放Grok的源代码。

　　虽然时机似乎是马斯克一贯的迟到，但xAI的Open现在看来并没有什么大不了的，还是给网友们带来了一点冲击。

　　一位新入职的xAI员工感慨地说:

　　这将是激动人心的一年，所以请系好安全带。

　　有些人已经在期待Grok作为一个开源模型来进一步激起大模型的竞争。

　　然而，并不是每个人都相信马斯克的说法:

　　但毕竟，在多个领域工作的马斯克，最近不仅仅是开源Grok。

　　作为一家多公司、多业务的时间管理大师，马斯克旗下的特斯拉刚刚全面推出了端到端纯视觉自动驾驶系统FSD V12。所有北美车主和用户都有OTA更新升级，可以实现所有道路场景。任何点对点的人工智能驾驶。

　　SpaceX公司完成了第三次星际飞船发射。虽然最终失败了，但却迈出了前所未有的一步。

　　Twitter开放了其推荐算法，迎来了自然流量的新高峰。

　　另一些人则会说，“你可以吗?”“不可以吗?”马斯克不一样，“bb up”不会选择，他一边喊一边工作，而且他完成了任务。

　　参考链接:

　　[1] https://github.com/xai-org/grok-1

　　[2] https://x.ai/blog/grok-os

马斯克突然开源了Grok：一个拥有3140亿个参数的庞然大物，免费且商业化