
Grok-1说开源就是开源
在这个开放源码中,xAI发布了Grok-1的基本模型权重和网络架构。
具体来说,是2023年10月预训练阶段的原始基础模型,它没有针对任何特定应用(如对话)进行微调。
在结构上,Grok-1采用混合专家(MoE)架构,包括8位专家,总参数量为314B(3140亿)。处理Token时,将激活2位专家,激活参数体积为86B。
仅从激活参数的数量来看,它已经超过了致密模型羊驼2的70B。对于MoE体系结构,将如此多的参数称为巨兽并不夸张。
不过,在GitHub页面上,官方还提醒,由于模型规模较大(314B参数),需要一台具有足够GPU和内存的机器来运行Grok。
这里MoE层的实现效率不高。选择这种实现方法是为了避免在验证模型正确性时需要自定义内核。
模型的权重文件以磁铁链接的形式提供,文件大小接近300GB。
而且对这种“够用GPU”的要求一般都不高——YC上有网友猜测,如果是8位量化,可能需要8个h100。
除了前所未有的参数数量,Grok在工程架构方面也采取了不同的方法
我们没有使用常见的Python、PyTorch或Tensorflow,而是选择了Rust编程语言和新的深度学习框架JAX。
除了官方的公告,许多大公司已经通过代码挖掘和其他方法透露了Grok的更多技术细节。
例如,来自斯坦福大学的Andrew Kean Gao对Grok的技术细节进行了详细的解释。
首先,Grok采用旋转嵌入方法,而不是固定位置嵌入。旋转位置的嵌入大小为6144,与输入嵌入相同。
当然,还有更多的参数信息:
窗口长度为8192个令牌,精度为bf16
标记器词汇表大小为131072(2^17),接近GPT-4;
嵌入尺寸为6144 (48 × 128);
Transformer层数为64层,每层有一个解码器层,包括多头注意块和密集块;
键值大小为128;
在多头注意块中,查询用48头,KV用8头,KV大小为128;
密实块(密实前馈块)的膨胀系数为8,隐藏层尺寸为32768。
除了高外,NVIDIA AI科学家Ethan He指出,Grok在专家系统处理方面也不同于另一个知名的开源MoE模型Mixtral
Grok对所有8位专家应用softmax函数,然后选择前2位专家,而Mixtral先选择专家,然后应用softmax函数。
至于是否有更多的细节,这可能取决于官方是否会发布进一步的消息。
此外,值得一提的是,Grok-1使用Apache 2.0许可证,这意味着它在商业上是友好的。
公开对OpenAI的愤怒
大家都知道,马斯克已经向旧金山高等法院提起诉讼,正式起诉OpenAI,因为OpenAI没有开放。
然而,当时马斯克自己的Grok并不是开源的,只对付费用户开放。他不可避免地会受到双重标准的质疑。
可能是为了解决这个问题,马斯克上周宣布:
本周,xAI将开放Grok的源代码。
虽然时机似乎是马斯克一贯的迟到,但xAI的Open现在看来并没有什么大不了的,还是给网友们带来了一点冲击。
一位新入职的xAI员工感慨地说:
这将是激动人心的一年,所以请系好安全带。
有些人已经在期待Grok作为一个开源模型来进一步激起大模型的竞争。
然而,并不是每个人都相信马斯克的说法:
但毕竟,在多个领域工作的马斯克,最近不仅仅是开源Grok。
作为一家多公司、多业务的时间管理大师,马斯克旗下的特斯拉刚刚全面推出了端到端纯视觉自动驾驶系统FSD V12。所有北美车主和用户都有OTA更新升级,可以实现所有道路场景。任何点对点的人工智能驾驶。
SpaceX公司完成了第三次星际飞船发射。虽然最终失败了,但却迈出了前所未有的一步。
Twitter开放了其推荐算法,迎来了自然流量的新高峰。
另一些人则会说,“你可以吗?”“不可以吗?”马斯克不一样,“bb up”不会选择,他一边喊一边工作,而且他完成了任务。
参考链接:
[1] https://github.com/xai-org/grok-1
[2] https://x.ai/blog/grok-os




