LLaMafia 是一个中文前沿 AI / LLM 开源讨论空间。LLaMa 指 LLaMA 模型, Mafia 指极客群体,合起来叫 LLaMafia
LLaMafia 关注最扎实的工程和最前沿的科学,所有讨论基于第一性原理和第一手经验,鼓励 critical thinking, promote insightful work
- Learning Rate 和 Batch Size 的关系
- 多机多卡并行方案
- Grok-1 中匈牙利考试数据集
- 推荐论文的 Agent
- RNN 类模型
- 涌现能力的原理,小模型可以吗?