llm-action/blog/TODO.md at main · martinal-lee/llm-action · GitHub

llm推理优化技术：

https://github.com/liguodongiot/llm-action/blob/main/docs/llm-inference/llm%E6%8E%A8%E7%90%86%E4%BC%98%E5%8C%96%E6%8A%80%E6%9C%AF.md?plain=1

分布式训练加速技术：

https://github.com/liguodongiot/llm-action/blob/main/docs/llm-base/distribution-training/%E5%88%86%E5%B8%83%E5%BC%8F%E8%AE%AD%E7%BB%83%E5%8A%A0%E9%80%9F%E6%8A%80%E6%9C%AF.md?plain=1

大模型优化技术

大模型显存优化技术-KV Cache
大模型推理优化技术-Flash-Decoding
大模型显存优化技术-PagedAttention
大模型显存I/O优化技术-FlashAttention V1
大模型显存优化技术-ZeRO系列
大模型解码优化-Speculative Decoding及其变体
大模型推理服务化调度优化技术-Dynamic batching/Continuous batching
大模型显存优化技术-混合精度训练
大模型显存I/O优化技术-FlashAttention V2