LLM notes, including model inference, transformer model structure, and lightllm framework code analysis notes.
- 框架亮点:基于
Triton + PyTorch
开发的轻量级、且简单易用的大模型推理框架,采用类Pytorch
语法的Triton
编写算子,绕开 Cuda 复杂语法实现 GPU 内核开发。 - 价格:499。非常实惠和便宜,课程、项目、面经、答疑质量绝对对得起这个价格。
- 课程优势:
- 手把手教你从 0 到 1 实现大模型推理框架。
- 项目导向 + 面试导向 + 分类总结的面试题。
- 2025 最新的高性能计算/推理框架岗位的大厂面试题汇总
- 项目优势:
- 架构清晰,代码简洁且注释详尽,覆盖大模型离线推理全流程。
- 运用 OpenAI
Triton
编写高性能计算Kernel
,其中矩阵乘法内核效率堪比cuBLAS
。 - 基于
PyTorch
实现高效显存管理。 - 课程项目完美支持
FlashAttentionV1、V2、V3
与GQA
,以及PageAttention
的具体实现。 - 使用
Triton
编写融合算子,如 KV 线性层融合等。 - 适配最新的
llama/qwen2.5/llava1.5
模型,相较 transformers 库,在 llama3 1B 和 3B 模型上,加速比最高可达4
倍。
- 分类总结部分面试题:
![]() |
![]() |
- 项目运行效果:
llama3.2-1.5B-Instruct
模型流式输出结果测试:
Qwen2.5-3B
模型(社区版本)流式输出结果测试:
Llava1.5-7b-hf
模型流式输出结果测试:
![]() |
![]() |
感兴趣的同学可以扫码联系课程购买,这个课程是我和《自制深度学习推理框架》作者一起合力打造的,内容也会持续更新优化。
- transformer 论文解读
- transformer 模型代码实现
- llama1-3 模型结构详解
- vit 论文速读
- gpt1-3 论文解读
- RoPE 位置编码算法详解
- Sinusoida 位置编码算法详解
- online-softmax 论文解读
- flashattention-1 论文解读
- flashattention-2 论文解读
- flashattention-3 论文解读
- flashattention1-2-3 系列总结
LLM
推理服务框架技术总结和源码解析:
DeepSpeed 框架学习笔记:
图优化、算子融合、深度学习推理框架系统层面的优化。
- 英伟达 GPU 架构总结
- 英伟达 GPU 通信理解
- 英伟达 GPU 性能分析指导
- 理解 Roofline 性能分析模型
- CUDA 背景知识
- CUDA 编程模型概述
- CUDA 编程模型进阶
- CUDA 内存组织
- CUDA 执行模型
- CUDA 内核执行配置及线程索引计算
- CUDA 内核优化策略
- CUDA 流介绍
1, 英伟达 gpu cuda 编程语法和特性学习资料推荐:
- GPU Architecture and Programming: 了解 GPU 架构和 cuda 编程的入门文档资料,学完可以理解 gpu 架构的基本原理和理解 cuda 编程模型(cuda 并行计算的基本流程)。建议当作学习 cuda 高性能计算编程的第一篇文档(文章)。
- CUDA Tutorial: CUDA 教程,分成四部分:CUDA 基础、GPU 硬件细节、最近的特性和趋势和基于任务的编程实例,提供了完整清晰的 PDF 文档和 cuda 代码实例。建议当作系统性学习 cuda 编程的教程。
- learn-cuda: 完整的 cuda 学习教程,包含高级异步方法内容,特点是有性能实验的代码实例。建议当作学习 cuda 高级特性的教程。
- CUDA C++ Programming Guide:内容很全,直接上手学习比较难,建议当作查缺补漏和验证细节的 cuda 百科全书,目前版本是 12.6。
- 《CUDA C 编程权威指南》:翻译的国外资料,说实话很多内容翻译的非常不行,我最开始跟着这个学习的,学了一周,只是了解了线程、内存概念和编程模型的概述,但是细节和系统性思维没学到,而且翻译的不行,内容也比较过时,完全不推荐,我已经替大家踩过坑了。
- 《CUDA 编程:基础与实践_樊哲勇》:国内自己写的教材,我查资料时候挑着看了一点,基本逻辑是通的,虽然很多原理、概念都讲的特别啰嗦,但实践需要的关键知识点都有讲到,想学中文教程的,可以当作当作了解一个方向的快速阅读资料。
- CUDA-Kernels-Learn-Notes: CUDA 内核编程笔记及实战代码,有很强的实践性,后期可以重点学习,我也准备认真看下代码和文档。
2, cuda/triton
编写 kernel
笔记资料:
- 最基本的通用矩阵乘法(gemm):https://zhuanlan.zhihu.com/p/657632577
- kernl: 提供了一些 llm 的 triton 版 kernels
- unsloth:专注于大型语言模型推理加速的微调训练方向。提供了开源版本,可以显著提高训练效率,减少内存使用,并且支持 NVIDIA、Intel 和 AMD 的 GPU。Unsloth 的主要特点包括使用 OpenAI 的 Triton 语言重写所有内核。Gemma LLMs 速度提高 2-5 倍,内存减少
80%
内核基于 triton 实现。 - Liger-Kernel: 用于训练的高效 triton 内核实现。
- Efficient-LLM-Inferencing-on-GPUs: README 图片不错,改天看看。
3, Star History Chart: