GitHub - harleyszhang/llm_note: LLM notes, including model inference, transformer model structure, and llm framework code analysis notes.

我的自制大模型推理框架课程介绍
一 transformer 模型
- 1.1 transformer 系列模型
- 1.2 LLM 性能分析
二大语言模型压缩
三大语言模型推理及部署（服务化）
四高性能计算
参考资料

LLM notes, including model inference, transformer model structure, and lightllm framework code analysis notes.

我的自制大模型推理框架课程介绍

框架亮点：基于 Triton + PyTorch 开发的轻量级、且简单易用的大模型推理框架，采用类 Pytorch 语法的 Triton 编写算子，绕开 Cuda 复杂语法实现 GPU 内核开发。
价格：499。非常实惠和便宜，课程、项目、面经、答疑质量绝对对得起这个价格。
课程优势：
- 手把手教你从 0 到 1 实现大模型推理框架。
- 项目导向 + 面试导向 + 分类总结的面试题。
- 2025 最新的高性能计算/推理框架岗位的大厂面试题汇总
项目优势：
- 架构清晰，代码简洁且注释详尽，覆盖大模型离线推理全流程。
- 运用 OpenAI Triton 编写高性能计算 Kernel，其中矩阵乘法内核效率堪比 cuBLAS。
- 基于 PyTorch 实现高效显存管理。
- 课程项目完美支持 FlashAttentionV1、V2、V3 与 GQA，以及 PageAttention 的具体实现。
- 使用 Triton 编写融合算子，如 KV 线性层融合等。
- 适配最新的 llama/qwen2.5/llava1.5 模型，相较 transformers 库，在 llama3 1B 和 3B 模型上，加速比最高可达 4 倍。
分类总结部分面试题：

项目运行效果:

llama3.2-1.5B-Instruct 模型流式输出结果测试：

Qwen2.5-3B 模型（社区版本）流式输出结果测试：

Llava1.5-7b-hf 模型流式输出结果测试:

感兴趣的同学可以扫码联系课程购买，这个课程是我和《自制深度学习推理框架》作者一起合力打造的，内容也会持续更新优化。

一 transformer 模型

1.1 transformer 系列模型

1.2 LLM 性能分析

二大语言模型压缩

三大语言模型推理及部署（服务化）

3.1 LLM 综合性能分析

3.2 LLM 推理优化-算法层面

3.3 LLM 推理服务框架解析

LLM 推理服务框架技术总结和源码解析：

DeepSpeed 框架学习笔记：

3.4 系统优化方法

图优化、算子融合、深度学习推理框架系统层面的优化。

3.5 LLM 可视化

http://llm-viz-cn.iiiai.com/llm

四高性能计算

4.1 triton 笔记

4.2 cuda 笔记

4.3 高性能编程学习资料推荐

1, 英伟达 gpu cuda 编程语法和特性学习资料推荐：

GPU Architecture and Programming: 了解 GPU 架构和 cuda 编程的入门文档资料，学完可以理解 gpu 架构的基本原理和理解 cuda 编程模型（cuda 并行计算的基本流程）。建议当作学习 cuda 高性能计算编程的第一篇文档（文章）。
CUDA Tutorial: CUDA 教程，分成四部分：CUDA 基础、GPU 硬件细节、最近的特性和趋势和基于任务的编程实例，提供了完整清晰的 PDF 文档和 cuda 代码实例。建议当作系统性学习 cuda 编程的教程。
learn-cuda: 完整的 cuda 学习教程，包含高级异步方法内容，特点是有性能实验的代码实例。建议当作学习 cuda 高级特性的教程。
CUDA C++ Programming Guide：内容很全，直接上手学习比较难，建议当作查缺补漏和验证细节的 cuda 百科全书，目前版本是 12.6。
《CUDA C 编程权威指南》：翻译的国外资料，说实话很多内容翻译的非常不行，我最开始跟着这个学习的，学了一周，只是了解了线程、内存概念和编程模型的概述，但是细节和系统性思维没学到，而且翻译的不行，内容也比较过时，完全不推荐，我已经替大家踩过坑了。
《CUDA 编程：基础与实践_樊哲勇》：国内自己写的教材，我查资料时候挑着看了一点，基本逻辑是通的，虽然很多原理、概念都讲的特别啰嗦，但实践需要的关键知识点都有讲到，想学中文教程的，可以当作当作了解一个方向的快速阅读资料。
CUDA-Kernels-Learn-Notes： CUDA 内核编程笔记及实战代码，有很强的实践性，后期可以重点学习，我也准备认真看下代码和文档。

2, cuda/triton 编写 kernel 笔记资料：

最基本的通用矩阵乘法（gemm）：https://zhuanlan.zhihu.com/p/657632577
kernl: 提供了一些 llm 的 triton 版 kernels
unsloth：专注于大型语言模型推理加速的微调训练方向。提供了开源版本，可以显著提高训练效率，减少内存使用，并且支持 NVIDIA、Intel 和 AMD 的 GPU。Unsloth 的主要特点包括使用 OpenAI 的 Triton 语言重写所有内核。Gemma LLMs 速度提高 2-5 倍，内存减少 80% 内核基于 triton 实现。
Liger-Kernel: 用于训练的高效 triton 内核实现。
Efficient-LLM-Inferencing-on-GPUs: README 图片不错，改天看看。

3, Star History Chart：

Name		Name	Last commit message	Last commit date
Latest commit History 294 Commits
.vscode		.vscode
1-transformer_model		1-transformer_model
2-llm_compression		2-llm_compression
3-llm_infer_deploy		3-llm_infer_deploy
4-hpc_basic		4-hpc_basic
5-framework_analysis		5-framework_analysis
images		images
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

我的自制大模型推理框架课程介绍

一 transformer 模型

1.1 transformer 系列模型

1.2 LLM 性能分析

二大语言模型压缩

三大语言模型推理及部署（服务化）

3.1 LLM 综合性能分析

3.2 LLM 推理优化-算法层面

3.3 LLM 推理服务框架解析

3.4 系统优化方法

3.5 LLM 可视化

四高性能计算

4.1 triton 笔记

4.2 cuda 笔记

4.3 高性能编程学习资料推荐

参考资料

About

Releases

Packages

Languages

harleyszhang/llm_note

Folders and files

Latest commit

History

Repository files navigation

我的自制大模型推理框架课程介绍

一 transformer 模型

1.1 transformer 系列模型

1.2 LLM 性能分析

二 大语言模型压缩

三 大语言模型推理及部署（服务化）

3.1 LLM 综合性能分析

3.2 LLM 推理优化-算法层面

3.3 LLM 推理服务框架解析

3.4 系统优化方法

3.5 LLM 可视化

四 高性能计算

4.1 triton 笔记

4.2 cuda 笔记

4.3 高性能编程学习资料推荐

参考资料

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

二大语言模型压缩

三大语言模型推理及部署（服务化）

四高性能计算

Packages