Skip to content

LLM notes, including model inference, transformer model structure, and llm framework code analysis notes.

Notifications You must be signed in to change notification settings

harleyszhang/llm_note

Repository files navigation

LLM notes, including model inference, transformer model structure, and lightllm framework code analysis notes.

我的自制大模型推理框架课程介绍

  1. 框架亮点:基于 Triton + PyTorch 开发的轻量级、且简单易用的大模型推理框架,采用类 Pytorch 语法的 Triton 编写算子,绕开 Cuda 复杂语法实现 GPU 内核开发。
  2. 价格:499。非常实惠和便宜,课程、项目、面经、答疑质量绝对对得起这个价格。
  3. 课程优势​
    • 手把手教你从 0 到 1 实现大模型推理框架
    • 项目导向 + 面试导向 + 分类总结的面试题
    • 2025 最新的高性能计算/推理框架岗位的大厂面试题汇总
  4. 项目优势​
    • 架构清晰,代码简洁且注释详尽,覆盖大模型离线推理全流程。​
    • 运用 OpenAI Triton 编写高性能计算 Kernel,其中矩阵乘法内核效率堪比 cuBLAS。​
    • 基于 PyTorch 实现高效显存管理。​
    • 课程项目完美支持 FlashAttentionV1、V2、V3GQA,以及 PageAttention 的具体实现。​
    • 使用 Triton 编写融合算子,如 KV 线性层融合等。​
    • 适配最新的 llama/qwen2.5/llava1.5 模型,相较 transformers 库,在 llama3 1B 和 3B 模型上,加速比最高可达 4 倍。
  5. 分类总结部分面试题
llava_output2 llava_output
  1. 项目运行效果:

llama3.2-1.5B-Instruct 模型流式输出结果测试:

流式输出

Qwen2.5-3B 模型(社区版本)流式输出结果测试:

流式输出

Llava1.5-7b-hf 模型流式输出结果测试:

llava_output2 llava_output

感兴趣的同学可以扫码联系课程购买,这个课程是我和《自制深度学习推理框架》作者一起合力打造的,内容也会持续更新优化。

transformer_block_mp

一 transformer 模型

1.1 transformer 系列模型

1.2 LLM 性能分析

二 大语言模型压缩

三 大语言模型推理及部署(服务化)

3.1 LLM 综合性能分析

3.2 LLM 推理优化-算法层面

3.3 LLM 推理服务框架解析

LLM 推理服务框架技术总结和源码解析:

DeepSpeed 框架学习笔记

3.4 系统优化方法

图优化、算子融合、深度学习推理框架系统层面的优化。

3.5 LLM 可视化

四 高性能计算

4.1 triton 笔记

4.2 cuda 笔记

4.3 高性能编程学习资料推荐

1, 英伟达 gpu cuda 编程语法和特性学习资料推荐:

  • GPU Architecture and Programming: 了解 GPU 架构和 cuda 编程的入门文档资料,学完可以理解 gpu 架构的基本原理和理解 cuda 编程模型(cuda 并行计算的基本流程)。建议当作学习 cuda 高性能计算编程的第一篇文档(文章)。
  • CUDA Tutorial: CUDA 教程,分成四部分:CUDA 基础、GPU 硬件细节、最近的特性和趋势和基于任务的编程实例,提供了完整清晰的 PDF 文档和 cuda 代码实例。建议当作系统性学习 cuda 编程的教程
  • learn-cuda: 完整的 cuda 学习教程,包含高级异步方法内容,特点是有性能实验的代码实例。建议当作学习 cuda 高级特性的教程。
  • CUDA C++ Programming Guide:内容很全,直接上手学习比较难,建议当作查缺补漏和验证细节的 cuda 百科全书,目前版本是 12.6。
  • 《CUDA C 编程权威指南》:翻译的国外资料,说实话很多内容翻译的非常不行,我最开始跟着这个学习的,学了一周,只是了解了线程、内存概念和编程模型的概述,但是细节和系统性思维没学到,而且翻译的不行,内容也比较过时,完全不推荐,我已经替大家踩过坑了。
  • 《CUDA 编程:基础与实践_樊哲勇》:国内自己写的教材,我查资料时候挑着看了一点,基本逻辑是通的,虽然很多原理、概念都讲的特别啰嗦,但实践需要的关键知识点都有讲到,想学中文教程的,可以当作当作了解一个方向的快速阅读资料。
  • CUDA-Kernels-Learn-Notes: CUDA 内核编程笔记及实战代码,有很强的实践性,后期可以重点学习,我也准备认真看下代码和文档。

2, cuda/triton 编写 kernel 笔记资料:

  • 最基本的通用矩阵乘法(gemm):https://zhuanlan.zhihu.com/p/657632577
  • kernl: 提供了一些 llm 的 triton 版 kernels
  • unsloth:专注于大型语言模型推理加速的微调训练方向。提供了开源版本,可以显著提高训练效率,减少内存使用,并且支持 NVIDIA、Intel 和 AMD 的 GPU。Unsloth 的主要特点包括使用 OpenAI 的 Triton 语言重写所有内核。Gemma LLMs 速度提高 2-5 倍,内存减少 80% 内核基于 triton 实现。
  • Liger-Kernel: 用于训练的高效 triton 内核实现。
  • Efficient-LLM-Inferencing-on-GPUs: README 图片不错,改天看看。

3, Star History Chart:

Star History Chart

参考资料

About

LLM notes, including model inference, transformer model structure, and llm framework code analysis notes.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published