🎥 视频教程
使用huggingface 镜像站下载
export HF_ENDPOINT=https://hf-mirror.com
huggingface-cli download THUDM/glm-4-9b-chat --local-dir /root/autodl-tmp/models/glm-4-9b-chat
使用modelscope下载
pip install modelscope
modelscope download --model ZhipuAI/glm-4-9b-chat --local_dir /root/autodl-tmp/models/glm-4-9b-chat
# int4 量化模型
modelscope download --model qwen/Qwen2-1.5B --local_dir /root/autodl-tmp/models/qwen2-1.5b
pip install vllm
3.1 推理
python infer.py
3.2 部署服务
bash vllm_server.sh
3.3 调用服务
# 1.使用openai 风格的客户端调用
python openai_client.py
# 2. 使用gradio客户端
bash run_gradio_client.sh
- 在 vLLM 中,LLM 服务的性能瓶颈在于内存。
- KV Cache 的分块存储。
- 共享内存对多输出序列的优化。