llm-action/llm-train/pytorch at 370928556e47437c8144cd625b5bc546ec7ac047 · martinal-lee/llm-action · GitHub

Name		Name	Last commit message	Last commit date
parent directory ..
distribution		distribution
Pytorch源码解读.md		Pytorch源码解读.md
README.md		README.md
api.md		api.md
resource.md		resource.md
torchrun.md		torchrun.md

README.md

torch.distributed.get_rank() # 取得当前进程的全局序号
torch.distributed.get_world_size() # 取得全局进程的个数
torch.cuda.set_device(device) # 为当前进程分配GPU
torch.distributed.new_group(ranks) # 设置组
torch.cuda.current_device()

https://pytorch.org/tutorials/intermediate/FSDP_tutorial.html

PyTorch 分布式训练

PyTorch 分布式训练（一）：概述
PyTorch 分布式训练（二）：数据并行
PyTorch 分布式训练（三）：分布式自动微分
PyTorch 分布式训练（四）：分布式优化器
PyTorch 分布式训练（五）：分布式 RPC 框架

问题排查

将环境变量 NCCL_DEBUG 设置为 INFO 以打印有助于诊断问题的详细日志。（export NCCL_DEBUG=INFO）
显式设置网络接口。（export NCCL_SOCKET_IFNAME=eth0）