Skip to content

Latest commit

 

History

History

pytorch

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 
 
 
 
 
 
 
 
 

  • torch.distributed.get_rank() # 取得当前进程的全局序号
  • torch.distributed.get_world_size() # 取得全局进程的个数
  • torch.cuda.set_device(device) # 为当前进程分配GPU
  • torch.distributed.new_group(ranks) # 设置组
  • torch.cuda.current_device()


PyTorch 分布式训练

  • PyTorch 分布式训练(一):概述
  • PyTorch 分布式训练(二):数据并行
  • PyTorch 分布式训练(三):分布式自动微分
  • PyTorch 分布式训练(四):分布式优化器
  • PyTorch 分布式训练(五):分布式 RPC 框架

问题排查

  • 将环境变量 NCCL_DEBUG 设置为 INFO 以打印有助于诊断问题的详细日志。(export NCCL_DEBUG=INFO)
  • 显式设置网络接口。(export NCCL_SOCKET_IFNAME=eth0)