【教程】PyTorch多机多卡分布式训练的参数说明
转载请注明出处:小锋学长生活大爆炸[xfxuezhagn] 如果本文帮助到了你,欢迎[点赞、收藏、关注]哦~
目录
torchrun
一、什么是 torchrun
二、torchrun 的核心参数讲解
三、torchrun 会自动设置的环境变量
四、torchrun 启动过程举例
机器 A(node_rank=0)上运行
机器 B(node_rank=1)上运行
五、小结表格
PyTorch
一、背景回顾
二、init_process_group
三、脚本中通常的典型写法
通用启动脚本
torchrun 与 torch.multiprocessing.spawn 的对比可以看这篇: 【知识】torchrun 与 torch.multiprocessing.spawn 的对比
torchrun
一、什么是 torchrun
torchrun
是 PyTorch 官方推荐的分布式训练启动器,它的作用是:
- 启动 多进程分布式训练(支持多 GPU,多节点)
- 自动设置每个进程的环境变量
- 协调节点之间建立通信
二、torchrun
的核心参数讲解
代码语言:javascript代码运行次数:0运行复制torchrun \
--nnodes=2 \
--nproc_per_node=2 \
--node_rank=0 \
--master_addr=192.168.5.228 \
--master_port=29400 \
xxx.py
发布评论