手机网站营销页,优秀简单的ppt作品,215做网站,上海浦东设计网站建设有时候在分布式训练时#xff0c;可能会出现nccl通信超时的问题#xff0c;出现的原因好像是在某些数据处理、加载等过程#xff0c;多个进程一起完成#xff0c;但是某些计算#xff08;比如loss具体不知道都有啥#xff09;需要rank0自己来做#xff0c;但是由于默认的…有时候在分布式训练时可能会出现nccl通信超时的问题出现的原因好像是在某些数据处理、加载等过程多个进程一起完成但是某些计算比如loss具体不知道都有啥需要rank0自己来做但是由于默认的30分钟没算完没完成不同rank之间的正常通信导致报错。
可以做如下的操作
增加超时时间你可以尝试增加NCCL操作的超时时间。在PyTorch中你可以通过设置
torch.nn.utils.convert_parameters_to_tensors()
函数的timeout参数来实现这一点。
或者
os.environ[NCCL_BLOCKING_WAIT] 0 # not to enforce timeout
dist.init_process_group(nccl if dist.is_nccl_available() else gloo,timeouttimedelta(seconds7200000), # was 1800000rankRANK,world_sizeworld_size)