GeoMX 环境变量汇总#

GeoMX 基础环境变量汇总#

环境变量

可选项

作用节点

环境变量描述

DMLC_ROLE

scheduler, server, worker

local scheduler, local server, master worker, worker

当前节点在其机构内的角色

DMLC_PS_ROOT_URI

IPv4 地址

global server, master worker, local scheduler, local server, worker

本地调度器的 IPv4 地址

DMLC_PS_ROOT_PORT

整数

同上

本地调度器监听的端口号

DMLC_NUM_SERVER

整数

同上

参与机构内的域内参数服务器的数量,或中央机构内的全局参数服务器的数量

DMLC_NUM_WORKER

整数

同上

当前机构内工作节点的数量,包括主控工作节点

DMLC_ROLE_GLOBAL

global_scheduler, global_server

global scheduler, global server

当前节点在不同机构之间的角色

DMLC_PS_GLOBAL_ROOT_URI

IPv4 地址

global scheduler, global server, local server

全局调度器的 IPv4 地址

DMLC_PS_GLOBAL_ROOT_PORT

整数

同上

全局调度器监听的端口号

DMLC_NUM_GLOBAL_SERVER

整数

同上

中央机构内全局参数服务器的数量

DMLC_NUM_GLOBAL_WORKER

整数

同上

所有域内参数服务器的数量

DMLC_ROLE_MASTER_WORKER

0, 1

master worker

指定当前节点是否为主控工作节点

DMLC_ENABLE_CENTRAL_WORKER

0, 1

global server

指定中央机构是否参与模型训练

DMLC_NUM_ALL_WORKER

整数

global server, master worker, worker

实际参与模型训练的所有工作节点的数量

DMLC_INTERFACE

字符串

所有节点

节点使用的网卡名称

PS_VERBOSE

0, 1, 2

所有节点

打印日志等级

各个优化技术使用的环境变量汇总#

优化技术名称

环境变量

环境变量描述

分层频率聚合

MXNET_KVSTORE_USE_HFA

启用或禁用分层频率聚合

MXNET_KVSTORE_HFA_K1

在域内参数服务器执行局部聚合之前,工作节点应执行的本地更新次数

MXNET_KVSTORE_HFA_K2

在全局参数服务器执行全局聚合之前,域内参数服务器应执行的局部聚合次数

双向梯度稀疏化, 混合精度量化

MXNET_KVSTORE_SIZE_LOWER_BOUND

用于分类大张量和小张量的阈值

差异梯度传输

ENABLE_DGT

启用或禁用差异梯度传输,设置为 2 表示启用,0 表示禁用

DMLC_UDP_CHANNEL_NUM

用于传输的通道数量

DMLC_K

压缩率

ADAPTIVE_K_FLAG

启用或禁用自适应调整压缩率

DGT_CONTRIBUTION_ALPHA

用于更新梯度贡献值的加权平均系数

DGT_INFO

启用或禁止 DGT 的日志输出

DGT_BLOCK_SIZE

梯度重要度分类时的块大小,默认为 4096

DMLC_K_MIN

启用 ADAPTIVE_K_FLAG 时允许 DMLC_K 的最小值,默认为 0.2

通信覆盖调度

ENABLE_INTER_TS

启用或禁用机构内的 TSEngine 调度器

ENABLE_INTRA_TS

启用或禁用跨机构的 TSEngine 调度器

MAX_GREED_RATE_TS

执行随机路径探索的概率

优先级参数传播

ENABLE_P3

启用或禁用 P3 调度器