GeoMX 环境变量汇总#
环境变量 |
可选项 |
作用节点 |
环境变量描述 |
---|---|---|---|
DMLC_ROLE |
scheduler, server, worker |
local scheduler, local server, master worker, worker |
当前节点在其机构内的角色 |
DMLC_PS_ROOT_URI |
IPv4 地址 |
global server, master worker, local scheduler, local server, worker |
本地调度器的 IPv4 地址 |
DMLC_PS_ROOT_PORT |
整数 |
同上 |
本地调度器监听的端口号 |
DMLC_NUM_SERVER |
整数 |
同上 |
参与机构内的域内参数服务器的数量,或中央机构内的全局参数服务器的数量 |
DMLC_NUM_WORKER |
整数 |
同上 |
当前机构内工作节点的数量,包括主控工作节点 |
DMLC_ROLE_GLOBAL |
global_scheduler, global_server |
global scheduler, global server |
当前节点在不同机构之间的角色 |
DMLC_PS_GLOBAL_ROOT_URI |
IPv4 地址 |
global scheduler, global server, local server |
全局调度器的 IPv4 地址 |
DMLC_PS_GLOBAL_ROOT_PORT |
整数 |
同上 |
全局调度器监听的端口号 |
DMLC_NUM_GLOBAL_SERVER |
整数 |
同上 |
中央机构内全局参数服务器的数量 |
DMLC_NUM_GLOBAL_WORKER |
整数 |
同上 |
所有域内参数服务器的数量 |
DMLC_ROLE_MASTER_WORKER |
0, 1 |
master worker |
指定当前节点是否为主控工作节点 |
DMLC_ENABLE_CENTRAL_WORKER |
0, 1 |
global server |
指定中央机构是否参与模型训练 |
DMLC_NUM_ALL_WORKER |
整数 |
global server, master worker, worker |
实际参与模型训练的所有工作节点的数量 |
DMLC_INTERFACE |
字符串 |
所有节点 |
节点使用的网卡名称 |
PS_VERBOSE |
0, 1, 2 |
所有节点 |
打印日志等级 |
优化技术名称 |
环境变量 |
环境变量描述 |
---|---|---|
MXNET_KVSTORE_USE_HFA |
启用或禁用分层频率聚合 |
|
MXNET_KVSTORE_HFA_K1 |
在域内参数服务器执行局部聚合之前,工作节点应执行的本地更新次数 |
|
MXNET_KVSTORE_HFA_K2 |
在全局参数服务器执行全局聚合之前,域内参数服务器应执行的局部聚合次数 |
|
MXNET_KVSTORE_SIZE_LOWER_BOUND |
用于分类大张量和小张量的阈值 |
|
ENABLE_DGT |
启用或禁用差异梯度传输,设置为 2 表示启用,0 表示禁用 |
|
DMLC_UDP_CHANNEL_NUM |
用于传输的通道数量 |
|
DMLC_K |
压缩率 |
|
ADAPTIVE_K_FLAG |
启用或禁用自适应调整压缩率 |
|
DGT_CONTRIBUTION_ALPHA |
用于更新梯度贡献值的加权平均系数 |
|
DGT_INFO |
启用或禁止 DGT 的日志输出 |
|
DGT_BLOCK_SIZE |
梯度重要度分类时的块大小,默认为 4096 |
|
DMLC_K_MIN |
启用 ADAPTIVE_K_FLAG 时允许 DMLC_K 的最小值,默认为 0.2 |
|
ENABLE_INTER_TS |
启用或禁用机构内的 TSEngine 调度器 |
|
ENABLE_INTRA_TS |
启用或禁用跨机构的 TSEngine 调度器 |
|
MAX_GREED_RATE_TS |
执行随机路径探索的概率 |
|
ENABLE_P3 |
启用或禁用 P3 调度器 |