AlphaZero 训练器五子棋 · 自对弈强化学习

浏览器内端到端训练一张 策略-价值残差网络：MCTS 自对弈生成棋谱 → 用「访问分布(策略) + 终局胜负(价值)」反向传播。训练成果可导出为权重文件，再到主程序「AlphaZero 数据更新」页加载启用。运行在 TensorFlow.js（优先 GPU）。

① 网络与训练参数

棋盘大小 B×B

卷积通道数 F

残差块数 R

每手 MCTS 模拟数

学习率

批大小 / 每局训练批数

经验回放容量

探索温度步数（前 N 手采样）

参数越大越强但越慢。浏览器内训练属于引导级（bootstrap）规模：建议先用 9×9 / 11×11 跑出能用的网络，导出后在主程序里继续靠对局体验。要练得强，需更大网络 + 更多自对弈（可长时间挂机）。

② 训练控制与进度

未开始后端：—

自对弈局数

训练步数

样本/缓冲

策略损失

—

价值损失

—

用时

③ 导出 / 日志

导出后到主程序「在线/更多 → AlphaZero 数据更新」加载，或托管到一个 URL 再填入。

权重文件格式：{ format:"gomoku-alphazero-weights", version, meta:{boardSize,filters,blocks,planes,winLen,trainedGames}, weights:[{shape,data}] }。主程序按 meta 重建同构网络并 setWeights，故二者架构天然一致。

AlphaZero 训练器 五子棋 · 自对弈强化学习

① 网络与训练参数

② 训练控制与进度

③ 导出 / 日志

AlphaZero 训练器五子棋 · 自对弈强化学习