AlphaZero 训练器 五子棋 · 自对弈强化学习

浏览器内端到端训练一张 策略-价值残差网络:MCTS 自对弈生成棋谱 → 用「访问分布(策略) + 终局胜负(价值)」反向传播。训练成果可导出为权重文件,再到主程序「AlphaZero 数据更新」页加载启用。运行在 TensorFlow.js(优先 GPU)。

① 网络与训练参数

参数越大越强但越慢。浏览器内训练属于引导级(bootstrap)规模:建议先用 9×9 / 11×11 跑出能用的网络,导出后在主程序里继续靠对局体验。要练得强,需更大网络 + 更多自对弈(可长时间挂机)。

② 训练控制与进度

未开始 后端:—
自对弈局数
0
训练步数
0
样本/缓冲
0
策略损失
价值损失
用时
0s

③ 导出 / 日志

导出后到主程序「在线/更多 → AlphaZero 数据更新」加载,或托管到一个 URL 再填入。

权重文件格式:{ format:"gomoku-alphazero-weights", version, meta:{boardSize,filters,blocks,planes,winLen,trainedGames}, weights:[{shape,data}] }。主程序按 meta 重建同构网络并 setWeights,故二者架构天然一致。