浏览器内端到端训练一张 策略-价值残差网络:MCTS 自对弈生成棋谱 → 用「访问分布(策略) + 终局胜负(价值)」反向传播。训练成果可导出为权重文件,再到主程序「AlphaZero 数据更新」页加载启用。运行在 TensorFlow.js(优先 GPU)。
参数越大越强但越慢。浏览器内训练属于引导级(bootstrap)规模:建议先用 9×9 / 11×11 跑出能用的网络,导出后在主程序里继续靠对局体验。要练得强,需更大网络 + 更多自对弈(可长时间挂机)。
权重文件格式:{ format:"gomoku-alphazero-weights", version, meta:{boardSize,filters,blocks,planes,winLen,trainedGames}, weights:[{shape,data}] }。主程序按 meta 重建同构网络并 setWeights,故二者架构天然一致。