Play
本文介绍了通过 Play 命令查看训练后的策略效果,确保策略符合预期。
运行以下命令可在 Gym 中查看训练效果:

说明:
- Play 启动参数与 Train 相同。
- 默认加载实验文件夹上次运行的最后一个模型。
- 可通过
load_run和checkpoint指定其他模型。 --test_default_pose: 通过将所有动作设置为零来测试默认关节角度。这对于在没有策略控制的情况下验证机器人的默认站立姿势很有用。
导出网络
Play 会导出 Actor 网络,保存于 logs/{experiment_name}/exported/policies 中:
-
普通网络(MLP)导出为
policy_1.pt -
RNN 网络,导出为
policy_lstm_1.pt