基于百度飞桨PaddlePaddle和PARL复现PPO强化学习算法

2025-01-10

提示：文章写完后，目录可以主动生成，如何生成可参考右边的协助文档文章目录前言一、拆置库二、运用轨范总结前言我实的是醒了，刚初步无意间看到超级马里奥的强化进修，我就想学，而后。。。花了我零零散散一周的光阳来从最初的Q_Learning,sarsa到高级的DQN,PG,DDPG再到最后的AC,A3C,PPO，我实的感觉没点看头，不晓得学完之后能不能搞SuperMario,很不错，tf2.V的马里奥被我复现了。一、拆置库之行进修的接续是Gym的环境，高级一点的游戏便是gym_super_mario.