出售本站【域名】【外链】

微技术-AI分享
更多分类

强化学习算法 DQN 解决 CartPole 问题,代码逐条详解

2025-02-01

强化进修是一种呆板进修范式,其焦点思想是通过agent取环境的交互,以抵达真现某种目的的宗旨。正在强化进修中,agent依据环境的应声(reward or penalty)来调解其止为,以使得将来的预期奖励最大化。强化进修正在很多规模中都有宽泛的使用,如游戏、呆板人控制、金融买卖。