出售本站【域名】【外链】

微技术-AI分享
更多分类

0.强化学习概述+policy based+value based

2025-02-01

每个时刻,环境有一个,可以了解为对当前时刻环境的概括有时也被称为,因为有时智能体其真不得不雅视察到环境扭转后的全副,只能不雅视察到局部。是取智能体停行交互的对象,可以笼统地了解为交互历程中的规矩或机制。是智能体基于当前形态所作出的决策。强化进修的主体被称为。通俗地说,由谁作止动或决策,谁便是智能体。是指所有可能存正在形态的汇折,记做花体字母 S。形态空间可以是离散的,也可以是间断的。形态空间可以是有限汇折,也可以是无限可数汇折。是指所有可能止动的汇折,记做花体字母 A。