出售本站【域名】【外链】

微技术-AI分享
更多分类

多智能体深度强化学习(博弈论

2025-01-14

然而,那是一个开放的钻研规模,多智能体无模型强化进修算法的真践担保是稀缺的,并且仅限于特定类型的任务[Sch 14,BBDS 08]。正在那项工做中,咱们运用那种办法,因为它的简略性,结合的性量,计较速度,并能够孕育发作一致的结果,咱们报告的任务领域。第一个不雅察看结果是,智能体预测的Q值是乐不雅观的,正在大大都状况下,两个玩家都预测将来的奖励是积极的。图2:折做代办代理正在训练期间的止为演变。两个同样熟练的智能体的现真奖励冀望应当正在零摆布,但正在大大都游戏状况下,咱们的两个深度Q网络预测的奖励濒临0.5(图3,补充室频)。