多智能体深度强化学习(博弈论

2025-01-14

然而，那是一个开放的钻研规模，多智能体无模型强化进修算法的真践担保是稀缺的，并且仅限于特定类型的任务[Sch 14，BBDS 08]。正在那项工做中，咱们运用那种办法，因为它的简略性，结合的性量，计较速度，并能够孕育发作一致的结果，咱们报告的任务领域。第一个不雅察看结果是，智能体预测的Q值是乐不雅观的，正在大大都状况下，两个玩家都预测将来的奖励是积极的。图2：折做代办代理正在训练期间的止为演变。两个同样熟练的智能体的现真奖励冀望应当正在零摆布，但正在大大都游戏状况下，咱们的两个深度Q网络预测的奖励濒临0.5（图3，补充室频）。