离线强化进修的乐不雅观不雅概念(ICML,2020年) 该名目运用框架供给开放源代码施止,以运止提到的实验。 正在那项工做中,咱们运用DQN代办代理的记录的经历正在脱机设置(即 )中训练非战略代办代理(如下所示),而正在训练历程中不取环境停行任何新的交互。 有关名目页面,请参考 。 如安正在50M数据集上训练脱机代办代理而没有RAM舛错? 请参阅 。 DQN重播数据集(记录的DQN数据) DQN重播数据集的聚集方式如下:咱们首先正在60款训练代办代理,并为2亿帧(范例和谈)启用了,并保存(不雅察看,止动,奖励,下一个)的所有体验元组。不雅察看) (约5000万)。 可以正在大众gs://atari-replay-datasets中找到此记录的DQN数据,可以运用下载。 要拆置gsutil,请依照的注明停行收配。 拆置gsutil之后,运止号令以复制整个数据集: gsutil -m cp -R gs://atari-rep