一、简介 Q-learning 算法中,我们以矩阵的方式建立了一张存储每个状态下所有动作 Q Q Q值的表格。表格中的每一个动作价值 Q ( s , a ) Q(s,a) Q(s,a)表示在状态 s s s下选择动作 a a a然后继续遵循某一策略预期能够得到的期望回报。然而,这种用表格存储…
DQN算法详解
一.概述
强化学习算法可以分为三大类:value based, policy based 和 actor critic。常见的是以DQN为代表的value based算法,这种算法中只有一个值函数网络,没有policy网络,以及以DDPG,TRPO为代表的actor-critic算法…
1️⃣ DQN介绍
前面介绍的表格形式的Q-learning只适用于状态空间 S \mathcal{S} S和动作空间 A \mathcal{A} A都是较小有限离散集合情况。但当状态空间 S \mathcal{S} S和动作空间 A \mathcal{A} A变大时,表格形式不再适用。DQN是神经网络形式的Q学习,使…