DQN算法详解
一.概述
强化学习算法可以分为三大类:value based, policy based 和 actor critic。常见的是以DQN为代表的value based算法,这种算法中只有一个值函数网络,没有policy网络,以及以DDPG,TRPO为代表的actor-critic算法…
1️⃣ DQN介绍
前面介绍的表格形式的Q-learning只适用于状态空间 S \mathcal{S} S和动作空间 A \mathcal{A} A都是较小有限离散集合情况。但当状态空间 S \mathcal{S} S和动作空间 A \mathcal{A} A变大时,表格形式不再适用。DQN是神经网络形式的Q学习,使…
生命不止,继续 go go go !!!
号外号外,插播一条广告,通过博客的uv可以看到周五,程序员是不怎么干活的:
本篇博客,使用gRPC和Protobuf,实现所谓的高性能api。
protobuf
golang中的protobuf大家应该不会很陌生,之前也有博客介绍过: Go实战–go中使用google/proto…