深度强化学习从入门到大师：进一步了解深度Q学习（第三部分*续）

2019-12-20 |

116 |

原标题：深度强化学习从入门到大师：进一步了解深度Q学习（第三部分*续）

来源：AI 研习社链接：https://www.yanxishe.com/TextTranslation/1081

在我们上一篇关于使用Tensorflow进行深度Q学习的文章中，我们实现了一个智能体，其可以学习玩简单版Doom。在视频版本中，我们训练了一个玩太空入侵者的DQN智能体。

但是，在训练期间，我们发现存在很多变化。

深度Q-Learning于2014年提出。从那时起，已经进行了许多改进。所以，今天我们将看到四种策略可以显著 - 改善 - 训练和DQN智能体的结果：

fixed Q-targets
double DQNs
duelingDQN（又名 DDQN）
Prioritized Experience Replay（又名PER）

我们将实现一个智能体,可以学习玩Doom Deadly corridor。我们的人工智能必须走向基本目标（vest），并确保他们通过杀死敌人同时生存。

Fixed Q-targets

固定Q目标

理论

我们在Deep Q Learning文章中看到，我们可通过计算TD目标值（Q_target）和当前Q值（Q的估计）之差得到TD误差（又称损失）。

但真实的TD目标值我们并不知道。我们需要估计它。使用Bellman方程，我们看到TD目标只是在该状态下采取该行动的奖励加上下一个状态的折扣率下的最高Q值。

然而，问题是我们使用相同的参数（权重）来估计目标和Q值。结果是，TD目标与我们正在改变的参数（w）之间存在很大的相关性。

因此，这意味着在训练的每一步，我们的Q值都会发生变化，但目标值也会发生变化。所以，我们可以越来越接近我们的目标，但目标也在不断变化。这就像追逐一个移动的目标！这导致了训练的大振荡。

这就像你是一个牛仔（Q估计），你想抓住牛（Q目标），你必须更接近（减少错误）。

在每个时间步，你都试图接近牛，牛也会在每个时间步移动（因为你使用相同的参数）。

这导致了一种非常奇怪的追逐路径（训练中的大振荡）。

相反，我们可以使用DeepMind引入的固定Q-targets的想法：

使用具有固定参数的单独网络（让我们称之为w-）来估计TD目标。
在每个Tau步骤，我们从DQN网络复制参数以更新目标网络。

感谢这个程序改进，因为目标函数保持固定一段时间，将有更稳定的学习过程。

履行实现

实现固定的q-targets非常简单：

首先，我们创建两个网络（DQNetwork， TargetNetwork）
然后，我们创建一个函数，它将获取我们的 DQNetwork 参数并将它们复制到我们的 TargetNetwork
最后，在训练期间，我们使用目标网络计算TD目标。我们用DQNetwork 每一步 tau更新目标网络（tau 是我们定义的超参数）。

Double DQNs

理论

Hado van Hasselt 介绍了Double DQNs, 或 double Learning 。该方法解决了Q值估计过高的问题。

要了解此问题，请记住我们如何计算TD Target：

通过计算TD目标，我们面临一个简单的问题：我们如何确定下一个状态的最佳动作是具有最高Q值的动作？

我们知道q值的准确性取决于智能体尝试了多少行动以及我们探索的邻近状态。

在训练开始时，智能体没有足够的信息来了解最佳行动。因此，将（有噪声的）最大q值作为最佳动作可能会导致false positives(FP，假正)。如果未优化的动作经常给出比所求得的最优化动作更高的Q值，则学习将变得困难。

解决方案是：当我们计算Q目标时，我们使用两个网络将动作选择与目标Q值生成分离：

使用 DQN网络选择对下一个状态采取的最佳动作（具有最高Q值）。
使用目标网络计算在下一个状态下执行该操作的目标Q值。

因此，Double DQN帮助我们减少对q值的过高估计，从而帮助我们更快地训练并获得更稳定的学习。

实现

基于竞争构架Q网络 DuelingDQN（DDQN）

理论

请记住，Q值（Q(s,a)）表示状态 s 下采取行动 a 。

所以我们可以将Q(s,a)分解为：

V(s)：处于该状态s的值
A(s,a)：在该状态s下采取该行动a的优势（该状态的采取此行动与所有其他可能行动相比有多好）。

在DDQN中，我们希望通过两个流streams得到 V(s) 、A(s,a)这两个参数的估计量：

一个是状态值 V（s）的估计
一个是每个动作的优势的估计 A（s，a）

然后，通过一个特殊的整合层将这两个流组合起来得到 Q(s,a)的估计值。

等下？但是，为什么我们需要分别计算这两个参数呢？

通过解耦估计，我们的DDQN可以直观地了解哪些状态是（或不是）有价值的，而不必了解每个状态下每个动作的效果（因此，还是需要计算V(s)的）。

使用原版的DQN，需要计算某个状态state下每个动作的值。但如果该状态state不好，这样就做有什么意义呢？如果这个状态会导致智能体角色死亡，那么计算该状态(死亡状态的)的所有行动就没有意义。

因此，通过解耦计算 V(s)，找出对于那些任何行为都不会被影响的状态尤其有用。在这种情况下，不必计算每个动作的值。例如，向右或向左移动仅在存在碰撞风险时才去关注。而且，在大多数状态下，无论选择何种行动，对发生的事情没有任何影响。

如果我们看论文Dueling Network Architectures for Deep Reinforcement Learning中的例子，会理解地更加清晰。

我们看到这种价值流Value network streams(V(s))是关注路面（橙色模糊），但更关注的是最前方地平线处是否有汽车出现。同时，该网络也注重得分。

另一方面，在右边第一帧图中，优势流the advantage stream(A(s,a))并没有太多关注道路，因为前面没有车（因此选择什么动作实际是无关紧要的）。但是，在第二帧图会引起它的注意，因为在前面有一辆汽车，并且对行动做出选择是至关重要且（与将要对发生的事情）非常相关的。

（译者注：关注于地平线上是否有车辆出现（此时动作的选择影响不大）以及分数；则更关心会立即造成碰撞的车辆，此时动作的选择很重要。）

关于整合层aggregation layer，我们想得到该状态s下的每个动作的Q值。我们可能想将2个流组合成：

（注：其中 θ 是卷积层参数，和是两支路全连接层参数。）

但如果这样做，我们将陷入可识别性问题，即 - 给定Q（s，a）我们无法找到A（s，a）和 V（s）。

并且无法找到给定Q（s，a）的V（s）和A（s，a）,将在反向传播的过程中出现问题。为了避免这个问题，我们可以强制我们的优势函数在选中的行动上具有0优势。

（译者注：也就是保证该状态下各种动作的优势函数大小排序关系不变的前提下，缩小Q值范围，去均值的过程）

为此，我们减去了该状态下可能采取的所有行动优势的平均值。

因此，这种架构architecture 有助于加速训练网络。只计算状态的值，而不用计算该状态下所有动作的值。它可以帮助我们通过解耦两个流之间的估计来为每个动作找到更可靠的Q值。

实现

唯一要做的就是通过添加这些新的流streams来修改DQN架构：

class DDDQNNet:    def __init__(self, state_size, action_size, learning_rate, name):
        self.state_size = state_size
        self.action_size = action_size
        self.learning_rate = learning_rate
        self.name = name
        
        
        # 使用 tf.variable_scope 了解具体用了什么网络模型 (DQN or target_net)        # it will be useful when we will update our w- parameters (by copy the DQN parameters)        with tf.variable_scope(self.name):
            
            # 创建 the placeholders（占位）            # *state_size means that we take each elements of state_size in tuple hence is like if we wrote            # [None, 100, 120, 4]            self.inputs_ = tf.placeholder(tf.float32, [None, *state_size], name="inputs")
            
            self.actions_ = tf.placeholder(tf.float32, [None, action_size], name="actions_")
            
            # Remember that target_Q is the R(s,a) + ymax Qhat(s', a')            self.target_Q = tf.placeholder(tf.float32, [None], name="target")
            
            """
            First convnet: 第一个卷积层
            CNN 
            ELU 激活函数
            """            # Input is 100x120x4            self.conv1 = tf.layers.conv2d(inputs = self.inputs_,
                                         filters = 32,
                                         kernel_size = [8,8],
                                         strides = [4,4],
                                         padding = "VALID",
                                          kernel_initializer=tf.contrib.layers.xavier_initializer_conv2d(),
                                         name = "conv1")
            
            self.conv1_out = tf.nn.elu(self.conv1, name="conv1_out")
            
            
            """
            Second convnet:第二个卷积层
            CNN
            ELU
            """            self.conv2 = tf.layers.conv2d(inputs = self.conv1_out,
                                 filters = 64,
                                 kernel_size = [4,4],
                                 strides = [2,2],
                                 padding = "VALID",
                                kernel_initializer=tf.contrib.layers.xavier_initializer_conv2d(),
                                 name = "conv2")

            self.conv2_out = tf.nn.elu(self.conv2, name="conv2_out")
            
            
            """
            Third convnet:第三个卷积层
            CNN
            ELU
            """            self.conv3 = tf.layers.conv2d(inputs = self.conv2_out,
                                 filters = 128,
                                 kernel_size = [4,4],
                                 strides = [2,2],
                                 padding = "VALID",
                                kernel_initializer=tf.contrib.layers.xavier_initializer_conv2d(),
                                 name = "conv3")

            self.conv3_out = tf.nn.elu(self.conv3, name="conv3_out")
            
            
            self.flatten = tf.layers.flatten(self.conv3_out)
            
            
            ## 这里分出两个流 Here we separate into two streams             # 其中一个用来计算 V(s) -状态值函数            self.value_fc = tf.layers.dense(inputs = self.flatten,
                                  units = 512,
                                  activation = tf.nn.elu,
                                       kernel_initializer=tf.contrib.layers.xavier_initializer(),
                                name="value_fc")
            
            self.value = tf.layers.dense(inputs = self.value_fc,
                                        units = 1,
                                        activation = None,
                                        kernel_initializer=tf.contrib.layers.xavier_initializer(),
                                name="value")
            
            # 另一个流计算 A(s,a) -动作优势函数            self.advantage_fc = tf.layers.dense(inputs = self.flatten,
                                  units = 512,
                                  activation = tf.nn.elu,
                                       kernel_initializer=tf.contrib.layers.xavier_initializer(),
                                name="advantage_fc")
            
            self.advantage = tf.layers.dense(inputs = self.advantage_fc,
                                        units = self.action_size,
                                        activation = None,
                                        kernel_initializer=tf.contrib.layers.xavier_initializer(),
                                name="advantages")
            
            # Agregating layer 整合层            # Q(s,a) = V(s) + (A(s,a) - 1/|A| * sum A(s,a'))            self.output = self.value + tf.subtract(self.advantage, tf.reduce_mean(self.advantage, axis=1, keepdims=True))
              
            # 这个 Q 是模型对 Q值 的预测值            self.Q = tf.reduce_sum(tf.multiply(self.output, self.actions_), axis=1)
            
            # 这个损失函数loss是预测Q值（Q_values）和Q目标(Q_target)的差            # Sum(Qtarget - Q)^2 求平方和            self.loss = tf.reduce_mean(tf.square(self.target_Q - self.Q))
            # RMSprop优化器，最小loss函数            self.optimizer = tf.train.RMSPropOptimizer(self.learning_rate).minimize(self.loss)

优先经验回放 Prioritized Experience Replay

理论

优先经验回放（PER）由Tom Schaul于2015年提出。该idea是，对于训练，某些经验可能比其他经验更重要，但不那么频繁出现。

因为统一对批次进行抽样（随机选择经验），所以这类经验丰富的样本几乎没有机会被选中。

这就是为什么，利用PER，通过使用一个标准来定义每个经验元组的优先级来改变采样分布。

当预测值和TD目标存在很大差异的时，设置优先获得该经验，这也意味模型需要多了解该经验信息。

使用TD误差幅度的绝对值：