人工智能-强化学习-算法：Policy Gradient【用于训练出来一个最优 Actor/Policy π】

谁践踏了优雅 2023-10-05 16:44 15阅读 0赞

强化学习算法 \{ Policy-Based Approach：Policy Gradient算法：Learning an Actor/Policy π Value-based Approach：Critic \{ State value function V π ( s ) State-Action value function Q π ( s , a )    ⟹    Q-Learning算法 Actor+Critic \\begin\{aligned\} \\text\{强化学习算法\} \\begin\{cases\} \\text\{Policy-Based Approach：Policy Gradient算法：Learning an Actor/Policy π\} \\\\\[2ex\] \\text\{Value-based Approach：Critic\} \\begin\{cases\} \\text\{State value function $V^π(s)$\}\\\\ \\\\ \\text\{State-Action value function $Q^π(s,a)$ $\\implies$ Q-Learning算法\} \\end\{cases\} \\\\\[2ex\] \\text\{Actor+Critic\} \\end\{cases\} \\end\{aligned\} 强化学习算法⎩⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎧Policy-Based Approach：Policy Gradient算法：Learning an Actor/Policy πValue-based Approach：Critic⎩⎪⎨⎪⎧State value function Vπ(s)State-Action value function Qπ(s,a)⟹ Q-Learning算法Actor+Critic

## 一、什么是Policy ##

首先大致说明一下强化学习的基本结构：  
![图1 强化学习的基本结构][1]  
如上图，一个由Agent（相当于我们的模型）和Environment（所处状态）组成的结构。

*  Agent通过观察当前环境的状态  s t s\_t st ，得出当前应当执行的动作  a t a\_t at 。
 *  Agent执行完动作之后环境对应发生了改变，并且环境会给予Agent一个反馈reward  r t r\_t rt。此时又会是一个新的环境状态  s ′ s' s′，
 *  基于本次的环境状态，Agent又会执行对应的动作…以此类推持续进行下去，直到无法继续。

如下图所示，Env表示环境，Actor即为Agent：

![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTMyNTA4NjE_size_16_color_FFFFFF_t_70_pic_center]  
上面实际上就是对一系列操作进行了抽象描述。如果以玩游戏为例说明，我们（Agent）通过观察游戏（Environment）的运行情况（State），选择接下来要执行的操作（Action），游戏往往还会反馈给我们我们的得分（Rewards）。

Actor 在不同的状态（State）采取的动作 Action 也就是我们所说的**策略 Policy** 。常用符号  π π π 来表示策略。  
 Action=π(Observation) \\color\{violet\}\{\\text\{Action=π(Observation)\}\} Action=π(Observation)  
其中：

1.   Observation \\text\{Observation\} Observation 是函数  π π π 的输入；
2.   Action \\text\{Action\} Action 是函数  π π π 的输出；
3.  策略(Policy)函数  π π π 可以是一个 Neural Network 或者其他函数。如果函数  π π π 是一个 Neural Network，则该 Reinforcemen Learning 就是 Deep Reinforcemen Learning。

## 二、怎样进行Policy Gradient ##

现在，我们大概能够猜测到了，Policy Gradient就是基于我们的策略Policy来做梯度下降从而优化我们的模型。

我们会希望Agent能够尽量能够执行较好的动作。那么我们会使用执行了该动作后得到的反馈reward来判定本次的策略优劣。  
![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTMyNTA4NjE_size_16_color_FFFFFF_t_70_pic_center 1]

*  如上图所示的超级马里奥，在这个游戏运行状态下（state），假设我们可以选择的操作（policy）有“继续向前走”和“跳起”两种。
 *  假设我们执行的操作为继续向前走，然后会碰到敌人，此时马里奥让自己变小或死亡，这个时候系统会得到比较不好的结果，返回的reward值会较小甚至是负的。
 *  而假如我们选择起跳，那么我们会获得金币，并且还会将敌人踩死或是跳过，此时得到的结果则是较好的，返回的reward值会是较大的正数。

我们会希望Agent所做的Policy所做出来的反馈reward一直都会比较高。也就是说我们想要训练我们的Agent倾向于做出那些reward较高的动作。

## 三、用监督学习的角度看策略梯度下降 ##

在监督学习中，我们会使用交叉熵来比较两个分布的差异。进而使用梯度下降法来逼近我们想要的梯度。  
 H ( p , q ) = − ∑ x p ( x ) l o g \[ q ( x ) \] H(p,q)=-\\sum\_xp(x)log\[q(x)\] H(p,q)=−x∑p(x)log\[q(x)\]

*   p ( x ) p(x) p(x) 为对应的标签，
 *   q ( x ) q(x) q(x) 为输出的概率。

然而，在强化学习中，是没有对应的 Label 的。那么我们怎么进行优化呢？这种情况，我们会把 Reward 来充当我们的Label。

具体怎么做呢，我们会在游戏中，多次运行我们的Agent，Agent会基于概率而采样选择不同的策略。假设一次状态行为序列为  τ ( s 1 , a 1 , r 1 , s 2 , a 2 , r 2 , . . . , s t , a t ) τ(s\_1,a\_1,r\_1,s\_2,a\_2,r\_2,...,s\_t,a\_t) τ(s1,a1,r1,s2,a2,r2,...,st,at) ，其中  s t s\_t st 表示位于  t t t 时刻的状态，  a t a\_t at 代表位于时刻  t t t 时候所作出的动作。

基于不同的动作策略，我们会得到不同reward  R ( τ ) R(τ) R(τ) 。假设运行得到比较好的分数得到了+3分，一般的分数得到了+1分，比较差的结果则得到了-1分。那么这个时候我们将会希望得到尽可能往+3分的结果，而-1分的则要尽量去避免。我们会使用如下的式子做为损失函数进行计算：  
 L ( θ ) = − 1 N ∑ τ R ( τ ) l o g P θ ( τ ) L(θ)=-\\cfrac1N\\sum\_τR(τ)logP\_θ(τ) L(θ)=−N1τ∑R(τ)logPθ(τ)

*  其中  P θ ( τ ) P\_θ(τ) Pθ(τ) 表示采取  τ τ τ 策略的发生概率，
 *  N为采样  τ τ τ 的数目。

我们将其展开为假设情况有：

L ( θ ) = − 1 N ∑ τ R ( τ ) l o g P θ ( τ ) = − 1 3 \[ 3 × l o g P θ ( τ 1 ) + 1 × l o g P θ ( τ 2 ) + ( − 1 ) × l o g P θ ( τ 3 ) \] = − 1 3 \[ 3 × 1 × l o g P θ ( τ 1 ) + 1 × l o g P θ ( τ 2 ) + ( − 1 ) × 1 × l o g P θ ( τ 3 ) \] \\begin\{aligned\} L(θ)&=-\\cfrac1N\\sum\_τR(τ)logP\_θ(τ)=-\\cfrac13\[3×logP\_θ(τ\_1)+1×logP\_θ(τ\_2)+(-1)×logP\_θ(τ\_3)\]\\\\ &=-\\cfrac13\[3×1×logP\_θ(τ\_1)+1×logP\_θ(τ\_2)+(-1)×1×logP\_θ(τ\_3)\] \\end\{aligned\} L(θ)=−N1τ∑R(τ)logPθ(τ)=−31\[3×logPθ(τ1)\+1×logPθ(τ2)\+(−1)×logPθ(τ3)\]=−31\[3×1×logPθ(τ1)\+1×logPθ(τ2)\+(−1)×1×logPθ(τ3)\]

相比交叉熵的梯度下降，这里实际上就相当于在出现的概率上加了一个reward系数。什么意思呢?

*  直观上来讲，可以看做reward系数大的策略  τ τ τ 就多训练几下。
 *  比如说，在超级玛丽这个游戏中，一次游戏中通过跳跃吃到了金币，那么在返回的reward如果为正的，那么会倾向于多训练几次这个过程，也可以视为向这个梯度方向多走几步。
 *  而如果reward结果为负的，那么则可视为向原本这个梯度方向的反方向走几步，以后也就尽量减少这种策略出现的概率。
 *  如下图采样执行了三种策略，反馈（打勾的）较好会训练更经常出现，而反馈较差的（打叉）的，则会训练让其较少出现。  
    ![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTMyNTA4NjE_size_16_color_FFFFFF_t_70_pic_center 2]

## 四、关于每次动作的反馈 ##

每次Episode的反馈来自于一次完整的动作叠加得到，即经历了一次完整的状态-行为序列后得到的

R ( τ ) = ∑ t = 1 T r ( s t , a t ) R(τ)=\\sum^T\_\{t=1\}r(s\_t,a\_t) R(τ)=t=1∑Tr(st,at)

*  之所以这么做，是因为在中间状态时候，我们往往无法获得反馈。只有当本次Episode结束才能得到本次Episode整体的反馈。
 *  比如说在围棋比赛中，我们下的棋，一般情况下是得不到反馈的，只有在棋局结束的时候，通过输赢我们才能够知道我们这些子下的好不好。

![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTMyNTA4NjE_size_16_color_FFFFFF_t_70_pic_center 3]

那么这样就造成了一个问题：假如一盘游戏输了，那么我们就会全盘否定掉本次游戏中所做的所有操作。那么如果本次游戏中的一些好的操作，是不是也会相应地被否定掉了？答案是肯定的，这些操作同样会被限制出现，如下假设反馈为-1时。  
 L τ ( θ ) = R θ ( τ ) l o g P θ ( τ ) = − \[ − 1 × l o g P θ ( τ 1 ) \] \\begin\{aligned\} L\_τ(θ)&=R\_θ(τ)logP\_θ(τ)=-\[-1×logP\_θ(τ\_1)\] \\end\{aligned\} Lτ(θ)=Rθ(τ)logPθ(τ)=−\[−1×logPθ(τ1)\]  
但是我们也会发现，好的操作普遍存在于好的反馈游戏结局中。当我们采样足够多的时候，这些操作就会较多地被肯定了，那么最终还是会被较好地训练到的。

假设说在一次游戏中，采样了以下  τ 1 , τ 2 , τ 3 τ\_1,τ\_2,τ\_3 τ1,τ2,τ3 三种过程并得到了三种过程所对应的reward。

τ 1 = \{ s 1 , j u m p , s 2 , l e f t , s 3 , l e f t \} , R ( τ 1 ) = − 1 τ\_1=\\\{s\_1,jump,s\_2,left,s\_3,left\\\},\\quad R(τ\_1)=-1 τ1=\{ s1,jump,s2,left,s3,left\},R(τ1)=−1  
 τ 2 = \{ s 1 , r i g h t , s 2 , r i g h t , s 3 , r i g h t \} , R ( τ 1 ) = 1 τ\_2=\\\{s\_1,right,s\_2,right,s\_3,right\\\},\\quad R(τ\_1)=1 τ2=\{ s1,right,s2,right,s3,right\},R(τ1)=1  
 τ 3 = \{ s 1 , j u m p , s 2 , r i g h t , s 3 , r i g h t \} , R ( τ 1 ) = 3 τ\_3=\\\{s\_1,jump,s\_2,right,s\_3,right\\\},\\quad R(τ\_1)=3 τ3=\{ s1,jump,s2,right,s3,right\},R(τ1)=3

我们可以看到  τ 1 τ\_1 τ1 在  s 1 s\_1 s1 状态下选择动作为  j u m p jump jump 时最终得到的 reward 为  − 1 -1 −1 ，而  τ 3 τ\_3 τ3 在  s 1 s\_1 s1 状态相比  τ 1 τ\_1 τ1 选择了  j u m p jump jump 最终得到的结果却是  3 3 3 。基于上面的样本可以看到在  s 1 s\_1 s1 状态下使用  j u m p jump jump 是有可能得到更多的正向反馈的。(假定这里的  τ 1 , τ 2 , τ 3 τ\_1,τ\_2,τ\_3 τ1,τ2,τ3 的  s 1 , s 2 , s 3 s\_1,s\_2,s\_3 s1,s2,s3 分别都为相同状态，即： s 1 1 = s 1 2 = s 1 3 = s 1 , s 2 1 = s 2 2 = s 2 3 = s 2 , s 3 1 = s 3 2 = s 3 3 = s 3 s^1\_1=s^2\_1=s^3\_1=s\_1,s^1\_2=s^2\_2=s^3\_2=s\_2,s^1\_3=s^2\_3=s^3\_3=s\_3 s11=s12=s13=s1,s21=s22=s23=s2,s31=s32=s33=s3)

我们带入损失函数并求其梯度得到：

∇ θ L ( θ ) = − 1 N ∇ θ ∑ τ = 1 T R ( τ ) l o g P θ ( τ ) = − 1 N ∑ τ = 1 T R ( τ ) ∇ θ l o g P θ ( τ ) = − 1 3 \[ R ( τ 1 ) ∇ θ l o g P θ ( τ 1 ) + R ( τ 2 ) ∇ θ l o g P θ ( τ 2 ) + R ( τ 3 ) ∇ θ l o g P θ ( τ 3 ) \] = − 1 3 \[ ( − 1 ) × ∇ θ l o g P θ ( τ 1 ) + 1 × ∇ θ l o g P θ ( τ 2 ) + 3 × ∇ θ l o g P θ ( τ 3 ) \] = − 1 3 \{ ( − 1 ) × ∇ θ \[ l o g P θ ( a 1 1 ∣ s 1 1 ) + l o g P θ ( a 2 1 ∣ s 2 1 ) + l o g P θ ( a 3 1 ∣ s 3 1 ) \] + 1 × ∇ θ \[ l o g P θ ( a 1 2 ∣ s 1 2 ) + l o g P θ ( a 2 2 ∣ s 2 2 ) + l o g P θ ( a 3 2 ∣ s 3 2 ) \] + 3 × ∇ θ \[ l o g P θ ( a 1 3 ∣ s 1 3 ) + l o g P θ ( a 2 3 ∣ s 2 3 ) + l o g P θ ( a 3 3 ∣ s 3 3 ) \] \} = − 1 3 \{ ( − 1 ) × ∇ θ \[ l o g P θ ( j u m p ∣ s 1 1 ) + l o g P θ ( l e f t ∣ s 2 1 ) + l o g P θ ( l e f t ∣ s 3 1 ) \] + 1 × ∇ θ \[ l o g P θ ( r i g h t ∣ s 1 2 ) + l o g P θ ( r i g h t ∣ s 2 2 ) + l o g P θ ( r i g h t ∣ s 3 2 ) \] + 3 × ∇ θ \[ l o g P θ ( j u m p ∣ s 1 3 ) + l o g P θ ( r i g h t ∣ s 2 3 ) + l o g P θ ( r i g h t ∣ s 3 3 ) \] \} = − 1 3 \{ 2 × ∇ θ l o g P θ ( j u m p ∣ s 1 ) + ∇ θ l o g P θ ( r i g h t ∣ s 1 ) ( − 1 ) × ∇ θ l o g P θ ( l e f t ∣ s 2 ) + 4 × ∇ θ l o g P θ ( r i g h t ∣ s 2 ) + ( − 1 ) × ∇ θ l o g P θ ( l e f t ∣ s 3 ) + 4 × ∇ θ l o g P θ ( r i g h t ∣ s 3 ) \} \\begin\{aligned\} \\nabla\_θ L(θ)&=-\\cfrac1N \\nabla\_θ \\sum^\{Τ\}\_\{τ=1\}R(τ)logP\_θ(τ)\\\\ &=-\\cfrac1N \\sum^\{Τ\}\_\{τ=1\}R(τ)\\nabla\_θ logP\_θ(τ)\\\\ &=-\\cfrac13 \[R(τ\_1)\\nabla\_θ logP\_θ(τ\_1)+R(τ\_2)\\nabla\_θ logP\_θ(τ\_2)+R(τ\_3)\\nabla\_θ logP\_θ(τ\_3)\]\\\\ &=-\\cfrac13 \[(-1)×\\color\{red\}\{\\nabla\_θ logP\_θ(τ\_1)\}+1×\\color\{blue\}\{\\nabla\_θ logP\_θ(τ\_2)\}+3×\\color\{violet\}\{\\nabla\_θ logP\_θ(τ\_3)\}\]\\\\ &=-\\cfrac13 \\\{\\\\ &\\qquad \\quad (-1)×\\color\{red\}\{\\nabla\_θ \[logP\_θ(a^1\_1|s^1\_1)+logP\_θ(a^1\_2|s^1\_2)+logP\_θ(a^1\_3|s^1\_3)\]\}\\\\ &\\qquad \\quad +1×\\color\{blue\}\{\\nabla\_θ \[logP\_θ(a^2\_1|s^2\_1)+logP\_θ(a^2\_2|s^2\_2)+logP\_θ(a^2\_3|s^2\_3)\]\}\\\\ &\\qquad \\quad +3×\\color\{violet\}\{\\nabla\_θ \[logP\_θ(a^3\_1|s^3\_1)+logP\_θ(a^3\_2|s^3\_2)+logP\_θ(a^3\_3|s^3\_3)\]\}\\\\ &\\qquad \\quad \\\}\\\\ &=-\\cfrac13 \\\{\\\\ &\\qquad \\quad (-1)×\\color\{red\}\{\\nabla\_θ \[logP\_θ(jump|s^1\_1)+logP\_θ(left|s^1\_2)+logP\_θ(left|s^1\_3)\]\}\\\\ &\\qquad \\quad +1×\\color\{blue\}\{\\nabla\_θ \[logP\_θ(right|s^2\_1)+logP\_θ(right|s^2\_2)+logP\_θ(right|s^2\_3)\]\}\\\\ &\\qquad \\quad +3×\\color\{violet\}\{\\nabla\_θ \[logP\_θ(jump|s^3\_1)+logP\_θ(right|s^3\_2)+logP\_θ(right|s^3\_3)\]\}\\\\ &\\qquad \\quad \\\}\\\\ &=-\\cfrac13 \\\{\\\\ &\\qquad \\quad 2×\\nabla\_θ logP\_θ(jump|s\_1)+\\nabla\_θ logP\_θ(right|s\_1)\\\\ &\\qquad \\quad (-1)×\\nabla\_θ logP\_θ(left|s\_2)+4×\\nabla\_θ logP\_θ(right|s\_2)\\\\ &\\qquad \\quad +(-1)×\\nabla\_θ logP\_θ(left|s\_3)+4×\\nabla\_θ logP\_θ(right|s\_3)\\\\ &\\qquad \\quad \\\} \\end\{aligned\} ∇θL(θ)=−N1∇θτ=1∑TR(τ)logPθ(τ)=−N1τ=1∑TR(τ)∇θlogPθ(τ)=−31\[R(τ1)∇θlogPθ(τ1)\+R(τ2)∇θlogPθ(τ2)\+R(τ3)∇θlogPθ(τ3)\]=−31\[(−1)×∇θlogPθ(τ1)\+1×∇θlogPθ(τ2)\+3×∇θlogPθ(τ3)\]=−31\{ (−1)×∇θ\[logPθ(a11∣s11)\+logPθ(a21∣s21)\+logPθ(a31∣s31)\]\+1×∇θ\[logPθ(a12∣s12)\+logPθ(a22∣s22)\+logPθ(a32∣s32)\]\+3×∇θ\[logPθ(a13∣s13)\+logPθ(a23∣s23)\+logPθ(a33∣s33)\]\}=−31\{ (−1)×∇θ\[logPθ(jump∣s11)\+logPθ(left∣s21)\+logPθ(left∣s31)\]\+1×∇θ\[logPθ(right∣s12)\+logPθ(right∣s22)\+logPθ(right∣s32)\]\+3×∇θ\[logPθ(jump∣s13)\+logPθ(right∣s23)\+logPθ(right∣s33)\]\}=−31\{ 2×∇θlogPθ(jump∣s1)\+∇θlogPθ(right∣s1)(−1)×∇θlogPθ(left∣s2)\+4×∇θlogPθ(right∣s2)\+(−1)×∇θlogPθ(left∣s3)\+4×∇θlogPθ(right∣s3)\}

这样一波计算下来，可以看到，对于  s 1 s\_1 s1 状态下的  j u m p jump jump 最终还是得到的是正反馈。由此可见，**只要采样充分**，我们并不需要担心在不良反馈结局下的某些好的操作会被消除。

## 五、Policy Gradient详细推导 ##

*  Policy Gradient is used in Policy-Based Approach to learn an Actor/Policy π。
 *  每一次的 episode 都被认为是一个轨迹(trajectory)  τ τ τ  
     τ = \{ s 1 , a 1 , r 1 , s 2 , a 2 , r 2 , . . . , s T , a T , r T \} τ=\\\{s\_1,a\_1,r\_1,s\_2,a\_2,r\_2,...,s\_T,a\_T,r\_T\\\} τ=\{ s1,a1,r1,s2,a2,r2,...,sT,aT,rT\}
 *  Actor每次Episode的反馈来自于一次完整的动作叠加得到，即经历了一次完整的状态-行为序列后得到的  
     R ( τ ) = ∑ t = 1 T r ( s t , a t ) R(τ)=\\sum^T\_\{t=1\}r(s\_t,a\_t) R(τ)=t=1∑Tr(st,at)
 *  理论上，Actor要重复无数次Episode，但实践中只能重复  N N N次，得到  N N N 个  τ τ τ，每一个  τ i τ^i τi 都有 一定几率  P ( τ ∣ θ ) P(τ|θ) P(τ∣θ) 被取样，则这  N N N次 Episode 的所有的  R ( τ i ) R(τ^i) R(τi) 的期望值(均值)  R ‾ θ \\overline\{R\}\_θ Rθ 为：

R ‾ θ = ∑ i = 1 ∞ R ( τ i ) P ( τ i ∣ θ ) ≈ 1 N ∑ i = 1 N R ( τ i ) \\overline\{R\}\_θ=\\sum^∞\_\{i=1\}R(τ^i)P(τ^i|θ)≈\\cfrac1N\\sum^N\_\{i=1\}R(τ^i) Rθ=i=1∑∞R(τi)P(τi∣θ)≈N1i=1∑NR(τi)

*  上式中的  ≈ ≈ ≈ 表示：利用Actor  π θ π\_θ πθ 重复  N N N次Episode  ⟺ \\Longleftrightarrow ⟺ 从  τ τ τ 的分布  P ( τ ∣ θ ) P(τ|θ) P(τ∣θ) 中取样  N N N 次。  
     ∇ R ‾ θ = ∇ θ ∑ i = 1 ∞ R ( τ i ) ⋅ P ( τ i ∣ θ ) = R ( τ i ) 与 θ 无 关 ∑ i = 1 ∞ R ( τ i ) ⋅ ∇ θ P ( τ i ∣ θ ) = ∑ i = 1 ∞ R ( τ i ) ⋅ P ( τ i ∣ θ ) ⋅ ∇ θ P ( τ i ∣ θ ) P ( τ i ∣ θ ) = ∑ i = 1 ∞ R ( τ i ) ⋅ P ( τ i ∣ θ ) ⋅ ∇ θ l o g \[ P ( τ i ∣ θ ) \] ≈ 1 N ∑ i = 1 N R ( τ i ) ⋅ ∇ θ l o g \[ P ( τ i ∣ θ ) \] = 1 N ∑ i = 1 N R ( τ i ) ⋅ ∇ θ l o g \[ p ( s 1 i ) p ( a 1 i ∣ s 1 i , θ ) p ( r 1 i , s 2 i ∣ s 1 i , a 1 i ) p ( a 2 i ∣ s 2 i , θ ) p ( r 2 i , s 3 i ∣ s 2 i , a 2 i ) ⋅ ⋅ ⋅ p ( a t i ∣ s t i , θ ) p ( r t i , s t + 1 i ∣ s t i , a t i ) \] = 1 N ∑ i = 1 N R ( τ i ) ⋅ ∇ θ l o g \[ p ( s 1 i ) ⋅ ∏ t = 1 T p ( a t i ∣ s t i , θ ) ⋅ p ( r t i , s t + 1 i ∣ s t i , a t i ) \] = 1 N ∑ i = 1 N R ( τ i ) ⋅ ∇ θ \{ l o g \[ p ( s 1 i ) \] + ∑ t = 1 T l o g \[ p ( a t i ∣ s t i , θ ) \] + ∑ t = 1 T l o g \[ p ( r t i , s t + 1 i ∣ s t i , a t i ) \] \} = 1 N ∑ i = 1 N R ( τ i ) ⋅ \{ ∇ θ l o g \[ p ( s 1 i ) \] + ∑ t = 1 T ∇ θ l o g \[ p ( a t i ∣ s t i , θ ) \] + ∑ t = 1 T ∇ θ l o g \[ p ( r t i , s t + 1 i ∣ s t i , a t i ) \] \} = 1 N ∑ i = 1 N R ( τ i ) ⋅ \[ 0 + ∑ t = 1 T ∇ θ l o g \[ p ( a t i ∣ s t i , θ ) \] + 0 \] = 1 N ∑ i = 1 N R ( τ i ) ⋅ ∑ t = 1 T ∇ θ l o g \[ p ( a t i ∣ s t i , θ ) \] = 1 N ∑ i = 1 N ∑ t = 1 T R ( τ i ) ⋅ ∇ θ l o g \[ p ( a t i ∣ s t i , θ ) \] \\begin\{aligned\} \\nabla\\overline\{R\}\_θ&=\\nabla\_θ\\sum^∞\_\{i=1\}R(τ^i)·P(τ^i|θ)\\\\ &\\xlongequal\{R(τ^i)与θ无关\}\\sum^∞\_\{i=1\}R(τ^i)·\\nabla\_θP(τ^i|θ)\\\\ &=\\sum^∞\_\{i=1\}R(τ^i)·P(τ^i|θ)·\\cfrac\{\\nabla\_θP(τ^i|θ)\}\{P(τ^i|θ)\}\\\\ &=\\sum^∞\_\{i=1\}R(τ^i)·P(τ^i|θ)·\\nabla\_θlog\[P(τ^i|θ)\]\\\\ &≈\\cfrac1N\\sum^N\_\{i=1\}R(τ^i)·\\nabla\_θlog\[P(τ^i|θ)\]\\\\ &=\\cfrac1N\\sum^N\_\{i=1\}R(τ^i)·\\nabla\_θlog\[p(s^i\_1)p(a^i\_1|s^i\_1,θ)p(r^i\_1,s^i\_2|s^i\_1,a^i\_1)p(a^i\_2|s^i\_2,θ)p(r^i\_2,s^i\_3|s^i\_2,a^i\_2)···p(a^i\_t|s^i\_t,θ)p(r^i\_t,s^i\_\{t+1\}|s^i\_t,a^i\_t)\]\\\\ &=\\cfrac1N\\sum^N\_\{i=1\}R(τ^i)·\\nabla\_θlog\[\\color\{violet\}\{p(s^i\_1)\}·\\color\{black\}\{\\prod^T\_\{t=1\} p(a^i\_t|s^i\_t,θ)\}·\\color\{violet\}\{p(r^i\_t,s^i\_\{t+1\}|s^i\_t,a^i\_t)\}\\color\{black\}\{\]\}\\\\ &=\\cfrac1N\\sum^N\_\{i=1\}R(τ^i)·\\nabla\_θ\\\{\\color\{violet\}\{log\[p(s^i\_1)\]\}+\\color\{black\}\{\\sum^T\_\{t=1\} log\[p(a^i\_t|s^i\_t,θ)\]\}+\\color\{violet\}\{\\sum^T\_\{t=1\}log\[p(r^i\_t,s^i\_\{t+1\}|s^i\_t,a^i\_t)\}\]\\color\{black\}\{\\\}\}\\\\ &=\\cfrac1N\\sum^N\_\{i=1\}R(τ^i)·\\\{\\color\{violet\}\{\\nabla\_θlog\[p(s^i\_1)\]\}+\\color\{black\}\{\\sum^T\_\{t=1\} \\nabla\_θlog\[p(a^i\_t|s^i\_t,θ)\]\}+\\color\{violet\}\{\\sum^T\_\{t=1\}\\nabla\_θlog\[p(r^i\_t,s^i\_\{t+1\}|s^i\_t,a^i\_t)\]\}\\color\{black\}\{\\\}\}\\\\ &=\\cfrac1N\\sum^N\_\{i=1\}R(τ^i)·\[\\color\{violet\}\{0\}+\\color\{black\}\{\\sum^T\_\{t=1\} \\nabla\_θlog\[p(a^i\_t|s^i\_t,θ)\]\}+\\color\{violet\}\{0\}\\color\{black\}\{\]\}\\\\ &=\\cfrac1N\\sum^N\_\{i=1\}R(τ^i)·\\sum^T\_\{t=1\} \\nabla\_θlog\[p(a^i\_t|s^i\_t,θ)\]\\\\ &=\\cfrac1N\\sum^N\_\{i=1\}\\sum^T\_\{t=1\} R(τ^i)·\\nabla\_θlog\[p(a^i\_t|s^i\_t,θ)\]\\\\ \\end\{aligned\} ∇Rθ=∇θi=1∑∞R(τi)⋅P(τi∣θ)R(τi)与θ无关i=1∑∞R(τi)⋅∇θP(τi∣θ)=i=1∑∞R(τi)⋅P(τi∣θ)⋅P(τi∣θ)∇θP(τi∣θ)=i=1∑∞R(τi)⋅P(τi∣θ)⋅∇θlog\[P(τi∣θ)\]≈N1i=1∑NR(τi)⋅∇θlog\[P(τi∣θ)\]=N1i=1∑NR(τi)⋅∇θlog\[p(s1i)p(a1i∣s1i,θ)p(r1i,s2i∣s1i,a1i)p(a2i∣s2i,θ)p(r2i,s3i∣s2i,a2i)⋅⋅⋅p(ati∣sti,θ)p(rti,st\+1i∣sti,ati)\]=N1i=1∑NR(τi)⋅∇θlog\[p(s1i)⋅t=1∏Tp(ati∣sti,θ)⋅p(rti,st\+1i∣sti,ati)\]=N1i=1∑NR(τi)⋅∇θ\{ log\[p(s1i)\]\+t=1∑Tlog\[p(ati∣sti,θ)\]\+t=1∑Tlog\[p(rti,st\+1i∣sti,ati)\]\}=N1i=1∑NR(τi)⋅\{ ∇θlog\[p(s1i)\]\+t=1∑T∇θlog\[p(ati∣sti,θ)\]\+t=1∑T∇θlog\[p(rti,st\+1i∣sti,ati)\]\}=N1i=1∑NR(τi)⋅\[0\+t=1∑T∇θlog\[p(ati∣sti,θ)\]\+0\]=N1i=1∑NR(τi)⋅t=1∑T∇θlog\[p(ati∣sti,θ)\]=N1i=1∑Nt=1∑TR(τi)⋅∇θlog\[p(ati∣sti,θ)\]

## 六、利用Policy Gradient迭代Actor ##

### 1、迭代过程 ###

![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTMyNTA4NjE_size_16_color_FFFFFF_t_70_pic_center 4]

1.  初始化强化学习参数  θ 0 θ\_0 θ0
2.  利用强化学习的Actor进行第1次Episode的游戏，得  τ 1 = \{ s 1 1 , a 1 1 , r 1 1 , s 2 1 , a 2 1 , r 2 1 , . . . , s T 1 , a T 1 , r T 1 \} τ^1=\\\{s^1\_1,a^1\_1,r^1\_1,s^1\_2,a^1\_2,r^1\_2,...,s^1\_T,a^1\_T,r^1\_T\\\} τ1=\{ s11,a11,r11,s21,a21,r21,...,sT1,aT1,rT1\}
3.  根据  τ 1 τ^1 τ1 计算  ∇ R ‾ θ \\nabla\\overline\{R\}\_θ ∇Rθ，得  ∇ R ‾ θ 1 \\nabla\\overline\{R\}^1\_θ ∇Rθ1
4.  根据  ∇ R ‾ θ 1 \\nabla\\overline\{R\}^1\_θ ∇Rθ1 计算  θ 1 = θ 0 + η ∇ R ‾ θ 1 θ\_1=θ\_0+η\\nabla\\overline\{R\}^1\_θ θ1=θ0\+η∇Rθ1
5.  利用强化学习的Actor进行第2次Episode的游戏，得  τ 2 = \{ s 1 2 , a 1 2 , r 1 2 , s 2 2 , a 2 2 , r 2 2 , . . . , s T 2 , a T 2 , r T 2 \} τ^2=\\\{s^2\_1,a^2\_1,r^2\_1,s^2\_2,a^2\_2,r^2\_2,...,s^2\_T,a^2\_T,r^2\_T\\\} τ2=\{ s12,a12,r12,s22,a22,r22,...,sT2,aT2,rT2\}
6.  根据  τ 2 τ^2 τ2 计算  ∇ R ‾ θ \\nabla\\overline\{R\}\_θ ∇Rθ，得  ∇ R ‾ θ 2 \\nabla\\overline\{R\}^2\_θ ∇Rθ2
7.  根据  ∇ R ‾ θ 2 \\nabla\\overline\{R\}^2\_θ ∇Rθ2 计算  θ 2 = θ 1 + η ∇ R ‾ θ 2 θ\_2=θ\_1+η\\nabla\\overline\{R\}^2\_θ θ2=θ1\+η∇Rθ2
8.  …
9.   θ n e w = θ o l d + η ∇ R ‾ θ o l d θ\_\{new\}=θ\_\{old\}+η\\nabla\\overline\{R\}^\{old\}\_θ θnew=θold\+η∇Rθold

### 2、On-Policy Algorithm ###

**On-Policy Algorithm**：“要训练的Agent” 跟 “和环境互动的Agent” 是同一个的话，这个叫做 on-policy。即：要训练的Agent，它是一边跟环境互动，一边做学习这个叫 on-policy。Policy Gradient属于“On-Policy”算法。

1.  sample的data只用一次。 即利用  τ i τ^i τi 更新参数  θ θ θ 后就将  τ i τ^i τi 丢弃掉，不再使用。
2.  Policy Gradient 是一个会花很多时间来取样的算法。Policy Gradient 算法的大多数时间都在取样，Agent/Actor跟环境做互动取样后update参数一次(只能 update 参数一次)，接下来就要重新再去环境里取样，然后才能再次 update 参数一次，这非常花时间。

**Off-Policy Algorithm**：“要训练的Agent” 跟 “和环境互动的Agent” 不是同一个的话，这个叫做 off-policy。如果它是在旁边看别人玩，透过看别人玩来学习.

### 3、迭代过程中调整参数 ###

如果在第 i i i 次 Episode，当 Actor 处于  s t i s^i\_t sti 时，采取 action/policy  a t i a^i\_t ati 后，

*   R ( τ i ) > 0 R(τ^i)>0 R(τi)>0，则调整  θ θ θ，使得  p ( a t i ∣ s t i ) p(a^i\_t|s^i\_t) p(ati∣sti) 增加；
 *   R ( τ i ) < 0 R(τ^i)<0 R(τi)<0，则调整  θ θ θ，使得  p ( a t i ∣ s t i ) p(a^i\_t|s^i\_t) p(ati∣sti) 减小；

It is very important to consider the cumulative reward  R ( τ i ) R(τ^i) R(τi) of the whole trajectory  τ i τ^i τi instead of immediate reward  r t i r^i\_t rti

## 七、实操 Policy Gradient ##

![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTMyNTA4NjE_size_16_color_FFFFFF_t_70_pic_center 5]

### 1、假设为分类问题 ###

*  实际上在用这个 deep learning 的 framework implement 的时候，要把它想成你就是在做一个分类的问题
 *  分类问题用 TensorFlow implement MNIST classification，理论上每个人都会做 classification
 *  那在 classification 里面就是 input 一个 image，就是做 MNIST input 一个 image，然后 output 就是要决定说，是 10 个 class 里面的哪一个
 *  所以那要怎么做 classification，当然要收集一堆 training data，你要有 input 跟 output 的 pair
 *  在 reinforcement learning 里面，在实作的时候，你就把 state 当作是 classifier 的 input，你就当作你是要做 image classification 的 problem，只是现在的 class 不是说 image 里面有什么 objects，现在的 class 是说，看到这张 image 我们要采取什么样的行为，每一个行为就叫做一个 class
 *  比如说第一个 class 叫做向左，第二个 class 叫做向右，第三个 class 叫做开火
 *  那这些训练的资料是从哪里来的呢？我们要做分类的问题，你要有 classified 的 input，跟它正确的 output，这些训练数据，就是从 sampling 的 process 来的
 *  假设在 sampling 的 process 里面，在某一个 state，你 sample 到你要采取 action a，你就把这个 action a 当作是你的 ground truth。你在这个 state，你 sample 到要向左，本来向左这件事机率不一定是最高，因为你是 sample，它不一定机率最高。
 *  假设你 sample 到向左，那接下来在 training 的时候，你叫告诉 machine 说，调整 network 的参数，如果看到这个 state，你就向左
 *  在一般的 classification 的 problem 里面，其实你在 implement classification 的时候，你的 objective function都会写成 cross entropy
 *  那其实 minimize cross entropy 就是 maximize log likelihood
 *  所以你今天在做 classification 的时候，你的 objective function，你要去 maximize 或是 minimize 的对象，
 *  因为我们现在是 maximize likelihood，所以其实是 maximize，你要 maximize 的对象，其实就长这样子  
    ![在这里插入图片描述][20210106172022243.png_pic_center]
 *  像这种 lost function，你在 TensorFlow 里面，你 even 不用手刻，它都会有现成的 function，你就 call 个 function，它就会自动帮你算
 *  然后接下来呢，你就 apply 计算 gradient 这件事，那你就可以把 gradient 计算出来，这是一般的分类问题

### 2、实际为RL问题 ###

*  那如果今天是 RL 的话，唯一不同的地方只是，你要记得在你原来的 loss 前面乘上一个 weight，这个 weight 是什么？这个weight 是，今天在这个 state，采取这个 action 的时候，你会得到的 reward，这个 reward 不是当场得到的 reward，而是整场(Episode)游戏的时候得到的 reward，它并不是在 state s 采取 action a 的时候得到的 reward，而是在 state s 采取 action a 的这整场游戏里面，你最后得到的 total reward 这个大 R
 *  要把每一笔 training data，都 weighted by 这个大 R，然后接下来，你就交给 TensorFlow 或 pyTorch 去帮你算 gradient，然后就结束了  
    跟一般 classification 其实也没太大的差别  
    ![在这里插入图片描述][20210106172101405.png_pic_center]

## 八、实操技巧/Tips ##

### 1、Add a Baseline ###

∇ R ‾ θ ≈ 1 N ∑ i = 1 N ∑ t = 1 T R ( τ i ) ⋅ ∇ θ l o g \[ p ( a t i ∣ s t i , θ ) \] \\begin\{aligned\}\\nabla\\overline\{R\}\_θ≈\\cfrac1N\\sum^N\_\{i=1\}\\sum^T\_\{t=1\} R(τ^i)·\\nabla\_θlog\[p(a^i\_t|s^i\_t,θ)\]\\end\{aligned\} ∇Rθ≈N1i=1∑Nt=1∑TR(τi)⋅∇θlog\[p(ati∣sti,θ)\] 的含义是：

*  如果在  s t i s^i\_t sti 状态下采取策略  a t i a^i\_t ati 后，该整场Episode  τ i τ^i τi 最后的 Reward 为正值，则增加该  τ i τ^i τi 的发生几率
 *  如果在  s t i s^i\_t sti 状态下采取策略  a t i a^i\_t ati 后，该整场Episode  τ i τ^i τi 最后的 Reward 为负值，则减小该  τ i τ^i τi 的发生几率

在实际应用中遇到的问题是：计算出来的Reward  R ( τ i ) R(τ^i) R(τi) 总是正值，不会得到负值的Reward。这就会导致一个问题：一些因为抽样误差导致没被取样到的Sample的几率相对下降。  
![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTMyNTA4NjE_size_16_color_FFFFFF_t_70_pic_center 6]  
所以，我们希望你的 reward 不要总是正的，为了实现 reward 不要总是正的这个问题，可以做的一个非常简单的改变就是，把你的 reward 减掉一项叫做 b，这项 b 叫做 **Baseline**  
![在这里插入图片描述][20210106171402814.png_pic_center]

你减掉这项 b 以后，就可以让 R-b 小括号这一项，有正有负

*  所以今天如果你得到的 reward 这个  R ( τ i ) R(τ^i) R(τi) 大于 b 的话，就让他的机率上升，如果这个  R ( τ i ) R(τ^i) R(τi) 小于 b，就算它是负的，因为游戏里面不可能有负的，所以如果正的很小，也是不好的，所以你就要让这个 state 采取这个 action 的几率下降。
 *   b b b 的设定随意，一般设定  b ≈ E \[ R ( τ ) \] b≈E\[R(τ)\] b≈E\[R(τ)\]，
 *  所以在实作上，你就是在 implement/training 的时候，会不断的把  \[ R ( τ ) \[R(τ) \[R(τ) 记录下来，不断的去计算  \[ R ( τ ) \[R(τ) \[R(τ) 的平均值  E \[ R ( τ ) \] E\[R(τ)\] E\[R(τ)\]，然后你会把你的这个平均值 E \[ R ( τ ) \] E\[R(τ)\] E\[R(τ)\] 当作你的  b b b 来用。

### 2、Assign Suitable Credit ###

在Policy Gradient标准算法中，只要在同一个 Episode 里面，在同一场游戏里面，所有的 state 跟 a 的 pair，它都会 weighted by 同样的 reward/term。这件事情显然是不公平的，因为在同一场游戏里面，也许有些 action 是好的，也许有些 action 是不好的，那假设最终的结果，整场游戏的结果是好的，并不代表这个游戏里面每一个行为都是对的，若是整场游戏结果不好，但不代表游戏里面的所有行为都是错的

所以我们其实希望，可以给每一个不同的 action，前面都乘上不同的 weight，那这个每一个 action 的不同 weight，它真正的反应了每一个 action，它到底是好还是不好。

如上述 《四、关于每次动作的反馈》 所讨论的，假如一盘游戏输了，那么我们就会全盘否定掉本次游戏中所做的所有操作。即使本次游戏中的一些好的操作，也会相应地被否定掉。**只要采样充分**，我们并不需要担心在不良反馈结局下的某些好的操作会被消除。但是，实践中，可能并不能实现充分采样，这样的话就会有误差。

在 sample 的次数不够多的情况下，就需要想办法给每一个 state 跟 action pair 合理的 credit，要让整体模型知道它对Reward合理的 contribution，它实际上对Reward这些分数的贡献到底有多大。

每个  ( a t i ∣ s t i ) (a^i\_t|s^i\_t) (ati∣sti) 的 reward 为从观察到  ( a t i ∣ s t i ) (a^i\_t|s^i\_t) (ati∣sti) 的时刻  t t t 直到该轮episode结束所能得到的累计Reward，如下图：  
![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTMyNTA4NjE_size_16_color_FFFFFF_t_70]  
更进一步，把离时刻  t t t 比较远的未来的 reward，做一个 discount，因为虽然某一个时间点执行某一个 action会影响接下来所有的结果，有可能在某一个时间点执行的 action，接下来得到的 reward 都是这个 action 的功劳，但是在比较真实的情况下，如果时间拖得越长，影响力就越小。

![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTMyNTA4NjE_size_16_color_FFFFFF_t_70 1]

所以我们实际上在做的时候，你会在你的  r t ′ i r^i\_\{t'\} rt′i 前面乘上一个系数  γ γ γ，  γ < 1 γ<1 γ<1，一般设  γ = 0.9 γ=0.9 γ=0.9 或 设  γ = 0.99 γ=0.99 γ=0.99。它是越之后的  r t ′ i r^i\_\{t'\} rt′i，它前面就乘上越多次的  γ γ γ。就代表说现在在某一个 state  s t s\_t st，执行某一个 action  a t a\_t at 的时候，它真正的 credit 其实是它在执行这个 action 之后所有 reward 的总和，而且还要乘上  γ γ γ 来表明离  ( a t i , s t i ) (a^i\_t,s^i\_t) (ati,sti) 越远受其影响越小。

∇ θ R ‾ θ ≈ 1 N ∑ i = 1 N ∑ t = 1 T i \[ ( ∑ t ′ = t T i γ t ′ − t r t ′ i − b ) ∇ θ l o g p θ ( a t i ∣ s t i ) \] = 1 N ∑ i = 1 N ∑ t = 1 T i \[ A θ ( s t , a t ) ∇ θ l o g p θ ( a t i ∣ s t i ) \] \\begin\{aligned\} \\nabla\_θ\\overline\{R\}\_θ&≈\\cfrac1N\\sum^N\_\{i=1\}\\sum^\{T\_i\}\_\{t=1\}\\left\[\\color\{violet\}\{\\left(\\sum^\{T\_i\}\_\{t'=t\}γ^\{t'-t\}r^i\_\{t'\}-b\\right)\}\\color\{black\}\{\\nabla\_θ logp\_θ(a^i\_t|s^i\_t)\}\\right\]\\\\ &=\\cfrac1N\\sum^N\_\{i=1\}\\sum^\{T\_i\}\_\{t=1\}\[\\color\{violet\}\{A^θ(s\_t,a\_t)\}\\color\{black\}\{\\nabla\_θ logp\_θ(a^i\_t|s^i\_t)\]\} \\end\{aligned\} ∇θRθ≈N1i=1∑Nt=1∑Ti\[(t′=t∑Tiγt′−trt′i−b)∇θlogpθ(ati∣sti)\]=N1i=1∑Nt=1∑Ti\[Aθ(st,at)∇θlogpθ(ati∣sti)\]

![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTMyNTA4NjE_size_16_color_FFFFFF_t_70_pic_center 7]

--------------------

[浅谈Policy Gradient][Policy Gradient]

[1]: https://img-blog.csdnimg.cn/20210106093040542.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTMyNTA4NjE=,size_16,color_FFFFFF,t_70#pic_center
[watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTMyNTA4NjE_size_16_color_FFFFFF_t_70_pic_center]: https://img-blog.csdnimg.cn/20210106153644905.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTMyNTA4NjE=,size_16,color_FFFFFF,t_70#pic_center
[watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTMyNTA4NjE_size_16_color_FFFFFF_t_70_pic_center 1]: https://img-blog.csdnimg.cn/20210106094354690.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTMyNTA4NjE=,size_16,color_FFFFFF,t_70#pic_center
[watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTMyNTA4NjE_size_16_color_FFFFFF_t_70_pic_center 2]: https://img-blog.csdnimg.cn/20210106100420847.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTMyNTA4NjE=,size_16,color_FFFFFF,t_70#pic_center
[watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTMyNTA4NjE_size_16_color_FFFFFF_t_70_pic_center 3]: https://img-blog.csdnimg.cn/20210106104759177.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTMyNTA4NjE=,size_16,color_FFFFFF,t_70#pic_center
[watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTMyNTA4NjE_size_16_color_FFFFFF_t_70_pic_center 4]: https://img-blog.csdnimg.cn/20210106154406541.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTMyNTA4NjE=,size_16,color_FFFFFF,t_70#pic_center
[watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTMyNTA4NjE_size_16_color_FFFFFF_t_70_pic_center 5]: https://img-blog.csdnimg.cn/20210106171948771.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTMyNTA4NjE=,size_16,color_FFFFFF,t_70#pic_center
[20210106172022243.png_pic_center]: https://img-blog.csdnimg.cn/20210106172022243.png#pic_center
[20210106172101405.png_pic_center]: https://img-blog.csdnimg.cn/20210106172101405.png#pic_center
[watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTMyNTA4NjE_size_16_color_FFFFFF_t_70_pic_center 6]: https://img-blog.csdnimg.cn/20210106172501638.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTMyNTA4NjE=,size_16,color_FFFFFF,t_70#pic_center
[20210106171402814.png_pic_center]: https://img-blog.csdnimg.cn/20210106171402814.png#pic_center
[watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTMyNTA4NjE_size_16_color_FFFFFF_t_70]: https://img-blog.csdnimg.cn/20210106180626972.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTMyNTA4NjE=,size_16,color_FFFFFF,t_70
[watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTMyNTA4NjE_size_16_color_FFFFFF_t_70 1]: https://img-blog.csdnimg.cn/20210106182146139.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTMyNTA4NjE=,size_16,color_FFFFFF,t_70
[watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTMyNTA4NjE_size_16_color_FFFFFF_t_70_pic_center 7]: https://img-blog.csdnimg.cn/20210106183918946.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTMyNTA4NjE=,size_16,color_FFFFFF,t_70#pic_center
[Policy Gradient]: https://zhuanlan.zhihu.com/p/42055115