Exercise 3.11:

If the current state is , and actions are selected according to stochastic policy , then what is the expectation of in term of and the four-argument function (3.2)?

解析如下:

这个问题涉及到两个重要的(概念)概率:

  • 策略,表示在状态下采取动作的概率,记做
  • 状态转移概率,表示在状态下采取动作时,到达状态并且奖励为的概率,记做
所求为$$\mathbb{E}{\pi}[R{t+1} S_t=s]S_t\piR_{t+1}\pia\pi(a\mid s)aS_tsaR_{t+1}$$的期望可以表示为:

这个式子其实就是,即在都是已知(固定)的前提下奖励的期望。

但是在这里不是固定的,而是遵守策略或者说符合概率分布,因此上面式1的计算还需要叠加策略的影响。也就是说,式1是在固定时得出的,则当也是一个变量时,存在多个动作,需要将每一个动作都考虑进去(即):

在式2中,只有是已知的,都是变量。从下面的图可以直观的理解这个式子的意义: