从零开始的机器学习6-强化学习
一些问题
智能控制与优化决策课题组制作。
对应周志华《机器学习》第十六章内容。
一些问题
1、分析强化学习与监督学习的联系与差别。
监督学习就是有导师学习,所学习的样例是有标签的。
强化学习是无导师学习。但实际上,强化学习有一位隐形的
导师,这个导师会告诉你所获得的
奖赏,这些奖赏其实也是一种标签,不过这种标签需要通过学习得到。
2、
ε
\varepsilon
ε-贪心法如何实现探索与利用的平衡。
探索指对未知的部分进行尝试和认知,尝试找到较当前最优解更优的解;
利用指使用已知部分的信息,保证解较优。
ε
\varepsilon
ε贪心法是一种平衡探索与利用的方法,以ϵ
ε
\varepsilon
ε的概率进行探索,以
ε
−
1
\varepsilon-1
ε−1的概率进行利用,通常令
ε
\varepsilon
ε取一个较小的常数,也就是说,以大概率利用,小概率探索。不过,如果你去餐馆的次数足够多了,几乎所有餐馆你都去过了,那里就可以放心的去你现在发现最好吃的餐馆了,所以,探索的概率逐渐减小也是个不错的选择。
3、如何用赌博机算法实现强化学习任务。
在玩K-摇臂赌博机时,赌徒在投入一个硬币后可选择按下其中一个摇臂,每个摇臂以一定的概率吐出硬币,但这个概率赌徒并不知道,那要如何最大化自己的奖赏呢。最大化奖赏需要做两件事:1)尽可能准确的知道每个摇臂平均奖赏;2)尽可能多的利用平均奖赏最多的那个摇臂。
对于第一件事,需要的是多次尝试,观察记录摇臂按下的次数和获得的奖赏,计算每个摇臂的平均奖赏;对于第二件事,就是尽可能选择平均奖赏多的摇臂。
将赌博机算法用于每个状态,对每个状态分别记录个动作的尝试次数、当前平均累积奖赏等信息,然后基于
ε
\varepsilon
ε-贪心算法之类的方法选择下一步的动作。
4、试推导
γ
\gamma
γ折扣累积奖赏的全概率展开式(16.8)。
V
γ
π
=
E
π
[
∑
t
=
0
∞
γ
t
r
t
+
1
∣
x
0
=
x
]
=
E
π
[
r
1
+
∑
t
=
1
∞
γ
t
r
t
+
1
∣
x
0
=
x
]
=
E
π
[
r
1
+
γ
∑
t
=
1
∞
γ
t
−
1
r
t
+
1
∣
x
0
=
x
]
=
∑
a
∈
A
π
(
x
,
a
)
∑
x
′
∈
X
P
x
→
x
′
a
(
R
x
→
x
′
a
+
γ
E
π
[
∑
t
=
0
∞
γ
t
r
t
+
1
∣
x
0
=
x
′
]
)
=
∑
a
∈
A
π
(
x
,
a
)
∑
x
′
∈
X
P
x
→
x
′
a
(
R
x
→
x
′
a
+
γ
V
γ
π
(
x
′
)
)
\begin{aligned} V^\pi_\gamma&=\mathbb{E}_\pi[\sum^\infin_{t=0} \gamma^tr_{t+1}|x_0=x]\\ &=\mathbb{E}_\pi[r_1+\sum^\infin_{t=1}\gamma^tr_{t+1}|x_0=x]\\ &=\mathbb{E}_\pi[r_1+\gamma\sum^\infin_{t=1}\gamma^{t-1}r_{t+1}|x_0=x]\\ &=\sum_{a\in A}\pi(x,a)\sum_{x'\in X}P^a_{x\rightarrow x'} (R^a_{x\rightarrow x'}+\gamma\mathbb{E}_\pi [\sum^\infin_{t=0}\gamma^tr_{t+1}|x_0=x'])\\ &=\sum_{a\in A}\pi(x,a)\sum_{x'\in X}P^a_{x\rightarrow x'} (R^a_{x\rightarrow x'}+\gamma V^\pi_\gamma(x')) \end{aligned}
Vγπ=Eπ[t=0∑∞γtrt+1∣x0=x]=Eπ[r1+t=1∑∞γtrt+1∣x0=x]=Eπ[r1+γt=1∑∞γt−1rt+1∣x0=x]=a∈A∑π(x,a)x′∈X∑Px→x′a(Rx→x′a+γEπ[t=0∑∞γtrt+1∣x0=x′])=a∈A∑π(x,a)x′∈X∑Px→x′a(Rx→x′a+γVγπ(x′))
其中,
π
(
x
,
a
)
\pi(x,a)
π(x,a)表示在
x
x
x状态下执行动作
a
a
a的概率;
P
x
→
x
′
a
P^a_{x\rightarrow x'}
Px→x′a表示执行动作
a
a
a之后转移到状态
x
′
x'
x′的概率;
R
x
→
x
′
a
+
γ
V
γ
π
(
x
′
)
R^a_{x\rightarrow x'}+\gamma V^\pi_\gamma(x')
Rx→x′a+γVγπ(x′)表示到达状态
x
′
x'
x′所能获得的奖赏,其中
R
x
→
x
′
a
R^a_{x\rightarrow x'}
Rx→x′a为即时奖赏,
γ
V
γ
π
(
x
′
)
\gamma V^\pi_\gamma(x')
γVγπ(x′)为未来奖赏的估计。
5、什么是动态规划中的最优性原理,与强化学习中的策略更新有什么关系
最优性原理:一个最优策略的子策略必须是最优的。
在强化学习中,策略实际上是状态到动作的映射,在某一个状态下,策略决定了采取什么动作。
如果每一个状态下采取的动作都是最优动作,那么,总的策略也会是最优的。
6、完成时序差分学习中式(16.31)的推导。
时序差分学习的特点就是每执行一步策略后就进行值函数的更新。
在计算第
t
+
1
t+1
t+1个采样
r
t
+
1
r_{t+1}
rt+1时按照增量平均公式有:
Q
t
+
1
π
(
x
,
a
)
=
Q
t
π
(
x
,
a
)
+
1
t
+
1
(
r
t
+
1
−
Q
t
π
(
x
,
a
)
)
Q^\pi_{t+1}(x,a)=Q^\pi_{t}(x,a)+\frac{1}{t+1}(r_{t+1}-Q^\pi_{t}(x,a))
Qt+1π(x,a)=Qtπ(x,a)+t+11(rt+1−Qtπ(x,a))
采用近似的方法,令
α
=
α
t
+
1
,
α
\alpha=\alpha_{t+1},\alpha
α=αt+1,α为较小的整数。这种近似在
t
t
t增大时是收敛的。结合策略改进方式(16.15)有:
r
t
+
1
=
(
R
x
→
x
′
a
+
γ
max
a
′
∈
A
+
Q
t
π
(
x
′
,
a
′
)
r_{t+1}=(R^a_{x\rightarrow x'}+\gamma\max\limits_{a'\in A}+Q^\pi_{t}(x',a')
rt+1=(Rx→x′a+γa′∈Amax+Qtπ(x′,a′)
推出:
Q
t
+
1
π
(
x
,
a
)
=
Q
t
π
(
x
,
a
)
+
α
(
R
x
→
x
′
a
+
γ
max
a
′
∈
A
Q
t
π
(
x
′
,
a
′
)
−
Q
t
π
(
x
,
a
)
)
Q^\pi_{t+1}(x,a)=Q^\pi_{t}(x,a)+\alpha (R^a_{x\rightarrow x'}+\gamma\max\limits_{a'\in A}Q^\pi_{t}(x',a')-Q^\pi_{t}(x,a))
Qt+1π(x,a)=Qtπ(x,a)+α(Rx→x′a+γa′∈AmaxQtπ(x′,a′)−Qtπ(x,a))
综合
ε
\varepsilon
ε-贪心法可以的到:
Q
t
+
1
π
(
x
,
a
)
=
Q
t
π
(
x
,
a
)
+
α
(
R
x
→
x
′
a
+
γ
Q
t
π
(
x
′
,
a
′
)
−
Q
t
π
(
x
,
a
)
)
Q^\pi_{t+1}(x,a)=Q^\pi_{t}(x,a)+\alpha (R^a_{x\rightarrow x'}+\gamma Q^\pi_{t}(x',a')-Q^\pi_{t}(x,a))
Qt+1π(x,a)=Qtπ(x,a)+α(Rx→x′a+γQtπ(x′,a′)−Qtπ(x,a))