强化学习
AI
本页面包含AI回答,未竣工
任务与奖赏
K-摇臂赌博机
K-摇臂赌博机 (K-Armed Bandit)
- 只有一个状态,K个动作
- 每个摇臂的奖赏服从某个期望未知的分布
- 执行有限次动作
- 最大化累积奖赏
强化学习面临的主要困难:探索-利用窘境(Exploration-Exploitation dilemma)
- 探索:尝试当前非最优的摇臂,以收集更多信息、更新估计,可能在未来发现更高收益的选项。
- 利用:选择当前根据历史信息估计收益最高的摇臂,获取即时的确定收益。
在两者之间折中:
- \(\epsilon\)-贪心
- Softmax
\(\epsilon\)贪心
- 以 ε 的概率随机选择一个摇臂(探索)。
- 以 1-ε 的概率选择当前平均奖励最高的摇臂(利用)。
- 特点:简单直接,但探索随机、低效。
上置信界:
- 为每个摇臂的估计奖励值加上一个不确定性边界。
- 总是选择 “估计值 + 不确定性边界” 最大的摇臂。
- 原理:尝试次数少的摇臂不确定性高(边界宽),更可能被选中探索;随着尝试增加,其边界收窄,自然转向利用。
- 特点:有坚实的理论保证,能平衡探索与利用。
SoftMax
Softmax策略通过一个受控的温度参数,将纯粹的“选最好的”贪婪策略,平滑地推广为一种根据价值估计按概率选择的探索策略,使探索的重点偏向于那些看起来更有希望的选项。
1. 核心思想
为每个摇臂计算一个选择概率,该概率与其当前估计的平均奖励呈正相关。估计价值越高的摇臂,被选中的概率越大,但低价值的摇臂仍有非零概率被探索。
2. 算法公式
在第 \(t\) 轮,选择摇臂 \(a\) 的概率由 Softmax 分布 决定:
\[
P_t(a) = \frac{e^{\hat{Q}_t(a) / \tau}}{\sum_{b=1}^{K} e^{\hat{Q}_t(b) / \tau}}
\]
- \(\hat{Q}_t(a)\):到第 \(t\) 轮为止,摇臂 \(a\) 的平均奖励估计值。
- \(\tau > 0\):关键参数 “温度”。
- \(K\):摇臂总数。
3. 关键参数:温度 \(\tau\) 的作用
- \(\tau\) 很大(高温):
- 各摇臂的选择概率趋近于均匀分布(\(1/K\))。
- 此时探索性极强,近乎于随机选择。
- \(\tau\) 很小(低温):
- 概率分布趋近于尖锐的独热分布。
- 利用性极强,几乎总是选择当前估计价值最高的摇臂。
- \(\tau \to 0\):退化为纯贪婪策略。
- 通常做法:在任务初期设置较大的 \(\tau\) 鼓励探索,随着时间推移逐渐衰减 \(\tau\),使策略从探索为主平滑过渡到利用为主。
4. 与ε-贪心策略的对比
| 特性 | Softmax策略 | ε-贪心策略 |
|---|---|---|
| 探索方式 | 基于价值的探索。探索集中在有潜力的次优臂上,对极差的臂探索概率极低。 | 均匀随机的探索。所有非最优臂(无论好坏)在探索时被选中的概率相同。 |
| 智能程度 | 更“智能”,探索更有方向性。 | 更简单直接,探索较盲目。 |
| 参数 | 温度 \(\tau\)(连续调节)。 | 探索率 \(\epsilon\)(通常固定或缓慢衰减)。 |
5. 核心步骤流程
- 初始化:为每个摇臂 \(a\) 维护一个累计奖励和 \(R_a\) 与尝试次数 \(N_a\),并设置初始温度 \(\tau\)。
- 循环(每一轮):
- 计算价值估计:\(\hat{Q}(a) = R_a / N_a\)(若 \(N_a=0\),可设为一个高值以鼓励初期探索)。
- 计算选择概率:根据上述Softmax公式,为每个摇臂计算概率 \(P(a)\)。
- 依概率选择:根据概率分布 \(P(a)\) 随机抽取一个摇臂 \(A_t\)。
- 执行并获得奖励:拉动摇臂 \(A_t\),得到奖励 \(r_t\)。
- 更新估计:更新该摇臂的统计值:\(N_{A_t} \leftarrow N_{A_t} + 1\), \(R_{A_t} \leftarrow R_{A_t} + r_t\)。
- (可选)衰减温度:缓慢减小 \(\tau\)。