Skip to content

强化学习

AI

本页面包含AI回答,未竣工

任务与奖赏

K-摇臂赌博机

K-摇臂赌博机 (K-Armed Bandit)

  • 只有一个状态,K个动作
  • 每个摇臂的奖赏服从某个期望未知的分布
  • 执行有限次动作
  • 最大化累积奖赏

强化学习面临的主要困难:探索-利用窘境(Exploration-Exploitation dilemma)

  • 探索:尝试当前非最优的摇臂,以收集更多信息、更新估计,可能在未来发现更高收益的选项。
  • 利用:选择当前根据历史信息估计收益最高的摇臂,获取即时的确定收益。

在两者之间折中:

  • \(\epsilon\)-贪心
  • Softmax

\(\epsilon\)贪心

  • 以 ε 的概率随机选择一个摇臂(探索)。
  • 以 1-ε 的概率选择当前平均奖励最高的摇臂(利用)。
  • 特点:简单直接,但探索随机、低效。

上置信界:

  • 为每个摇臂的估计奖励值加上一个不确定性边界。
  • 总是选择 “估计值 + 不确定性边界” 最大的摇臂。
  • 原理:尝试次数少的摇臂不确定性高(边界宽),更可能被选中探索;随着尝试增加,其边界收窄,自然转向利用。
  • 特点:有坚实的理论保证,能平衡探索与利用。

SoftMax

Softmax策略通过一个受控的温度参数,将纯粹的“选最好的”贪婪策略,平滑地推广为一种根据价值估计按概率选择的探索策略,使探索的重点偏向于那些看起来更有希望的选项。

1. 核心思想

为每个摇臂计算一个选择概率,该概率与其当前估计的平均奖励呈正相关。估计价值越高的摇臂,被选中的概率越大,但低价值的摇臂仍有非零概率被探索。

2. 算法公式

在第 \(t\) 轮,选择摇臂 \(a\) 的概率由 Softmax 分布 决定:

\[ P_t(a) = \frac{e^{\hat{Q}_t(a) / \tau}}{\sum_{b=1}^{K} e^{\hat{Q}_t(b) / \tau}} \]
  • \(\hat{Q}_t(a)\):到第 \(t\) 轮为止,摇臂 \(a\)平均奖励估计值
  • \(\tau > 0\):关键参数 “温度”
  • \(K\):摇臂总数。

3. 关键参数:温度 \(\tau\) 的作用

  • \(\tau\) 很大(高温)
    • 各摇臂的选择概率趋近于均匀分布\(1/K\))。
    • 此时探索性极强,近乎于随机选择。
  • \(\tau\) 很小(低温)
    • 概率分布趋近于尖锐的独热分布
    • 利用性极强,几乎总是选择当前估计价值最高的摇臂。
  • \(\tau \to 0\):退化为纯贪婪策略。
  • 通常做法:在任务初期设置较大的 \(\tau\) 鼓励探索,随着时间推移逐渐衰减 \(\tau\),使策略从探索为主平滑过渡到利用为主。

4. 与ε-贪心策略的对比

特性 Softmax策略 ε-贪心策略
探索方式 基于价值的探索。探索集中在有潜力的次优臂上,对极差的臂探索概率极低。 均匀随机的探索。所有非最优臂(无论好坏)在探索时被选中的概率相同。
智能程度 更“智能”,探索更有方向性。 更简单直接,探索较盲目。
参数 温度 \(\tau\)(连续调节)。 探索率 \(\epsilon\)(通常固定或缓慢衰减)。

5. 核心步骤流程

  1. 初始化:为每个摇臂 \(a\) 维护一个累计奖励和 \(R_a\) 与尝试次数 \(N_a\),并设置初始温度 \(\tau\)
  2. 循环(每一轮)
    • 计算价值估计\(\hat{Q}(a) = R_a / N_a\)(若 \(N_a=0\),可设为一个高值以鼓励初期探索)。
    • 计算选择概率:根据上述Softmax公式,为每个摇臂计算概率 \(P(a)\)
    • 依概率选择:根据概率分布 \(P(a)\) 随机抽取一个摇臂 \(A_t\)
    • 执行并获得奖励:拉动摇臂 \(A_t\),得到奖励 \(r_t\)
    • 更新估计:更新该摇臂的统计值:\(N_{A_t} \leftarrow N_{A_t} + 1\)\(R_{A_t} \leftarrow R_{A_t} + r_t\)
    • (可选)衰减温度:缓慢减小 \(\tau\)

有模型学习

免模型学习

值函数近似

模仿学习

Comments