强化学习

AI

本页面包含AI回答，未竣工

任务与奖赏

K-摇臂赌博机 (K-Armed Bandit)

强化学习面临的主要困难：探索-利用窘境(Exploration-Exploitation dilemma)

在两者之间折中：

上置信界：

Softmax策略通过一个受控的温度参数，将纯粹的“选最好的”贪婪策略，平滑地推广为一种根据价值估计按概率选择的探索策略，使探索的重点偏向于那些看起来更有希望的选项。

为每个摇臂计算一个选择概率，该概率与其当前估计的平均奖励呈正相关。估计价值越高的摇臂，被选中的概率越大，但低价值的摇臂仍有非零概率被探索。

在第 \(t\) 轮，选择摇臂 \(a\) 的概率由 Softmax 分布 决定：

\[ P_t(a) = \frac{e^{\hat{Q}_t(a) / \tau}}{\sum_{b=1}^{K} e^{\hat{Q}_t(b) / \tau}} \]

特性	Softmax策略	ε-贪心策略
探索方式	基于价值的探索。探索集中在有潜力的次优臂上，对极差的臂探索概率极低。	均匀随机的探索。所有非最优臂（无论好坏）在探索时被选中的概率相同。
智能程度	更“智能”，探索更有方向性。	更简单直接，探索较盲目。
参数	温度 \(\tau\)（连续调节）。	探索率 \(\epsilon\)（通常固定或缓慢衰减）。

初始化：为每个摇臂 \(a\) 维护一个累计奖励和 \(R_a\) 与尝试次数 \(N_a\)，并设置初始温度 \(\tau\)。
循环（每一轮）：
- 计算价值估计：\(\hat{Q}(a) = R_a / N_a\)（若 \(N_a=0\)，可设为一个高值以鼓励初期探索）。
- 计算选择概率：根据上述Softmax公式，为每个摇臂计算概率 \(P(a)\)。
- 依概率选择：根据概率分布 \(P(a)\) 随机抽取一个摇臂 \(A_t\)。
- 执行并获得奖励：拉动摇臂 \(A_t\)，得到奖励 \(r_t\)。
- 更新估计：更新该摇臂的统计值：\(N_{A_t} \leftarrow N_{A_t} + 1\)， \(R_{A_t} \leftarrow R_{A_t} + r_t\)。
- （可选）衰减温度：缓慢减小 \(\tau\)。