Test

非常好！这是一个非常经典且重要的例子，它正是线性回归的代价函数（或损失函数）的矩阵形式。让我们来一步步推导它对 $\hat{w}$ 的求导结果。

给定代价函数： $\(E_{\hat{w}} = (y - X\hat{w})^T(y - X\hat{w})$\)

其中： - $y$ 是 $n \times 1$ 的向量（真实值） - $X$ 是 $n \times d$ 的设计矩阵（特征矩阵） - $\hat{w}$ 是 $d \times 1$ 的参数向量 - $E_{\hat{w}}$ 是一个标量（均方误差的倍数）

目标：求 $\frac{\partial E_{\hat{w}}}{\partial \hat{w}}$

首先，我们展开这个表达式：

\[E_{\hat{w}} = (y - X\hat{w})^T(y - X\hat{w})\]

令 $r = y - X\hat{w}$（残差向量），则：

\[E_{\hat{w}} = r^T r = \|r\|^2\]

展开原式：

\[E_{\hat{w}} = (y^T - \hat{w}^T X^T)(y - X\hat{w})$$ $$= y^T y - y^T X\hat{w} - \hat{w}^T X^T y + \hat{w}^T X^T X \hat{w}\]

现在我们有四项：

关键观察：第2项和第3项实际上是相等的，因为： - $y^T X\hat{w}$ 是一个标量 - 标量的转置等于自身：$(y^T X\hat{w})^T = \hat{w}^T X^T y$ - 所以 $y^T X\hat{w} = \hat{w}^T X^T y$

因此，第2项和第3项可以合并： $\(- y^T X\hat{w} - \hat{w}^T X^T y = -2 y^T X\hat{w}$\)

现在我们的表达式简化为： $\(E_{\hat{w}} = y^T y - 2 y^T X\hat{w} + \hat{w}^T X^T X \hat{w}$\)

使用矩阵求导的常用公式：

线性项：$\frac{\partial (a^T \hat{w})}{\partial \hat{w}} = a$
这里 $a^T = -2 y^T X$，所以 $a = -2 X^T y$
因此：$\frac{\partial (-2 y^T X\hat{w})}{\partial \hat{w}} = -2 X^T y$
二次项：$\frac{\partial (\hat{w}^T A \hat{w})}{\partial \hat{w}} = (A + A^T)\hat{w}$
这里 $A = X^T X$，且 $A^T = (X^T X)^T = X^T X = A$（对称矩阵）
因此：$\frac{\partial (\hat{w}^T X^T X \hat{w})}{\partial \hat{w}} = 2X^T X \hat{w}$

\[\frac{\partial E_{\hat{w}}}{\partial \hat{w}} = 0 - 2 X^T y + 2 X^T X \hat{w}$$ $$= 2 X^T X \hat{w} - 2 X^T y$$ $$= 2 X^T (X \hat{w} - y)\]

\[\frac{\partial E_{\hat{w}}}{\partial \hat{w}} = 2 X^T (X \hat{w} - y)\]

几何解释：这个结果告诉我们，代价函数 $E$ 在 $\hat{w}$ 点的梯度方向是 $X^T (X \hat{w} - y)$。在梯度下降中，我们会沿着这个方向的负方向更新参数。
与正规方程的关系：如果我们令梯度为0来求极小值点： $\(X^T (X \hat{w} - y) = 0$\) $\(X^T X \hat{w} = X^T y$\) 这就是著名的正规方程，其解为 $\hat{w} = (X^T X)^{-1} X^T y$（当 $X^T X$ 可逆时）。
维度检查：
$X^T$ 是 $d \times n$
$(X \hat{w} - y)$ 是 $n \times 1$
结果 $2 X^T (X \hat{w} - y)$ 是 $d \times 1$，与 $\hat{w}$ 的维度一致 ✓

这个推导是理解线性回归和更复杂模型优化基础的重要一步！

Comments