Test
非常好!这是一个非常经典且重要的例子,它正是线性回归的代价函数(或损失函数)的矩阵形式。让我们来一步步推导它对 \(\hat{w}\) 的求导结果。
问题重述
给定代价函数: \(\(E_{\hat{w}} = (y - X\hat{w})^T(y - X\hat{w})\)\)
其中: - \(y\) 是 \(n \times 1\) 的向量(真实值) - \(X\) 是 \(n \times d\) 的设计矩阵(特征矩阵) - \(\hat{w}\) 是 \(d \times 1\) 的参数向量 - \(E_{\hat{w}}\) 是一个标量(均方误差的倍数)
目标:求 \(\frac{\partial E_{\hat{w}}}{\partial \hat{w}}\)
推导过程
第一步:展开表达式
首先,我们展开这个表达式:
令 \(r = y - X\hat{w}\)(残差向量),则:
展开原式:
第二步:分析各项
现在我们有四项:
- \(y^T y\):常数项,对 \(\hat{w}\) 求导为 \(0\)
- \(- y^T X\hat{w}\)
- \(- \hat{w}^T X^T y\)
- \(\hat{w}^T X^T X \hat{w}\)
关键观察:第2项和第3项实际上是相等的,因为: - \(y^T X\hat{w}\) 是一个标量 - 标量的转置等于自身:\((y^T X\hat{w})^T = \hat{w}^T X^T y\) - 所以 \(y^T X\hat{w} = \hat{w}^T X^T y\)
因此,第2项和第3项可以合并: \(\(- y^T X\hat{w} - \hat{w}^T X^T y = -2 y^T X\hat{w}\)\)
第三步:应用矩阵求导公式
现在我们的表达式简化为: \(\(E_{\hat{w}} = y^T y - 2 y^T X\hat{w} + \hat{w}^T X^T X \hat{w}\)\)
使用矩阵求导的常用公式:
- 线性项:\(\frac{\partial (a^T \hat{w})}{\partial \hat{w}} = a\)
- 这里 \(a^T = -2 y^T X\),所以 \(a = -2 X^T y\)
-
因此:\(\frac{\partial (-2 y^T X\hat{w})}{\partial \hat{w}} = -2 X^T y\)
-
二次项:\(\frac{\partial (\hat{w}^T A \hat{w})}{\partial \hat{w}} = (A + A^T)\hat{w}\)
- 这里 \(A = X^T X\),且 \(A^T = (X^T X)^T = X^T X = A\)(对称矩阵)
- 因此:\(\frac{\partial (\hat{w}^T X^T X \hat{w})}{\partial \hat{w}} = 2X^T X \hat{w}\)
第四步:组合结果
最终结果
直观理解和意义
-
几何解释:这个结果告诉我们,代价函数 \(E\) 在 \(\hat{w}\) 点的梯度方向是 \(X^T (X \hat{w} - y)\)。在梯度下降中,我们会沿着这个方向的负方向更新参数。
-
与正规方程的关系:如果我们令梯度为0来求极小值点: \(\(X^T (X \hat{w} - y) = 0\)\) \(\(X^T X \hat{w} = X^T y\)\) 这就是著名的正规方程,其解为 \(\hat{w} = (X^T X)^{-1} X^T y\)(当 \(X^T X\) 可逆时)。
-
维度检查:
- \(X^T\) 是 \(d \times n\)
- \((X \hat{w} - y)\) 是 \(n \times 1\)
- 结果 \(2 X^T (X \hat{w} - y)\) 是 \(d \times 1\),与 \(\hat{w}\) 的维度一致 ✓
这个推导是理解线性回归和更复杂模型优化基础的重要一步!