Skip to content

Test

非常好!这是一个非常经典且重要的例子,它正是线性回归的代价函数(或损失函数)的矩阵形式。让我们来一步步推导它对 \(\hat{w}\) 的求导结果。

问题重述

给定代价函数: \(\(E_{\hat{w}} = (y - X\hat{w})^T(y - X\hat{w})\)\)

其中: - \(y\)\(n \times 1\) 的向量(真实值) - \(X\)\(n \times d\) 的设计矩阵(特征矩阵) - \(\hat{w}\)\(d \times 1\) 的参数向量 - \(E_{\hat{w}}\) 是一个标量(均方误差的倍数)

目标:求 \(\frac{\partial E_{\hat{w}}}{\partial \hat{w}}\)


推导过程

第一步:展开表达式

首先,我们展开这个表达式:

\[E_{\hat{w}} = (y - X\hat{w})^T(y - X\hat{w})\]

\(r = y - X\hat{w}\)(残差向量),则:

\[E_{\hat{w}} = r^T r = \|r\|^2\]

展开原式:

\[E_{\hat{w}} = (y^T - \hat{w}^T X^T)(y - X\hat{w})$$ $$= y^T y - y^T X\hat{w} - \hat{w}^T X^T y + \hat{w}^T X^T X \hat{w}\]

第二步:分析各项

现在我们有四项:

  1. \(y^T y\):常数项,对 \(\hat{w}\) 求导为 \(0\)
  2. \(- y^T X\hat{w}\)
  3. \(- \hat{w}^T X^T y\)
  4. \(\hat{w}^T X^T X \hat{w}\)

关键观察:第2项和第3项实际上是相等的,因为: - \(y^T X\hat{w}\) 是一个标量 - 标量的转置等于自身:\((y^T X\hat{w})^T = \hat{w}^T X^T y\) - 所以 \(y^T X\hat{w} = \hat{w}^T X^T y\)

因此,第2项和第3项可以合并: \(\(- y^T X\hat{w} - \hat{w}^T X^T y = -2 y^T X\hat{w}\)\)

第三步:应用矩阵求导公式

现在我们的表达式简化为: \(\(E_{\hat{w}} = y^T y - 2 y^T X\hat{w} + \hat{w}^T X^T X \hat{w}\)\)

使用矩阵求导的常用公式:

  1. 线性项\(\frac{\partial (a^T \hat{w})}{\partial \hat{w}} = a\)
  2. 这里 \(a^T = -2 y^T X\),所以 \(a = -2 X^T y\)
  3. 因此:\(\frac{\partial (-2 y^T X\hat{w})}{\partial \hat{w}} = -2 X^T y\)

  4. 二次项\(\frac{\partial (\hat{w}^T A \hat{w})}{\partial \hat{w}} = (A + A^T)\hat{w}\)

  5. 这里 \(A = X^T X\),且 \(A^T = (X^T X)^T = X^T X = A\)(对称矩阵)
  6. 因此:\(\frac{\partial (\hat{w}^T X^T X \hat{w})}{\partial \hat{w}} = 2X^T X \hat{w}\)

第四步:组合结果

\[\frac{\partial E_{\hat{w}}}{\partial \hat{w}} = 0 - 2 X^T y + 2 X^T X \hat{w}$$ $$= 2 X^T X \hat{w} - 2 X^T y$$ $$= 2 X^T (X \hat{w} - y)\]

最终结果

\[\frac{\partial E_{\hat{w}}}{\partial \hat{w}} = 2 X^T (X \hat{w} - y)\]

直观理解和意义

  1. 几何解释:这个结果告诉我们,代价函数 \(E\)\(\hat{w}\) 点的梯度方向是 \(X^T (X \hat{w} - y)\)。在梯度下降中,我们会沿着这个方向的负方向更新参数。

  2. 与正规方程的关系:如果我们令梯度为0来求极小值点: \(\(X^T (X \hat{w} - y) = 0\)\) \(\(X^T X \hat{w} = X^T y\)\) 这就是著名的正规方程,其解为 \(\hat{w} = (X^T X)^{-1} X^T y\)(当 \(X^T X\) 可逆时)。

  3. 维度检查

  4. \(X^T\)\(d \times n\)
  5. \((X \hat{w} - y)\)\(n \times 1\)
  6. 结果 \(2 X^T (X \hat{w} - y)\)\(d \times 1\),与 \(\hat{w}\) 的维度一致 ✓

这个推导是理解线性回归和更复杂模型优化基础的重要一步!

Comments