Least Squares

2017-03-01

4 minute read

math , optimization

要理解 least squares，我们决定通过一个最简单的例子，那就是一元线性拟合

我们观测到了 $n$ 对值 $(x_{i}, y_{i}), i = 1, \dots, n$

我们现在用找到一条直线来拟合这堆数据 $y = a x + b$

Example

最小二乘的表示形式是一个 error 表达式

$E (a, b) = \sum_{i = 1}^{n} (y_{i} - (a x_{i} + b))^{2}$

这个式子的本质是当 $a, b$ 是一个很好的 fitting 参数的时候，均值应该很小可以省略掉，那么 $E (a, b)$ 其实就是 $y_{i} - (a x_{i} + b)$ 的方差的 $n$ 倍

我们的优化目标其实就是最小这个 error，这样暗含的就是你找出了一组参数拟合了一个 model，在和目标值的 error 的分布上，是 0 均值，最小方差的。

求解的方法很简单就是对参数 $a$ 和 $b$ 当作未知数来求导，这里一阶导数为 0 的时候必定是极值，单变量的时候梯度 gradient 就是导数。

$\frac{\partial E}{\partial a} = 0, \frac{\partial E}{\partial b} = 0$

$\frac{\partial E}{\partial a} = \sum_{i = 1}^{n} 2 (y_{i} - (a x_{i} + b)) \cdot (- x_{i}) \frac{\partial E}{\partial b} = \sum_{i = 1}^{n} 2 (y_{i} - (a x_{i} + b)) \cdot 1$

这里可以写成 $a, b$ 行列式形式

$(\begin{matrix} a \\ b \end{matrix}) = {(\begin{matrix} \sum x_{i}^{2} & \sum x_{i} \\ \sum x_{i} & \sum 1 \end{matrix})}^{- 1} (\begin{matrix} \sum x_{i} y_{i} \\ \sum y_{i} \end{matrix})$

$(X^{T} X) β = X^{T} y$

where $X = [x^{k}, x^{k} - 1, \dots, x^{0}]$ , $k$ is the order. here $k = 1$ . 这里的 $β$ 就是我们的 coefficient, 有时候也叫做 estimator

Weighted least squares 则可以表达为

$(X^{T} W X) β = X^{T} W y$

这里 $f (x, β)$ 如果是 non linear 则是非线性的最小二乘

设 $r_{i}$ 为 residual，则梯度方程

$\frac{\partial E}{\partial β_{j}} = 2 \sum_{i} r_{i} \frac{\partial r_{i}}{\partial β_{j}}, j = 1, \dots, k, i = 1, \dots, n$

这样一组 equations 没有 closed form 的解。

因此用 iteration 的方法来调整参数

$β_{j} \approx β_{j}^{t + 1} = β_{j}^{t} + Δ β_{j}$

$t$ 是迭代次数， $Δ β_{j}$ 是一个 shift vector，然后每一步迭代的时候，用一阶泰勒展开来线性化。

$f (x_{i}, β) \approx f (x_{i}, β^{t}) + \sum_{j} \frac{\partial f (x_{i}, β^{t})}{\partial β_{j}} (β_{j} - β_{j}^{t}) \approx f (x_{i}, β^{t}) + \sum_{j} J_{i j} Δ β_{j}$

$J$ 是 Jacobian，

这个情况下，设 $Δ y_{i} = y_{i} - f (x_{i}, β^{k})$

residual 可以写成

$r_{i} = y_{i} - f (x_{i}, β) = (y_{i} - f (x_{i}, β^{t})) + (f (x_{i}, β^{t}) - f (x_{i}, β)) = Δ y_{i} - \sum_{s = 1}^{k} J_{i s} Δ β_{s}$

代入梯度方程

$\sum_{i} r_{i} \frac{\partial r_{i}}{\partial β_{j}} = \sum_{i} (Δ y_{i} - \sum_{s = 1}^{k} J_{i s} Δ β_{s}) J_{i j}$

这些梯度方程可以变形为

$\sum_{i} \sum_{s} J_{i j} J_{i s} Δ β_{s} = \sum_{i} J_{i j} Δ y_{i}$

写成矩阵形式就是

$(J^{T} J) Δ β = J^{T} Δ y$

Weighted sum 形式

$(J^{T} W J) Δ β = J^{T} W Δ y$

这也是高斯牛顿迭代法的基本思想，用泰勒级数展开去近似的代替非线性模型，然后通过多次迭代修正系数来逼近。