牛顿法

牛顿法一般有两个用途：方程求根；最优化。

求根问题

对于高次方程，求根公式要么没有要么就很复杂，此时可以用牛顿法来求解。首先根据泰勒公式，把f(x)在x0出展开到一阶（随机取一个x0求f(x)）：

f (x) = f (x_{0}) + f^{'} (x_{0}) (x - x_{0})

令f(x) = 0得：

x = x_{0} - \frac{f ( x _{0} )}{f ^{'} ( x _{0} )} = x_{1}

由于f(x)用泰勒公式展开到一阶，严格意义上展开式并不相等，只是可以说f(x_1)比f(x_0)更接近0 而已，由此迭代便自然而然了:

x_{n + 1} = x_{n} - f (x_{n}) / f^{'} (x_{n})

通过迭代，必然可以在f(x*) = 0 ,x=x*时收敛。也就是求出了根。

把上面得泰勒公式展开求解迭代过程在几何表示如下图：

这也是牛顿法的基本原理。

海塞矩阵：是一个由多变量实值函数的所有二阶偏导数组成的方块矩阵。

使用下标记号表示为：

H_{ij} = \frac{\partial ^{2} f}{\partial _{x i} \partial _{x j}}

泰勒展开与海塞矩阵：

1586361820642

1586361971718

这就是牛顿法更新的公式。此时下降最快的方向就是 海塞矩阵逆矩阵 * 梯度

由求根迭代可以看出，牛顿法显然收敛速度比较快。

通俗来说，二阶比一阶收敛更快，因为采用二阶逆矩阵求解，不仅考虑了梯度，也考虑了下一步的梯度，看得更远，所以收敛更快。（来自知乎）

牛顿法既然比梯度下降法收敛快，那么为什么在深度学习中并未广泛应用，而是梯度下降法用的更多？原因大致如下：