Jacobian矩阵和Hessian矩阵的作用是什么？

王飞扬 · 2021年12月7日

作者：浮生六记
链接：https://www.zhihu.com/question/271654098/answer/2198273249
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

1.定义和几何性质

Jacobian矩阵： $f:R^n\rightarrow R^m$ : $J_{i,j} = \frac{\partial}{\partial{x_j}}f(x)_i$

Hessian矩阵： $f: R^n\rightarrow R$ : $\frac{{\partial}^2}{\partial{x_i}\partial{x_j}}f$

Jacobian是一阶导数，告诉我们函数如何变化，如果f是标量的话，Jacobian就是一个矢量，指向f增大最快的方向。Jacobian为零的点叫临界点，可能是最大、最小或者鞍点。

f在特定方向e的一阶导数为 $e*J$

Hessian是二阶导数，相当于曲率，告诉我们函数的凹凸性质，如下图所示：

从左到右分别是凹、平、凸，当一个点的Jacobian为0时，可以通过Hessian判断这个点为极大、极小、鞍点。

如果f二阶偏导连续，那么Hessian是对称的，实对称的情况下Hessian可以进行特征值分解，分解为：

$H=Q\Lambda Q^T$ （参见如何理解矩阵特征值？）

f在特定方向e的二阶导数为 $e^THe$ 。由此我们可以知道在H的特征向量方向的截面的曲率相对应的，就是这个特征向量对应的特征值。如果某个临界点（Jacobian为0的点）处H为正定的话，沿着任何特征值方向这个函数都是凸的，这个点一定是最小值，如果H为负定的话这个局部是凹的这个点一定是最大值，H有为零的特征值或者有正有负的话，无法判断。