\[f(x)=\frac1{(2\pi)^{p/2}|\Sigma|^{1/2}}exp\{-\frac12(x-\mu)'\Sigma^{-1}(x-\mu)\}
\[T(x)=Ax+b
在一元的情况下我们很容易发现,其实仿射变换就是一个
\((x\to y)\)
的变换。而且,仿射变换有一个极其重要的性质即:
任一直线经仿射变换的像仍是一直线,而且直线上各点之间的距离比例维持不变。
(共线不变性,比例不变性)。
在此基础上我们假设存在一个映射,对于
\(x=(x_1,\dots,x_n)'\)
有:
\[F:\R^n\to\R^m\rightrightarrows F(x)=
\left[
\begin{array}{c}
f_1(x_1,\dots,x_n)\\
\vdots\\
f_m(x_1,\dots,x_n)
\end{array}
\right]
\]
由于对于每一个
\(f_i:\R^n\to\R\)
,我们可以推广单变量时的线性拟合,即令
\(T:\R^n\to\R^m\)
为一个仿射变换,表示如下:
\[T(x)=Ax+b
\]
其中
\(A_{m\times n},b\in\R^m\)
,则该矩阵即为
雅可比 Jacobian 矩阵
。
二、雅可比行列式的定义
2.1- 向量函数可导性
由上一节我们定义过一个仿射变换
\(T(x)=Ax+b\)
可以近似地表示
\(F(x)\)
,即
\(T(x)\to F(x_0)\ (x\to x_0)\)
,即:
\[\begin{align}
T(x)&=Ax+b\\
F(x_0)&=Ax_0+b\\
\therefore T(x)=&A(x-x_0)+F(x_0)
\end{align}
\]
若存在一个矩阵
\(A\)
使得仿射变换在某点最优近似于向量函数,那么下式应该成立:
\[\lim_{x\to p}\frac{(F(x)-F(x_0))-A(x-x_0)}{||x-p||}=O
\]
我们可以说
\(F:\R^n\to\R^m\)
在
\(x_0\)
可导
。
若其在
\(x_0\)
点可导,那么
\(A\)
是由
\(x_0\)
唯一决定的,事实上,考虑
\(\R^n\)
的标准基
\(\{e_1,\dots,e_n\}\)
,设
\(h\)
为一极小数:
\[\lim_{h\to0}\frac{F(x_0+he_j)-F(x_0)-A(he_j)}{h}=0
\]
因为
\(A(he_j)=h(Ae_j)\)
,则
\[\begin{align}
\lim_{h\to0}\frac{F(x_0+he_j)-F(x_0)}{h}&=Ae_j\\
等号右边等于矩阵A的第j列,\frac{\partial F}{\partial x_j}
\left(
\begin{array}{c}
\frac{\partial f_1}{\partial x_j}(x_0)\\
\frac{\partial f_2}{\partial x_j}(x_0)\\
\vdots\\
\frac{\partial f_m}{\partial x_j}(x_0)
\end{array}
\right)
\end{align}
\]
因此:
\[A=\left[
\begin{array}{ccc}
\frac{\partial f_1}{\partial x_1}(x_0)&\dots&\frac{\partial f_1}{\partial x_n}(x_0)\\
\vdots&&\vdots\\
\frac{\partial f_m}{\partial x_1}(x_0)&\dots&\frac{\partial f_m}{\partial x_n}(x_0)\\
\end{array}
\right]_{m\times n}
\]
这个矩阵即称为向量函数
\(F\)
在
\(x_0\)
的
Jacobian矩阵
或
导数矩阵(derivative matrix)
,记为
\(J(x_0)\)
。因此,可导函数
\(F\)
在
\(x_0\)
的最佳仿射近似是
\[T(x)=F(x_0)+J(x_0)(x-x_0)
\]
对于(例一)中极坐标与卡式坐标的转换:
\[\begin{cases}
x=r\cos{\theta}\\
y=r\sin{\theta}
\end{cases}
\]
于是:
\[\begin{align}
\frac{dx}{dt}=
\left(
\begin{array}{c}
\frac{dx}{dt}\\
\frac{dy}{dt}
\end{array}
\right)
=&\left(
\begin{array}{c}
\frac{\partial x}{\partial r}\frac{\partial r}{\partial t}+\frac{\partial x}{\partial \theta}\frac{\partial \theta}{\partial t}\\
\frac{\partial y}{\partial r}\frac{\partial r}{\partial t}+\frac{\partial y}{\partial \theta}\frac{\partial \theta}{\partial t}
\end{array}
\right)\\
=&\left(
\begin{array}{cc}
\frac{\partial x}{\partial r}&\frac{\partial x}{\partial \theta}\\
\frac{\partial y}{\partial r}&\frac{\partial y}{\partial \theta}
\end{array}
\right)\left(
\begin{array}{c}
\frac{dr}{dt}\\
\frac{d\theta}{dt}
\end{array}
\right)\\
=&J(r,\theta)\frac{du}{dt}
\end{align}