雅可比行列式【1】定义及一些推导- ExplodedVegetable

link之家

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

一、何为雅可比行列式

我没记错的话，理工科的学生在高等数学2、数学分析2学习了一定的重积分之后，一定会遇到二重积分的被积函数中含有 \(x^2+y^2\) 时将直角坐标系转化为极坐标系会简化计算的结论，即：

\[\int_b^a\int_c^df(x,y)dxdy=\int_\alpha^\beta d\theta\int_{r_1(\theta)}^{r_2(\theta)}f(r\cos{\theta},r\sin{\theta})rdr \]

这里其实就存在一个坐标变换的运算，而这个变换的行列式正式雅可比行列式：

\[\iint f(x,y)dxdy=\iint f(x(u,v),y(u,v))\left|J(u,v)\right|dudv\\ |J(u,v)|=\left|\frac{\partial(x,y)}{\partial(u,v)} \right| \]

（例二）

同样，在多元统计分析中，如果度过我之前的文章的读者，一定会对我们通过服从标准正态分布的随机变量的线性组合来求一般多维正态随机向量联合概率密度函数的时候，关于 \((x\to u)\) 的变换印象深刻，即设 \(X\sim N_p(\mu,\Sigma)，\Sigma>0\) ，则：

由 \(X=AU+\mu\) ,则 \(J(x\to u)\) 为：

\[\begin{align} J(x\to u)&=\left[\frac{\partial x'}{\partial u}\right]_+\\ \left[ \begin{array}{ccc} \frac{\partial x_1}{\partial u_1}&\dots&\frac{\partial x_p}{\partial u_1}\\ \vdots&&\vdots\\ \frac{\partial x_1}{\partial u_p}&\dots&\frac{\partial x_p}{\partial u_p}\\ \end{array} \right]\\ &=|A'|_+\\ &=|AA'|^{1/2}=|\Sigma|^{1/2} \end{align} \]

因为 \(\Sigma>0,rank(\Sigma)=p\) 所以 \(\exist A_{p\times p}\) 为非奇异方阵，使得 \(\Sigma=A'A\) 并且满足 \(X=AU+\mu\) ,其中 \(U_i\) 相互独立同 \(N(0,1)\) 分布,则

\[\begin{align} f_X(x)=&\frac1{(2\pi)^{p/2}}exp\{-\frac12u'u\}J(u\to x)\\ =&\frac1{(2\pi)^{p/2}}exp\{-\frac12[A^{-1}(x-\mu)]'[A^{-1}(x-\mu)]\}\frac1{J(x\to u)}\\ =&\frac1{(2\pi)^{p/2}|\Sigma|^{1/2}}exp\{-\frac12(x-\mu)'\Sigma^{-1}(x-\mu)\} \end{align}

\[f(x)=\frac1{(2\pi)^{p/2}|\Sigma|^{1/2}}exp\{-\frac12(x-\mu)'\Sigma^{-1}(x-\mu)\}

综上所述，我们可以得出一个初步的认识，那就是对于二维的坐标，我们似乎可以通过雅可比行列式这个东西，对坐标进行一个变换，使之适应题目当前的状态，第二个例子理解起来是相对困难的，但却给了我们一个很好的启发，就是雅克比行列式可以推广到 \(n\) 维的情况，而且形式并没有变得很复杂。

于是顺着这个思维，我们首先引入一个新的概念， 仿射变换 。

1.2- 仿射变换

仿射变换（affine transformation） 是一种我们很熟悉的变换：

设 \(A_{n\times n}=(a_{ij})\) , \(b=\mathbb{I_n}\otimes b_i，(i=1,2,\dots,n)\) ，则定义于 \(\R^n\) 的仿射变换有如下形式：

\[T(x)=Ax+b

在一元的情况下我们很容易发现，其实仿射变换就是一个 \((x\to y)\) 的变换。而且，仿射变换有一个极其重要的性质即： 任一直线经仿射变换的像仍是一直线，而且直线上各点之间的距离比例维持不变。 （共线不变性，比例不变性）。

在此基础上我们假设存在一个映射,对于 \(x=(x_1,\dots,x_n)'\) 有：

\[F:\R^n\to\R^m\rightrightarrows F(x)= \left[ \begin{array}{c} f_1(x_1,\dots,x_n)\\ \vdots\\ f_m(x_1,\dots,x_n) \end{array} \right] \]

由于对于每一个 \(f_i:\R^n\to\R\) ,我们可以推广单变量时的线性拟合，即令 \(T:\R^n\to\R^m\) 为一个仿射变换，表示如下：

\[T(x)=Ax+b \]

其中 \(A_{m\times n},b\in\R^m\) ,则该矩阵即为 雅可比 Jacobian 矩阵 。

二、雅可比行列式的定义

2.1- 向量函数可导性

由上一节我们定义过一个仿射变换 \(T(x)=Ax+b\) 可以近似地表示 \(F(x)\) ,即 \(T(x)\to F(x_0)\ (x\to x_0)\) ,即：

\[\begin{align} T(x)&=Ax+b\\ F(x_0)&=Ax_0+b\\ \therefore T(x)=&A(x-x_0)+F(x_0) \end{align} \]

若存在一个矩阵 \(A\) 使得仿射变换在某点最优近似于向量函数，那么下式应该成立：

\[\lim_{x\to p}\frac{(F(x)-F(x_0))-A(x-x_0)}{||x-p||}=O \]

我们可以说 \(F:\R^n\to\R^m\) 在 \(x_0\) 可导。

若其在 \(x_0\) 点可导，那么 \(A\) 是由 \(x_0\) 唯一决定的，事实上，考虑 \(\R^n\) 的标准基 \(\{e_1,\dots,e_n\}\) ,设 \(h\) 为一极小数:

\[\lim_{h\to0}\frac{F(x_0+he_j)-F(x_0)-A(he_j)}{h}=0 \]

因为 \(A(he_j)=h(Ae_j)\) ,则

\[\begin{align} \lim_{h\to0}\frac{F(x_0+he_j)-F(x_0)}{h}&=Ae_j\\ 等号右边等于矩阵A的第j列,\frac{\partial F}{\partial x_j} \left( \begin{array}{c} \frac{\partial f_1}{\partial x_j}(x_0)\\ \frac{\partial f_2}{\partial x_j}(x_0)\\ \vdots\\ \frac{\partial f_m}{\partial x_j}(x_0) \end{array} \right) \end{align} \]

因此：

\[A=\left[ \begin{array}{ccc} \frac{\partial f_1}{\partial x_1}(x_0)&\dots&\frac{\partial f_1}{\partial x_n}(x_0)\\ \vdots&&\vdots\\ \frac{\partial f_m}{\partial x_1}(x_0)&\dots&\frac{\partial f_m}{\partial x_n}(x_0)\\ \end{array} \right]_{m\times n} \]

这个矩阵即称为向量函数 \(F\) 在 \(x_0\) 的

Jacobian矩阵 或 导数矩阵(derivative matrix) ，记为 \(J(x_0)\) 。因此，可导函数 \(F\) 在 \(x_0\) 的最佳仿射近似是

\[T(x)=F(x_0)+J(x_0)(x-x_0) \]

对于（例一）中极坐标与卡式坐标的转换：

\[\begin{cases} x=r\cos{\theta}\\ y=r\sin{\theta} \end{cases} \]

于是：

\[\begin{align} \frac{dx}{dt}= \left( \begin{array}{c} \frac{dx}{dt}\\ \frac{dy}{dt} \end{array} \right) =&\left( \begin{array}{c} \frac{\partial x}{\partial r}\frac{\partial r}{\partial t}+\frac{\partial x}{\partial \theta}\frac{\partial \theta}{\partial t}\\ \frac{\partial y}{\partial r}\frac{\partial r}{\partial t}+\frac{\partial y}{\partial \theta}\frac{\partial \theta}{\partial t} \end{array} \right)\\ =&\left( \begin{array}{cc} \frac{\partial x}{\partial r}&\frac{\partial x}{\partial \theta}\\ \frac{\partial y}{\partial r}&\frac{\partial y}{\partial \theta} \end{array} \right)\left( \begin{array}{c} \frac{dr}{dt}\\ \frac{d\theta}{dt} \end{array} \right)\\ =&J(r,\theta)\frac{du}{dt} \end{align}