如何通俗易懂地解释卷积？

Question

如何通俗易懂地解释卷积？

关注者

10,655

被浏览

1,950,235

199 个回答

我来举个通俗易懂的例子吧。我大一是这么理解记忆的，到现在大四一直没忘记过。

要理解卷积，就必须树立起来“ 瞬时行为的持续性后果 ”这个概念。

举个例子。在一个时刻点，我以迅雷不及掩耳之势吃下了一个冰激凌，此时我的体重瞬间增加，之后随着消化吸收能量利用和排泄等生理活动的进行，我的体重又缓慢下降。如下图所示：

我们把这个函数记为 $f(t)$ 。我们把基础体重记为0，即没吃冰淇凌的时候体重是0，吃冰淇凌的效果过去了之后体重还是0。我们记每一个冰淇凌带来的瞬间体重增加为 $W_0$ 。易知， $f(0)=W_0,f(+\infty)=0$ 。

如何理解“瞬时行为的持续性后果”呢？在这个例子里，吃冰激凌是瞬间完成的动作，是一个瞬时行为；吃完冰激凌之后的体重的缓慢下降是持续了一段时间的，因此是吃冰激凌这个瞬时行为的一个持续性后果。

此时，只有在0时刻的瞬间吃了一个冰淇凌，在0时刻的瞬间，吃冰淇凌的速度是 $\frac{1}{\delta t} = +\infty$ ，其中 $\delta t$ 表示极小的一个时间段；在其他时刻，吃冰淇凌的速度为0。因此，我们可以 用一个冲击函数 $\delta(t)$ 来表示在这种情况下吃冰淇凌的速度 。 $f(t)$ 表示的是，当吃冰淇凌的速度为冲击函数 $\delta(t)$ 的时候，对我的体重的影响。

接下来我们考虑，我吃冰淇凌的频率很低，且每次只在一个瞬间吃一个冰淇凌，每次都等到体重恢复到原来的程度了再吃一个，那么我的体重变化就是这样子的。

这种情况下，如果我想要知道每一个时刻的体重，只需要知道我吃每个冰淇凌的时刻 $t_1,t_2,…t_5…$ ，再知道吃一个冰淇凌的效果 $f(t)$ ，很容易就能求出来了。

接下来，我们考虑， 如果我吃冰淇凌的速度恒定为1（注意不是一瞬间吃一个了，不是冲击函数），且时时刻刻都在吃冰淇凌，那么，在我连续吃了 $T$ 时间的冰淇凌之后，我的体重是多少呢？

这个问题是不是有点不好算了呢？之前的冰淇凌增加的体重还没降到0呢，现在的冰淇凌带来的体重就又来了，还一直持续，还是连续的，想想就头疼。

这个时候，要引入两个个原理。

第一， 线性原理。即，我在一瞬间吃冰淇凌的个数，会以线性的方式作用在冰淇凌对体重的影响函数 $f(t)$ 上。我在一个瞬间吃了1个冰淇凌，之后我的体重变换是 $f(t)$ ，如果我在一个瞬间吃了0.5个冰淇凌，之后我的体重变换是 $0.5f(t)$ ，如果n个呢，那就是 $nf(t)$ 。

第二， 累加原理。即，冰淇凌的作用效果是可以累加的。 即，一段时间之前我吃了一个冰淇凌，经过了一段时间的体重下降，现在我的体重是 $W_1$ 。现在我又吃了一个冰淇凌，体重又增加了。假设这个增加是可以累积的（直观上也是可以累积的），那么我的体重就会是 $W_1+f(0)=W_1+W_0$ 。这就是累加原理。

这时我们来试着计算，在从开始就不停地吃冰淇凌，且吃冰淇凌的速度恒定为1的情况下，在任意时刻 $T$ 我的体重。

由于我在不停地吃冰淇凌，所以，我们先算，在某时刻 $\tau(\tau<T)$ 附近的一瞬间 $d\tau$ ，我吃的冰淇凌对现在时刻 $T$ 的我的体重的影响。因为，吃冰淇凌的速度是1，时间是 $d\tau$ ，因此，在 $d\tau$ 这一瞬间我吃的冰淇凌的个数是 $1*d\tau=d\tau$ 。那么根据线性原理，在 $d\tau$ 这一瞬间，我吃的冰淇凌对现在时刻 $T$ 的我的体重的影响就是 $f(T-\tau)d\tau$ 。

那么，根据累加原理，现在时刻 $T$ 的我的体重就是：从0到 $T$ 时刻我吃的所有冰淇凌对我的体重的影响的累加，即为：

$W(T) = \int_{0}^{T}f(T-\tau)d\tau$

上面这个式子是不是有点像我们学过的卷积了呢？

我们上面的讨论基于我们吃冰淇凌的速度是常数1，那么， 如果我吃冰淇凌的速度不是常数，而是一个连续变化的函数，如在t时刻，吃冰淇凌的速度是 $g(t)$ 。 那么，在我连续吃了 $T$ 时间的冰淇凌之后，我的体重是多少呢？

同样，我们先算，在某时刻 $\tau(\tau<T)$ 附近的一瞬间 $d\tau$ ，我吃的冰淇凌对现在时刻 $T$ 的我的体重的影响。因为，吃冰淇凌的速度是 $g(\tau)$ ，时间是 $d\tau$ ，因此，在 $d\tau$ 这一瞬间吃的冰淇凌的个数是 $g(\tau)*d\tau=g(\tau)d\tau$ 。那么根据线性原理，在 $d\tau$ 这一瞬间，我吃的冰淇凌对现在时刻 $T$ 的我的体重的影响就是 $g(\tau) f(T-\tau)d\tau$ 。

再根据累加原理，现在时刻 $T$ 的我的体重就是：从0到 $T$ 时刻我吃的所有冰淇凌对我的体重的影响的累加，即为：

$W(T) = \int_{0}^{T}g(\tau)f(T-\tau)d\tau$

这就是大家平时接触到的卷积了！

因此，在我的理解下，我将卷积解释为：

一个对象（本文中的吃冰淇凌）对一个系统（本文中的体重）的作用效果满足 线性原理、累加原理 。该对象对这个系统连续作用了一段时间后，求该系统的状态。这个时候，一个卷积就可以求出来了！

在卷积 $W(T) = \int_{0}^{T}g(\tau)f(T-\tau)d\tau$ 中，第一个函数 $g(t)$ 表示这个对象对系统的作用速度。第二个函数 $f(t)$ 表示当作用速度为单位冲击函数时这个对象对系统的作用效果。

我们来验证一下第二个函数 $f(t)$ 的意义。取我吃冰淇凌的速度为单位冲击函数 $g(t)=\delta(t)$ ，则到时刻 $T$ 我的体重就是： $W(T) = \int_{0}^{T}\delta(\tau)f(T-\tau)d\tau=f(T)$ ，的的确确就是我吃冰淇凌的速度为单位冲击函数时，我的体重的变换。

最后，是一点说明。

课本上标准的卷积其实长成下面这个样子，积分区间是 $(-\infty,+\infty)$ 。

$W(T) = \int_{-\infty}^{+\infty}g(\tau)f(T-\tau)d\tau$

这个在我这个case里也比较好理解，主要是考虑到时间的物理意义。

第一，理解当 $t<0$ 时， $f(t)=0$ 恒成立。这个比较容易理解，因为，我在 $t=0$ 时刻吃的冰淇凌，对吃冰淇凌之前也就是 $t<0$ 时刻的我的体重是没有影响的。所以，当 $\tau>T$ 的时候， $T-\tau<0$ ， $f(T-\tau)=0$ 。

第二，理解当 $t<0$ 时， $g(t)=0$ 恒成立。这个更好理解，就是时间非负性。我是从 $t=0$ 时刻开始吃冰淇凌的， $g(t)$ 表示我在 $t$ 时刻吃冰淇凌的速度。 $t<0$ 的时候，我还没吃冰淇凌呢，自然不存在吃冰淇凌的速度这个概念。

所以， $W(T) = \int_{-\infty}^{+\infty}g(\tau)f(T-\tau)d\tau = \int_{0}^{T}g(\tau)f(T-\tau)d\tau$

在其他的case里，情况就不一样了。

1、某一个对象的作用域可能不是时间域，不必遵循时间上的因果律。 因此，当 $t<0$ 时， $f(t)\ne0$ 。

2、某一个对象的作用域可能不是时间域，作用域存在负数的可能性。 因此，当 $t<0$ 时， $g(t)\ne0$ 。

基于以上两点考虑，积分区间就是 $(-\infty,+\infty)$ ，也就是课本上标准的卷积形式了！

编辑于 2020-03-27

马同学 数学话题的优秀回答者 · Accepted Answer

从数学上讲，卷积就是一种运算。

某种运算，能被定义出来，至少有以下特征：

首先是抽象的、符号化的
其次，在生活、科研中，有着广泛的作用

比如加法：

$a+b$ ，是抽象的，本身只是一个数学符号
在现实中，有非常多的意义，比如增加、合成、旋转等等

卷积，是我们学习高等数学之后，新接触的一种运算，因为涉及到积分、级数，所以看起来觉得很复杂。

1 卷积的定义

我们称 $(f*g)(n)$ 为 $f,g$ 的卷积

其连续的定义为：

$\displaystyle (f*g)(n)=\int _{-\infty }^{\infty }f(\tau )g(n-\tau )d\tau \\$

其离散的定义为：

$\displaystyle (f*g)(n)=\sum _{\tau =-\infty }^{\infty }{f(\tau )g(n-\tau )}\\$

这两个式子有一个共同的特征：

这个特征有什么意义？

我们令 $x=\tau ,y=n-\tau$ ，那么 $x+y=n$ 就是下面这些直线：

如果遍历这些直线，就好比，把毛巾沿着角卷起来：

此处受到荆哲：卷积为什么叫「卷」积？答案的启发。

只看数学符号，卷积是抽象的，不好理解的，但是，我们可以通过现实中的意义，来习惯卷积这种运算，正如我们小学的时候，学习加减乘除需要各种苹果、糖果来帮助我们习惯一样。

我们来看看现实中，这样的定义有什么意义。

2 离散卷积的例子：丢骰子

我有两枚骰子：

把这两枚骰子都抛出去：

求：

这里问题的关键是，两个骰子加起来要等于4，这正是卷积的应用场景。

我们把骰子各个点数出现的概率表示出来：

那么，两枚骰子点数加起来为4的情况有：

因此，两枚骰子点数加起来为4的概率为：

$f(1)g(3)+f(2)g(2)+f(3)g(1)\\$

符合卷积的定义，把它写成标准的形式就是：

$\displaystyle (f*g)(4)=\sum _{m=1}^{3}f(4-m)g(m)\\$

3 连续卷积的例子：做馒头

楼下早点铺子生意太好了，供不应求，就买了一台机器，不断的生产馒头。

假设馒头的生产速度是 $f(t)$ ，那么一天后生产出来的馒头总量为：

$\int _{0}^{24}f(t)dt\\$

馒头生产出来之后，就会慢慢腐败，假设腐败函数为 $g(t)$ ，比如，10个馒头，24小时会腐败：

$10*g(t)\\$

想想就知道，第一个小时生产出来的馒头，一天后会经历24小时的腐败，第二个小时生产出来的馒头，一天后会经历23小时的腐败。

如此，我们可以知道，一天后，馒头总共腐败了：

$\int _{0}^{24}f(t)g(24-t)dt\\$

这就是连续的卷积。

4 图像处理

4.1 原理

有这么一副图像，可以看到，图像上有很多噪点：

高频信号，就好像平地耸立的山峰：

看起来很显眼。

平滑这座山峰的办法之一就是，把山峰刨掉一些土，填到山峰周围去。用数学的话来说，就是把山峰周围的高度平均一下。

平滑后得到：

4.2 计算

卷积可以帮助实现这个平滑算法。

有噪点的原图，可以把它转为一个矩阵：

然后用下面这个平均矩阵（说明下，原图的处理实际上用的是正态分布矩阵，这里为了简单，就用了算术平均矩阵）来平滑图像：

$g=\begin{bmatrix} \frac{1}{9} & \frac{1}{9} & \frac{1}{9} \\ \frac{1}{9} & \frac{1}{9} & \frac{1}{9} \\ \frac{1}{9} & \frac{1}{9} & \frac{1}{9} \end{bmatrix}\\$

记得刚才说过的算法，把高频信号与周围的数值平均一下就可以平滑山峰。

比如我要平滑 $a_{1,1}$ 点，就在矩阵中，取出 $a_{1,1}$ 点附近的点组成矩阵 $f$ ，和 $g$ 进行卷积计算后，再填回去：