0%

数学知识补充

论文中涉及到许多基础数学知识,但是在论文里单独展开篇幅太长了。所以统一在这篇blog里记录。

Lipschitz连续

先看连续的定义:函数\(f(x)\)在点\(x = x_0\)连续\(\iff\) \(\lim_{x \rightarrow x_0}f(x) = f(x_0) \iff \forall \varepsilon>0, \exists\delta = \delta(\varepsilon)>0\), 使得当\(|x - x_0| < \delta\)时,有\(|f(x) - f(x_0)| < \varepsilon\)

在此定义中,\(\delta\)不仅与\(\varepsilon\)有关,而且与\(x_0\)有关,应记为\(\delta = \delta(x_0, \varepsilon)\)。也就是说,对于同一个\(\varepsilon\),在不同的\(x_0\)处,使\(|f(x) - f(x_0)| < \varepsilon\)的x取值范围可以差得很多。

所以我们自然会问,对于\(\forall \varepsilon > 0\),是否存在只与\(\varepsilon\)有关的\(\delta\),使得对于区间中任意两点\(x_1, x_2\),只要满足\(|x_1 - x_2| < \delta\),就成立\(|f(x_1) - f(x_2)| < \varepsilon\)

这就引出了一致连续的定义:设函数\(f(x)\)在区间X上有定义,若\(\forall \varepsilon > 0, \exists\delta = \delta(\varepsilon) > 0\),使得对于区间X中的任意两点\(x_1, x_2\),只要满足\(|x_1 - x_2| < \delta\),就成立\(|f(x_1) - f(x_2)| < \varepsilon\),则称函数\(f(x)\)在区间X上一致连续。

可以发现一致连续是比连续更强的一个条件。接下来要讲的Lipschitz连续,是比一致连续还要强的一个条件。

先给出Lipschitz连续的定义:设函数\(f(x)\)在区间X上有定义,若存在\(L > 0\),使得对于区间X中的任意两点\(x_1, x_2\),都满足\(|f(x_1) - f(x_2)| \le L|x_1 - x_2|\),则称\(f(x)\)在区间X上是Lipschitz连续。

下面证明Lipschitz连续是比一致连续更强的一个条件:

证明:\(\forall \varepsilon > 0\),取\(\delta = \frac{\varepsilon}{L} > 0\),则\(\forall x_1, x_2 \in X\),当\(|x_1 - x_2| < \delta\)时,\(|f(x1) - f(x_2)| \le L|x_1 - x_2| < L\delta = L \cdot \frac{\varepsilon}{L} = \varepsilon\),得证。

矩阵范数

1. 矩阵范数定义

矩阵范数的定义如下:

若函数\(f: R^{n \times n} \rightarrow R\)满足:

  1. 正定性:\(f(A) \ge 0, \forall A \in R^{n \times n}\),等号当且仅当\(A = 0\)成立
  2. 齐次性:\(f(\alpha A) = |\alpha| \cdot f(A), \forall A \in R^{n \times n}, \alpha \in R​\)
  3. 三角不等式:\(f(A \pm B) \le f(A) + f(B), \forall A, B \in R^{n \times n}\)
  4. 相容性:\(f(AB) \le f(A) \cdot f(B), \forall A, B \in R^{n \times n}\)

则将\(f(x)\)称为\(R^{n \times n}\)上的范数,记作\(\|\cdot\|\)

还有一条性质,有些矩阵范数也是满足的,即与向量的相容性:

\(f(Ax) \le f(A) \cdot f(x), \forall A \in R^{n \times n}, x \in R^{n}\)

2. 算子(从属)范数

矩阵范数跟向量范数一样,有很多种。但大多数情况都是用的算子(从属)范数中的二范数(谱范数)。

先来介绍一下算子范数

定义:设\(\|\cdot\|\)\(R^n\)上的任意一个范数,若对\(\forall A \in R^{n \times n}\)满足 \[ \|A\| = max_{x \ne 0} \frac{\|Ax\|}{\|x\|} = max_{\|x\| = 1} \|Ax\| \] 则矩阵范数\(\|\cdot\|\)称为从属于向量范数的矩阵范数。也叫由向量范数诱导出来的算子范数。

算子范数肯定是满足矩阵范数的四条定义的,而且它还满足与向量的相容性!(证明网上一大堆略)

另外,对于所有的矩阵算子范数,它们都是等价的。俩矩阵范数等价的定义如下:

俩矩阵范数\(\|\cdot\|_\alpha\)\(\|\cdot\|_\beta\)等价,当且仅当存在两个正数\(d_1, d_2\),使得对于任意矩阵A,都有\(d_1\|A\|_\beta \le \|A\|_\alpha \le d_2\|A\|_\beta\)

一般我们推导不常用范数的有界性时,先推容易算的范数的有界性,再用所有范数等价这条性质来放缩。

3. 矩阵二范数(谱范数)

如果算子范数角标取2,就变成了谱范数: \[ \|A\|_2 = max_{x \ne 0} \frac{\|Ax\|_2}{\|x\|_2} = max_{\|x\|_2 = 1} \|Ax\|_2 \] 矩阵A的谱范数的实际意义是”矩阵A能将向量放大的最大倍数“。在数值上为矩阵A的最大奇异值(\(\sqrt{\lambda_{max}(A^TA)}\))。

那为啥要叫谱范数呢?它跟谱半径又有什么关系呢?

先回忆一下矩阵谱半径的定义:\(\rho(A)=\max\{|\lambda|:\lambda\in\lambda(A)\}\)

\(A\)为对称矩阵时,其特征值的绝对值就是它的奇异值。所以有\(\rho(A) = \sqrt{\lambda_{max}(A^TA)} = \|A\|_2\)

这就是为什么矩阵二范数别称叫谱范数的原因hhhh。

4. 几个与谱半径有关的定理

4.1

定理:谱半径小于等于任意一种范数

证明:设\(\lambda\)为A的特征值,则\(A\alpha = \lambda\alpha\),两边同时取范数得\(\|A\alpha\| = \|\lambda\alpha\|\)

由于算子范数满足与向量的相容性和齐次性,所以有:\(\|A\alpha\| = |\lambda|\|\alpha\| \le \|\alpha\|\|A\|\)

同除\(\|\alpha\|\),得:\(|\lambda| \le \|A\|\)

所以\(\rho(A) = |\lambda|_{max} \le \|A\|\),得证。

4.2

定理:\(\lim_{k\to\infty}A^k=0\Leftrightarrow\rho(A)<1\)

充分性:因为\(\rho(A) < 1\),所以必然可以找到一个矩阵范数,s.t. \(\|A\| < 1\)

所以\(\|A^k\| \le \|A\|^k\),当\(k \rightarrow \infty\)时,\(\|A^k\| \le \|A\|^k \rightarrow 0\)

又因为矩阵范数满足正定性,所以\(\lim_{k\to\infty}A^k=0\)

必要性(反证法):假设\(\rho(A) \ge 1\),设\(\lambda\)为满足\(|\lambda| \ge 1\)的特征值,假设\(\alpha\)为对应的特征向量,则有\(A^k\alpha = \lambda^k\alpha\)

两边取范数,得:\(\left\|A^k\alpha\right\|=\left\|\lambda^k\alpha\right\|=\left|\lambda^k\right|\left\|\alpha\right\|\geq\left\|\alpha\right\|\)

又因为\(\|A^k\alpha\|\leq\|A^k\|\|\alpha\|\)

所以\(\|A^k\|\|\alpha\| \ge \|\alpha\|\)

同除,得:\(\|A^k\| \ge 1\)

\(\lim_{k\to\infty}A^k=0\)矛盾,所以假设不成立,所以\(\rho(A) < 1\),得证。

4.3

\(A \in R^{n \times n}\),则有:

  1. \(\sum_{k=0}^{\infty}A^{k}\)收敛 可推出 \(\rho(A) < 1\)

  2. \(\sum_{k=0}^{\infty}A^{k}\)收敛时,它将收敛于: \[ \sum_{k=0}^{\infty}A^{k} = (I - A)^{-1} \] 而且存在一种算子范数\(\|\cdot\|\),使得 \[ \|(I-A)^{-1}-\sum_{k=0}^mA^k\|\leq\frac{\|A\|^{m+1}}{1-\|A\|}, m \in \mathbb{N} \]

证明:第一条很容易证明,当收敛时它的第无穷项肯定是收敛于0的,然后由4.2即可推出。

下面证明第二条:

因为\(\rho(A) < 1\),所以\(I - A\)的特征值\(1 - \lambda \ne 0\),因此\(|I - A| \ne 0\),所以\(I - A\)可逆。

又因为\((I-A)(I+A+\ldots+A^k)=I-A^{k+1}\)

所以\((I+A+\ldots+A^k)=(I-A)^{-1}(I-A^{k+1})\)

又因为\(k \rightarrow 0\)时,\(A^{k+1} \rightarrow 0\)

所以\((I+A+\ldots+A^k)=(I-A)^{-1}\)

\(\sum_{k=0}^{\infty}A^k=(I-A)^{-1}\)

5. 总结

介绍了矩阵范数。重点讲解了矩阵二范数(谱范数)。以及介绍了与谱半径相关的定理。

  1. 定理1是将谱半径与矩阵范数联系起来
  2. 定理2讨论了矩阵阶乘收敛问题
  3. 定理3讨论了矩阵阶乘数列之和收敛问题