数学知识补充

论文中涉及到许多基础数学知识，但是在论文里单独展开篇幅太长了。所以统一在这篇blog里记录。

Lipschitz连续

先看连续的定义：函数\(f(x)\)在点\(x = x_0\)连续\(\iff\) \(\lim_{x \rightarrow x_0}f(x) = f(x_0) \iff \forall \varepsilon>0, \exists\delta = \delta(\varepsilon)>0\), 使得当\(|x - x_0| < \delta\)时，有\(|f(x) - f(x_0)| < \varepsilon\)

在此定义中，\(\delta\)不仅与\(\varepsilon\)有关，而且与\(x_0\)有关，应记为\(\delta = \delta(x_0, \varepsilon)\)。也就是说，对于同一个\(\varepsilon\)，在不同的\(x_0\)处，使\(|f(x) - f(x_0)| < \varepsilon\)的x取值范围可以差得很多。

所以我们自然会问，对于\(\forall \varepsilon > 0\)，是否存在只与\(\varepsilon\)有关的\(\delta\)，使得对于区间中任意两点\(x_1, x_2\)，只要满足\(|x_1 - x_2| < \delta\)，就成立\(|f(x_1) - f(x_2)| < \varepsilon\)？

这就引出了一致连续的定义：设函数\(f(x)\)在区间X上有定义，若\(\forall \varepsilon > 0, \exists\delta = \delta(\varepsilon) > 0\)，使得对于区间X中的任意两点\(x_1, x_2\)，只要满足\(|x_1 - x_2| < \delta\)，就成立\(|f(x_1) - f(x_2)| < \varepsilon\)，则称函数\(f(x)\)在区间X上一致连续。

可以发现一致连续是比连续更强的一个条件。接下来要讲的Lipschitz连续，是比一致连续还要强的一个条件。

先给出Lipschitz连续的定义：设函数\(f(x)\)在区间X上有定义，若存在\(L > 0\)，使得对于区间X中的任意两点\(x_1, x_2\)，都满足\(|f(x_1) - f(x_2)| \le L|x_1 - x_2|\)，则称\(f(x)\)在区间X上是Lipschitz连续。

下面证明Lipschitz连续是比一致连续更强的一个条件：

证明：\(\forall \varepsilon > 0\)，取\(\delta = \frac{\varepsilon}{L} > 0\)，则\(\forall x_1, x_2 \in X\)，当\(|x_1 - x_2| < \delta\)时，\(|f(x1) - f(x_2)| \le L|x_1 - x_2| < L\delta = L \cdot \frac{\varepsilon}{L} = \varepsilon\)，得证。

矩阵范数

1. 矩阵范数定义

矩阵范数的定义如下：

若函数\(f: R^{n \times n} \rightarrow R\)满足：

正定性：\(f(A) \ge 0, \forall A \in R^{n \times n}\)，等号当且仅当\(A = 0\)成立
齐次性：\(f(\alpha A) = |\alpha| \cdot f(A), \forall A \in R^{n \times n}, \alpha \in R\)
三角不等式：\(f(A \pm B) \le f(A) + f(B), \forall A, B \in R^{n \times n}\)
相容性：\(f(AB) \le f(A) \cdot f(B), \forall A, B \in R^{n \times n}\)

则将\(f(x)\)称为\(R^{n \times n}\)上的范数，记作\(\|\cdot\|\)

还有一条性质，有些矩阵范数也是满足的，即与向量的相容性：

\(f(Ax) \le f(A) \cdot f(x), \forall A \in R^{n \times n}, x \in R^{n}\)

2. 算子(从属)范数

矩阵范数跟向量范数一样，有很多种。但大多数情况都是用的算子(从属)范数中的二范数（谱范数）。

先来介绍一下算子范数

定义：设\(\|\cdot\|\)是\(R^n\)上的任意一个范数，若对\(\forall A \in R^{n \times n}\)满足 \[ \|A\| = max_{x \ne 0} \frac{\|Ax\|}{\|x\|} = max_{\|x\| = 1} \|Ax\| \] 则矩阵范数\(\|\cdot\|\)称为从属于向量范数的矩阵范数。也叫由向量范数诱导出来的算子范数。

算子范数肯定是满足矩阵范数的四条定义的，而且它还满足与向量的相容性！（证明网上一大堆略）

另外，对于所有的矩阵算子范数，它们都是等价的。俩矩阵范数等价的定义如下：

一般我们推导不常用范数的有界性时，先推容易算的范数的有界性，再用所有范数等价这条性质来放缩。

3. 矩阵二范数（谱范数）

如果算子范数角标取2，就变成了谱范数： \[ \|A\|_2 = max_{x \ne 0} \frac{\|Ax\|_2}{\|x\|_2} = max_{\|x\|_2 = 1} \|Ax\|_2 \] 矩阵A的谱范数的实际意义是”矩阵A能将向量放大的最大倍数“。在数值上为矩阵A的最大奇异值（\(\sqrt{\lambda_{max}(A^TA)}\)）。

那为啥要叫谱范数呢？它跟谱半径又有什么关系呢？

先回忆一下矩阵谱半径的定义：\(\rho(A)=\max\{|\lambda|:\lambda\in\lambda(A)\}\)

当\(A\)为对称矩阵时，其特征值的绝对值就是它的奇异值。所以有\(\rho(A) = \sqrt{\lambda_{max}(A^TA)} = \|A\|_2\)

这就是为什么矩阵二范数别称叫谱范数的原因hhhh。

4. 几个与谱半径有关的定理

4.1

定理：谱半径小于等于任意一种范数

证明：设\(\lambda\)为A的特征值，则\(A\alpha = \lambda\alpha\)，两边同时取范数得\(\|A\alpha\| = \|\lambda\alpha\|\)。

由于算子范数满足与向量的相容性和齐次性，所以有：\(\|A\alpha\| = |\lambda|\|\alpha\| \le \|\alpha\|\|A\|\)

同除\(\|\alpha\|\)，得：\(|\lambda| \le \|A\|\)

所以\(\rho(A) = |\lambda|_{max} \le \|A\|\)，得证。

4.2

定理：\(\lim_{k\to\infty}A^k=0\Leftrightarrow\rho(A)<1\)

充分性：因为\(\rho(A) < 1\)，所以必然可以找到一个矩阵范数，s.t. \(\|A\| < 1\)。

所以\(\|A^k\| \le \|A\|^k\)，当\(k \rightarrow \infty\)时，\(\|A^k\| \le \|A\|^k \rightarrow 0\)。

又因为矩阵范数满足正定性，所以\(\lim_{k\to\infty}A^k=0\)

必要性（反证法）：假设\(\rho(A) \ge 1\)，设\(\lambda\)为满足\(|\lambda| \ge 1\)的特征值，假设\(\alpha\)为对应的特征向量，则有\(A^k\alpha = \lambda^k\alpha\)

又因为\(\|A^k\alpha\|\leq\|A^k\|\|\alpha\|\)

所以\(\|A^k\|\|\alpha\| \ge \|\alpha\|\)

同除，得：\(\|A^k\| \ge 1\)

与\(\lim_{k\to\infty}A^k=0\)矛盾，所以假设不成立，所以\(\rho(A) < 1\)，得证。

4.3

设\(A \in R^{n \times n}\)，则有：

\(\sum_{k=0}^{\infty}A^{k}\)收敛可推出 \(\rho(A) < 1\)
当\(\sum_{k=0}^{\infty}A^{k}\)收敛时，它将收敛于： \[ \sum_{k=0}^{\infty}A^{k} = (I - A)^{-1} \] 而且存在一种算子范数\(\|\cdot\|\)，使得 \[ \|(I-A)^{-1}-\sum_{k=0}^mA^k\|\leq\frac{\|A\|^{m+1}}{1-\|A\|}, m \in \mathbb{N} \]

证明：第一条很容易证明，当收敛时它的第无穷项肯定是收敛于0的，然后由4.2即可推出。

下面证明第二条：

因为\(\rho(A) < 1\)，所以\(I - A\)的特征值\(1 - \lambda \ne 0\)，因此\(|I - A| \ne 0\)，所以\(I - A\)可逆。

又因为\((I-A)(I+A+\ldots+A^k)=I-A^{k+1}\)

所以\((I+A+\ldots+A^k)=(I-A)^{-1}(I-A^{k+1})\)

又因为\(k \rightarrow 0\)时，\(A^{k+1} \rightarrow 0\)

所以\((I+A+\ldots+A^k)=(I-A)^{-1}\)

即\(\sum_{k=0}^{\infty}A^k=(I-A)^{-1}\)

5. 总结

介绍了矩阵范数。重点讲解了矩阵二范数（谱范数）。以及介绍了与谱半径相关的定理。

定理1是将谱半径与矩阵范数联系起来
定理2讨论了矩阵阶乘收敛问题
定理3讨论了矩阵阶乘数列之和收敛问题