论文中涉及到许多基础数学知识,但是在论文里单独展开篇幅太长了。所以统一在这篇blog里记录。
Lipschitz连续
先看连续的定义:函数\(f(x)\)在点\(x = x_0\)连续\(\iff\) \(\lim_{x \rightarrow x_0}f(x) = f(x_0) \iff \forall \varepsilon>0, \exists\delta = \delta(\varepsilon)>0\), 使得当\(|x - x_0| < \delta\)时,有\(|f(x) - f(x_0)| < \varepsilon\)
在此定义中,\(\delta\)不仅与\(\varepsilon\)有关,而且与\(x_0\)有关,应记为\(\delta = \delta(x_0, \varepsilon)\)。也就是说,对于同一个\(\varepsilon\),在不同的\(x_0\)处,使\(|f(x) - f(x_0)| < \varepsilon\)的x取值范围可以差得很多。
所以我们自然会问,对于\(\forall \varepsilon > 0\),是否存在只与\(\varepsilon\)有关的\(\delta\),使得对于区间中任意两点\(x_1, x_2\),只要满足\(|x_1 - x_2| < \delta\),就成立\(|f(x_1) - f(x_2)| < \varepsilon\)?
这就引出了一致连续的定义:设函数\(f(x)\)在区间X上有定义,若\(\forall \varepsilon > 0, \exists\delta = \delta(\varepsilon) > 0\),使得对于区间X中的任意两点\(x_1, x_2\),只要满足\(|x_1 - x_2| < \delta\),就成立\(|f(x_1) - f(x_2)| < \varepsilon\),则称函数\(f(x)\)在区间X上一致连续。
可以发现一致连续是比连续更强的一个条件。接下来要讲的Lipschitz连续,是比一致连续还要强的一个条件。
先给出Lipschitz连续的定义:设函数\(f(x)\)在区间X上有定义,若存在\(L > 0\),使得对于区间X中的任意两点\(x_1, x_2\),都满足\(|f(x_1) - f(x_2)| \le L|x_1 - x_2|\),则称\(f(x)\)在区间X上是Lipschitz连续。
下面证明Lipschitz连续是比一致连续更强的一个条件:
证明:\(\forall \varepsilon > 0\),取\(\delta = \frac{\varepsilon}{L} > 0\),则\(\forall x_1, x_2 \in X\),当\(|x_1 - x_2| < \delta\)时,\(|f(x1) - f(x_2)| \le L|x_1 - x_2| < L\delta = L \cdot \frac{\varepsilon}{L} = \varepsilon\),得证。
矩阵范数
1. 矩阵范数定义
矩阵范数的定义如下:
若函数\(f: R^{n \times n} \rightarrow R\)满足:
- 正定性:\(f(A) \ge 0, \forall A \in R^{n \times n}\),等号当且仅当\(A = 0\)成立
- 齐次性:\(f(\alpha A) = |\alpha| \cdot f(A), \forall A \in R^{n \times n}, \alpha \in R\)
- 三角不等式:\(f(A \pm B) \le f(A) + f(B), \forall A, B \in R^{n \times n}\)
- 相容性:\(f(AB) \le f(A) \cdot f(B), \forall A, B \in R^{n \times n}\)
则将\(f(x)\)称为\(R^{n \times n}\)上的范数,记作\(\|\cdot\|\)
还有一条性质,有些矩阵范数也是满足的,即与向量的相容性:
\(f(Ax) \le f(A) \cdot f(x), \forall A \in R^{n \times n}, x \in R^{n}\)
2. 算子(从属)范数
矩阵范数跟向量范数一样,有很多种。但大多数情况都是用的算子(从属)范数中的二范数(谱范数)。
先来介绍一下算子范数
定义:设\(\|\cdot\|\)是\(R^n\)上的任意一个范数,若对\(\forall A \in R^{n \times n}\)满足 \[ \|A\| = max_{x \ne 0} \frac{\|Ax\|}{\|x\|} = max_{\|x\| = 1} \|Ax\| \] 则矩阵范数\(\|\cdot\|\)称为从属于向量范数的矩阵范数。也叫由向量范数诱导出来的算子范数。
算子范数肯定是满足矩阵范数的四条定义的,而且它还满足与向量的相容性!(证明网上一大堆略)
另外,对于所有的矩阵算子范数,它们都是等价的。俩矩阵范数等价的定义如下:
俩矩阵范数\(\|\cdot\|_\alpha\)与\(\|\cdot\|_\beta\)等价,当且仅当存在两个正数\(d_1, d_2\),使得对于任意矩阵A,都有\(d_1\|A\|_\beta \le \|A\|_\alpha \le d_2\|A\|_\beta\)
一般我们推导不常用范数的有界性时,先推容易算的范数的有界性,再用所有范数等价这条性质来放缩。
3. 矩阵二范数(谱范数)
如果算子范数角标取2,就变成了谱范数: \[ \|A\|_2 = max_{x \ne 0} \frac{\|Ax\|_2}{\|x\|_2} = max_{\|x\|_2 = 1} \|Ax\|_2 \] 矩阵A的谱范数的实际意义是”矩阵A能将向量放大的最大倍数“。在数值上为矩阵A的最大奇异值(\(\sqrt{\lambda_{max}(A^TA)}\))。
那为啥要叫谱范数呢?它跟谱半径又有什么关系呢?
先回忆一下矩阵谱半径的定义:\(\rho(A)=\max\{|\lambda|:\lambda\in\lambda(A)\}\)
当\(A\)为对称矩阵时,其特征值的绝对值就是它的奇异值。所以有\(\rho(A) = \sqrt{\lambda_{max}(A^TA)} = \|A\|_2\)
这就是为什么矩阵二范数别称叫谱范数的原因hhhh。
4. 几个与谱半径有关的定理
4.1
定理:谱半径小于等于任意一种范数
证明:设\(\lambda\)为A的特征值,则\(A\alpha = \lambda\alpha\),两边同时取范数得\(\|A\alpha\| = \|\lambda\alpha\|\)。
由于算子范数满足与向量的相容性和齐次性,所以有:\(\|A\alpha\| = |\lambda|\|\alpha\| \le \|\alpha\|\|A\|\)
同除\(\|\alpha\|\),得:\(|\lambda| \le \|A\|\)
所以\(\rho(A) = |\lambda|_{max} \le \|A\|\),得证。
4.2
定理:\(\lim_{k\to\infty}A^k=0\Leftrightarrow\rho(A)<1\)
充分性:因为\(\rho(A) < 1\),所以必然可以找到一个矩阵范数,s.t. \(\|A\| < 1\)。
所以\(\|A^k\| \le \|A\|^k\),当\(k \rightarrow \infty\)时,\(\|A^k\| \le \|A\|^k \rightarrow 0\)。
又因为矩阵范数满足正定性,所以\(\lim_{k\to\infty}A^k=0\)
必要性(反证法):假设\(\rho(A) \ge 1\),设\(\lambda\)为满足\(|\lambda| \ge 1\)的特征值,假设\(\alpha\)为对应的特征向量,则有\(A^k\alpha = \lambda^k\alpha\)
两边取范数,得:\(\left\|A^k\alpha\right\|=\left\|\lambda^k\alpha\right\|=\left|\lambda^k\right|\left\|\alpha\right\|\geq\left\|\alpha\right\|\)
又因为\(\|A^k\alpha\|\leq\|A^k\|\|\alpha\|\)
所以\(\|A^k\|\|\alpha\| \ge \|\alpha\|\)
同除,得:\(\|A^k\| \ge 1\)
与\(\lim_{k\to\infty}A^k=0\)矛盾,所以假设不成立,所以\(\rho(A) < 1\),得证。
4.3
设\(A \in R^{n \times n}\),则有:
\(\sum_{k=0}^{\infty}A^{k}\)收敛 可推出 \(\rho(A) < 1\)
当\(\sum_{k=0}^{\infty}A^{k}\)收敛时,它将收敛于: \[ \sum_{k=0}^{\infty}A^{k} = (I - A)^{-1} \] 而且存在一种算子范数\(\|\cdot\|\),使得 \[ \|(I-A)^{-1}-\sum_{k=0}^mA^k\|\leq\frac{\|A\|^{m+1}}{1-\|A\|}, m \in \mathbb{N} \]
证明:第一条很容易证明,当收敛时它的第无穷项肯定是收敛于0的,然后由4.2即可推出。
下面证明第二条:
因为\(\rho(A) < 1\),所以\(I - A\)的特征值\(1 - \lambda \ne 0\),因此\(|I - A| \ne 0\),所以\(I - A\)可逆。
又因为\((I-A)(I+A+\ldots+A^k)=I-A^{k+1}\)
所以\((I+A+\ldots+A^k)=(I-A)^{-1}(I-A^{k+1})\)
又因为\(k \rightarrow 0\)时,\(A^{k+1} \rightarrow 0\)
所以\((I+A+\ldots+A^k)=(I-A)^{-1}\)
即\(\sum_{k=0}^{\infty}A^k=(I-A)^{-1}\)
5. 总结
介绍了矩阵范数。重点讲解了矩阵二范数(谱范数)。以及介绍了与谱半径相关的定理。
- 定理1是将谱半径与矩阵范数联系起来
- 定理2讨论了矩阵阶乘收敛问题
- 定理3讨论了矩阵阶乘数列之和收敛问题