Skip to content

Commit

Permalink
更新3.11的小错误
Browse files Browse the repository at this point in the history
  • Loading branch information
fengdu78 committed Aug 9, 2019
1 parent 8b8bd6a commit bb5cb49
Show file tree
Hide file tree
Showing 2 changed files with 78 additions and 0 deletions.
Binary file modified 0.math/1.CS229/1.CS229-LinearAlgebra.pdf
Binary file not shown.
78 changes: 78 additions & 0 deletions 0.math/1.CS229/markdown/1.CS229-LinearAlgebra.md
Original file line number Diff line number Diff line change
Expand Up @@ -469,6 +469,84 @@ $$

虽然这是一个很好的“显式”的逆矩阵公式,但我们应该注意,从数字上讲,有很多更有效的方法来计算逆矩阵。

#### 3.11 二次型和半正定矩阵

给定方矩阵$A \in \mathbb{R}^{n \times n}$和向量$x \in \mathbb{R}^{n}$,标量值$x^T Ax$被称为二次型。 写得清楚些,我们可以看到:
$$
x^{T} A x=\sum_{i=1}^{n} x_{i}(A x)_{i}=\sum_{i=1}^{n} x_{i}\left(\sum_{j=1}^{n} A_{i j} x_{j}\right)=\sum_{i=1}^{n} \sum_{j=1}^{n} A_{i j} x_{i} x_{j}
$$
注意:
$$
x^{T} A x=\left(x^{T} A x\right)^{T}=x^{T} A^{T} x=x^{T}\left(\frac{1}{2} A+\frac{1}{2} A^{T}\right) x
$$
第一个等号的是因为是标量的转置与自身相等,而第二个等号是因为是我们平均两个本身相等的量。 由此,我们可以得出结论,只有$A$的对称部分有助于形成二次型。 出于这个原因,我们经常隐含地假设以二次型出现的矩阵是对称阵。
我们给出以下定义:

- 对于所有非零向量$x \in \mathbb{R}^n$,$x^TAx>0$,对称阵$A \in \mathbb{S}^n$为**正定****positive definite,PD**)。这通常表示为$A\succ0$(或$A>0$),并且通常将所有正定矩阵的集合表示为$\mathbb{S}_{++}^n$。

- 对于所有向量$x^TAx\geq 0$,对称矩阵$A \in \mathbb{S}^n$是**半正定**(**positive semidefinite ,PSD**)。 这写为(或$A \succeq 0$仅$A≥0$),并且所有半正定矩阵的集合通常表示为$\mathbb{S}_+^n$。

- 同样,对称矩阵$A \in \mathbb{S}^n$是**负定****negative definite,ND**),如果对于所有非零$x \in \mathbb{R}^n$,则$x^TAx <0$表示为$A\prec0$(或$A <0$)。

- 类似地,对称矩阵$A \in \mathbb{S}^n$是**半负定**(**negative semidefinite,NSD**),如果对于所有$x \in \mathbb{R}^n$,则$x^TAx \leq 0$表示为$A\preceq 0$(或$A≤0$)。

- 最后,对称矩阵$A \in \mathbb{S}^n$是**不定**的,如果它既不是正半定也不是负半定,即,如果存在$x_1,x_2 \in \mathbb{R}^n$,那么$x_1^TAx_1>0$且$x_2^TAx_2<0$。

很明显,如果$A$是正定的,那么$−A$是负定的,反之亦然。同样,如果$A$是半正定的,那么$−A$是是半负定的,反之亦然。如果果$A$是不定的,那么$−A$是也是不定的。

正定矩阵和负定矩阵的一个重要性质是它们总是满秩,因此是可逆的。为了了解这是为什么,假设某个矩阵$A \in \mathbb{S}^n$不是满秩。然后,假设$A$的第$j$列可以表示为其他$n-1$列的线性组合:
$$
a_{j}=\sum_{i \neq j} x_{i} a_{i}
$$
对于某些$x_1,\cdots x_{j-1},x_{j + 1} ,\cdots ,x_n\in \mathbb{R}$。设$x_j = -1$,则:
$$
Ax=\sum_{i \neq j} x_{i} a_{i}=0
$$
但这意味着对于某些非零向量$x$,$x^T Ax = 0$,因此$A$必须既不是正定也不是负定。如果$A$是正定或负定,则必须是满秩。
最后,有一种类型的正定矩阵经常出现,因此值得特别提及。 给定矩阵$A \in \mathbb{R}^{m \times n}$(不一定是对称或偶数平方),矩阵$G = A^T A$(有时称为**Gram矩阵**)总是半正定的。 此外,如果$m\geq n$(同时为了方便起见,我们假设$A$是满秩),则$G = A^T A$是正定的。

#### 3.12 特征值和特征向量

给定一个方阵$A \in\mathbb{R}^{n\times n}$,我们认为在以下条件下,$\lambda \in\mathbb{C}$是$A$的**特征值**,$x\in\mathbb{C}^n$是相应的**特征向量**

$$
Ax=\lambda x,x \ne 0
$$

直观地说,这个定义意味着将$A$乘以向量$x$会得到一个新的向量,该向量指向与$x$相同的方向,但按系数$\lambda$缩放。值得注意的是,对于任何特征向量$x\in\mathbb{C}^n$和标量$t\in\mathbb{C}$,$A(cx)=cAx=c\lambda x=\lambda(cx)$,$cx$也是一个特征向量。因此,当我们讨论与$\lambda$相关的**特征向量**时,我们通常假设特征向量被标准化为长度为1(这仍然会造成一些歧义,因为$x$和$−x$都是特征向量,但我们必须接受这一点)。

我们可以重写上面的等式来说明$(\lambda,x)$是$A$的特征值和特征向量的组合:
$$
(\lambda I-A)x=0,x \ne 0
$$
但是$(\lambda I-A)x=0$只有当$(\lambda I-A)$有一个非空零空间时,同时$(\lambda I-A)$是奇异的,$x$才具有非零解,即:
$$
|(\lambda I-A)|=0
$$
现在,我们可以使用行列式的先前定义将表达式$|(\lambda I-A)|$扩展为$\lambda$中的(非常大的)多项式,其中,$\lambda$的度为$n$。它通常被称为矩阵$A$的特征多项式。

然后我们找到这个特征多项式的$n$(可能是复数)根,并用$\lambda_1,\cdots,\lambda_n$表示。这些都是矩阵$A$的特征值,但我们注意到它们可能不明显。为了找到特征值$\lambda_i$对应的特征向量,我们只需解线性方程$(\lambda I-A)x=0$,因为$(\lambda I-A)$是奇异的,所以保证有一个非零解(但也可能有多个或无穷多个解)。

应该注意的是,这不是实际用于数值计算特征值和特征向量的方法(记住行列式的完全展开式有$n!$项),这是一个数学上的争议。

以下是特征值和特征向量的属性(所有假设在$A \in\mathbb{R}^{n\times n}$具有特征值$\lambda_1,\cdots,\lambda_n$的前提下):

- $A$的迹等于其特征值之和
$$
\operatorname{tr} A=\sum_{i=1}^{n} \lambda_{i}
$$

- $A$的行列式等于其特征值的乘积
$$
|A|=\prod_{i=1}^{n} \lambda_{i}
$$

- $A$的秩等于$A$的非零特征值的个数

- 假设$A$非奇异,其特征值为$\lambda$和特征向量为$x$。那么$1/\lambda$是具有相关特征向量$x$的$A^{-1}$的特征值,即$A^{-1}x=(1/\lambda)x$。(要证明这一点,取特征向量方程,$Ax=\lambda x$,两边都左乘$A^{-1}$)

- 对角阵的特征值$d=diag(d_1,\cdots,d_n)$实际上就是对角元素$d_1,\cdots,d_n$

#### 3.13 对称矩阵的特征值和特征向量

通常情况下,一般的方阵的特征值和特征向量的结构可以很细微地表示出来。
Expand Down

0 comments on commit bb5cb49

Please sign in to comment.