|||
把向量看作是状态,线性变换驱动着线性空间中所有向量的变化,从一个状态变为另一个状态,如在空间中运动。对于一个具体的线性算子,从对空间不同方向的影响来剖析算子的特性,便可以从抽象的高度俯视算子在不同坐标表示矩阵的共同性质,从中选择合适的视角便能看到算子的结构。
线性变换的矩阵表示是一个方阵。这线性变换在旧的基下的矩阵表示A,在新的基下表示为T-1AT. 对于线性变换,秩仍然是在不同基的坐标表示中不变量,但把映射限制在原来的空间。仅仅是相同秩的方阵,不足以通过坐标变换而相等。同一个线性变换在不同坐标下表示为不同的矩阵,称为是相似的,相同秩的方阵并非都是相似的。这里介绍怎么通过线性变换的不变子空间,理解相似矩阵标准形式的直观意义。
7.1 不变子空间
对于线性空间正交基,每个基向量张成一个一维子空间,线性空间是这些一维子空间的直和。向量的坐标值分别对应着它在每个一维子空间的分量。线性空间只要选取合适的基,就可以做出所需的子空间直和的分解。对于线性空间中的线性变换,并非任意的子空间能对线性变换保持封闭,最有意义的是对线性变换是封闭的子空间分解。
如果一个线性子空间对一个线性变换保持封闭,即子空间中任何向量经过这变换仍在这子空间中,则它称为这个线性变换的不变子空间。线性变换对它不变子空间上向量的作用,等于它局限在这个较低维数线性算子的作用。所有线性变换所得的向量形成一个子空间,称为线性变换的像。所有在线性变换下映成零向量的向量集合也是一个子空间,称为线性变换的核。线性变换的像和核都是它的不变子空间。
设K是线性变换 $\alpha$ 的一个不变子空间,线性空间N的维数是n,K的维数是k,取K的基为N的基中前k个基向量,线性变换 $\alpha$ 在这基上的矩阵A,它的前k个列向量对应着K中的基向量在线性变换下的线性表示,而K是$\alpha$的不变子空间,这意味着,这k个列向量,除了前k个分量外,其余的都为0. 方矩A具有下面的形式。
$ A = \begin{pmatrix} B & C\\0 & D\end{pmatrix} $ , 这里B是k阶方阵,它是线性变换 $\alpha$ 在K子空间(这个基)上的矩阵表示。
如果与K正交的子空间J也是$\alpha$的不变子空间,那么在它们的基下,矩阵A可以表示为对角方块形式
$ A = \begin{pmatrix} B & 0\\0 & D\end{pmatrix} $ , 这样计算和分析都更为简单。可惜这并不总是能够做到的。消化了这方面内容的读者,自己应该能够举出例子。
7.2 若当(Jordan)标准形式
线性变换在给定的基上表示为一个矩阵,n维线性空间上的线性变换为n阶方阵。相似的矩阵A和B,是同一个线性变换在不同基上的表示,两个基坐标之间的变换是T时,B= T-1AT。我们研究怎么选取一个合适的基将线性变换表示为一种简单的矩阵形式,也就是对于给定的方阵,怎么通过合适的坐标变换变成统一且方便的形式。
显然,矩阵中含有越少的非零元素就越容易计算和分析,对角阵或具有较小方块的准对角阵是个很好的选择。从上面看到,用不变子空间的向量作为基,线性变换在这基上的矩阵可以表示为上三角形分块矩阵,如果空间可以分解为不变子空间的直和,则矩阵可以相应表示为准对角线矩阵。我们看看如何将已有的矩阵变成尽可能小方块的准对角阵。
先从特征向量入手。
线性变换 $\alpha$ ,如果它有一维的不变子空间。则这子空间里的向量r,称为是线性算子 $\alpha$ 的特征向量,这时有 $\alpha$ r = λr ,这个线性空间的数域中标量λ,称为是 $\alpha$ 的特征值。对于线性变换 $\alpha$ ,如果n维线性空间有n个一维的不变子空间,用这些不变子空间的向量为基, $\alpha$ 就可以表示为一个对角阵,对角线上元素是相应的特征值。这是最美好的情况。这样的矩阵称为可对角化。能够被酉变换下对角化具有特别意义。
正规性是检验矩阵能否在酉变换下对角化的简单方法,矩阵A如果与自己的共轭转置A*的乘法是可交换的,即A*A = AA*,则称为它是正规矩阵。正规矩阵可以经酉变换对角化,反之,能通过酉变换与对角阵相似的必然是正规矩阵。矩阵是正规的当且仅当其特征向量能张成整个空间,且相互正交。厄米矩阵是正规矩阵,所以它能够对角化,而且特征值都是实数,特征向量相互正交。
可惜这并非都有可能,线性变换可能有多个一维不变子空间,即多个特征向量和特征值,也可能只有一个。但这是一个很好的思路。
给定一个线性变换的矩阵表示A,怎么求它的特征值和特征向量?这是解线性方程组Ax=λx的问题,这里向量x和标量λ都是未知的。把这方程改写成 (A – λI)x = 0的形式,这里I是单位矩阵,如果行列式 |A – λI| = 0,这个齐次方程组有解。我们知道,n阶矩阵行列式 |A – λI| = 0是个λ为未知数n次代数方程,叫做特征方程,对于复数域,这多项式的特征方程有n个根,这些根都是矩阵A的特征值,而对应λ值的齐次方程解则是特征向量。
如果矩阵A有n个不同的特征值,这些特征值为对角线的对角矩阵D是A的相似矩阵,不难证明相应的特征列向量是线性无关的,它们排成坐标转换的矩阵T,我们有T-1AT = D.
但是这n个特征值并非都是不同的,对于k重根的特征值,对应的齐次线性方程不一定有k个线性无关的解,即所有的特征向量不足以张成全空间。所以在有重根的情况,A也许不能与对角阵相似。在这种情况下,它总可以表示为准对角阵。大致说来,代入k重根特征值的矩阵(A –λI)k表示的是一个线性变换,它的核是A的一个k维不变子空间。我们可以选取这子空间合适的基,将A代表的线性变换表示为对角线上元素是λi的一些若当块Ji矩阵。线性空间可以分解为不同特征值λi所对应的不变子空间的直和,所以A可以通过坐标变换表示为对角线上元素为特征方程解λi的若当标准形式矩阵J.
$J={\begin{bmatrix}J_{1}&\;&\;\\\;&\ddots &\;\\\;&\;&J_{p}\end{bmatrix}}, \;\;\; J_{i} = {\begin{bmatrix}\lambda _{i} &1&\;&\;\\\;&\lambda _{i}&\ddots &\;\\\;&\;&\ddots &1\\\;&\;&\;&\lambda _{i}\end{bmatrix}}, \;\;i=1,2,...,p$
7.3有理标准形式
如果线性空间的数域不是复数,n阶特征方程不一定都能得到n个根,这种情况下线性变换不能表示为若当标准形式。我们寻找另一种方法,也能把线性变换表示成非零元素非常少的矩阵。
对于n阶矩阵A所表示的线性变换,假设可以找到一个向量r,线性变换A逐次施加其上,得到n个不相关的向量,即循环向量集{r , Ar, A2r, …, An-1r},构成了线性空间的基,那么Anr一定与它们线性相关,Anr +an-1 An-1r + … + a1Ar+ a0r = 0,这个线性变换在这基上可以表示为矩阵R:
$\begin{pmatrix}0 &0& \cdots &0& -a_{0}\\ 1 &0& \cdots &0& -a_{1}\\ 0 &1& &0& -a_{2}\\ \vdots & \vdots &\ddots & \vdots\\ 0 &0& \cdots & 1& -a_{k-1} \end{pmatrix}$
这个矩阵R称为多项式 p(x) =xn +an-1xn-1 + … + a1x + a0的伴侣矩阵,它是一个有理标准形式,可以在线性空间所在的任何数域上实现。循环列向量集 {r , Ar, A2r, …, An-1r} 是新的基在旧的基上的表示,它排列构成的矩阵T是新旧坐标的变换,我们有 R = T-1AT,即R是A的相似矩阵。
现在的问题是:是否存在着这样的向量r?如果存在,不同的r生成的基上,与矩阵A相似的有理标准形式是否一样?
记m(x) = xk+ak-1xk-1 + … + a1x + a0,称m(x)为A的最小多项式,如果m(A)=0是能够让多项式矩阵变成零的最小阶次。第一个问题答案是:如果n阶矩阵A的最小多项式是n次,那么存在着一个向量,A对它的循环向量集形成线性空间的基。
这个并不难证明:A的n次矩阵多项式为零,意味着任何向量在A的n次重复作用下线性相关,而最小多项式说,不可能让所有的向量在比它少次数的重复作用下线性相关,所以在这种情况下总有一个向量r,它A对它的循环向量集构成空间的基。
伴侣矩阵是由A的最小多项式确定的,它与生成基的向量无关。所以由不同的r用A重覆作用生成的基上,矩阵的有理标准形式都是一样的。
怎么能得到最小多项式呢?对于n阶矩阵A,行列式 p(x) =|A – xI|是x的n次多项式,Cayley-Hamilton 定理告诉我们,这特征多项式矩阵p(A) = 0,所以A的最小多项式必须是它的因子。另一方面,特征多项式的根是A的特征值λ,它也必须是最小多项式m(λ)的根。这是因为,特征值所对应的特征向量y,在A的最小多项式作用下 m(A)y = m(λ)y ,除非m(λ)=0,不然它不等于零向量,这与最小多项式的定义矛盾。这两个性质告诉我们,如果特征多项式没有重根,它就是最小多项式,否则我们可以用A代入计算,确认它是否最小多项式。
如果特征多项式不是最小多项式,我们不能将线性变换表示为一个特征多项式的伴侣矩阵的形式。但可以把它表示为有理标准形式的矩阵,即对角线上是几个多项式伴侣矩阵的准对角阵。大致说来,这时最小多项式m(A)的次数是k,k < n,意味着有一个向量,A对它的循环向量集有k个,以此为基构成了A的k维不变子空间。在这不变子空间里,算子在这基上表示为它的伴侣矩阵。假设线性空间被线性变换A为分解成几个不变子空间直和,m1(A), m2(A), …, m(A)分别是A局限在这些子空间上的最小多项式,局限在这子空间里线性变换A的最小多项式必须是全空间最小多项式的因子,所以有m1(x) | m2(x) | … | m(x). 特征多项式在不同的基上保持不变,则有p(x)= m1(x) m2(x) …m(x),在简单情况下可以得出这个有理标准形式。
7.4 λ矩阵
上面两小节告诉我们,如果矩阵A的特征多项式没有重根,对于复数域,A可以与对矩阵相似,对于任何数域都可以与特征多项式的伴侣矩阵相似,它们分别对应着A所代表线性变换的若当标准形式和有理标准形式。A与相似的标准形式间的坐标变换矩阵,可以直接由相应的特征向量,以及循环向量集组成。
对于多项式有重根的情况,虽然我们大致了解怎么形成这两种准对角阵的标准形式,但是严格的证明必须引入λ矩阵,初等因子,不变因子等概念才能说清。
到了要说清线性变换矩阵的标准形式,线性代数或矩阵论到了学习抽象方法的一个关口。课文在这之前,多数已经介绍群、环、域、多项式和行列式等等概念和性质,在这里把它们综合起来解决这个问题。很多人在这之前多已迷糊了,为什么东一榔头,西一锤子零散着介绍许多概念,又不深入介绍它们的应用,布了这么一大的局,最后绕圈子的证明实在让人晕乎。能有更简单直接的证明吗?应该会有,但课文的目的是趁机介绍这些抽象代数基步的概念,并用这个标准形式的证明作为抽象方法的例子。这部分内容的理解大约是课文中最艰深理论的部分,过去对于物理和微分方程的理论分析十分重要,但现在对绝大部分工科学生却不是最有用。我只在这里大致介绍一下它们间的联系。
前面介绍的矩阵的元素都是在数域上,称为数字矩阵。如果矩阵上的元素是个λ的多项式,即线性空间定义在数域的多项式环上,例如用行列式求矩阵特征方程的特征矩阵 A -λI,这样的矩阵称为λ矩阵。对矩阵对换行(列),数乘一行(列)以及数((相应地用多项式)乘一行(列)加在另一行(列)中称为矩阵的初等变换,通过初等变换把一个矩阵变为另一个矩阵,称这两个矩阵是等价的。定理证明,λ矩阵都可以通过初等变换,变成只有对角线上是非零的矩阵,对角线上的元素(λ多项式)从上到下依次有d1(λ),d2(λ),…,ds(λ),余下是0,这些非零多项式称为λ矩阵的不变因子,前面不变因子能够整除是后面的不变因子,即d1(λ)|d2(λ)|…|ds(λ),能够同过初等变换成这样形式的矩阵是唯一的,称为等价矩阵的标准形式。所以具有相同的不变因子是矩阵等价的充要条件。
定理证明,矩阵A和B相似的充要条件是特征矩阵(A-λI)与(B -λI)是等价的,即它们的特征矩阵的不变因子都是相同的。
每个不变因子是个λ的多项式,它对应着一个伴侣矩阵,即多项式的伴侣矩阵的特征矩阵是个对角线上最后一个元素是这个多项式,其他都是1的对角阵。所以与矩阵相似的有理标准形式是个准对角阵,对角线上依次对应着其特征矩阵每个不变因子的伴侣矩阵。
对于复数域,每个特征矩阵上不变因子可以分解为互不相同特征值的幂次因子,例如dk(λ) = (λ- a1)k1 (λ- a2)k2…(λ- am)km这样相乘的每个幂次因子称为初等因子,所以复数域上矩阵相似的充要条件是特征矩阵的初等因子是相同的。
不难验证每个初等因子唯一对应着一个若当块,所以复数域上矩阵都能与若当标准形式的矩阵相似。当特征矩阵的初等因子都是一次时,矩阵能够与对角阵相似。
(待续)
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-21 21:03
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社