应用数学与机器学习基础
线性代数
@(特征分解)
方阵 的 特征向量(eigenvector)是指与 相乘后相当于对该向量进行缩放 的非零向量 : .
标量 被称为这个特征向量对应的特征值(eigenvalue)。假设矩阵 有 个线性无关的特征向量,对应着特征值 。我们将特征向量连接成一个矩阵,使得每一列是一个特征向量:。类似地,我们也可以将特征值连接成一个向量 。因此 的特征分解(eigendecomposition)可以记作
@(奇异值分解)[SVD]
我们将矩阵 A 分解成三个矩阵的乘积
假设 是一个 的矩阵,那么 是一个 的矩阵, 是一个 的矩阵, 是一个 矩阵。这些矩阵中的每一个经定义后都拥有特殊的结构。矩阵 和 都定义为正交矩阵,而矩阵 定义为对角矩阵。注意,矩阵 不一定是方阵。
对角矩阵 对角线上的元素被称为矩阵 的 奇异值(singular value)。矩阵 的列向量被称为 左奇异 向量(left singular vector),矩阵 的列向量被称 右奇异 向量(right singular vector)。
我们可以用与 相关的特征分解去解释 的奇异值分解。 的左奇异向量(left singular vector)是 的特征向量。 的右奇异向量(right singular vector)是 的特征向量。 的非零奇异值是 特征值的平方根,同时也是 特征值的平方根。
SVD 最有用的一个性质可能是拓展矩阵求逆到非方矩阵。
@(Moore-Penrose 伪逆)
对于非方矩阵而言,其逆矩阵没有定义。假设在下面的问题中,我们希望通过矩阵 的左逆 来求解线性方程。。 取决于问题的形式,我们可能无法设计一个唯一的映射将 映射到 。
如果矩阵 的行数大于列数,那么上述方程可能没有解。如果矩阵 的行数小于列数,那么上述矩阵可能有多个解。
Moore-Penrose 伪逆(Moore-Penrose pseudoinverse)使我们在这类问题上取得了一定的进展。矩阵 A 的伪逆定义为
计算伪逆的实际算法没有基于这个定义,而是使用下面的公式:
矩阵 , 和 是矩阵奇异值分解后得到的矩阵。对角矩阵 的伪逆 是其非零元素取倒数之后再转置得到的
当矩阵 的列数多于行数时,使用伪逆求解线性方程是众多可能解法中的一 种。特别地, 是方程所有可行解中欧几里得范数 最小的一个。
当矩阵 的行数多于列数时,可能没有解。在这种情况下,通过伪逆得到的 使得 和 的欧几里得距离 最小。
@(迹运算)
迹运算返回的是矩阵对角元素的和:
显然有些矩阵运算很难描述,而通过矩 阵乘法和迹运算符号可以清楚地表示。
例如,迹运算提供了另一种描述矩阵Frobenius范数的方式:
多个矩阵相乘得到的方阵的迹,和将这些矩阵中的最后一个挪到最前面之后相乘的迹是相同的。
或者更一般地,
即使循环置换后矩阵乘积得到的矩阵形状变了,迹运算的结果依然不变。假设 则
@(行列式)
行列式,记作 ,是一个将方阵 映射到实数的函数。行列式等于矩阵特征值的乘积。行列式的绝对值可以用来衡量矩阵参与矩阵乘法后空间扩大或者缩小了多少。如果行列式是 0,那么空间至少沿着某一维完全收缩了,使其失去了所有的体积。如果行列式是1,那么这个转换保持空间体积不变。