机器学习笔记之主成分分析（PCA）

it2022-05-05 142

机器学习笔记之主成分分析（PCA）

主成分分析（principle components analysis ,PCA）是比较基础的机器学习算法，主要是通过保留数据的特征来进行编码与解码。　　假设在 $R^n$ 空间中有 $m$ 个点 $\{x^{(1)},x^{(2)},\cdots,x^{(m)}\}$ ,我们希望对这些点进行压缩。压缩的目的是我们可以使用更少的内存来储存这些数据，但是同时又希望压缩损失的信息（精度）尽可能少。　　编码这些点的一种方式就是使用低维表示。对于每个 $x^{(i)}\in\R^n$ ,会有一个对应的编码向量 $c^{(i)}\in\R^l$ 。如果 $l$ 比 $n$ 小，那么我们就可以使用更少的内存来储存数据。我们希望找到一个编码函数，根据输入返回编码， $f (x) = c$ ,同时我们也希望找到一个解码函数，给定编码能够重构输入， $x\approx(f(x))$ 。　　具体来说，我们可以使用一个矩阵乘法将编码器映射回 $R^n$ ，即 $g (c) = D c$ ,其中 $D\in\R^{n\times l}$ 是定义解码的矩阵。但是这存在一个小问题，有可能存在多个解。因为如果我们按比例地缩小所有点对应的编码向量 $c^{(i)}$ ，那么只需要按比例放大 $D_{:i}$ ，即可以保持结果不变。为了使问题有唯一解，我们限制 $D$ 中所有列向量都有单位范数。为了简化问题，PCA 限制 $D$ 的列向量彼此正交。　　那么我们如何选择一个根据每一个输入 $\boldsymbol x$ 得到最优编码 $\boldsymbol c^*$ ?一种最常见的方法就是最小化原始输入向量 $\boldsymbol x$ 和重构向量 $g(\boldsymbol c^*)$ 之间的距离，使用范数来衡量它们之间的距离。常用 $L^2$ 范数，即 $\boldsymbol c^*=\arg \min\limits_c\|\boldsymbol x-g(\boldsymbol c^*)\|_2$ 我们可以使用平方 $L^2$ 范数替代 $L^2$ 范数。因为二者在相同的值c上取得最小值。 $\begin{aligned}\boldsymbol c^*&=\arg\min\limits_c\|\boldsymbol x-g(\boldsymbol c^*)\|_2^2=\arg\min\limits_c(\boldsymbol x-g(\boldsymbol c^*)^T(\boldsymbol x-g(\boldsymbol c^*))\\&=\arg\min\limits_c \boldsymbol x^T\boldsymbol x-\boldsymbol x^Tg(\boldsymbol c)-\underbrace{g(\boldsymbol c)^T\boldsymbol x}_{\text{标量}}+g(\boldsymbol c)^Tg(\boldsymbol c)\\&=\arg\min\limits_c\underbrace{\boldsymbol x^T\boldsymbol x}_{\text{与c无关}}-2\boldsymbol x^Tg(\boldsymbol c)+g(\boldsymbol c)^Tg(\boldsymbol c)\\&\Rightarrow\arg\min\limits_c-2\boldsymbol x^Tg(\boldsymbol c)+g(\boldsymbol c)^Tg(\boldsymbol c)\\&=\arg\min\limits_c-2\boldsymbol {x^TDc}+\boldsymbol c^TD^TD\boldsymbol c\\&=\arg\min\limits_c-2\boldsymbol {x^TDc}+\boldsymbol c^TI_l\boldsymbol c\\&=-2\boldsymbol {x^TDc}+\boldsymbol c^T\boldsymbol c\end{aligned}$ 对 $c$ 求导， $\nabla(-2\boldsymbol {x^TDc}+\boldsymbol c^T\boldsymbol c)=0\Rightarrow-2\boldsymbol D^Tx+2c=0\Rightarrow\boldsymbol c=\boldsymbol D^Tx\\\therefore f(x)=\boldsymbol D^Tx$ 进一步使用矩阵乘法，我们可以定义重构操作： $r(x)=g(f(x))=\boldsymbol{DD}^Tx$ ，因为重构要求最小化所有维数和所有点上的误差矩阵的Frobenius范数： $\begin{aligned}&\boldsymbol D^*=\arg\min\limits_{D}\sqrt{\sum_{i,j}\Big(x_j^{(i)}-r(x^{(i)})_j\Big)^2}\\&subject\quad to\quad D^TD=I_l\end{aligned}$ 为了简化推导，首先考虑 $l = 1$ 的情况。此时 $D$ 简化为一个单一向量 $d$ ，即 $\begin{aligned}&\boldsymbol d^*=\arg\min\limits_d\sum_{i}\|\boldsymbol x^{(i)}-\boldsymbol d\underbrace{\boldsymbol d^T\boldsymbol x^{(i)}}_{\text{标量}}\|_2^2\\&=\arg\min\limits_d\sum_{i}\|\boldsymbol x^{(i)}-\boldsymbol d^T\boldsymbol x^{(i)}\boldsymbol d\|_2^2\\&=arg\min\limits_d\sum_{i}\|\boldsymbol x^{(i)}-\boldsymbol x^{(i)T}\boldsymbol d\boldsymbol d\|_2^2\\&subject\quad to\quad \|\boldsymbol d\|_2=1\end{aligned}$ 将各点的向量写成矩阵形式，记为 $X\in\R^{m\times n}$ ,其中 $X_{I,:}=\boldsymbol x^{(i)T}$ $\therefore\boldsymbol d^*=\arg\min\limits_{d}\|\boldsymbol{X}-\boldsymbol{Xdd}^T\|_F^2，\quad subject\quad to\quad \boldsymbol{dd}^T=1$ $又\begin{aligned}\because\|A\|_F=\sqrt{\sum_{i,j}A^2_{i,j}}，Tr(A)=\sum_{i}A_{i,i},\|A\|_F=\sqrt{Tr(AA^T)}\end{aligned}$ $\therefore\begin{aligned}\boldsymbol d^*&=\arg\min\limits_{d}\|\boldsymbol{X}-\boldsymbol{Xdd}^T\|_F^2=\arg\min\limits_{d}Tr\bigg(\Big(\boldsymbol{X}-\boldsymbol{Xdd}^T\Big)^T\Big(\boldsymbol{X}-\boldsymbol{Xdd}^T\Big)\bigg)\\&=\arg\min\limits_{d}Tr\Big(\boldsymbol{X^TX-X^TXdd^T-dd^TX^TX+dd^TX^TXdd^T}\Big)\\&=\arg\min\limits_{d}\underbrace{Tr\Big(\boldsymbol{X^TX}}_{与d无关}\Big)-Tr\Big(\boldsymbol{X^TXdd^T}\Big)-Tr\Big(\boldsymbol{dd^TX^TX}\Big)+Tr\Big(\boldsymbol{dd^TX^TXdd^T}\Big)\\&\Rightarrow\arg\min\limits_{d}-Tr\Big(\boldsymbol{X^TXdd^T}\Big)-Tr\Big(\boldsymbol{dd^TX^TX}\Big)+Tr\Big(\boldsymbol{dd^TX^TXdd^T}\Big)\\&=\arg\min\limits_{d}-2Tr\Big(\boldsymbol{X^TXdd^T}\Big)++Tr\Big(\boldsymbol{X^TXd\underbrace{d^Td}_{d^Td=1}d^T}\Big)\\&=\arg\min\limits_{d}-Tr(\boldsymbol{X^TXdd^T})=\arg\max\limits_{d}Tr(\boldsymbol{X^TXdd^T})\\&=\arg\max\limits_{d}Tr(\boldsymbol{d^TX^TXd})\end{aligned}$ $\therefore$ 矩阵 $X^TX$ 的最大特征值所对应的特征向量就是 $\boldsymbol{d}$ ,同理可得矩阵D就是由前 $l$ 个最大的特征值所对应的特征向量构成。

专利

最新回复(0)