相关知识回顾

1.线性代数

①生成子空间：向量的线性组合 $\sum_{i}c_i\vec{v}_i$
②列空间：A的列向量的生成子空间 $\rightarrow$ 列空间/值域
如果 $Ax=b$ 对 $\forall b \in R^{m} \exists 解,则列空间构成R^m$
比如：

\begin{bmatrix} 1 &2 \\ 3 & 4 \end{bmatrix}\cdot \begin{bmatrix} x \\ y \end{bmatrix}

就是构成了一个列空间， $x、y$ 任取就对应不同的结果，这个结果构成一个集合
③列空间构成 $R^m \Rightarrow$ A至少m列即 $n \ge m$
因为：假设 $A \in R^{3 \times 2}$ $b$ 是三维的而 $x$ 只有两维，只能描绘 $R^3$ 空间中的平面
④一个列向量线性相关的方阵成为奇异的
⑥矩阵可逆必为方阵（实际上 $m \times n$ 的矩阵也存在 $A$ 使得 $A \cdot B = I_m$ 但那是后续的伪逆，只有在即使左逆又是右逆的情况下才叫可逆，同时可以推出可逆阵是方阵
⑦范数（norm）：衡量从原点到点x的距离
$\left\|\boldsymbol{x}\right\|_p=\left(\sum_i|x_i|^p\right)^{\frac1p}$
$p=2$ 时 $L^2$ 为欧几里得范数 $L^2= \left\|\boldsymbol{x}\right\|_2= x \cdot x^\top$ (点积)
$p=1$ 时为 $L^1$ ,当机器学习问题中零元素和非零元素的差异非常重要时就会使用该范数, $L^1$ 也替代 $L^0$ 经常作为表示非零元素数目的替代函数
$L^\infty$ 范数（最大范数）表示向量中具有最大幅值的元素的绝对值。即 $L^ \infty = \max_i|x_i|$
Frobenius 范数: $\left\|A\right\|_F=\sqrt{\sum_{i, j}A_{i, j}^2},$ 衡量矩阵的大小
⑧对角矩阵: $i \ne j \quad D_{i,j} = 0$
$diag(v)$ 表示对角元素由向量 $v$ 中元素给定的对角方阵
$diag(v) \cdot x = v \odot x$
⑨标准正交:n个向量不仅相互正交并且范数都为1
正交矩阵:行、列向量分别标准正交,即 $A \cdot A^\top = A^\top \cdot A =I$ 也即 $A^\top = A^{-1}$
⑩特征分解
特征向量: 对于非零向量 $v$ ,方阵 $A$ 有

A \cdot v = \lambda v

标量 $\lambda$ 为特征向量对应的特征值(同理有定义左特征向量 $v^\top A=\lambda A$ )
⑪由于特征向量可以缩放,所以一般只考虑单位特征向量
n个线性无关的特征向量 $\{v^{(1)},...v^{(n)}\}$
对应的特征值 $\{\lambda_1,...\lambda_n\}$
A 的特征值分解: $Vdiag(\lambda)V^{-1}$
不是每一个矩阵都可以分解成特征值和特征向量
在某些特殊情况下特征分解存在但会涉及复数
而每个实对称矩阵都可以分解成实特征向量和实特征值

A = Q \Lambda Q^{-1}

但特征分解可能不唯一
矩阵的作用其实是让的不同向量空间里的向量进行拉伸

矩阵是奇异的当且仅当含有零特征值
正定: 所有特征值都是正数
半正定: 所有特征值都是非负数
同理还有负定和半负定
⑫ $f(x) = x^\top Ax$ $x$ 为某个特征向量时 $f$ 返回对应的特征值 (限制 $\left \|x \right\|_2=1$ , 见花书 P 39)
⑬奇异值分解 (相比于特征分解应用更广泛, 因为不仅限于方阵)
每一个实数矩阵都有一个奇异值分解, 且非方阵只能用奇异值分解
分解:

A = UDV^\top

$A: m\times m$ 为正交矩阵, 列向量为左奇异向量
$D: m\times n$ 为对角矩阵, 对角元素为矩阵 A 的奇异值
$V^\top : n \times n$ 为正交矩阵, 列向量为右奇异向量
* $\begin{cases}AA^\top\text{的特征向量即为左奇异向量}\\A^\top A\text{的特征向量即为右奇异向量}\\A\text{的非零奇异向量是}AA^\top/A^\top A\text{特征值的平方根}&\end{cases}$
⑭Moorse-Penrose 伪逆 (非方阵左逆)
A 的伪逆: $A^+ = \lim_{\alpha \to \infty}(A^\top A +\alpha I)^{-1}A^\top$
计算伪逆: $A^+ = VD^+U^\top$ $V、D、U$ 即为奇异分解后的是哪个矩阵
$D^\top$ 即为 $D$ 非零元素取倒数后转置
$\begin{cases}m<n时 \quad x=A^+ y是方程所有可行解中\left \|x \right \|_2中最小的一个 \\ m>n时 \quad 可能没有解,伪逆得到的x使\left \| Ax-y \right \|_2最小\end{cases}$
⑮迹运算 $Tr(A) = \sum_{i}A_{ij}$
$\left \| A \right \|_F = \sqrt{Tr(AA^T)}$
$Tr(ABC) = Tr(CBA) = Tr(BCA)$
更一般地有: $Tr(\prod_{i}^nF^{(i)}) = Tr(F^{(n)} \prod_{i}^{n-1}F^{(i)})$
对于标量 $a = Tr(a)$
⑯行列式:绝对值衡量矩阵乘法后空间扩大或者缩小多少(如果为0则沿某一维完全收缩,比较Jacobian矩阵)
行列式的结果等于矩阵的各个特征值的乘积
对于满秩矩阵,一组特征向量可以当作一组坐标系的基
分别伸缩 $\lambda_i$ 倍 $\therefore 空间伸缩\prod_{i}^n \lambda_i = |A|$
(表示坐标旋转的矩阵一般人两个特征值共轭的复数,复平面上表示的旋转角度的绝对值即为坐标旋转角度)

2.概率与信息论

①Bernoulli分布
$P(x=1)= \phi \quad P(x=0) = 1- \phi$
②Multinoulli分布(范畴分布)
具有k个不同状态的单个离散随机变量上的分布
③高斯分布(正态分布)
$\mathcal{N}(x,\mu,\sigma^2)=\sqrt{\frac{1}{2\pi \sigma^2}}e^{-\frac{1}{2\sigma^2}(x-\mu)^2}$
多维正态分布:
$\mathcal{N} = \sqrt{\frac{1}{(2\pi)^ndet(\Sigma)}}e^{-\frac{1}{2}(x-\mu)^\top\Sigma^{-1}(x-\mu)}$
其中 $\mu$ 仍然是均值,不过是向量值; $\Sigma$ 是协方差矩阵,可以用 $\beta$ 替代 $\Sigma^{-1}$
更简单版本:各向同性高斯分布(协方差阵是标量 $\times$ 单位阵)
④指数分布
$p(x;\lambda)=\lambda \mathbf{1}_{x\ge0}e^{-\lambda x}$
Laplace分布: $Laplace(x;\mu;\gamma)=\frac1{2\gamma}e^{-\frac{|x-\mu|}{\gamma}}$
可以在任意一点 $\mu$ 设置概率质量的峰值
⑤Dirac分布 $p(x) = \delta(x)$ 集中在一点
经验分布 $\hat{p}(x) = \frac1m \sum_{i}^m{\delta(x-x^{(i)})}$
⑥常用函数
logistic sigmoid函数 $\sigma(x) = \frac1{1+e^{-x}}$ $\rightarrow$ 产生Bernoulli的 $\phi$
![[logistic函数.png]]
softplus函数 $\zeta(x)=log(1+e^x)$ $\rightarrow$ 产生正态分布的 $\beta$ 和 $\sigma$
性质:

$\sigma(x) = \frac{e^x}{e^x+e^0}$
$\frac{d}{dx}\sigma(x)=\sigma(x)(1-\sigma(x))$
$log(\sigma(x)) = -\zeta(-x)$
$\frac{d}{dx}\zeta(x) = \sigma(x)$
$\forall x \in (0,1) \quad \sigma^{-1}(x) = log(\frac1{1-x})$
$\forall x \gt 0 \quad \zeta^{-1}(x) = log(e^x-1)$
$\zeta(x) = \int_{-\infty}^{x}\sigma(y) \mathrm{d}y$
$\zeta(x) - \zeta(-x) = x$
信息论部分暂略…

3.数值计算

①条件数：函数对于输入的微小变化而变化的快慢程度
$f(x) = A^{-1}x \quad A \in R^{n \times m}$ 具有特征值分解时
条件数 $max_{ij}|\frac{\lambda_i}{\lambda_j}|$ 最大与最小特征值模之比
② Jacobian矩阵: $f : R^m \rightarrow R^n \quad J_{ij} = \frac{\partial}{\partial x}f(x)_i$
Hessian矩阵: $H(f)(x)_{i,j} = \frac{\partial^2}{\partial x_i \partial x_j}f(x)$ 等价于梯度的Jacobian矩阵
仅使用梯度信息的优化算法 $\Rightarrow$ 一阶优化算法
使用Hessian矩阵的优化算法 $\Rightarrow$ 二阶最优化算法

Just Do It!

《动手学深度学习》笔记（二）

相关知识回顾

1.线性代数

2.概率与信息论

3.数值计算