基础知识 | 梁嘉嘉の博客

机器学习基本概念

$\text { 机器学习 } \approx \text { 构建一个映射函数 }$

机器学习三要素：模型、学习准则、优化算法

模型
- 线性方法： $f(\mathbf{x}, \theta)=\mathbf{w}^{\mathrm{T}} \mathbf{x}+b$
- 广义线性算法： $f(\mathbf{x}, \theta)=\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}(\mathbf{x})+b$
如果 $\boldsymbol{\phi}(\mathbf{x})$ 为可学习的非线性基函数， $f(\mathbf{x}, \theta)$ 等价于神经网络
学习准则：风险最小化。

以线性回归（Linear Regression）为例：

期望风险（Expected Risk）：对所有样本（未知样本+已知训练样本）的预测能力。【全局】

\mathcal{R}(\theta)=\mathbb{E}_{(\boldsymbol{x}, y) \sim p_r(\boldsymbol{x}, y)}[\mathcal{L}(y, f(\boldsymbol{x} ; \theta))]

经验风险（Empirical Risk）：对所有已知训练样本都求损失函数，再累加求平均，表示决策函数对已知训练样本的预测能力。【局部】

$\mathcal{D}=\left\{x^{(n)}, y^{(n)}\right\}, n \in[1, N]$

\mathcal{R}_{\mathcal{D}}^{e m p}(\theta)=\frac{1}{N} \sum_{n=1}^N \mathcal{L}(y, f(\boldsymbol{x} ; \theta))

期望最小化风险，是指真实数据分布和映射函数未知情况下，通过参数寻找使得期望风险最小化。首先期望风险不可计算，常用经验风险来近似。然后寻找一组最优的参数 $\theta^*$ ，使经验风险函数最小化。

机器学习求解问题 $\Rightarrow$ 最优化问题

优化目标：经验风险最小化 $\mathcal{R}_{\mathcal{D}}^{e m p}(\theta)=\frac{1}{N} \sum_{n=1}^N \mathcal{L}(y, f(\boldsymbol{x} ; \theta))$

优化输出：寻找一组最优的参数 $\theta^*$

损失函数（Loss Function）：

\mathcal{L}(y, f(\boldsymbol{x} ; \theta))

定义损失函数的一般方法：

损失函数	表达式
$0-1$ 损失函数	$\mathcal{L}(y, f(\boldsymbol{x} ; \theta))=\left\{\begin{array}{ll}0 & \text { if } y=f(\boldsymbol{x} ; \theta) \\ 1 & \text { if } y \neq f(\boldsymbol{x} ; \theta)\end{array}=I(y \neq f(\boldsymbol{x} ; \theta))\right.$
平方损失函数	$\mathcal{L}(y, f(\boldsymbol{x} ; \theta))=\frac{1}{2}(y-f(\boldsymbol{x} ; \theta))^2$

优化算法：梯度下降

假设一个人需要从山的某处开始下山，尽快到达山底。在下山之前他需要确认两件事：下山的方向和下山的距离。因为下山的路有很多，他必须利用一些信息，找到从该处开始最陡峭的方向下山，这样可以保证他尽快到达山底。此外，这座山最陡峭的方向并不是一成不变的，每当走过一段规定的距离，他必须停下来，重新利用现有信息找到新的最陡峭的方向。通过反复进行该过程，最终抵达山底。

下山	无约束优化
山	优化函数表达式
山底	函数最优值
下山的距离	学习率
下山的方向	梯度方向
某处	优化函数初始值

批量梯度下降（Gradient Descent）：

给定待优化连续可微函数 $J(\Theta)$ 、学习率 $\alpha$ 以及一组初始值 $\Theta_0=\left(\theta_{01}, \theta_{02}, \cdots, \theta_{0 l},\right)$
计算待优化函数梯度: $\nabla J\left(\Theta_0\right)$
更新迭代公式: $\Theta^{0+1}=\Theta_0-\alpha \nabla J\left(\Theta_0\right)$
计算 $\Theta^{0+1}$ 处函数梯度 $\nabla J\left(\Theta_{0+1}\right)$
计算梯度向量的模来判断算法是否收敛: $\|\nabla J(\Theta)\| \leqslant \varepsilon$
若收敛，算法停止，否则根据迭代公式继续迭代

推广到学习准则中的经验风险，经过迭代计算风险函数的最小值：

\begin{aligned} & \mathcal{R}_{\mathcal{D}}^{e m p}(\theta)=\frac{1}{N} \sum_{n=1}^N \mathcal{L}(y, f(\boldsymbol{x} ; \theta)) \\ & \theta_{t+1}=\theta_t-\alpha \frac{\partial \mathcal{R}_{\mathcal{D}}^{e m p}(\theta)}{\partial \theta} \\ & \quad=\theta_t-\alpha \frac{1}{N} \sum_{n=1}^N \frac{\partial \mathcal{L}\left(y^{(n)}, f\left(\boldsymbol{x}^{(n)} ; \theta\right)\right)}{\partial \theta} \end{aligned}

学习率是十分重要的！

学习率超大，无法收敛
学习率过大，无法收敛到合理区间
学习率过小，收敛速度慢

随机梯度下降法（Stochastic Gradient Descent，SGD)：批量梯度下降法在每次迭代都需计算每个训练样本上损失函数的梯度并加和，计算复杂度较大；为了降低迭代的计算复杂度，可以每次迭代只采集一个训练样本，计算该样本的损失函数的梯度并更新参数，即随机梯度下降法。

小批量（Mini-Batch ）随机梯度下降法：批量梯度下降和随机梯度下降的折中。每次迭代时，随机选取一小部分训练样本来计算梯度并更新参数，这样既可以兼顾随机梯度下降法的优点，也可以提高训练效率。

提前停止法：验证集错误率不再下降，就停止迭代。

欠拟合（Underfitting）和欠拟合（Overfitting）

欠拟合：模型不能很好地拟合训练数据，在训练集的错误率高；模型能力不足，不能掌握训练样本的一般性质。

过拟合：训练数据少 or 模型能力强，将训练集的本身特点当做所有样本的一般性质，导致泛化性能下降。

根据前面提到的：

期望风险	经验风险
$\mathcal{R}(\theta)=\mathbb{E}_{(\boldsymbol{x}, y) \sim p_r(\boldsymbol{x}, y)}[\mathcal{L}(y, f(\boldsymbol{x} ; \theta))]$	$\mathcal{R}_{\mathcal{D}}^{e m p}(\theta)=\frac{1}{N} \sum_{n=1}^N \mathcal{L}(y, f(\boldsymbol{x} ; \theta))$

泛化错误：可以衡量一个机器学习模型是否可以很好地泛化到未知数据，一般表现在一个模型在训练集和测试集上的错误率。

\mathcal{G}_{\mathcal{D}}(f)=\mathcal{R}(f)-\mathcal{R}_{\mathcal{D}}^{e m p}(f)

正则化（Regularization）：通过限制模型复杂度，从而避免过拟合，提高泛化能力的方法。

增加优化约束
干扰优化过程

$l_1$ 和 $l_2$ 正则化：

\theta^*=\underset{\theta}{\arg \min } \frac{1}{N} \sum_{n=1}^N \mathcal{L}\left(y^{(n)}, f\left(\boldsymbol{x}^{(n)} ; \theta\right)\right)+\ell_p(\theta)

$L_1$ 正则项	$L_2$ 正则项
$\\|w\\|_1$	$\\|w\\|_2^2$

数学基础

线性代数

基本概念：

标量（scalar）：一个单独的数。
向量（vector）：一列数。
矩阵（matrix）：二维数组。
张量（tensor）：超过二维的数组。

矩阵运算：

转置
矩阵加法
矩阵乘法
逆矩阵

范数：

$l_1$ 范数：向量的各个元素的绝对值之和。
- $\|\boldsymbol{v}\|_1=\sum_{n=1}^N\left|v_n\right|$
$l_2$ 范数：向量的各个元素的平方和再开平方。
- $\|\boldsymbol{v}\|_2=\sqrt{\sum_{n=1}^N v_n^2}=\sqrt{\boldsymbol{v}^{\top} \boldsymbol{v}}$
$\ell_{\infty}$ 范数：向量的各个元素的最大绝对值。
- $\|\boldsymbol{v}\|_{\infty}=\max \left\{v_1, v_2, \cdots, v_N\right\}$

矩阵的范数，常用 $l_p$ 范数一般定义：

\|\boldsymbol{A}\|_p=\left(\sum_{m=1}^M \sum_{n=1}^N\left|a_{m n}\right|^p\right)^{1 / p}

矩阵的 $F$ 范数是向量的 $l_2$ 范数的推广： $\|\boldsymbol{W}\|_F=\sqrt{\sum_{m=1}^M \sum_{n=1}^N\left(w_{m n}\right)^2}$ 。

微积分基础

导数：曲线的斜率，反应曲线变化的快慢。

f^{\prime}\left(x_0\right)=\lim _{\Delta x \rightarrow 0} \frac{f\left(x_0+\Delta x\right)-f\left(x_0\right)}{\Delta x}

高阶导数：函数的更高阶求导。

偏导数：：多元函数在保持其他变量固定，关于其中一个变量的求导。

方向导数：函数对某一方向求导。

常见函数的导数：

函数	函数形式	导数
常函数	$f(x)=C$ , 其中 $C$ 为常数	$f^{\prime}(x) =0$
幂函数	$f(x)=x^r$ , 其中 $r$ 是非零实数	$f^{\prime}(x) =r x^{r-1}$
指数函数	$f(x)=\exp (x)$	$f^{\prime}(x) =\exp (x)$
对数函数	$f(x)=\log (x)$	$f^{\prime}(x) =\frac{1}{x}$

泰勒公式：函数 $f(x)$ 以已知某一点的各阶导数值的作系数构建一个多项式来近似函数在某一点的邻域的值。

\begin{aligned} f(x)=f(a)+ & \frac{1}{1 !} f^{\prime}(a)(x-a)+\frac{1}{2 !} f^{(2)}(a)(x-a)^2+\cdots +\frac{1}{n !} f^{(n)}(a)(x-a)^n+R_n(x) \end{aligned}

$R_n(x)$ ：泰勒公式的余项， $(x-a)^n$ 的高阶无穷小。

方向导数与梯度：梯度向量是方向导数最大的方向。

矩阵微分：多元微积分的一种表达方式，即使用矩阵和向量来表示因变量每个成分关于自变量每个成分的偏导数。

分为

矩阵： $A$ ，其元素记作 $a_{ij}$ ；

向量： $\boldsymbol{x}$ ，其元素记作 $x_i$

标量： $t、\alpha$

矩阵、向量对标量求导：结果与矩阵、向量同型，每个元素就是矩阵、向量相应分量对标量的求导。

$F: \mathbf{R} \rightarrow \mathbf{R}^{\mathbf{m} \times \mathbf{n}}$ ， $\partial F / \partial x$ 是 $m \times n$ 维矩阵， $(\partial F / \partial x)_{i j}=\partial f_{i j} / \partial x$
或者记作 $\nabla_x F$ 或 $F_x^{\prime}$
$\mathbf{f}: \mathbf{R} \rightarrow \mathbf{R}^{\mathbf{m}}$ ， $\partial \mathbf{f} / \partial x$ 是 $m$ 维向量， $(\partial \mathbf{f} / \partial x)_i=\partial f_i / \partial x$
- 行向量 $\mathbf{f}^T$ 记作 $\nabla_x \mathbf{f}^T$ 或 $\partial \mathbf{f}^T / \partial x$
- 列向量 $\mathbf{f}$ 记作 $\nabla_x \mathbf{f}$ 或 $\partial \mathbf{f} / \partial x$

标量对矩阵、向量求导：结果与矩阵、向量同型，每个元素就是标量对矩阵、向量相应分量的求导。

$f: \mathbf{R}^{\mathbf{m} \times \mathbf{n}} \rightarrow \mathbf{R}$ ， $\partial f / \partial X$ 是 $m \times n$ 维矩阵， $(\partial f / \partial X)_{i j}=\partial f / \partial x_{i j}$
- 或者记作 $\nabla_X f$
$f: \mathbf{R}^{\mathbf{m}} \rightarrow \mathbf{R}$ ， $\partial f / \partial \mathbf{x}$ 是 $m$ 维向量， $(\partial f / \partial \mathbf{x})_i=\partial f / \partial x_i$
- 行向量 $\mathbf{f}^T$ 记作 $\nabla_{\mathbf{x}^T} f$ 或 $\partial f / \partial \mathbf{x}^{\mathbf{T}}$
- 列向量 $\mathbf{f}$ 记作 $\nabla_{\mathrm{x}} f$ 或 $\partial f / \partial \mathbf{x}$

向量对向量求导：雅可比矩阵

$\mathbf{f}: \mathbf{R}^{\mathbf{n}} \rightarrow \mathbf{R}^{\mathbf{m}}$ $f : R^{n} \to R^{m}$ ， $\partial \mathbf{f} / \partial \mathbf{x}$ $\partial f / \partial x$ 是 $m \times n$ $m \times n$ 维矩阵， $(\partial \mathbf{f} / \partial \mathbf{x})_{i j}=\partial f_i / \partial x_j$ $(\partial f / \partial x)_{i j} = \partial f_{i} / \partial x_{j}$
- 或者记作 $\nabla_{\mathbf{x}} \mathbf{f}_{\circ}$

举例常见：

标量 $(y \in \mathbb{R})$ $(y \in R)$ 关于向量 $\left(\boldsymbol{x} \in \mathbb{R}^M\right)$ $(x \in R^{M})$ 的偏导数
- $\frac{\partial y}{\partial x}=\left[\frac{\partial y}{\partial x_1}, \cdots, \frac{\partial y}{\partial x_M}\right]^{\top} \quad \in \mathbb{R}^{M \times 1}$
向量 $\left(\boldsymbol{y} \in \mathbb{R}^N\right)$ $(y \in R^{N})$ 关于标量 $(x \in \mathbb{R})$ $(x \in R)$ 的偏导数
- $\frac{\partial y}{\partial x}=\left[\frac{\partial y_1}{\partial x}, \cdots, \frac{\partial y_N}{\partial x}\right] \quad \in \mathbb{R}^{1 \times N}$
向量 $\left(\boldsymbol{y}=f(x) \in \mathbb{R}^N\right)$ $(y = f (x) \in R^{N})$ 关于向量 $\left(\boldsymbol{x} \in \mathbb{R}^M\right)$ $(x \in R^{M})$ 的偏导数
- $\frac{\partial f(\boldsymbol{x})}{\partial \boldsymbol{x}}=\left[\begin{array}{ccc}\frac{\partial y_1}{\partial x_1} & \cdots & \frac{\partial y_N}{\partial x_1} \\ \vdots & \ddots & \vdots \\ \frac{\partial y_1}{\partial x_M} & \cdots & \frac{\partial y_N}{\partial x_M}\end{array}\right] \in \mathbb{R}^{M \times N}$

微分链式法则：

标量微分链式法则：若 $x \in \mathbb{R} ， y=g(x) \in \mathbb{R}, z=f(y) \in \mathbb{R}$ $x \in R ， y = g (x) \in R, z = f (y) \in R$ ，
- $\frac{d z}{d x}=\frac{d y}{d x} \frac{d z}{d y}$
向量微分链式法则：
- 若 $x \in \mathbb{R} ， \boldsymbol{y}=g(x) \in \mathbb{R}^M, \boldsymbol{z}=f(\boldsymbol{y}) \in \mathbb{R}^N$ $x \in R ， y = g (x) \in R^{M}, z = f (y) \in R^{N}$ ，（标量 $\rightarrow$ $\to$ 向量 $\rightarrow$ $\to$ 向量）
  - $\frac{\partial z}{\partial x}=\frac{\partial y}{\partial x} \frac{\partial z}{\partial y} \in \mathbb{R}^{1 \times M} \mathbb{R}^{M \times N}=\mathbb{R}^{1 \times N}$
- 若 $\boldsymbol{x} \in \mathbb{R}^M ， \boldsymbol{y}=g(\boldsymbol{x}) \in \mathbb{R}^N ， \boldsymbol{z}=f(\boldsymbol{y}) \in \mathbb{R}^K$ $x \in R^{M} ， y = g (x) \in R^{N} ， z = f (y) \in R^{K}$ ，（向量 $\rightarrow$ $\to$ 向量 $\rightarrow$ $\to$ 向量）
  - $\frac{\partial z}{\partial x}=\frac{\partial y}{\partial x} \frac{\partial z}{\partial y} \in \mathbb{R}^{M \times N} \mathbb{R}^{N \times K}=\mathbb{R}^{M \times K}$
- 若 $\boldsymbol{X} \in \mathbb{R}^{M \times N}, \quad \boldsymbol{y}=g(\boldsymbol{X}) \in \mathbb{R}^N, z=f(\boldsymbol{y}) \in \mathbb{R}$ $X \in R^{M \times N}, y = g (X) \in R^{N}, z = f (y) \in R$ ，（矩阵 $\rightarrow$ $\to$ 向量 $\rightarrow$ $\to$ 标量）
  - $\frac{\partial z}{\partial x_{i j}}=\frac{\partial y}{\partial x_{i j}} \frac{\partial z}{\partial y} \in \mathbb{R}^{1 \times N} \mathbb{R}^{N \times 1}=\mathbb{R}$

概率与统计基础

条件概率： $p(y \mid x) \triangleq P(Y=y \mid X=x)=\frac{p(x, y)}{p(x)}$

贝叶斯公式： $p(y \mid x)=\frac{p(x \mid y) p(y)}{p(x)}$

常见概率分布：

离散随机变量的概率分布：伯努利分布、二项分布
连续随机变量概率分布：均匀分布、正态分布

…

常用模型

线性回归

线性模型（Linear Model）：机器学习中应用最广泛的模型，指通过样本特征的线性组合来进行预测的模型。

给定一个 $D$ 维样本 $\boldsymbol{x}=\left[x_1, \cdots, x_D\right]^{\mathrm{T}}$ ，其线性组合函数：

\begin{aligned} f(\boldsymbol{x} ; \boldsymbol{w} , b) & =w_1 x_1+w_2 x_2+\cdots+w_D x_D+b \\ & =\boldsymbol{w}^{\top} \boldsymbol{x}+b\end{aligned}

线性回归是一种典型的线性模型：输出的标签是连续值；

分类问题：输出的标签是离散值。

引入函数 $g(\cdot)$ ，使输出符合预期离散值得目标。

y=g(f(\boldsymbol{x} ; \boldsymbol{w},b))

$f(\boldsymbol{x} ; \boldsymbol{w},b)$ ：线性判别函数（Discriminant Function）

$g(\cdot)$ ：非线性决策函数（Decision Function）

举例： $g(\cdot)$ 可以是符号函数（Sign Function）

\begin{aligned} g(f(\boldsymbol{x} ; \boldsymbol{w},b)) & =\operatorname{sgn}(f(\boldsymbol{x} ; \boldsymbol{w},b)) \\ & \triangleq\left\{\begin{array}{rll} +1 & \text { if } & f(\boldsymbol{x} ; \boldsymbol{w},b)>0, \\ -1 & \text { if } & f(\boldsymbol{x} ; \boldsymbol{w},b)<0 . \end{array}\right. \end{aligned}

Logistic 回归

$g(\cdot)$ 选择为 $Logistic$ 函数

\sigma(x)=\frac{1}{1+\exp (-x)}

模型：分类决策问题 $\rightarrow$ 条件概率估计问题。

线性函数组合特征： $f=\boldsymbol{w}^{\top} \boldsymbol{x}+b$
非线性函数决策：

\begin{aligned} p(y=1 \mid \boldsymbol{x}) & =\sigma\left(\boldsymbol{w}^{\top} \boldsymbol{x}\right) & p(y=0 \mid \boldsymbol{x}) & =1-p(y=1 \mid \boldsymbol{x}) \\ & \triangleq \frac{1}{1+\exp \left(-\boldsymbol{w}^{\top} \boldsymbol{x}\right)} & & =\frac{\exp \left(-\boldsymbol{w}^{\top} \boldsymbol{x}\right)}{1+\exp \left(-\boldsymbol{w}^{\top} \boldsymbol{x}\right)} \end{aligned}

学习准则：逻辑回归使用交叉熵作为损失函数。

模型预测条件概率：

p_\omega(y=1 \mid \boldsymbol{x})=\sigma\left(\omega^{\boldsymbol{T}} \boldsymbol{x}+b\right) ; \quad p_\omega(y=0 \mid \boldsymbol{x})=1-\sigma\left(\omega^{\boldsymbol{T}} \boldsymbol{x}+b\right)

真实条件概率：

\begin{gathered} p_r(y=1 \mid \boldsymbol{x})=y^* ; \quad p_r(y=0 \mid \boldsymbol{x})=1-y^* \end{gathered}

熵（Entropy）：信息论中，用来衡量一个随机事件的不确定性。表示为自信息的期望。

自信息（Self Information）： $I(x)=-\log (p(x))$

\begin{aligned} H(X) & =\mathbb{E}_X[I(x)] =\mathbb{E}_X[-\log p(x)]=-\sum_{x \in \mathcal{X}} p(x) \log p(x) \end{aligned}

交叉熵（Cross Entropy）：按照概率分布 $q$ 的最优编码对真实分布为 $p$ 的信息进行编码的长度。

\begin{aligned} H(p, q) & =\mathbb{E}_p[-\log q(x)] =-\sum_x p(x) \log q(x) \end{aligned}

在给定 $p$ 的情况下，如果 $p$ 和 $q$ 越接近，交叉熵越小。如果 $p$ 和 $q$ 差别越大，交叉熵就越大。

给定 $N$ 个训练样本 $\left\{\left(\boldsymbol{x}^{(n)}, y^{(n)}\right)\right\}_{n=1}^N$ ，使用 $Logistic$ 回归模型进行预测，单个样本预测概率：

\hat{y}^{(n)}=\sigma\left(\boldsymbol{w}^{\top} \boldsymbol{x}^{(n)}\right), \quad 1 \leq n \leq N

又训练样本 $\left\{\left(\boldsymbol{x}^{(n)}, y^{(n)}\right)\right\}_{n=1}^N$ ，单个样本真实概率：

p_r\left(y^{(n)}=1 \mid x^{(n)}\right)=y^{(n)}, p_r\left(y^{(n)}=0 \mid x^{(n)}\right)=1-y^{(n)}

真实概率和预测概率的交叉熵为： $-\left[p_r\left(y^{(n)}=1 \mid x^{(n)}\right) \log \hat{y}^{(n)}+p_r\left(y^{(n)}=0 \mid x^{(n)}\right) \log \left(1-\hat{y}^{(n)}\right)\right]$

考虑全部训练样本，基于交叉熵损失函数，模型在训练集上的风险函数为：

\begin{aligned} \mathcal{R}(\boldsymbol{w}) & =-\frac{1}{N} \sum_{n=1}^N\left(p_r\left(y^{(n)}=1 \mid \boldsymbol{x}^{(n)}\right) \log \hat{y}^{(n)}+p_r\left(y^{(n)}=0 \mid \boldsymbol{x}^{(n)}\right) \log \left(1-\hat{y}^{(n)}\right)\right) \\ & =-\frac{1}{N} \sum_{n=1}^N\left(y^{(n)} \log \hat{y}^{(n)}+\left(1-y^{(n)}\right) \log \left(1-\hat{y}^{(n)}\right)\right) \end{aligned}

优化算法：使用梯度下降，针对的是 $\boldsymbol{w}$ ，上述与该项有关系的只有 $\hat{y}^{(n)}$ 。

\begin{aligned} \frac{\partial \mathcal{R}(\boldsymbol{w})}{\partial \boldsymbol{w}} & =-\frac{1}{N} \sum_{n=1}^N\left(y^{(n)} \frac{\hat{y}^{(n)}\left(1-\hat{y}^{(n)}\right)}{\hat{y}^{(n)}} \boldsymbol{x}^{(n)}-\left(1-y^{(n)}\right) \frac{\hat{y}^{(n)}\left(1-\hat{y}^{(n)}\right)}{1-\hat{y}^{(n)}} \boldsymbol{x}^{(n)}\right) \\ & =-\frac{1}{N} \sum_{n=1}^N\left(y^{(n)}\left(1-\hat{y}^{(n)}\right) \boldsymbol{x}^{(n)}-\left(1-y^{(n)}\right) \hat{y}^{(n)} \boldsymbol{x}^{(n)}\right) \\ & =-\frac{1}{N} \sum_{n=1}^N \boldsymbol{x}^{(n)}\left(y^{(n)}-\hat{y}^{(n)}\right) \end{aligned}

\boldsymbol{w}_{t+1} \leftarrow \boldsymbol{w}_t+\alpha \frac{1}{N} \sum_{n=1}^N \boldsymbol{x}^{(n)}\left(y^{(n)}-\hat{y}_{\boldsymbol{w}_t}^{(n)}\right)

要素	公式
模型	$p(y=1 \mid \mathbf{x})=\sigma\left(\mathbf{w}^{\mathrm{T}} \mathbf{x}\right) \triangleq \frac{1}{1+\exp \left(-\mathbf{w}^{\mathrm{T}} \mathbf{x}\right)}$
学习准则	$\mathcal{R}(\mathbf{w})=-\frac{1}{N} \sum_{n=1}^N\left(y^{(n)} \log \hat{y}^{(n)}+\left(1-y^{(n)}\right) \log \left(1-\hat{y}^{(n)}\right)\right)$
优化算法	$\frac{\partial \mathcal{R}(\boldsymbol{w})}{\partial \boldsymbol{w}}=-\frac{1}{N} \sum_{n=1}^N \mathbf{x}^{(n)}\left(y^{(n)}-\hat{y}^{(n)}\right) \\ \boldsymbol{w}_{t+1} \leftarrow \boldsymbol{w}_t+\alpha \frac{1}{N} \sum_{n=1}^N \boldsymbol{x}^{(n)}\left(y^{(n)}-\hat{y}_{\boldsymbol{w}_t}^{(n)}\right)$

Softmax 回归

多分类问题（Multi class Classification）：分类的类别数大于 $2$ 。分类一般需要多个线性判别函数，但设计这些判别函数有很多种方式。

假设一个多分类问题类别有 $\{1,2, \cdots, C\}$ ，常用的方式：

“一对其余”方式：把多分类问题转换为 $C$ 个“一对其余”的二分类问题。这种方式共需要 $C$ 个判别函数，其中第 $i$ 个判别函数 $f_i$ 是将类别 $i$ 的样本和不属于类别 $i$ 的样本分开。
"一对一"方式：把多分类问题转换为 $\frac{C(C-1)}{2}$ 个“一对一”的二分类问题。这种方式共需要 $\frac{C(C-1)}{2}$ 个判别函数，其中第 $(i,j)$ 个判别函数是把类别 $i$ 和类别 $j$ 的样本分开。
“argmax”方式：改进的“一对其余”方式。这种方式共需要 $C$ 个判别函数。

对于样本 $\boldsymbol{x}$ ，如果存在一个类别 $c$ ，相对于所有的其他类别 $\tilde{c}(\tilde{c} \neq c)$ 有 $f_c\left(\boldsymbol{x} ; \boldsymbol{w}_c,b\right)>f_{\tilde{c}}\left(\boldsymbol{x}, \boldsymbol{w}_{\tilde{c}},b\right)$ ，那么 $\boldsymbol{x}$ 属于类别 $c_0$ 。

\begin{aligned} y=\underset{c=1}{\stackrel{C}{C}} \max f_c\left(\boldsymbol{x} ; \boldsymbol{w}_c,b\right) \end{aligned}

多类线性可分：对于训练集 $\mathcal{D}=\left\{\left(\boldsymbol{x}^{(n)}, y^{(n)}\right)\right\}_{n=1}^N$ ，如果存在 $C$ 个权重向量 $\boldsymbol{w}_1^*, \cdots, \boldsymbol{w}_C^*$ ，使得第 $c(1 \leq c \leq C)$ 类的所有样本都满足 $f_c\left(\boldsymbol{x} ; \boldsymbol{w}_c^*,b\right)>$ $f_{\tilde{c}}\left(\boldsymbol{x}, \boldsymbol{w}_{\tilde{c}}^*,b\right), \forall \tilde{c} \neq c$ , 那么训练集 $\mathcal{D}$ 是线性可分的。

从上面定义可知，如果数据集是多类线性可分的，那么一定存在一个“ $argmax$ ”方式的线性分类器可以将它们正确分开。

Softmax Regression 也称为多项（Multinomial）或多类（Multi Class）的 Logistic 回归，是 $Logistic$ 回归在多分类问题上的推广。

\begin{aligned} \operatorname{softmax}\left(x_k\right)=\frac{\exp \left(x_k\right)}{\sum_{i=1}^K \exp \left(x_i\right)} \end{aligned}

模型：分类决策问题 $\rightarrow$ 条件概率估计问题

线性函数组合特征： $f=\boldsymbol{w}^{\top} \boldsymbol{x}+b$
非线性函数决策， $Softmax$ 回归： $\boldsymbol{w}_i$ 是第 $i$ 类的权重向量

\begin{aligned} p(y=c \mid \boldsymbol{x}) & =\operatorname{softmax}\left(\boldsymbol{w}_c^{\top} \boldsymbol{x}+b\right) \\ & =\frac{\exp \left(\boldsymbol{w}_c^{\top} \boldsymbol{x}+b\right)}{\sum_{c^{\prime}=1}^C \exp \left(\boldsymbol{w}_{c^{\prime}}^{\top} \boldsymbol{x}+b\right)} \end{aligned}

学习准则： $Softmax$ 回归使用交叉熵作为损失函数

给定 $N$ 个训练样本 $\left\{\left(\boldsymbol{x}^{(n)}, y^{(n)}\right)\right\}_{n=1}^N$ ，使用 $Softmax$ 回归模型进行预测，单个样本预测概率：

\begin{aligned} \hat{y}^{(n)} & =\underset{c=1}{\stackrel{C}{\arg \max }} \; p(y=c \mid \boldsymbol{x}) \end{aligned}

又训练样本 $\left\{\left(\boldsymbol{x}^{(n)}, y^{(n)}\right)\right\}_{n=1}^N$ ，单个样本真实概率：

\begin{aligned} y^{(n)} \end{aligned}

种类	预测概率	真实概率
$1$	$\hat{y}^{(n)}_1$	$y^{(n)}_1$
$2$	$\hat{y}^{(n)}_2$	$y^{(n)}_2$
$\cdots$
$i$	$\hat{y}^{(n)}_i$	$y^{(n)}_i$
$\cdots$
$C$	$\hat{y}^{(n)}_C$	$y^{(n)}_C$

考虑全部样本，可以写为：

\begin{aligned} \hat{\boldsymbol{y}} & =\operatorname{softmax}\left(\boldsymbol{W}^{\top} \boldsymbol{x}\right) \\ & =\frac{\exp \left(\boldsymbol{W}^{\top} \boldsymbol{x}\right)}{\mathbf{1}_C^{\top} \exp \left(\boldsymbol{W}^{\top} \boldsymbol{x}\right)} \end{aligned}

$\boldsymbol{W}=\left[\boldsymbol{w}_1, \cdots, \boldsymbol{w}_C\right]$ ：由 $C$ 个类的权重向量组成的矩阵。
$1_C$ ： $C$ 维的全 $1$ 向量。
$\hat{\boldsymbol{y}} \in \mathbb{R}^C$ ：所有类别的预测条件概率组成的向量，第 $c$ 维的值是第 $c$ 类的预测条件概率。

真实概率和预测概率的交叉熵为： $-\left[y^{(n)}_1 \log \hat{y}^{(n)}_1+y^{(n)}_2 \log \hat{y}^{(n)}_2 +\cdots + y^{(n)}_C \log \hat{y}^{(n)}_C\right]=-\sum_{c=1}^C y^{(n)}_c \log \left(\hat{y}^{(n)}_c\right)$

考虑全部训练样本，基于交叉熵损失函数，模型在训练集上的风险函数为：

\begin{aligned} \mathcal{R}(\boldsymbol{W}) & =-\frac{1}{N} \sum_{n=1}^N \sum_{c=1}^C \boldsymbol{y}_c^{(n)} \log \hat{\boldsymbol{y}}_c^{(n)} \\ & =-\frac{1}{N} \sum_{n=1}^N\left(\boldsymbol{y}^{(n)}\right)^{\top} \log \hat{\boldsymbol{y}}^{(n)} \end{aligned}

优化算法：使用梯度下降，针对的是 $\boldsymbol{w}$ ，上述与该项有关系的只有 $\hat{\boldsymbol{y}}^{(n)}$ 。

\begin{aligned} \frac{\partial \mathcal{R}(\boldsymbol{W})}{\partial \boldsymbol{W}}=-\frac{1}{N} \sum_{n=1}^N \boldsymbol{x}^{(n)}\left(\boldsymbol{y}^{(n)}-\hat{\boldsymbol{y}}^{(n)}\right)^{\top} \end{aligned}

\begin{aligned} \boldsymbol{W}_{t+1} \leftarrow \boldsymbol{W}_t+\alpha\left(\frac{1}{N} \sum_{n=1}^N \boldsymbol{x}^{(n)}\left(\boldsymbol{y}^{(n)}-\hat{\boldsymbol{y}}_{W_t}^{(n)}\right)^{\top}\right) \end{aligned}

要素	公式
模型	$p(y=c \mid \mathbf{x}) =\operatorname{softmax}\left(\mathbf{w}_c^{\mathrm{T}} \mathbf{x}\right) =\frac{\exp \left(\mathbf{w}_c^{\top} \mathbf{x}\right)}{\sum_{i=1}^C \exp \left(\mathbf{w}_i^{\top} \mathbf{x}\right)}$
学习准则	$\mathcal{R}(\boldsymbol{W})=-\frac{1}{N} \sum_{n=1}^N\left(\boldsymbol{y}^{(n)}\right)^{\top} \log \hat{\boldsymbol{y}}^{(n)}$
优化算法	$\frac{\partial \mathcal{R}(\boldsymbol{W})}{\partial \boldsymbol{W}}=-\frac{1}{N} \sum_{n=1}^N \boldsymbol{x}^{(n)}\left(\boldsymbol{y}^{(n)}-\hat{\boldsymbol{y}}^{(n)}\right)^{\top} \\ \boldsymbol{W}_{t+1} \leftarrow \boldsymbol{W}_t+\alpha\left(\frac{1}{N} \sum_{n=1}^N \boldsymbol{x}^{(n)}\left(\boldsymbol{y}^{(n)}-\hat{\boldsymbol{y}}_{W_t}^{(n)}\right)^{\top}\right)$

感知机

感知机（Perceptron）由 FrankRoseblatt 于1957年提出，是一种广泛使用的线性分类器。感知器可谓是最简单的人工神经网络，只有一个神经元。模拟生物神经元行为的机器，有与生物神经元相对应的部件：

生物神经元部件	感知机组成
突触	权重
阈值	偏置
细胞体	激活函数

模型：

\begin{aligned} g(\mathbf{x}, \mathbf{w})= \begin{cases}+1 & \text { 当 } \mathbf{w}^{\mathrm{T}} \mathbf{x}>0, \\ -1 & \text { 当 } \mathbf{w}^{\mathrm{T}} \mathbf{x}<0 .\end{cases} \end{aligned}

学习准则：

\begin{aligned} \mathcal{L}(\mathbf{w} ; \mathbf{x}, y)=\max \left(0,-y \mathbf{w}^{\mathrm{T}} \mathbf{x}\right) \end{aligned}

优化算法：

\begin{aligned} \frac{\partial \mathcal{L}(\mathbf{w} ; \mathbf{x}, y)}{\partial \mathbf{w}}= \begin{cases}0 & \text { 当 } y \mathbf{w}^{\mathrm{T}} \mathbf{x}>0, \\ -y \mathbf{x} & \text { 当 } y \mathbf{w}^{\mathrm{T}} \mathbf{x}<0 .\end{cases} \end{aligned}

\begin{aligned} \text { 当 } y \mathbf{w}^{\mathrm{T}} \mathbf{x}<0 \quad \boldsymbol{w}_{k+1} \leftarrow \boldsymbol{w}_k+y \boldsymbol{x} \end{aligned}

线性分类模型小结

线性模型	激活函数	损失函数	优化方法
线性回归	-	$\left(y-\boldsymbol{w}^{\top} \boldsymbol{x}\right)^2$	梯度下降
$Logistic$ 回归	$\sigma\left(\boldsymbol{w}^{\top} \boldsymbol{x}\right)$	$\boldsymbol{y} \log \sigma\left(\boldsymbol{w}^{\top} \boldsymbol{x}\right)$	梯度下降
$Softmax$ 回归	$\operatorname{softmax}\left(\boldsymbol{W}^{\top} \boldsymbol{x}\right)$	$\boldsymbol{y} \log \operatorname{softmax}\left(\boldsymbol{W}^{\top} \boldsymbol{x}\right)$	梯度下降
感知机	$\operatorname{sgn}\left(\boldsymbol{w}^{\top} \boldsymbol{x}\right)$	$\max \left(0,-y \boldsymbol{w}^{\top} \boldsymbol{x}\right)$	随机梯度下降