人工神经网络

人脑神经网络

人类大脑 = 神经元(近860亿) + 神经胶质细胞 + 神经干细胞 + 血管

神经元(neuron):也叫神经细胞 (nerve cell\text {nerve cell})是人脑神经系统中最基本的单元。

  • 细胞体:通过生物化学反应 引起细胞膜内外 电位差 发生改变形成兴奋或抑制状态。
  • 细胞突起:由细胞体延伸出来:
    • 树突:可接收刺激并将兴奋传入细胞体 每个神经元可以有一个或多个树突。
    • 轴突:可把自身兴奋状态从细胞体传给另一个神经元,每个神经元只有一个轴突。

每个神经元与其他神经元相连,当它兴奋时就会向相连的神经元发送化学物质 从而改变这些神经元内的电位,如果神经元的电位超过一定阈值,它就会被激活即兴奋起来,然后向其他神经元发送化学物质 。

人工神经元模型

M-P神经元模型(McCulloch and Pitts):神经元接收到来自其他 dd 个神经元传递过来的输入信号,通过带权重的连接进行传递。神经元接收到的总输入值与神经元的阈值 bias\text {bias} 进行比较,然后通过激活函数处理产生神经元的输出 。

人工神经网络

input layerhidden layeroutput layer\text {input layer} \rightarrow \text {hidden layer} \rightarrow \text {output layer}

x1,x2,,xnx_1, x_2, \cdots, x_n

  • 节点ff:采用什么激活函数?
  • 连边w1,w2,,wdw_1, w_2, \cdots, w_d:权重(参数)是多少?
  • 连接方式:如何设计层次结构?

一个解决异或问题的简单网络

感知器回顾

输入为 [x1;x2][x_1;x_2] 的单层单个神经元(输入层不计入层数),采用阶跃激活函数。

(a) “与” 问题 (x1x2)\left(x_1 \wedge x_2\right)
(b) “或” 问题 (x1x2)\left(x_1 \vee x_2\right)
© “非” 问题 (¬x1)\left(\neg x_1\right)
(d) “异或” 问题 (x1x2)\left(x_1 \oplus x_2\right)

双层感知机解决异或问题

输入为 [x1;x2][x_1;x_2] 的双层神经元(输入层不计入层数),采用阶跃激活函数。

  • 隐藏层 hh 包含 22 个神经元:h=f(1)(x;W,c)\boldsymbol{h}=f^{(1)}(\boldsymbol{x} ; \boldsymbol{W}, \boldsymbol{c})
  • 输出层 yy 包含 11 个神经元:y=f(2)(h;w,b)y=f^{(2)}(\boldsymbol{h} ; \boldsymbol{w}, b)
  • 隐藏层采用线性整流激活函数(ReLU\text {ReLU}):g(z)=max{0,z}g(z)=\max \{0, z\}

综上,整个模型为:

f(x;W,c,w,b)=f(2)(f(1)(x))=wTmax{0,WTx+c}+b\begin{aligned} f(\boldsymbol{x} ; \boldsymbol{W}, \boldsymbol{c}, \boldsymbol{w}, b) & =f^{(2)}\left(f^{(1)}(\boldsymbol{x})\right)=\boldsymbol{w}^{\mathrm{T}} \max \left\{0, \boldsymbol{W}^{\mathrm{T}} \boldsymbol{x}+\boldsymbol{c}\right\}+b \end{aligned}

Example:

W=[1111],cT=[01],w=[12],b=0\boldsymbol{W}=\left[\begin{array}{ll} 1 & 1 \\ 1 & 1 \end{array}\right], \boldsymbol{c}^{\mathrm{T}}=\left[\begin{array}{c} 0 \\ -1 \end{array}\right], \boldsymbol{w}=\left[\begin{array}{c} 1 \\ -2 \end{array}\right], b=0

  1. 输入 44 个样本:

X=[00011011]\boldsymbol{X}=\left[\begin{array}{ll} 0 & 0 \\ 0 & 1 \\ 1 & 0 \\ 1 & 1 \end{array}\right]

  1. f(1)(X)f^{(1)}(\boldsymbol{X})
    1. WTX+c\boldsymbol{W}^{\mathrm{T}} \boldsymbol{X}+\boldsymbol{c}
    2. max{0,WTX+c}\max \left\{0, \boldsymbol{W}^{\mathrm{T}} \boldsymbol{X}+\boldsymbol{c}\right\}

XW+c=[01101021]\boldsymbol{X} \boldsymbol{W}+\boldsymbol{c}=\left[\begin{array}{cc} 0 & -1 \\ 1 & 0 \\ 1 & 0 \\ 2 & 1 \end{array}\right]

max{0,XW+c}=[00101021]\max \{\mathbf{0}, \boldsymbol{X} \boldsymbol{W}+\boldsymbol{c}\}=\left[\begin{array}{ll} 0 & 0 \\ 1 & 0 \\ 1 & 0 \\ 2 & 1 \end{array}\right]

  1. f(2)(f(1)(x))f^{(2)}\left(f^{(1)}(\boldsymbol{x})\right)wTmax{0,WTx+c}+b\boldsymbol{w}^{\mathrm{T}} \max \left\{0, \boldsymbol{W}^{\mathrm{T}} \boldsymbol{x}+\boldsymbol{c}\right\}+b

y=[0110]\boldsymbol{y}=\left[\begin{array}{l} 0 \\ 1 \\ 1 \\ 0 \end{array}\right]

神经网络结构

万能近似定理

通用近似定理(Universal Approximation Theorem):令 ϕ()\phi(\cdot) 是一个非常数、有界、单调递增的连续函数, JD\mathcal{J}_D 是一个 DD 维的单位超立方体 [0,1]D,C(JD)[0,1]^D, C\left(\mathcal{J}_D\right) 是定义在 JD\mathcal{J}_D 上的连续函数集合。对于任何一个函数 fC(JD)f \in C\left(\mathcal{J}_D\right), 存在一个整数 MM, 和一组实数 vm,bmRv_m, b_m \in \mathbb{R} 以及实数向量 wmRD,m=1,,M\boldsymbol{w}_m \in \mathbb{R}^D, m=1, \cdots, M, 以至于我们可以定义函数:

F(x)=m=1Mvmϕ(wmx+bm)F(\boldsymbol{x})=\sum_{m=1}^M v_m \phi\left(\boldsymbol{w}_m^{\top} \boldsymbol{x}+b_m\right)

作为函数 ff 的近似实现,即

F(x)f(x)<ϵ,xJD|F(\boldsymbol{x})-f(\boldsymbol{x})|<\epsilon, \forall \boldsymbol{x} \in \mathcal{J}_D

其中 ϵ>0\epsilon>0 是一个很小的正数。

根据通用近似定理,对于具有线性输出层和至少一个使用“挤压”性质的激活函数的隐藏层组成的神
经网络,只要其隐藏层神经元的数量足够多,它就可以以任意精度来近似任何一个定义在实数空间中的有界闭集函数。

通用近似定理应用到神经网络,将神经网络作为万能函数使用,用来进行复杂的特征转换,或逼近一个复杂的条件分布。

为什么要深度

  • 单隐层网络可以近似任何函数,但其规模可能巨大:在最坏的情况下,需要指数级的隐藏单元才能近似某个函数。
  • 随着深度的增加,网络的表示能力呈指数增加:

具有 dd 个输入、深度为 ll,每个隐藏层具有 nn 个单元的深度整流网络可描述的线性区域的数量为:

O((nd)d(l1)nd)O\left(\left(\begin{array}{l} n \\ d \end{array}\right)^{d(l-1)} n^d\right)

网络描述能力是深度的指数级。

[Goodfellow et al 2014] 手写体数字识别的实验结果

更深层次的网络具有更好的泛化能力 \Rightarrow 模型的性能随着深度的增加而不断提升。

[Goodfellow et al 2014] 手写体数字识别的实验结果

参数数量的增加未必一定会带来模型效果的提升。

常见神经网络结构

前馈神经网络

  • 各个神经元按照接收信息的先后分成不同的组,每一组可看作一个神经层。
  • 每一层中的神经元接收来自前一层神经元的输出,并输出给下一层神经元。

前馈神经网络:网络信息朝一个方向传播,没有反方向的信息传播——有向无环图

  • 全连接前馈神经网络
  • 卷积神经网络

记忆网络

  • 神经元不但可以接收其他神经元的信息,也可以接收自己的历史信息。
  • 神经元具有记忆功能,在不同的时刻具有不同的状态。

记忆网络/反馈网络:网络信息传播可以是单向或者双向传播——有向循环图/无向图

  • 循环神经网络
  • Hopfield\text {Hopfield} 网络
  • 玻尔兹曼机
  • 受限玻尔兹曼机

图网络

  • 定义在图数据结构上的神经网络
  • 图中的每个节点都是由一个或者一组神经元构成
  • 节点之间的连接可以是有向的,也可以是无向的
  • 每个节点可以接收来自相邻节点或者自身的信息

图网络:图网络是前馈网络和记忆网络的泛化,包含许多不同的实现方式。

  • 图卷积神经网络
  • 图注意力网络
  • 消息传递网络

结构设计的其他考虑

除了深度和宽度外,神经网络的结构还具有其他方面的多样性。

  • 改变层与层之间的连接方式:前一层的每个单元仅与后一层的一个小单元子集相连。
  • 增加跳跃连接:从第 ii 层与第 i+2i+2 层甚至更高层之间建立连接。

前馈神经网络

结构与表示

前馈神经网络 (Feedforward Neural Network, FNN) 是最早发明的简单人工神经网络,也被称作多层感知器 (Multi Layer Perceptron, MLP)

00 层:输入层

11 层:隐藏层

n1n-1 层:隐藏层

nn 层:输出层

信号从输入层向输出层单向传播,整个网络中无反馈,可用一个有向无环图表示。

符号表示:用于建模

记号 含义
LL 神经网络的层数
MlM_l ll 层神经元的个数
fl()f_l(\cdot) ll 层神经元的激活函数
W(l)RMl×Ml1\boldsymbol{W}^{(l)} \in \mathbb{R}^{M_l \times M_{l-1}} l1l-1 层到第 ll 层的权重矩阵
b(l)RMl\boldsymbol{b}^{(l)} \in \mathbb{R}^{M_l} l1l-1 层到第 ll 层的偏置
z(l)RMl\boldsymbol{z}^{(l)} \in \mathbb{R}^{M_l} ll 层神经元的净输入 (净活性值)
a(l)RMl\boldsymbol{a}^{(l)} \in \mathbb{R}^{M_l} ll 层神经元的输出 (活性值)

前馈神经网络的信息传递过程

a(0)=x\boldsymbol{a}^{(0)}=x

则第 l1l-1 层信息传播到第 ll 层:z(l)=W(l)a(l1)+b(l)a(l)=fl(z(l))\begin{gathered}\mathbf{z}^{(l)}=\boldsymbol{W}^{(l)} \boldsymbol{a}^{(l-1)}+\boldsymbol{b}^{(l)} \\ \boldsymbol{a}^{(l)}=f_l\left(\mathbf{z}^{(l)}\right)\end{gathered}

合并写为:

z(l)=W(l)fl1(z(l1))+b(l)\boldsymbol{z}^{(l)}=\boldsymbol{W}^{(l)} f_{l-1}\left(\mathbf{z}^{(l-1)}\right)+\boldsymbol{b}^{(l)}

或者

a(l)=fl(W(l)a(l1)+b(l))\boldsymbol{a}^{(l)}=f_l\left(\boldsymbol{W}^{(l)} \boldsymbol{a}^{(l-1)}+\boldsymbol{b}^{(l)}\right)

如此下来,逐层传递,得到最后的输出 a(L)\boldsymbol{a}^{(L)}

a(0)z(1)a(1)z(2)a(L1)z(L)a(L)\boldsymbol{a}^{(0)} \rightarrow \mathbf{z}^{(1)} \rightarrow \boldsymbol{a}^{(1)} \rightarrow \mathbf{z}^{(2)} \rightarrow \cdots \rightarrow \boldsymbol{a}^{(L-1)} \rightarrow \mathbf{z}^{(L)} \rightarrow \boldsymbol{a}^{(L)}

也就相当于复合函数:xϕ(x;W,b)x \longrightarrow \phi(x ; \boldsymbol{W}, \boldsymbol{b})

隐藏单元

设计要求:

  • 连续并可导:可利用数值优化的方法来学习网络参数。
  • 尽可能简单:提高网络计算效率。
  • 值域在一个合适的区间:不能太大也不能太小,会影响训练的效率和稳定性。

Sigmoid型函数

Logistic\text {Logistic} 函数

σ(x)=11+exp(x)\sigma(x)=\frac{1}{1+\exp (-x)}

Tanh\text {Tanh} 函数

tanh(x)=exp(x)exp(x)exp(x)+exp(x)=2σ(2x)1\begin{aligned} \tanh (x) =\frac{\exp (x)-\exp (-x)}{\exp (x)+\exp (-x)} =2 \sigma(2 x)-1 \end{aligned}

Hard Logistic\text {Hard Logistic} 函数

 hard-logistic (x)=max(min(0.25x+0.5,1),0)\begin{aligned} \text { hard-logistic }(x)=\max (\min (0.25 x+0.5,1), 0) \end{aligned}

Hard Tanh\text {Hard Tanh} 函数

这两个函数是对 Logistic\text {Logistic}Tanh\text {Tanh} 函数的分段近似,与它们相比降低了计算开销。

整流线性单元 (ReLU)函数及其拓展

ReLU\text {ReLU} 函数

ReLU(x)={x,x00,x<0=max(0,x)\operatorname{ReLU}(x)=\left\{\begin{array}{ll} x, & x \geq 0 \\ 0, & x<0 \end{array}=\max (0, x)\right.

Leaky ReLU\text {Leaky ReLU} :带泄露的 ReLU\text {ReLU} 函数

LeakyReLU(x)={x,x0γx,x<0=max(0,x)+γmin(0,x)\begin{aligned} \operatorname{LeakyReLU}(x)=\left\{\begin{array}{cc} x, & x \geq 0 \\ \gamma x, & x<0 \end{array}\right.=\max (0, x)+\gamma \min (0, x) \end{aligned}

指数线性单元 ELU\text {ELU}

ELU(x)={x,x0γ(exp(x)1),x<0=max(0,x)+min(0,γ(exp(x)1))\begin{aligned} & \operatorname{ELU}(x)= \begin{cases}x, & x \geq 0 \\ \gamma(\exp (x)-1), & x<0\end{cases}=\max (0, x)+\min (0, \gamma(\exp (x)-1)) \end{aligned}

Softplus\text {Softplus}

Softplus(x)=log(1+exp(x))\operatorname{Softplus}(x)=\log (1+\exp (x))

其他激活函数

Swish\text {Swish} 函数

swish(x)=xσ(βx)=x1+exp(βx)\operatorname{swish}(x)=x \sigma(\beta x)=\frac{x}{1+\exp (-\beta x)}

  • β=0\beta=0,为线性函数
  • β\beta \rightarrow \infty,近似 ReLU\text {ReLU} 函数
  • 可看成线性函数和 ReLU\text {ReLU} 之间的非线性插值函数

高斯误差线性单元(GELU\text {GELU} 函数)

GELU(x)=xP(Xx)xσ(1.702x)\operatorname{GELU}(x)=x P(X \leq x) \approx x \sigma(1.702 x)

Maxout\text {Maxout} 单元

Maxout\text {Maxout}:将神经元的净输入 zz 分为 KK 组(每个组有一个权重向量和偏置),每一组均为线性函数。——任意凸函数的分段线性分布

输出单元

线性输出单元

y^=wTh+b\hat{y}=\boldsymbol{w}^{\mathrm{T}} \boldsymbol{h}+b

常用于输出条件高斯分布,适合连续值预测(回归)问题

最大化似然(最小化负对数似然)等价于最小化均方误差,均方误差损失函数:

L(y,y^)=1Nn=1Ny^(n)y(n)2L(y, \hat{y})=\frac{1}{N} \sum_{n=1}^N\left\|\hat{y}^{(n)}-y^{(n)}\right\|^2

  • y(n)y^{(n)}:真实值
  • y^(n)\hat{y}^{(n)}:预测值
  • NN:样本数

Sigmoid单元

y^=σ(wTh+b)=11+exp(wThb)\hat{y}=\sigma\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{h}+b\right)=\frac{1}{1+\exp \left(-\boldsymbol{w}^{\mathrm{T}} \boldsymbol{h}-b\right)}

常用于输出伯努利分布(Bernoulli Distribution),适合二分类问题

交叉熵损失函数:

L(y,y^)=1Nn=1N(y(n)logy^(n)+(1y(n))log(1y^(n)))L(y, \hat{y})=-\frac{1}{N} \sum_{n=1}^N\left(y^{(n)} \log \hat{y}^{(n)}+\left(1-y^{(n)}\right) \log \left(1-\hat{y}^{(n)}\right)\right)

  • y(n)y^{(n)}:真实值
  • y^(n)\hat{y}^{(n)}:预测值
  • NN:样本数

Softmax单元

y^c=softmax(wcTh+bc)=exp(wcTh+bc)j=1Cexp(wcT+bc)\hat{y}_c=\operatorname{softmax}\left(\boldsymbol{w}_c^{\mathrm{T}} \boldsymbol{h}+b_c\right)=\frac{\exp \left(\boldsymbol{w}_c^{\mathrm{T}} \boldsymbol{h}+b_c\right)}{\sum_{j=1}^C \exp \left(\boldsymbol{w}_c^{\mathrm{T}}+b_c\right)}

常用于输出范畴分布(Multinoulli Distribution)/分类分布(Categotical Distribution),适合多分类问题

交叉熵损失函数:

L(y,y^)=1Nn=1N(y(n))Tlogy^(n)L(\boldsymbol{y}, \widehat{\boldsymbol{y}})=-\frac{1}{N} \sum_{n=1}^N\left(\boldsymbol{y}^{(n)}\right)^{\mathrm{T}} \log \widehat{\boldsymbol{y}}^{(n)}

  • y(n)=[y1(n),y2(n),,yC(n)]T\boldsymbol{y}^{(n)}=\left[y_1^{(n)}, y_2^{(n)}, \ldots, y_C^{(n)}\right]^{\mathrm{T}}:真实标签向量
  • y^(n)=[y^1(n),y^2(n),,y^C(n)]T\widehat{\boldsymbol{y}}^{(n)}=\left[\hat{y}_1^{(n)}, \hat{y}_2^{(n)}, \ldots, \hat{y}_C^{(n)}\right]^{\mathrm{T}}:预测标签概率向量
  • NN:样本数
  • CC:标签数

参数学习

学习准则

假设神经网络采用交叉熵损失函数,

对于一个样本 (x,y)(\boldsymbol{x}, y) ,损失函数:

L(y,y^)=yTlogy^L(\boldsymbol{y}, \widehat{\boldsymbol{y}})=-\boldsymbol{y}^{\mathrm{T}} \log \widehat{\boldsymbol{y}}

y{0,1}C\boldsymbol{y} \in\{0,1\}^C:标签 yy 对应的 one-hot\text {one-hot} 向向量表示。

对于给定的数据集 D={(x(n),y(n))}n=1ND=\left\{\left(\boldsymbol{x}^{(n)}, y^{(n)}\right)\right\}_{n=1}^N,模型在数据集 DD 上的结构化风险函数:

R(W,b)=1Nn=1NL(y(n),y^(n))+12λWF2R(\boldsymbol{W}, \boldsymbol{b})=-\frac{1}{N} \sum_{n=1}^N L\left(\boldsymbol{y}^{(n)}, \widehat{\boldsymbol{y}}^{(n)}\right)+\frac{1}{2} \lambda\|\boldsymbol{W}\|_F^2

  • W\boldsymbol{W}:网络参数
  • b\boldsymbol{b}:网络参数
  • λ\lambda:超参数

正则化项 WF2\|\boldsymbol{W}\|_F^2

WF2=l=1Li=1Mlj=1Ml1(wij(l))2\|\boldsymbol{W}\|_F^2=\sum_{l=1}^L \sum_{i=1}^{M_l} \sum_{j=1}^{M_{l-1}}\left(w_{i j}^{(l)}\right)^2

梯度下降

网络参数通过梯度下降法进行学习,在每次迭代中第 ll 层的参数 W(l)\boldsymbol{W}^{(l)}b(l)\boldsymbol{b}^{(l)} 更新:

W(l)W(l)αR(W,b)W(l)=W(l)α(1Nn=1N(L(y(n),y^(n))W(l))+λW(l))b(l)b(l)αR(W,b)b(l)=b(l)α(1Nn=1N(L(y(n),y^(n))b(l)))\begin{aligned} \boldsymbol{W}^{(l)} & \leftarrow \boldsymbol{W}^{(l)}-\alpha \frac{\partial R(\boldsymbol{W}, \boldsymbol{b})}{\partial \boldsymbol{W}^{(l)}} \\ & =\boldsymbol{W}^{(l)}-\alpha\left(\frac{1}{N} \sum_{n=1}^N\left(\frac{\partial L\left(\boldsymbol{y}^{(n)}, \hat{\boldsymbol{y}}^{(n)}\right)}{\partial \boldsymbol{W}^{(l)}}\right)+\lambda \boldsymbol{W}^{(l)}\right) \\ \boldsymbol{b}^{(l)} & \leftarrow \boldsymbol{b}^{(l)}-\alpha \frac{\partial R(\boldsymbol{W}, \boldsymbol{b})}{\partial \boldsymbol{b}^{(l)}} \\ & =\boldsymbol{b}^{(l)}-\alpha\left(\frac{1}{N} \sum_{n=1}^N\left(\frac{\partial L\left(\boldsymbol{y}^{(n)}, \hat{\boldsymbol{y}}^{(n)}\right)}{\partial \boldsymbol{b}^{(l)}}\right)\right) \end{aligned}

通过链式法则可以逐一对每个参数求偏导,但效率低下,在神经网络的训练中经常使用反向传播算法来高效地计算梯度:其中核心的技术就是链式法则。

反向传播算法

微分链式法则

反向传播算法

给定一个样本 (x,y)(x, y),假设神经网络输出为 y^\widehat{\boldsymbol{y}},

损失函数为 L(y,y^)L(\boldsymbol{y}, \widehat{\boldsymbol{y}}),采用梯度下降法需要计算损失函数关于每个参数的偏导数 。

如何高效计算前馈神经网络中参数的偏导数——**反向传播算法(Back Propagation,BP)**算法

考虑求第 ll 层中参数 W(l)\boldsymbol{W}^{(l)}b(l)\boldsymbol{b}^{(l)} 的偏导数,由于 z(l)=W(l)a(l1)+b(l)\boldsymbol{z}^{(l)}=\boldsymbol{W}^{(l)} \boldsymbol{a}^{(l-1)}+\boldsymbol{b}^{(l)} ,根据链式法则:

L(y,y^)wij(l)=z(l)wij(l)L(y,y^)z(l)L(y,y^)b(l)=z(l)b(l)L(y,y^)z(l)\begin{aligned} & \frac{\partial L(\boldsymbol{y}, \widehat{\boldsymbol{y}})}{\partial w_{i j}^{(l)}}=\frac{\partial \boldsymbol{z}^{(l)}}{\partial w_{i j}^{(l)}} \frac{\partial L(\boldsymbol{y}, \widehat{\boldsymbol{y}})}{\partial \mathbf{z}^{(l)}} \\ & \frac{\partial L(\boldsymbol{y}, \widehat{\boldsymbol{y}})}{\partial \boldsymbol{b}^{(l)}}=\frac{\partial \mathbf{z}^{(l)}}{\partial \boldsymbol{b}^{(l)}} \frac{\partial L(\boldsymbol{y}, \widehat{\boldsymbol{y}})}{\partial \mathbf{z}^{(l)}} \end{aligned}

定义 δ(l)L(y,y^)z(l)\boldsymbol{\delta}^{(l)} \triangleq \frac{\partial L(\boldsymbol{y}, \widehat{\boldsymbol{y}})}{\partial \boldsymbol{z}^{(l)}}:第 ll 层的误差项。

  1. z(l)wij(l)\frac{\partial \boldsymbol{z}^{(l)}}{\partial w_{i j}^{(l)}}z(l)=W(l)a(l1)+b(l)\mathbf{z}^{(l)}=\boldsymbol{W}^{(l)} \boldsymbol{a}^{(l-1)}+\boldsymbol{b}^{(l)}

z(l)wij(l)=[zi(l)wij(l),,zi(l)wij(l),,zMl(l)wij(l)]=[0,,(k=1Ml1wik(l)ak(l1)+bi(l))wij(l),,0]=[0,,aj(l1),,0]R1×Ml\begin{aligned} \frac{\partial \mathbf{z}^{(l)}}{\partial w_{i j}^{(l)}} & =\left[\frac{\partial z_i^{(l)}}{\partial w_{i j}^{(l)}}, \ldots, \frac{\partial z_i^{(l)}}{\partial w_{i j}^{(l)}}, \ldots, \frac{\partial z_{M_l}^{(l)}}{\partial w_{i j}^{(l)}}\right] \\ & =\left[0, \ldots, \frac{\partial\left(\sum_{k=1}^{M_{l-1}} w_{i k}^{(l)} a_k^{(l-1)}+b_i^{(l)}\right)}{\partial w_{i j}^{(l)}}, \ldots, 0\right] \\ & =\left[0, \ldots, a_j^{(l-1)}, \ldots, 0\right] \in \mathbb{R}^{1 \times M_l} \end{aligned}

  1. z(l)b(l)\frac{\partial \mathbf{z}^{(l)}}{\partial \boldsymbol{b}^{(l)}}z(l)=W(l)a(l1)+b(l)\mathbf{z}^{(l)}=\boldsymbol{W}^{(l)} \boldsymbol{a}^{(l-1)}+\boldsymbol{b}^{(l)}

z(l)b(l)=IMlRMl×Ml\frac{\partial \boldsymbol{z}^{(l)}}{\partial \boldsymbol{b}^{(l)}}=\boldsymbol{I}_{M_l} \in \mathbb{R}^{M_l \times M_l}

  1. δ(l)L(y,y^)z(l)\boldsymbol{\delta}^{(l)} \triangleq \frac{\partial L(\boldsymbol{y}, \widehat{\boldsymbol{y}})}{\partial \mathbf{z}^{(l)}}z(l+1)=W(l+1)a(l)+b(l+1),a(l)=fl(z(l))\mathbf{z}^{(l+1)}=\boldsymbol{W}^{(l+1)} \boldsymbol{a}^{(l)}+\boldsymbol{b}^{(l+1)}, \quad \boldsymbol{a}^{(l)}=f_l\left(\mathbf{z}^{(l)}\right)

L(y,y^)z(l)=a(l)z(l)z(l+1)a(l)L(y,y^)z(l+1)\frac{\partial L(\boldsymbol{y}, \widehat{\boldsymbol{y}})}{\partial \boldsymbol{z}^{(l)}}=\frac{\partial \boldsymbol{a}^{(l)}}{\partial \mathbf{z}^{(l)}} \frac{\partial \mathbf{z}^{(l+1)}}{\partial \boldsymbol{a}^{(l)}} \frac{\partial L(\boldsymbol{y}, \widehat{\boldsymbol{y}})}{\partial \mathbf{z}^{(l+1)}}

L(y,y^)z(l+1)=δ(l+1)RM(l+1)×1\frac{\partial L(\boldsymbol{y}, \widehat{\boldsymbol{y}})}{\partial \mathbf{z}^{(l+1)}}=\boldsymbol{\delta}^{(l+1)} \in \mathbb{R}^{\mathrm{M}_{(l+1)} \times 1}

a(l)z(l)=fl(z(l))z(l)=diag(fl(z(l)))RMl×Mlz(l+1)a(l)=(W(l+1))TRMl×Ml+1\begin{gathered} \frac{\partial \boldsymbol{a}^{(l)}}{\partial \mathbf{z}^{(l)}}=\frac{\partial f_l\left(\mathbf{z}^{(l)}\right)}{\partial \mathbf{z}^{(l)}}=\operatorname{diag}\left(f_l^{\prime}\left(\mathbf{z}^{(l)}\right)\right) \in \mathbb{R}^{M_l \times M_l} \\ \frac{\partial \mathbf{z}^{(l+1)}}{\partial \boldsymbol{a}^{(l)}}=\left(\boldsymbol{W}^{(l+1)}\right)^{\mathrm{T}} \in \mathbb{R}^{M_l \times M_{l+1}} \end{gathered}

所以

δ(l)L(y,y^)z(l)=diag(fl(z(l)))(W(l+1))Tδ(l+1)=fl(z(l))((W(l+1))Tδ(l+1))RMl\begin{aligned} \boldsymbol{\delta}^{(l)} \triangleq \frac{\partial L(\boldsymbol{y}, \hat{\boldsymbol{y}})}{\partial \boldsymbol{z}^{(l)}} & =\operatorname{diag}\left(f_l^{\prime}\left(\boldsymbol{z}^{(l)}\right)\right)\left(\boldsymbol{W}^{(l+1)}\right)^{\mathrm{T}} \boldsymbol{\delta}^{(l+1)} \\ & =f_l^{\prime}\left(\boldsymbol{z}^{(l)}\right) \odot\left(\left(\boldsymbol{W}^{(l+1)}\right)^{\mathrm{T}} \boldsymbol{\delta}^{(l+1)}\right) \in \mathbb{R}^{M_l} \end{aligned}

  1. δ(L)L(y,y^)z(L)\boldsymbol{\delta}^{(L)} \triangleq \frac{\partial L(\boldsymbol{y}, \widehat{\boldsymbol{y}})}{\partial \mathbf{z}^{(L)}}y^=a(L)=fL(z(L))\widehat{\boldsymbol{y}}=\boldsymbol{a}^{(L)}=f_L\left(\mathbf{z}^{(L)}\right)

δ(L)L(y,y^)z(L)=y^z(L)L(y,y^)y^=fL(z(L))z(L)L(y,y^)y^=diag(fL(z(L)))L(y,y^)y^=fL(z(L))L(y,y^)y^RML\begin{aligned} \boldsymbol{\delta}^{(L)} \triangleq \frac{\partial L(\boldsymbol{y}, \widehat{\boldsymbol{y}})}{\partial \boldsymbol{z}^{(L)}} & =\frac{\partial \widehat{\boldsymbol{y}}}{\partial \boldsymbol{z}^{(L)}} \frac{\partial L(\boldsymbol{y}, \widehat{\boldsymbol{y}})}{\partial \hat{\boldsymbol{y}}} \\ & =\frac{\partial f_L\left(\boldsymbol{z}^{(L)}\right)}{\partial \mathbf{z}^{(L)}} \frac{\partial L(\boldsymbol{y}, \widehat{\boldsymbol{y}})}{\partial \widehat{\boldsymbol{y}}} \\ & =\operatorname{diag}\left(f_L^{\prime}\left(\boldsymbol{z}^{(L)}\right)\right) \frac{\partial L(\boldsymbol{y}, \widehat{\boldsymbol{y}})}{\partial \widehat{\boldsymbol{y}}} \\ & =f_L^{\prime}\left(\boldsymbol{z}^{(L)}\right) \odot \frac{\partial L(\boldsymbol{y}, \widehat{\boldsymbol{y}})}{\partial \widehat{\boldsymbol{y}}} \in \mathbb{R}^{M_L} \end{aligned}

计算上面的三个偏导数,可得到第 ll 层的梯度:

L(y,y^)wij(l)=z(l)wij(l)L(y,y^)z(l)=[0,,aj(l1),,0]δ(l)=[0,,aj(l1),,0][δ1(l),,δi(l),,δMl(l)]T=δi(l)aj(l1)\begin{aligned} \frac{\partial L(\boldsymbol{y}, \widehat{\boldsymbol{y}})}{\partial w_{i j}^{(l)}} & =\frac{\partial \boldsymbol{z}^{(l)}}{\partial w_{i j}^{(l)}} \frac{\partial L(\boldsymbol{y}, \widehat{\boldsymbol{y}})}{\partial \boldsymbol{z}^{(l)}} \\ & =\left[0, \ldots, a_j^{(l-1)}, \ldots, 0\right] \boldsymbol{\delta}^{(l)} \\ & =\left[0, \ldots, a_j^{(l-1)}, \ldots, 0\right]\left[\delta_1^{(l)}, \ldots, \delta_i^{(l)}, \ldots, \delta_{M_l}^{(l)}\right]^{\mathrm{T}} \\ & =\delta_i^{(l)} a_j^{(l-1)} \end{aligned}

相当于向量 δ(l)\boldsymbol{\delta}^{(l)} 和向量 a(l1)\boldsymbol{a}^{(l-1)} 的外积的第 i,ji, j 个元素,即:

[L(y,y^)W(l)]ij=[δ(l)(a(l1))T]ij\left[\frac{\partial L(\boldsymbol{y}, \hat{\boldsymbol{y}})}{\partial \boldsymbol{W}^{(l)}}\right]_{i j}=\left[\boldsymbol{\delta}^{(l)}\left(\boldsymbol{a}^{(l-1)}\right)^{\mathrm{T}}\right]_{i j}

因此:

  • L(y,y^)L(\boldsymbol{y}, \widehat{\boldsymbol{y}}) 关于第 ll 层权重 W(l)\boldsymbol{W}^{(l)} 的梯度为:

L(y,y^)W(l)=δ(l)(a(l1))TRMl×Ml1\frac{\partial L(\boldsymbol{y}, \hat{\boldsymbol{y}})}{\partial \boldsymbol{W}^{(l)}}=\boldsymbol{\delta}^{(l)}\left(\boldsymbol{a}^{(l-1)}\right)^{\mathrm{T}} \in \mathbb{R}^{M_l \times M_{l-1}}

  • L(y,y^)L(\boldsymbol{y}, \hat{\boldsymbol{y}}) 关于第 ll 层偏置 b(l)\boldsymbol{b}^{(l)} 的梯度为:

L(y,y^)b(l)=δ(l)RMl\frac{\partial L(\boldsymbol{y}, \hat{y})}{\partial \boldsymbol{b}^{(l)}}=\boldsymbol{\delta}^{(l)} \in \mathbb{R}^{M_l}

自动梯度计算

数值微分

数值微分(Numerical Differentiation)

f(x)=limΔx0f(x+Δx)f(x)Δxf^{\prime}(x)=\lim _{\Delta x \rightarrow 0} \frac{f(x+\Delta x)-f(x)}{\Delta x}

实际应用:

f(x)=limΔx0f(x+Δx)f(xΔx)2Δxf^{\prime}(x)=\lim _{\Delta x \rightarrow 0} \frac{f(x+\Delta x)-f(x-\Delta x)}{2 \Delta x}

符号微分

符号微分(Symbolic Differentiation):一种基于符号计算代数计算 的自动求导方法,需求解带变量的数学表达式。

自动微分

自动微分(Automatic Differentiation):一种介于数值微分和符号微分之间的方法。将符号微分法应用于最基本的算子,比如常数、幂函数、指数函数、对数函数、三角函数等,然后将其代入数值,保留中间结果,最后再应用于整个函数。

  • 数值微分强调一开始直接代入数值近似求解
  • 符号微分强调直接对表达式进行求解,最后才代入数值;

计算图(Computational Graph):将复合函数分解为一系列基本操作,并以图的形式连接。

  • 非叶子节点:基本操作
  • 叶子节点:输入变量或常量

实例:

f(x;w,b)=1exp((wx+b))+1f(x ; w, b)=\frac{1}{\exp (-(w x+b))+1}

f(x;w,b)f(x ; w, b) 关于参数 wwbb 的导数可以通过计算图上的路径上的所有导数连乘得到:

f(x;w,b)w=f(x;w,b)h6h6h5h5h4h4h3h3h2h2h1h1wf(x;w,b)b=f(x;w,b)h6h6h5h5h4h4h3h3h2h2b\begin{aligned} & \frac{\partial f(x ; w, b)}{\partial w}=\frac{\partial f(x ; w, b)}{\partial h_6} \frac{\partial h_6}{\partial h_5} \frac{\partial h_5}{\partial h_4} \frac{\partial h_4}{\partial h_3} \frac{\partial h_3}{\partial h_2} \frac{\partial h_2}{\partial h_1} \frac{\partial h_1}{\partial w} \\ & \frac{\partial f(x ; w, b)}{\partial b}=\frac{\partial f(x ; w, b)}{\partial h_6} \frac{\partial h_6}{\partial h_5} \frac{\partial h_5}{\partial h_4} \frac{\partial h_4}{\partial h_3} \frac{\partial h_3}{\partial h_2} \frac{\partial h_2}{\partial b} \end{aligned}

静态计算图(Static Computational Graph):在编译时构建计算图,构建好后在程序运行时不能改变;在构建时可以进行优化、并行能力强;灵活性较差。

动态计算图(Dynamic Computational Graph):在程序运行时构建计算图;不容易优化,当不同输入所使用的网络结构不一样时,难以并行计算;灵活性较高。

神经网络参数优化的主要问题

非凸优化

梯度消失