1.深层神经网络

我们在前面提到了浅层神经网络,深层神经网络其实就是包含更多隐层的神经网络。下图分别列举了不同深度的神经网络模型结构:

深层神经网络

我们会参考「隐层个数」和「输出层」对齐命名。如上图逻辑回归可以叫做1 layer NN,单隐层神经网络可以叫做2 layer NN,2个隐层的神经网络叫做3 layer NN,以此类推。所以当我们提到L layer NN,指的是包含 公式 个隐层的神经网络。

下面我们来了解一下神经网络的一些标记写法。以如下图的4层神经网络为例:

深层神经网络

  1. 总层数用 公式 表示, 公式
  • 输入层是第 公式 层,输出层是第 公式

  • 公式 表示第 公式 层包含的单元个数, 公式

  • 下图模型中, 公式,表示三个输入特征 公式公式公式

  • 下图模型中 公式公式公式公式

  • 公式 层的激活函数输出用 公式 表示,公式

  • 公式 表示第 公式 层的权重,用于计算 公式

  • 输入 公式 记为 公式

  • 输出层 公式 记为 公式

注意, 公式公式 中的上标 公式 都是从1开始的,公式

2.深层神经网络前向运算

下面我们来推导一下深层神经网络的前向传播计算过程。依旧是上面提到的4层神经网络,我们以其为例来做讲解。

2.1 单个样本的计算

对于单个样本,我们有:

深层神经网络前向运算

2.2 m个样本的批量计算

对于 公式 个训练样本的情况,我们以向量化矩阵形式来并行计算:

深层神经网络前向运算

以此类推,对于第 公式 层,其前向传播过程的 公式公式 可以表示为:

公式

公式

  • 其中 公式

3.向量化形态下的矩阵维度

在单个训练样本的场景下,输入 公式 的维度是 公式 神经网络的参数 公式公式 的维度分别是:

  • 公式
  • 公式

其中,

  • 公式
  • 公式公式 分别表示第 公式 层和 公式 层的所含单元个数
  • 公式,表示输入层特征数目

对应的反向传播过程中的 公式公式 的维度分别是:

  • 公式
  • 公式
  • 注意到, 公式公式 维度相同, 公式公式 维度相同。这很容易理解。

正向传播过程中的 公式公式 的维度分别是

  • 公式
  • 公式
  • 公式公式 的维度是一样的,且 公式公式 的维度均与 公式公式 的维度一致。

深层神经网络前向运算

对于 公式 个训练样本,输入矩阵 公式 的维度是 公式。需要注意的是 公式公式 的维度与只有单个样本是一致的:

  • 公式
  • 公式

只不过在运算 公式 中, 公式 会被当成 公式 矩阵进行运算,这是基于python numpy的广播特性,且 公式 每一列向量都是一样的。 公式公式 的维度分别与 公式公式 的相同。

不过, 公式公式 的维度发生了变化:

  • 公式
  • 公式
  • 公式公式 的维度分别与 公式公式 的相同。

4.为什么需要深度网络

当今大家看到的很多AI智能场景背后都是巨大的神经网络在支撑,强大能力很大一部分来源于神经网络足够“深”,也就是说随着网络层数增多,神经网络就更加复杂参数更多,学习能力也更强。下面是一些典型的场景例子说明。

4.1 人脸识别例子

如下图所示的人脸识别场景,训练得到的神经网络,每一层的作用有差别:

  • 第一层所做的事就是从原始图片中提取出人脸的轮廓与边缘,即边缘检测。这样每个神经元得到的是一些边缘信息。
  • 第二层所做的事情就是将前一层的边缘进行组合,组合成人脸一些局部特征,比如眼睛、鼻子、嘴巴等。
  • 后续层次逐层把这些局部特征组合起来,融合成人脸的模样。

为什么需要深度网络

可以看出,随着层数由浅到深,神经网络提取的特征也是从边缘到局部特征到整体,由简单到复杂。隐藏层越多,能够提取的特征就越丰富、越复杂,模型的准确率也可能会随之越高。

4.2 语音识别例子

语音识别模型也是类似的道理:

  • 浅层的神经元能够检测一些简单的音调
  • 较深的神经元能够检测出基本的音素
  • 更深的神经元就能够检测出单词信息
  • 网络足够深的话,还能对短语、句子进行检测

为什么需要深度网络

神经网络从浅到深,提取的特征从简单到复杂。特征复杂度与神经网络层数成正相关。特征越来越复杂,表达能力和功能也越强。

4.3 深度网络其他优势

除学习能力与特征提取强度之外,深层网络还有另外一个优点,就是能够减少神经元个数,从而减少计算量。

下面有一个例子,使用电路理论,计算逻辑输出:

公式

  • 上面的计算表达式中, 公式 表示「异或」操作。

对于这个逻辑运算,如果使用深度网络完成,每层将前一层的两两单元进行异或,最后到一个输出,如下图左边所示。

这样,整个深度网络的层数是 公式 (不包含输入层)。总共使用的神经元个数为:

公式

可见,输入个数是 公式,这种深层网络所需的神经元个数仅仅是 公式 个。

为什么需要深度网络

如果不用深层网络,仅仅使用单个隐藏层,如上右图所示,由于包含了所有的逻辑位(0和1),那么需要的神经元个数 公式 是指数级别的大小。

对于其他场景和问题也一样,处理同样的逻辑问题,深层网络所需的神经元个数比浅层网络要少很多。这也是深层神经网络的优点之一。

尽管深度学习有着非常显著的优势,吴恩达老师还是建议对实际问题进行建模时,尽量先选择层数少的神经网络模型,这也符合奥卡姆剃刀定律 (Occam’s Razor)。对于比较复杂的问题,再使用较深的神经网络模型。

5.构建深度网络单元块

下面用流程块图来解释神经网络前向传播和反向传播过程。

构建深度网络单元块

如图所示,对于第 公式 层来说,前向传播过程中,我们有:

  • 输入公式
  • 输出公式
  • 参数公式公式
  • 缓存变量公式

反向传播过程中:

  • 输入公式
  • 输出公式公式公式
  • 参数公式公式

上面是第 公式 层的流程块图,对于神经网络所有层,整体的流程块图前向传播过程和反向传播过程如下所示:

构建深度网络单元块

6.前向传播与反向传播

我们继续接着上一部分流程块图的内容,推导神经网络正向传播过程和反向传播过程的具体表达式。

6.1 前向传播过程

令层数为第 公式 层,输入是 公式,输出是 公式,缓存变量是 公式。其表达式如下:

公式

公式

公式 个训练样本的形态下,向量化形式为:

公式

公式

6.2 反向传播过程

输入是 公式,输出是 公式公式公式。其表达式如下:

公式

公式

公式

公式

由上述第四个表达式可得 公式,将 公式 代入第一个表达式中可以得到:

公式

该式非常重要,反映了 公式公式 的递推关系。

公式 个训练样本的形态下,向量化形式为:

公式

公式

公式

公式

公式

7.参数与超参数

神经网络中有两个大家要重点区分的概念:参数(parameters)和超参数(hyperparameters)。

  • 神经网络中的参数就是我们熟悉的 公式公式
  • 神经网络的超参数是例如学习率 公式,训练迭代次数 公式,神经网络层数 公式,各层神经元个数 公式,激活函数 公式 等。
  • 之所以叫做超参数,是因为它们需要提前敲定,而且它们会决定参数 公式公式 的值。

参数与超参数

如何设置最优的超参数是一个比较困难的、需要经验知识的问题。通常的做法是选择超参数一定范围内的值,分别代入神经网络进行训练,测试cost function随着迭代次数增加的变化,根据结果选择cost function最小时对应的超参数值。这类似于机器学习中的实验验证的方法。

8.神经网络vs人脑

神经网络跟人脑机制到底有什么联系呢?究竟有多少的相似程度?

深度网络 VS 大脑

我们前面看到神经网络实际上可以分成两个部分:前向传播过程和反向传播过程。神经网络的每个神经元采用激活函数的方式,类似于感知机模型。这种模型与人脑神经元是类似的,但是一种非常简化的人脑神经元模型。

人脑神经元可分为树突、细胞体、轴突三部分。树突接收外界电刺激信号(类比神经网络中神经元输入),传递给细胞体进行处理(类比神经网络中神经元激活函数运算),最后由轴突传递给下一个神经元(类比神经网络中神经元输出)。

深度网络 VS 大脑

人脑神经元的结构和处理方式要复杂的多,神经网络模型只是非常简化的模型

人脑如何进行学习?是否也是通过反向传播和梯度下降算法现在还不清楚,可能会更加复杂。这是值得生物学家探索的事情。