Home  |  AboutMe

*内容不尽完善:欢迎到这里提问,更欢迎提交PR帮助改进!改进流程->点这里->找到对应文章进行修改!万分感谢!愿与大家一同进步!

Deep learning - Glossary (Continuously updated...)

深度学习 - 术语 (持续更新...)

  2017-02-17  |  glossary


Overview

深度学习(Deep Learning, 简称DL)。


Contents


Neuro Network

Layers

神经网络:输入层、输出层、隐藏层。

MLPs

多层感知器,使用的是Sigmoid神经元,非感知器。

RNN

Recurrent Neural Networks, 循环神经网络

LSTM

Long-Short Terms.

CNN

卷积神经网络

Convaluatin and Pooling

卷积和池化(常用的max-pooling, average-pooling, L2-norm pooling)。

GAN

生成式对抗神经网络


Activation Function

Sigmoid

Sigmoid 是常用的非线性的激活函数,它的数学形式如下:

Sigmoid

Tanh

Sigmoid的改良版,Tanh是0均值的,数学形式如下:

Tanh

ReLU

近年来,ReLU 变的越来越受欢迎。它的数学表达式如下:

RelU

如图可见,当输入 x <= 0时,输出恒为0,当输入 x > 0时,输出为本身。

RelU-Effect-Picture

优点:相比于 sigmoid/tanh,ReLU 只需要一个阈值就可以得到激活值,而不用去算一大堆复杂的运算。

缺点:一个非常大的梯度流过一个 ReLU 神经元,更新过参数之后,这个神经元再也不会对任何数据有激活现象了。如果这个情况发生了,那么这个神经元的梯度就永远都会是0。

根据RelU,有一些类似改动的函数:Leaky-ReLU、P-ReLU、R-ReLU应用时在不同场景与

Other Activations

Activation-Functions-1 Activation-Functions-2


Training

Weights and Bias

Weights(权重值),Bias(偏置值)。

Softmax Regression

Softmax回归(归一化)。

Cross-Entropy

现有关于样本集的2个概率分布p和q,其中p为真实分布,q非真实分布。使用错误分布q来表示来自真实分布p的平均编码长度, 表示如下图:

Cross-Entropy

因为用q来编码的样本来自分布p,所以期望H(p,q)中概率是p(i)。H(p,q)我们称之为“交叉熵”。

Gradient Descent

BGD

Batch Gradient Descent(批量梯度下降法)。

SGD

Stochastic Gradient Descent(随机梯度下降法)。

MBGD

Mini-batch Gradient Descent(小批量)。


NLP

NLP是神经语言程序学(Neuro-Linguistic Programming)。