门户网站开发要多少钱,cms是什么意思的缩写,做外贸哪个英文网站好,柚子皮wordpress移动主题注意力机制(Attention Mechanism):
注意力机制受到人类视觉注意力机制的启发#xff0c;即关注图像特定部分的能力。即当神经网络发现输入数据的关键信息后#xff0c;通过学习#xff0c;在后继的预测阶段对其予以重点关注。 Attention Mechanism可以帮助模型对输入的X每个…注意力机制(Attention Mechanism):
注意力机制受到人类视觉注意力机制的启发即关注图像特定部分的能力。即当神经网络发现输入数据的关键信息后通过学习在后继的预测阶段对其予以重点关注。 Attention Mechanism可以帮助模型对输入的X每个部分赋予不同的权重抽取出更加关键及重要的信息使模型做出更加准确的判断同时不会对模型的计算和存储带来更大的开销这也是Attention Mechanism应用如此广泛的原因。 对nlp领域Attention Mechanism的目的是要把一个句子中对句子的含义最重要贡献最大的词语找出来。
反向传播
一种有效计算神经网络中梯度的算法更一般地说是一种前馈计算图。可以把它归结为从网络输出开始应用差异化的链规则并向后传播梯度。
降维
作用是减少数据量和成本维度越大需要的数据量越多成本就越高。
Dropout
是神经网络的正则化技术可防止过度拟合。它通过在每次训练迭代中将它们的一部分随机设置为0来防止神经元过度适应。可以以各种方式解释丢失例如从指数数量的不同网络中随机采样。
感受野(Receptive Field):
卷积神经网络每一层输出的特征图feature map上的像素点在输入图片上映射的区域大小。再通俗点的解释是特征图上的一个点对应输入图上的区域。
LSTM
一种时间循环神经网络是为了解决一般的RNN存在的长期依赖问题而专门设计出来的。
激活函数:
为了向网络中加入非线性因素加强网络的表示能力解决线性模型无法解决的问题。常见的有阶跃函数、sigmoid函数、ReLU函数。输出层所用的激活函数一般回归问题使用恒等函数二元分类问题使用sigmoid函数(包括双曲正切函数等等)多元分类问题可以使用softmax函数。
Adagrad
一种自适应学习速率算法它可以跟随时间变化并自动调整每个参数的学习速率。它可以代替vanilla SGD使用并且对稀疏数据特别有用它可以为不经常更新的参数分配更高的学习率。
Affine layer(仿射层):
一种神经网络中的完全连接层。仿射意味着前一层中的每个神经元都连接到当前层中的每个神经元。在许多情况下这是神经网络的“标准”层。在进行最终预测之前通常会在卷积神经网络或递归神经网络的输出之上添加仿射层。仿射层通常形式的yf(Wxb),其中x是该层的输入W参数b偏置向量f是非线性激活函数。
Adadelta
一种基于梯度下降的学习算法可以随时间调整每个参数的学习速率。它被认为是对Adagrad的改进因为Adagrad对超参数很敏感并且可能过于快速的降低学习速度。Adadelta类似于rmsprop可以用来代替朴素SGD。
Adam
一种类似于rmsprop的自适应学习速率算法但是使用梯度的第一和第二时刻的运行平均值直接估计更新并且还包括偏差校正项。
patch:
在CNN学习训练过程中不是一次来处理一整张图片而是先将图片划分为多个小的块卷积核每次只查看图像的一个小块这一小块就称为patch然后通过卷积核移动到图像的另一个patch。
损失函数
为了让神经网络能自动的学习一般使用梯度下降法寻找损失函数最小的值从而寻找到最优参数(权重和偏置)。
BatchNorm()函数
一般在cnn的卷积层之后添加主要是对数据进行归一化处理这使得数据在进行Relu之前不会因为数据过大而导致网络性能的不稳定。
输出层的softmax函数
将全连接层的输出结果正规化(将输出值的和调整为1)后再输出。
mini-batch学习:
由于训练数据太多在所有数据中选一批一批进行学习。
深度学习
深度学习过程也叫端到端的训练过程。 end-to-end(端到端)的方法一端输入我的原始数据一端输出我想得到的结果。只关心输入和输出中间的步骤全部都不管。
归一化(normalization):
对于一维数据有(Xi-Xmin)/(Xmax-Xmin),使数据在相同尺寸缩放仅仅跟最大、最小值的差别有关。输出范围在0-1之间.数据归一化会使得最优解的寻优过程会变得平缓更容易正确的收敛到最优解。
标准化(standardization):
对于一维数据有(Xi-u)/σ,缩放和每个点都有关系,通过方差体现出来。与归一化对比,标准化中所有数据点都有贡献。输出范围是负无穷到正无穷。
归一化和标准化:
两者本质上都是一种线性变换。如果对输出结果范围有要求,用归一化。如果数据较为稳定(图像或是视频的数据值处于固定区间),不存在极端的最大最小值,用归一化。如果数据存在异常值和较多噪音,用标准化,可以间接通过中心化避免异常值和极端值的影响。
Batch_size:
每次喂给模型的样本数量。
Epoch_size
是训练所有样本总的次数。Epoch当一个完整的数据集通过了神经网络一次并且返回了一次这个过程称为一次epoch。训练时使用多个Epoch可以理解为背诵了词典多少次。背多了就记牢了。背得次数太多就过拟合了。
Batch Norm
以进行学习时的mini-batch为单位按mini-batch进行正规化。
张量(Tensor):
是PyTorch里面基础的运算单位与Numpy的ndarray相同都表示的是一个多维的矩阵。 与ndarray的最大区别就是PyTorch的Tensor可以在 GPU 上运行而 numpy 的 ndarray 只能在CPU上运行在GPU上运行大大加快了运算速度。
嵌入
将输入例如单词或句子映射到向量中。有一种流行的嵌入类型是word嵌入例如word2vec或GloVe。它们可以嵌入句子段落或图像。
网络退化问题:
在神经网络可以收敛的前提下,随着网络深度增加,网络的表现先是逐渐增加至饱和,然后迅速下降。
残差网络
进行跳层连接,残差单元可以以跳层连接的形式实现,很好地解决了深度神经网络的退化问题。
Seq2Seq模型(序列到序列的模型)
属于Encoder-Decoder模型的一种,是输出的长度不确定时采用的模型RNN一个重要的变种:N vs M,原始的N vs N要求序列等长然而我们遇到的大部分问题序列都是不等长的。
感知机
是二分类的线性分类模型。
多层感知机
是一种人工神经网络设定权重的工作需要由人工来进行又叫全连接前馈神经网络。
神经网络
为了解决多层感知机需要人工设定权重的问题出现的能够自动地从数据中学习到合适的权重(一般采用梯度下降法来进行反向传播设置权重)这是和多层感知机最大的区别。
卷积神经网络
是含有卷积层池化层全连接层的神经网络。
GAN模型系列
生成对抗模型(GAN)
2014年提出的一种深度学习模型。
卷积神经网络模型系列
LeNet:
CNN元祖,1998年首次提出,进行手写数字识别的网络。
Alexnet:
2012年提出,引发深度学习热潮的导火线,网络结构和LeNet没有太大的不同,但是围绕它们的环境和计算机技术有了很大的进步。
NiN:
AlexNet问世不久后提出的,可以显著减小模型参数尺寸,从而缓解过拟合。然而该设计有时会造成获得有效模型的训练时间的增加。
GoogLeNet:
2014年提出,Inception采用了模块化的结构,从另一种角度来提升训练结果:能更高效地利用计算资源,在相同的计算量下能提取到更多的特征,从而提升训练结果。
VGG:
2014年提出,结构整洁,拓展性很强,迁移到其他图片数据上的泛化性非常好。
ResNet:
2015年提出,由于网络的加深会造成梯度爆炸和梯度消失的问题,为了让更深的网络也能训练出好的效果而提出ResNet。
SqueezeNet:
2017年提出,参数少,模型文件小。
DenseNet:
DenseNet模型主要由DenseBlock和Transition组成其中 DenseBlock是由多层模块组成每层的特征图大小相同层与层之间采用密集相连的。 Transition是连接两个相邻的DenseBlock并通过pooling使得特征图大小降低还能起到压缩模块的作用。 DenseBlock中的非线性组合函数H()采用的是BNRelu3x3Conv结构。