当前位置：首页 > news >正文

网站推广优化如何做网页制作模块素材

news 2025/11/20 19:43:48

网站推广优化如何做,网页制作模块素材,wordpress首页是哪个,WordPress20w文章文章目录 0.1 如何开发一个AI系统0.2 表示学习(特征处理)0.2.1 传统特征学习特征选择过滤式包裹式 L 1 L_1 L1 正则化特征抽取监督的特征学习无监督的特征学习特征工程作用 0.2.2 语义鸿沟0.2.3 表示方式关联 0.2.4 表示学习对比 0.3 深度学习0.3.1 表示学习与深度学习0.3.… 文章目录 0.1 如何开发一个AI系统0.2 表示学习(特征处理)0.2.1 传统特征学习特征选择过滤式包裹式 L 1 L_1 L1 正则化特征抽取监督的特征学习无监督的特征学习特征工程作用 0.2.2 语义鸿沟0.2.3 表示方式关联 0.2.4 表示学习对比 0.3 深度学习0.3.1 表示学习与深度学习0.3.2 深度学习概念端到端 0.3.3 深度学习数学表示 0.4 神经网络0.4.1 人脑神经网络神经元机制感觉神经元表征处理神经网络人认知的其他影响因素 0.4.2 神经网络与智能智能的物质基础 0.4.3 人工神经网络人工神经网络介绍人工神经元神经网络学习机制知识存储人工神经网络网络结构贡献度分配问题 0.4.5 神经网络发展史0.4.6 激活函数激活函数性质sigmod型函数(S型)Logistic函数Tanh函数Hard-Logistic函数和Hard-Tanh函数 ReLU函数(斜坡型)带泄露的ReLU带参数的ReLUELUSoftplus函数 Swish函数(复合型)GELU函数Maxout单元 0.1 如何开发一个AI系统专家知识人工规则规则通过机器学习让计算机自动总结规则机器学习 ≈ \approx ≈ 构建一个映射函数(规则) #mermaid-svg-rba0XLoNvRTBMMB2 {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-rba0XLoNvRTBMMB2 .error-icon{fill:#552222;}#mermaid-svg-rba0XLoNvRTBMMB2 .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-rba0XLoNvRTBMMB2 .edge-thickness-normal{stroke-width:2px;}#mermaid-svg-rba0XLoNvRTBMMB2 .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-rba0XLoNvRTBMMB2 .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-rba0XLoNvRTBMMB2 .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-rba0XLoNvRTBMMB2 .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-rba0XLoNvRTBMMB2 .marker{fill:#333333;stroke:#333333;}#mermaid-svg-rba0XLoNvRTBMMB2 .marker.cross{stroke:#333333;}#mermaid-svg-rba0XLoNvRTBMMB2 svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-rba0XLoNvRTBMMB2 .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-rba0XLoNvRTBMMB2 .cluster-label text{fill:#333;}#mermaid-svg-rba0XLoNvRTBMMB2 .cluster-label span{color:#333;}#mermaid-svg-rba0XLoNvRTBMMB2 .label text,#mermaid-svg-rba0XLoNvRTBMMB2 span{fill:#333;color:#333;}#mermaid-svg-rba0XLoNvRTBMMB2 .node rect,#mermaid-svg-rba0XLoNvRTBMMB2 .node circle,#mermaid-svg-rba0XLoNvRTBMMB2 .node ellipse,#mermaid-svg-rba0XLoNvRTBMMB2 .node polygon,#mermaid-svg-rba0XLoNvRTBMMB2 .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-rba0XLoNvRTBMMB2 .node .label{text-align:center;}#mermaid-svg-rba0XLoNvRTBMMB2 .node.clickable{cursor:pointer;}#mermaid-svg-rba0XLoNvRTBMMB2 .arrowheadPath{fill:#333333;}#mermaid-svg-rba0XLoNvRTBMMB2 .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-rba0XLoNvRTBMMB2 .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-rba0XLoNvRTBMMB2 .edgeLabel{background-color:#e8e8e8;text-align:center;}#mermaid-svg-rba0XLoNvRTBMMB2 .edgeLabel rect{opacity:0.5;background-color:#e8e8e8;fill:#e8e8e8;}#mermaid-svg-rba0XLoNvRTBMMB2 .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-rba0XLoNvRTBMMB2 .cluster text{fill:#333;}#mermaid-svg-rba0XLoNvRTBMMB2 .cluster span{color:#333;}#mermaid-svg-rba0XLoNvRTBMMB2 div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-rba0XLoNvRTBMMB2 :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} 有明确的反馈机制知识知道怎么做专家系统不知道怎么做容易做机器学习图像识别自然语言处理语音识别不容易做强化学习 0.2 表示学习(特征处理) 样本特征 ⟺ \iff ⟺ 表示机器学习流程特征工程(feature engineering)——人工处理数据预处理对于数据缺失多的特征弃用特征提取提取有效特征隐含特征也需提取特征转换某些冗余特征及有相关性特征弃用或组合形成更有效特征浅层学习不涉及特征学习其特征主要靠人工经验或特征转换的方法抽取 0.2.1 传统特征学习特征选择特征选择是选取原始特征集合的一个有效子集使得基于这个特征子集训练出来的模型准确率最高保留有用特征移除冗余或无关的特征子集搜索假设原始特征数为 D D D 则共有 2 D 2^D 2D 个候选子集。特征选择的目标就是选择一个最优的候选子集常用贪心搜索策略由空集合开始每一轮添加该轮最优的特征称为前向搜索Forward Search或者从原始特征集合开始每次删除最无用的特征称为反向搜索Backward Search 过滤式不依赖具体机器学习模型的特征选择方法每次增加最有信息量的特征或删除最没有信息量的特征特征的信息量可以通过信息增益Information Gain来衡量即引入特征后条件分布 p θ ( y ∣ x ) p_\theta(y\vert x) pθ(y∣x) 的不确定性(熵)的减少程度包裹式使用后续机器学习模型的准确率作为评价来选择一个特征子集的方法每次增加对后续机器学习模型最有用的特征或删除对后续机器学习任务最无用的特征 L 1 L_1 L1 正则化 L 1 L_1 L1 正则化会导致稀疏特征间接实现了特征选择特征抽取构造一个新的特征空间并将原始特征投影在新的空间中得到新的表示监督的特征学习抽取对一个特定的预测任务最有用的特征线性判别分析无监督的特征学习和具体任务无关其目标通常是减少冗余信息和噪声主成分分析PCA自编码器特征工程作用用较少的特征表示原始特征中的大部分信息去掉噪声信息并进而提高计算效率和减小维度灾难尤其是对于没有正则化的模型 0.2.2 语义鸿沟底层特征与高层语义人们对文本、图像的理解高层语义无法从字符串或者图像的底层特征底层特征直接获得好的表示应该具有很强的表示能力——同样的一个空间应该可表示更多的语义应该使后续的学习任务变得简单应该具有一般性是任务或领域独立的 0.2.3 表示方式数据表示是机器学习的核心问题局部表示一个语义由一个量表示离散表示 One-Hot向量符号表示分布式表示一个语义由多个量共同表示压缩、低维、稠密向量理解 k k k 个维度局部表示单个维度代表语义 k k k 个语义分布式表示所有维度加起来代表语义 2 k 2^k 2k 个语义关联局部表示配合知识库、规则使用分布式表示嵌入压缩、低维、稠密通常情况将局部表示映射为分布式表示低维稠密相似语义靠的近不同语义间隔大便于后续量化 0.2.4 表示学习通过构建模型让其自动学习好的特征底层特征、中层特征、高层特征从而最终提升预测或识别的准确性对比传统特征提取线性投影子空间 PCA、LDA 非线性嵌入 LLE、Isomap、谱方法自编码区别特征提取基于任务或先验去除无用特征自设标准对任务影响是好是坏并不确定实质上也是一种特征工程表示学习通过深度模型学习高层语义特征难点没有明确目标 0.3 深度学习 0.3.1 表示学习与深度学习一个好的表示学习策略必须具备一定深度指原始数据进行非线性特征转换的次数特征重用指数级的表示能力底层特征可以被高层特征重复利用抽象表示与不变性抽象表示需要多步构造 0.3.2 深度学习概念深度学习表示学习决策 ( 预测 ) 学习 ⏟ 浅层学习深度学习表示学习\underbrace{决策(预测)学习}_{浅层学习} 深度学习表示学习浅层学习决策(预测)学习核心问题是贡献度分配问题即一个系统中不同的组件component或其参数对最终系统输出结果的贡献或影响强化学习可以通过反馈机制获取当前步的决策对最终结果影响的概率大小进而判断当前步的贡献度大小对于一般的深度学习解决贡献度分配问题用神经网络端到端整个学习过程中没有人为干预指在学习过程中不进行分模块或分阶段训练直接优化任务的总体目标传统机器学习方法需要将一个任务的输入和输出之间人为地切割成很多子模块或多个阶段每个子模块分开学习问题每一个模块都需要单独优化并且其优化目标和任务总体目标并不能保证一致错误传播即前一步的错误会对后续的模型造成很大的影响这样就增加了机器学习方法在实际应用中的难度 0.3.3 深度学习数学表示 y f ( x ) 浅层学习 ⇓ y f 2 ( f 1 ( x ) ) ⇓ ⋮ ⇓ y f K ( f K − 1 ⋯ ( f 1 ( x ) ) ) 深度学习 \begin{array}{c|l} yf(x)浅层学习\\ \Downarrow\\ yf^2(f^1(x))\\ \Downarrow\\ \vdots\\ \Downarrow\\ yf^{K}(f^{K-1}\cdots(f^1(x)))深度学习\\ \end{array} yf(x)⇓yf2(f1(x))⇓⋮⇓yfK(fK−1⋯(f1(x)))浅层学习深度学习 f ( x ) f(x) f(x) 为非线性函数不一定连续线性模型多层嵌套仍是线性性能不会提升当 f 1 ( x ) f^1(x) f1(x) 连续时如 f l ( x ) σ ( W ( l ) f l − 1 ( x ) ) f^l(x)\sigma(W^{(l)}f^{l-1}(x)) fl(x)σ(W(l)fl−1(x)) 这个复合函数称为神经网络 0.4 神经网络 0.4.1 人脑神经网络左半球对语言的处理和语法表示阅读、写作、学习记忆右半球空间技巧空间定位、音乐神经元机制神经元多个突触数量确定不会增加神经元之间的联系会增加负责传递存储加工信息控制行为情感神经细胞在通过树突接收到的信号强度超过某个阈值时就会进入激活状态并通过轴突向上层神经细胞发送激活信号人类所有与意识和智能相关的活动都是通过特定区域神经细胞间的相互激活协同工作而实现的神经元之间传递信电信号通过化学信号传递突触之间通过粒子传递引起微电压的变化神经元会发生兴奋或抑制反应从而实现了神经信号的传递通过树突汇聚信息当信息汇聚到一定强度达到阈值神经细胞就会兴奋感觉神经元感觉神经元仅对其敏感的事物属性作出反应输入外部事物属性一般以光波、声波、电波等方式作为输入刺激人类的生物传感器输出的感觉编码是一种可符号化的心理信息感觉属性检测是一类将数值信息转化为符号信息的定性操作感觉将事物属性转化为感觉编码不仅能让大脑检测到相应属性还在事物属性集与人脑感觉记忆集之间建立起对应关系所以感觉属性检测又叫感觉定性映射。神经网络对来自神经元的各种简单映像加以组合得到的就是关于整合属性的感觉映像苹果又红又圆大脑整合了苹果的颜色属性和形状属性在感觉映射下事物属性结构与其感觉映像结构之间应保持不变感觉映像应该是树屋属性集与其感觉记忆集之间的一个同态映像。通俗说法人脑认知是外部世界的反映——认知可归结为一个高度抽象的加工模型表征处理表征处理的物质基础是神经元大量神经元群体的同步活动是实现表征和加工的生理学机制从信息科学的角度整个加工过程可以理解为多次特征提取提取出的特征从简单到复杂甚至“概念”这种十分抽象的特征也可以被提取出来。神经网络作为一个复杂的多级系统大脑思维来源于功能的逐级整合。神经元的功能被整合为神经网络的功能神经网络的功能被整合为神经回路的功能神经回路的功能最终被整合为大脑的思维功能但在逐级整合的过程中每一个层次上实现的都是 1 1 2 112 112 的效果在较高层次上产生了较低层次的每个子系统都不具备的突出功能思维问题不能用还原论的方法来解决即不能靠发现单个细胞的结构和物质分子来解决。揭示出能把大量神经元组装成一个功能系统的设计原理这才是NN的问题所在人认知的其他影响因素认知还和注意、情绪等系统有着极强的交互作用 0.4.2 神经网络与智能人类智能的本质取决于什么是认知的基本单元目前的理论和实验表明分析的有效手段是设计科学实验加以验证结论认知基本单元是知觉组织形成的 “知觉物体” 智能的物质基础从物质基础的角度看**人类智能 **是建立在有机物基础上的碳基智能而人工智能是建立在无机物基础上的硅基智能归根到底人工智能是一套软件人工神经网络也属于硅基智能的范畴碳基智能与硅基智能的本质区别在于架构架构决定了数据的传输与处理是否能够同时进行硅基数据的传输与处理无法同步进行基于冯·诺依曼结构体系的计算机核心特征是运算单元和存储单元是分离的两者有数据总线连接。运算单元需要从数据总线接收来自存储单元的数据运算完成后再将运算结果通过数据总线传回给存储单元在大脑中数据的传输和处理由突触和神经元之间的交互完成。且数据的传输和处理是同步进行的人的记忆过程也不仅仅是数据存储的过程还伴随着去粗取精的提炼与整合。数据是为了在需要时能够快速提取而存储 ——存储的作用是为了提升数据处理的有效性 0.4.3 人工神经网络人工神经网络介绍当下人工智能的主要研究方法是连接主义连接主义认为智能建立在神经生理学和认知科学基础上强调智能活动是将大量简单的单元通过复杂方式相互连接后并行运行的结果连接主义通过人工构建神经网络方式模拟人类智能。以工程技术手段模拟人类神经系统的结构和功能通过大量的非线性并行处理器模拟人脑中众多的神经元用处理器的连接关系模拟人脑神经元间的突触行为人工神经网络 (Neural Network)指一系列受生物学和神经科学启发的数学模型这些模型主要是通过对人脑的神经元网络进行抽象构建人工神经元并按照一定的拓扑结构来建立人工神经元之间的链接神经网络是一种大规模的并行分布式处理器天然具有存储并使用经验知识的能力。从两个方面提取大脑网络获取的知识是通过学习来获取的内部神经元的链接强度突触权重用于存储获取的知识分布式并行处理器20世纪80年代中后期最流行的一种连接主义模型信息表示是分布式的非局部的记忆和知识的存储在单元之间的连接上通过逐渐改变神经元之间的连接强度来学习新的知识早期模型强调模型的生物学合理性后期更关注对某种特定认知能力的模拟物体识别语言理解等在引入误差反向传播来改进学习能力后神经网络也越来越多地应用在各种机器学习任务上即作为一种机器学习模型的神经网络从机器学习角度神经网络一般可以看做一个非线性模型其基本组成单元为具有非线性激活函数的神经元通过大量神经元之间的连接使得神经网络成为一种高度非线性的模型。神经元之间的连接权重就是需要学习的参数可以使用梯度下降法来进行学习人工神经元 1943 年美国芝加哥大学的神经科学家沃伦·麦卡洛克和他的助手沃尔特·皮茨发表了论文《神经活动中思想内在性的逻辑演算》A Logical Calculus of Ideas Immanent in Nervous Activity 标志着人工神经网络的诞生 MP神经元接受一个或多个输入并对输入的线性加权进行非线性处理以产生输出在MP神经元中输入和输出都限定为二进制信号假设一个神经元接收 D D D 个输入 x 1 , x 2 , ⋯ , x D x_1,x_2,\cdots,x_D x1,x2,⋯,xD 令向量 x [ x 1 ; x 2 ; ⋯ ; x D ] x[x_1;x_2;\cdots;x_D] x[x1;x2;⋯;xD] 来表示这组输入并用净输入 z ∈ R z\in \R z∈R 表示一个神经元所获得的输入信号 x x x 的加权和 z ∑ d 1 D ω d x d b ω T x b z\sum\limits_{d1}^D\omega_dx_db\omega^Txb zd1∑DωdxdbωTxb 其中 ω [ ω 1 ; ω 2 ; ⋯ ; ω D ] ∈ R \omega[\omega_1;\omega_2;\cdots;\omega_D]\in \R ω[ω1;ω2;⋯;ωD]∈R 是D维的权重向量 b ∈ R b\in \R b∈R 是偏置净输入 z z z 在经过一个非线性函数 f ( ⋅ ) f(\cdot) f(⋅) 后得到神经元的活性值 α f ( z ) \alphaf(z) αf(z) 其中非线性函数 f ( ⋅ ) f(\cdot) f(⋅) 称为激活函数 MP神经元使用的激活函数是符号函数以预先设定的阈值作为参数当输入大于阈值输出1反之输出0 激活函数分类0.4.6 MP神经元的工作形式类似与数字电路中的逻辑门缺乏AI 中重要的特性——学习机制神经网络学习机制核心观点是学习过程主要是通过神经元之间突触的形成和变化来实现两个神经细胞之间通过神经元进行交流越多二者之间的联系就会被强化学习效果也在联系强化过程中产生赫布理论给出了改变模型神经元之间权重的准则如果两个神经元同时被激活它们的权重就应该增加如果分别被激活两者之间的权重就应该降低如果两个结点倾向于同时输出相同的结果二者有较强的正值权重如果两个结点倾向于同时输出相反的结果二者有较强的负值权重赫布理论并不能用于改善MP神经元因为MP神经元中的权重 ω i \omega_i ωi 都是固定不变的不能做出动态调整知识存储知识存储在人脑之间的神经元连接上记忆长期记忆如果一个经验重复足够次数此经验就可存储在长期记忆中短期记忆持续时间不超过一分钟短期记忆转化为长期记忆的过程称为凝固作用海马区人工神经网络神经网络天然不是深度学习,但是深度学习天然是神经网络 y f 3 ( f 2 ( f 1 ( x ) ) ) yf^{3}(f^{2}(f^1(x))) yf3(f2(f1(x))) 人工神经网络主要由大量的神经元以及它们之间的有向连接构成神经元间的激活规则非线性函数网络结构学习算法通过训练数据来学习神经网络的参数网络结构通过一定的连接方式或信息传递方式进行协作的神经元可以看作一个网络就是神经网络前馈网络各个神经元按接收信息的先后分为不同的组。每一组可以看作一个神经层每一层中的神经元接收前一层神经元的输出并输出到下一层神经元整个网络中的信息是朝一个方向传播没有反向的信息传播可以用一个有向无环路图表示全连接前馈网络卷积神经网络可以看做非线性函数的多次复合实现输入空间到输出空间的复杂映射记忆网络(反馈网络) 网络中神经元不但可以接收其他神经元的信息也可以接收自己的历史信息记忆网络中的神经元具有记忆功能在不同的时刻具有不同的状态——记忆记忆神经网络中的信息传播可以是单向或双向传递可以用一个有向循环图或无向图表示循环神经网络Hopfield网络玻尔兹曼机受限玻尔兹曼机可以看做一个程序具有更强的计算和记忆能力改进增强记忆网络的记忆容量引入外部记忆单元和读写机制——记忆增强网络神经图灵机记忆网络图网络前馈网络和记忆网络的输入都可以表示为向量或向量序列实际应用中图结构的数据很多如知识图谱、社交网络、分子网络前馈网络和记忆网络很难处理图结构的数据图网络是定义在图结构数据上的神经网络图中每个节点都由一个或一组神经元构成节点之间的链接可以有向或无向都可以接收来自邻接节点或自身结点的信息图卷积网络图注意力网络消息传递神经网络贡献度分配问题偏导数 ∂ y ∂ ω l y ( ω l Δ ω ) − y ( ω l ) Δ ω \frac{\partial y}{\partial \omega^{l}}\frac{y(\omega^l\Delta \omega)-y(\omega^l)}{\Delta \omega} ∂ωl∂yΔωy(ωlΔω)−y(ωl) 若某个参数 ω i \omega^i ωi 对结果很重要则该参数有微小扰动对于结果 y y y 的影响也会很大贡献度也会很大 0.4.5 神经网络发展史第一阶段模型提出第二阶段冰河期第三阶段反向传播算法引起的复兴第四阶段流行度降低第五阶段深度学习的崛起 0.4.6 激活函数激活函数性质连续并可导允许少数点上不可导的非线性函数可导的激活函数可以直接用数值优化的方法来学习网络参数激活函数机器导函数尽可能简单有利于提高网络计算效率激活函数的导函数至于要在一个合适的区间内不能太大也不能太小否则会影响训练的效率和稳定性 sigmod型函数(S型) sigmod型函数指一类 S 型曲线函数为两端饱和函数 logistic函数Tanh函数饱和对于函数 f ( x ) f(x) f(x) 若 x → − ∞ x\rightarrow -\infty x→−∞ 其导数 f ′ ( x ) → 0 f(x)\rightarrow 0 f′(x)→0 则称其为左饱和若 x → ∞ x\rightarrow \infty x→∞ 其导函数 f ′ ( x ) → 0 f(x)\rightarrow 0 f′(x)→0 则称其为右饱和 Logistic函数 σ ( x ) 1 1 e − x ∈ ( 0 , 1 ) \sigma(x)\frac{1}{1e^{-x}}\in(0,1) σ(x)1e−x1∈(0,1) 当输入值在 0 0 0 附近时Sigmoid 型函数近似为线性函数当输入值靠近两端时对输入进行抑制输入越小越接近于 0 0 0 输入越大越接近于 1 1 1 输出可以直接看做概率分布非负性可以看做一个逻辑门用来控制其他神经元输出信息的数量饱和性非零中心化的输出(Logistic函数)会使其后一层的神经元输入发生偏置偏移并进一步使得梯度下降的收敛速度变慢假设 y f ( ω ⋅ σ ( x ) ) ∂ y ∂ ω f ′ ( ) σ ( x ) yf(\omega\cdot \sigma(x))\\ \frac{\partial y}{\partial \omega}f()\sigma(x) yf(ω⋅σ(x))∂ω∂yf′()σ(x) 由于 σ ( x ) \sigma(x) σ(x) 非负其后一层神经元梯度要么全正要么全负 f ′ ( ) f() f′() 决定梯度下降效率变低一次只能朝着某一方向向最优梯度下降其余梯度为零数据归一化为零中心偏置 σ ( x ) b \sigma(x)b σ(x)b Tanh函数 t a n h ( x ) e x − e − x e x e − x ∈ ( − 1 , 1 ) 2 σ ( 2 x ) − 1 \begin{aligned} tanh(x)\frac{e^x-e^{-x}}{e^xe^{-x}}\in (-1,1)\\ 2\sigma(2x)-1 \end{aligned} tanh(x)exe−xex−e−x∈(−1,1)2σ(2x)−1 饱和函数Tanh函数的输出是零中心化的 Hard-Logistic函数和Hard-Tanh函数 Logistic函数和TanH函数都是Sigmod型函数但由于饱和性计算开销比较大。在中间近似线性两端饱和可以通过分段函数来近似中间的线性部分在0附近1阶泰勒展开 g l ( x ) ≈ σ ( 0 ) x σ ′ ( x ) 0.25 x 0.5 \begin{aligned} g_l(x)\approx\sigma(0)x\sigma(x)\\ 0.25x0.5 \end{aligned} gl(x)≈σ(0)xσ′(x)0.25x0.5 h a r d − l o g i s t i c ( x ) { 1 g l ( x ) ≥ 1 g l ( x ) 0 g l ( x ) 1 0 g l ( x ) ≤ 0 max ⁡ ( min ⁡ ( g l ( x ) , 1 ) , 0 ) max ⁡ ( min ⁡ ( 0.25 x 0.5 , 1 ) , 0 ) \begin{aligned} hard-logistic(x)\begin{cases} 1g_l(x)\ge 1\\ g_l(x)0g_l(x)1\\ 0g_l(x)\le 0 \end{cases}\\ \max(\min(g_l(x),1),0)\\ \max(\min(0.25x0.5,1),0) \end{aligned} hard−logistic(x)⎩ ⎨ ⎧1gl(x)0gl(x)≥10gl(x)1gl(x)≤0max(min(gl(x),1),0)max(min(0.25x0.5,1),0) g t ( x ) ≈ tanh ⁡ ( 0 ) x tanh ⁡ ′ ( x ) x \begin{aligned} g_t(x)\approx\tanh(0)x\tanh(x)\\ x \end{aligned} gt(x)≈tanh(0)xtanh′(x)x h a r d − t a n h ( x ) { 1 g t ( x ) ≥ 1 g t ( x ) − 1 g t ( x ) 1 − 1 g t ( x ) ≤ − 1 max ⁡ ( min ⁡ ( g t ( x ) , 1 ) , − 1 ) max ⁡ ( min ⁡ ( x , 1 ) , − 1 ) \begin{aligned} hard-tanh(x)\begin{cases} 1g_t(x)\ge 1\\ g_t(x)-1g_t(x)1\\ -1g_t(x)\le -1 \end{cases}\\ \max(\min(g_t(x),1),-1)\\ \max(\min(x,1),-1) \end{aligned} hard−tanh(x)⎩ ⎨ ⎧1gt(x)−1gt(x)≥1−1gt(x)1gt(x)≤−1max(min(gt(x),1),−1)max(min(x,1),−1) ReLU函数(斜坡型) 修正线性单元也叫 Rectifier 函数是目前深度神经网络中常用的激活函数 R e L U ( x ) { x x ≥ 0 0 x 0 max ⁡ ( 0 , x ) \begin{aligned} ReLU(x)\begin{cases} xx\ge 0\\ 0x0 \end{cases}\\ \max(0,x) \end{aligned} ReLU(x){x0x≥0x0max(0,x) 优点计算高效采用ReLU 的神经元只需要进行加、乘和比较的操作具有生物学合理性在生物神经网络中同时处于兴奋状态的神经元非常稀疏。 sigmod会导致一个非稀疏的神经网络 ReLU具有很好的稀疏性大约 50 % 50\% 50% 的神经元处于激活状态——单侧抑制、宽兴奋边界在一定程度上缓解了神经网络的梯度消失问题ReLU函数为左饱和函数且在 x 0 x0 x0 时导数为 1 1 1 加速梯度下降的收敛速度缺点非零中心化后一层神经网络引入偏置偏移影响梯度下降的效率死亡ReLU问题如果参数在一次不恰当的更新后第一个隐藏层中的某个ReLU 神经元在所有的训练数据上都不能被激活那么这个神经元自身参数的梯度永远都会是0在以后的训练过程中永远不能被激活带泄露的ReLU 在输入 x 0 x0 x0 时保持一个很小的梯度 γ \gamma γ 当神经元非激活时也能有一个非零的梯度可以更新参数避免永远不能被激活 L e a k y R e L U ( x ) { x x 0 γ x x ≤ 0 max ⁡ ( 0 , x ) γ min ⁡ ( 0 , x ) \begin{aligned} LeakyReLU(x)\begin{cases} xx0\\ \gamma xx\le 0 \end{cases}\\ \max(0,x)\gamma\min(0,x) \end{aligned} LeakyReLU(x){xγxx0x≤0max(0,x)γmin(0,x) γ \gamma γ 通常为很小的常数如 γ 0.01 \gamma0.01 γ0.01 带泄露的 ReLU也可以写成 L e a k y R e L U ( x ) max ⁡ ( x , γ x ) LeakyReLU(x)\max(x,\gamma x) LeakyReLU(x)max(x,γx) 带参数的ReLU 引入一个可学习的参数不同神经元可以有不同的参数对于第 i i i 个神经元其PReLU定义为 P R e L U i ( x ) { x x 0 γ i x x ≤ 0 max ⁡ ( 0 , x ) γ i min ⁡ ( 0 , x ) \begin{aligned} PReLU_i(x)\begin{cases} xx0\\ \gamma_i xx\le 0 \end{cases}\\ \max(0,x)\gamma_i\min(0,x) \end{aligned} PReLUi(x){xγixx0x≤0max(0,x)γimin(0,x) P R e L U PReLU PReLU 是非饱和函数允许不同的神经元有不同的参数也可以共享一个参数 γ i 0 \gamma_i0 γi0 则 P R e L U PReLU PReLU 退化为 R e L U ReLU ReLU γ i \gamma_i γi 是一个很小的常数则 P R e L U PReLU PReLU 可以看做带泄露的 R e L U ReLU ReLU ELU 近似的零中心化的非线性函数 E L U ( x ) { x x 0 γ ( e x − 1 ) x ≤ 0 max ⁡ ( 0 , x ) min ⁡ ( 0 , γ ( e x − 1 ) ) \begin{aligned} ELU(x)\begin{cases} xx0\\ \gamma(e^x-1)x\le 0 \end{cases}\\ \max(0,x)\min(0,\gamma(e^x-1)) \end{aligned} ELU(x){xγ(ex−1)x0x≤0max(0,x)min(0,γ(ex−1)) γ ≥ 0 \gamma\ge 0 γ≥0 是一个超参数决定 x ≤ 0 x\le 0 x≤0 时的饱和曲线并调整输出均值在0附近 Softplus函数可以看做ReLU的平滑版本 S o f t p l u s ( x ) log ⁡ ( 1 e x ) Softplus(x)\log(1e^x) Softplus(x)log(1ex) 其导数刚好为 L o g i s t i c Logistic Logistic 函数有单侧抑制宽兴奋边界没有稀疏激活性 Swish函数(复合型) 自门控激活函数(软门控——允许信息通过的多少 σ ( x ) ∈ { 0 , 1 } \sigma(x)\in\{0,1\} σ(x)∈{0,1}) s w i s h ( x ) x σ ( β x ) swish(x)x\sigma(\beta x) swish(x)xσ(βx) 其中 σ ( ⋅ ) \sigma(\cdot) σ(⋅) 为 L o g i s t i c Logistic Logistic 函数 β \beta β 为可学习的参数或一个固定的超参数当 σ ( β x ) \sigma(\beta x) σ(βx) 接近于1时门处于开状态激活函数输出近似于 x x x 本身当 σ ( β x ) \sigma(\beta x) σ(βx) 接近于0时门处于关状态激活函数的输出近似于0 Swish函数可以看做线性函数和ReLU函数之间的非线性插值其程度由 β \beta β 控制 β 0 \beta0 β0 时Swish函数变为线性函数 x 2 \frac{x}{2} 2x β 1 \beta1 β1 时 x 0 x0 x0 时近似线性 x 0 x0 x0 时近似饱和具有一定单调性 β → ∞ \beta\rightarrow \infty β→∞ 时 σ ( β x ) \sigma(\beta x) σ(βx) 趋向于离散的 0 − 1 0-1 0−1 函数 GELU函数高斯误差线性单元与Swish函数类似 G E L U ( x ) x P ( X ≤ x ) , X ∼ N ( μ , σ 2 ) GELU(x)xP(X\le x),X\sim \mathcal{N}(\mu,\sigma^2) GELU(x)xP(X≤x),X∼N(μ,σ2) 其中 μ , σ \mu,\sigma μ,σ 为超参数一般设 μ 0 , σ 1 \mu0,\sigma1 μ0,σ1 P ( X ≤ x ) P(X\le x) P(X≤x) 为高斯分布的累计函数为S型函数可以用 L o g i s t i c Logistic Logistic 函数或 T a n h Tanh Tanh 函数近似 G E L U ( x ) ≈ 0.5 x [ 1 tanh ⁡ ( 2 π ( x 0.044715 x 3 ) ) ] G E L U ( x ) ≈ x σ ( 1.702 x ) GELU(x)\approx 0.5x\left[1\tanh\left(\frac{2}{\pi}(x0.044715x^3)\right)\right]\\ GELU(x)\approx x\sigma(1.702x) GELU(x)≈0.5x[1tanh(π2(x0.044715x3))]GELU(x)≈xσ(1.702x) Maxout单元 Maxout单元也是一种S型分段线性函数 Maxout单元的输入是上一层神经元的全部原始输出 x [ x 1 ; x 2 ; ⋯ ; x D ] x[x_1;x_2;\cdots;x_D] x[x1;x2;⋯;xD] 每个Maxout单元有 K K K 个权重向量 ω k ∈ R D \omega_k\in \R^D ωk∈RD 和偏置 b k ( 1 ≤ k ≤ K ) b_k(1\le k\le K) bk(1≤k≤K) 对于输入 x x x 可以得到 K K K 个净输入 z k z_k zk z k ω k x b k ω k [ ω k ( 1 ) , ω k ( 2 ) , ⋯ , ω k ( D ) ] z_k\omega_kxb_k\omega_k\left[\omega_{k}^{(1)},\omega_k^{(2)},\cdots,\omega_k^{(D)}\right] zkωkxbkωk[ωk(1),ωk(2),⋯,ωk(D)] Maxout单元的非线性函数定义为 m a x o u t ( x ) max ⁡ k ∈ [ 1 , K ] ( z k ) maxout(x)\max\limits_{k\in [1,K]}(z_k) maxout(x)k∈[1,K]max(zk) Maxout单元不单是净输入到输出之间的非线性映射而是整体学习输入到输出之间的非线性映射关系 Maxout激活函数可以看做任意凸函数的分段线性近似

查看全文

http://www.pierceye.com/news/104803/