当前位置: 首页 > news >正文

网站推广优化如何做网页制作模块素材

网站推广优化如何做,网页制作模块素材,wordpress首页是哪个,WordPress20w文章文章目录 0.1 如何开发一个AI系统0.2 表示学习(特征处理)0.2.1 传统特征学习特征选择过滤式包裹式 L 1 L_1 L1​ 正则化 特征抽取监督的特征学习无监督的特征学习 特征工程作用 0.2.2 语义鸿沟0.2.3 表示方式关联 0.2.4 表示学习对比 0.3 深度学习0.3.1 表示学习与深度学习0.3.… 文章目录 0.1 如何开发一个AI系统0.2 表示学习(特征处理)0.2.1 传统特征学习特征选择过滤式包裹式 L 1 L_1 L1​ 正则化 特征抽取监督的特征学习无监督的特征学习 特征工程作用 0.2.2 语义鸿沟0.2.3 表示方式关联 0.2.4 表示学习对比 0.3 深度学习0.3.1 表示学习与深度学习0.3.2 深度学习概念端到端 0.3.3 深度学习数学表示 0.4 神经网络0.4.1 人脑神经网络神经元机制感觉神经元表征处理 神经网络人认知的其他影响因素 0.4.2 神经网络与智能智能的物质基础 0.4.3 人工神经网络人工神经网络介绍人工神经元神经网络学习机制知识存储 人工神经网络网络结构贡献度分配问题 0.4.5 神经网络发展史0.4.6 激活函数激活函数性质sigmod型函数(S型)Logistic函数Tanh函数Hard-Logistic函数和Hard-Tanh函数 ReLU函数(斜坡型)带泄露的ReLU带参数的ReLUELUSoftplus函数 Swish函数(复合型)GELU函数Maxout单元 0.1 如何开发一个AI系统 专家知识人工规则 规则通过机器学习让计算机自动总结规则 机器学习 ≈ \approx ≈ 构建一个映射函数(规则) #mermaid-svg-rba0XLoNvRTBMMB2 {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-rba0XLoNvRTBMMB2 .error-icon{fill:#552222;}#mermaid-svg-rba0XLoNvRTBMMB2 .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-rba0XLoNvRTBMMB2 .edge-thickness-normal{stroke-width:2px;}#mermaid-svg-rba0XLoNvRTBMMB2 .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-rba0XLoNvRTBMMB2 .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-rba0XLoNvRTBMMB2 .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-rba0XLoNvRTBMMB2 .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-rba0XLoNvRTBMMB2 .marker{fill:#333333;stroke:#333333;}#mermaid-svg-rba0XLoNvRTBMMB2 .marker.cross{stroke:#333333;}#mermaid-svg-rba0XLoNvRTBMMB2 svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-rba0XLoNvRTBMMB2 .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-rba0XLoNvRTBMMB2 .cluster-label text{fill:#333;}#mermaid-svg-rba0XLoNvRTBMMB2 .cluster-label span{color:#333;}#mermaid-svg-rba0XLoNvRTBMMB2 .label text,#mermaid-svg-rba0XLoNvRTBMMB2 span{fill:#333;color:#333;}#mermaid-svg-rba0XLoNvRTBMMB2 .node rect,#mermaid-svg-rba0XLoNvRTBMMB2 .node circle,#mermaid-svg-rba0XLoNvRTBMMB2 .node ellipse,#mermaid-svg-rba0XLoNvRTBMMB2 .node polygon,#mermaid-svg-rba0XLoNvRTBMMB2 .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-rba0XLoNvRTBMMB2 .node .label{text-align:center;}#mermaid-svg-rba0XLoNvRTBMMB2 .node.clickable{cursor:pointer;}#mermaid-svg-rba0XLoNvRTBMMB2 .arrowheadPath{fill:#333333;}#mermaid-svg-rba0XLoNvRTBMMB2 .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-rba0XLoNvRTBMMB2 .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-rba0XLoNvRTBMMB2 .edgeLabel{background-color:#e8e8e8;text-align:center;}#mermaid-svg-rba0XLoNvRTBMMB2 .edgeLabel rect{opacity:0.5;background-color:#e8e8e8;fill:#e8e8e8;}#mermaid-svg-rba0XLoNvRTBMMB2 .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-rba0XLoNvRTBMMB2 .cluster text{fill:#333;}#mermaid-svg-rba0XLoNvRTBMMB2 .cluster span{color:#333;}#mermaid-svg-rba0XLoNvRTBMMB2 div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-rba0XLoNvRTBMMB2 :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} 有明确的反馈机制 知识 知道怎么做 专家系统 不知道怎么做 容易做 机器学习 图像识别 自然语言处理 语音识别 不容易做 强化学习 0.2 表示学习(特征处理) 样本特征 ⟺ \iff ⟺ 表示 机器学习流程 特征工程(feature engineering)——人工处理 数据预处理对于数据缺失多的特征弃用 特征提取提取有效特征隐含特征也需提取 特征转换某些冗余特征及有相关性特征弃用或组合形成更有效特征 浅层学习不涉及特征学习其特征主要靠人工经验或特征转换的方法抽取 0.2.1 传统特征学习 特征选择 特征选择 是选取原始特征集合的一个有效子集使得基于这个特征子集训练出来的模型准确率最高 保留有用特征移除冗余或无关的特征 子集搜索假设原始特征数为 D D D 则共有 2 D 2^D 2D 个候选子集。特征选择的目标就是选择一个最优的候选子集 常用贪心搜索策略由空集合开始每一轮添加该轮最优的特征称为前向搜索Forward Search或者从原始特征集合 开始每次删除最无用的特征称为反向搜索Backward Search 过滤式 不依赖具体机器学习模型的特征选择方法 每次增加最有信息量的特征或删除最没有信息量的特征 特征的信息量可以通过信息增益Information Gain来衡量即引入特征后条件分布 p θ ( y ∣ x ) p_\theta(y\vert x) pθ​(y∣x) 的不确定性(熵)的减少程度 包裹式 使用后续机器学习模型的准确率作为评价来选择一个特征子集的方法 每次增加对后续机器学习模型最有用的特征或删除对后续机器学习任务最无用的特征 L 1 L_1 L1​ 正则化 L 1 L_1 L1​ 正则化会导致稀疏特征间接实现了特征选择 特征抽取 构造一个新的特征空间并将原始特征投影在新的空间中得到新的表示 监督的特征学习 抽取对一个特定的预测任务最有用的特征 线性判别分析 无监督的特征学习 和具体任务无关其目标通常是减少冗余信息和噪声 主成分分析PCA自编码器 特征工程作用 用较少的特征表示原始特征中的大部分信息去掉噪声信息并进而提高计算效率和减小维度灾难 尤其是对于没有正则化的模型 0.2.2 语义鸿沟 底层特征 与 高层语义 人们对文本、图像的理解高层语义无法从字符串或者图像的底层特征底层特征直接获得 好的表示 应该具有很强的表示能力——同样的一个空间应该可表示更多的语义应该使后续的学习任务变得简单应该具有一般性是任务或领域独立的 0.2.3 表示方式 数据表示是机器学习的核心问题 局部表示 一个语义由一个量表示 离散表示 One-Hot向量 符号表示 分布式表示 一个语义由多个量共同表示 压缩、低维、稠密向量 理解 k k k 个维度 局部表示单个维度代表语义 k k k 个语义 分布式表示所有维度加起来代表语义 2 k 2^k 2k 个语义 关联 局部表示配合知识库、规则使用 分布式表示嵌入压缩、低维、稠密 通常情况将局部表示映射为分布式表示 低维 稠密 相似语义靠的近不同语义间隔大便于后续量化 0.2.4 表示学习 通过构建模型让其自动学习好的特征底层特征、中层特征、高层特征从而最终提升预测或识别的准确性 对比 传统特征提取 线性投影子空间 PCA、LDA 非线性嵌入 LLE、Isomap、谱方法 自编码 区别 特征提取基于任务或 先验 去除无用特征 自设标准对任务影响是好是坏并不确定实质上也是一种特征工程 表示学习通过深度模型学习高层语义特征 难点没有明确目标 0.3 深度学习 0.3.1 表示学习与深度学习 一个好的表示学习策略必须具备一定深度 指原始数据进行非线性特征转换的次数 特征重用 指数级的表示能力底层特征可以被高层特征重复利用 抽象表示与不变性 抽象表示需要多步构造 0.3.2 深度学习概念 深度学习 表示学习 决策 ( 预测 ) 学习 ⏟ 浅层学习 深度学习表示学习\underbrace{决策(预测)学习}_{浅层学习} 深度学习表示学习浅层学习 决策(预测)学习​​ 核心问题是贡献度分配问题 即一个系统中不同的组件component或其参数对最终系统输出结果的贡献或影响 强化学习 可以通过反馈机制获取当前步的决策对最终结果影响的概率大小进而判断当前步的贡献度大小 对于一般的深度学习解决贡献度分配问题用 神经网络 端到端 整个学习过程中没有人为干预 指在学习过程中不进行分模块或分阶段训练直接优化任务的总体目标 传统机器学习方法 需要将一个任务的输入和输出之间人为地切割成很多子模块或多个阶段每个子模块分开学习 问题 每一个模块都需要单独优化并且其优化目标和任务总体目标并不能保证一致错误传播即前一步的错误会对后续的模型造成很大的影响这样就增加了机器学习方法在实际应用中的难度 0.3.3 深度学习数学表示 y f ( x ) 浅层学习 ⇓ y f 2 ( f 1 ( x ) ) ⇓ ⋮ ⇓ y f K ( f K − 1 ⋯ ( f 1 ( x ) ) ) 深度学习 \begin{array}{c|l} yf(x)浅层学习\\ \Downarrow\\ yf^2(f^1(x))\\ \Downarrow\\ \vdots\\ \Downarrow\\ yf^{K}(f^{K-1}\cdots(f^1(x)))深度学习\\ \end{array} yf(x)⇓yf2(f1(x))⇓⋮⇓yfK(fK−1⋯(f1(x)))​浅层学习深度学习​ f ( x ) f(x) f(x) 为非线性函数不一定连续 线性模型多层嵌套仍是线性性能不会提升 当 f 1 ( x ) f^1(x) f1(x) 连续时如 f l ( x ) σ ( W ( l ) f l − 1 ( x ) ) f^l(x)\sigma(W^{(l)}f^{l-1}(x)) fl(x)σ(W(l)fl−1(x)) 这个复合函数称为神经网络 0.4 神经网络 0.4.1 人脑神经网络 左半球对语言的处理和语法表示 阅读、写作、学习记忆 右半球空间技巧 空间定位、音乐 神经元机制 神经元多个突触 数量确定不会增加 神经元之间的联系会增加 负责传递存储加工信息控制行为情感 神经细胞在通过树突接收到的信号强度超过某个阈值时就会进入激活状态并通过轴突向上层神经细胞发送激活信号 人类所有与意识和智能相关的活动都是通过特定区域神经细胞间的相互激活协同工作而实现的 神经元之间传递信电信号 通过化学信号传递突触之间通过粒子传递引起微电压的变化神经元会发生兴奋或抑制反应从而实现了神经信号的传递 通过树突汇聚信息当信息汇聚到一定强度达到阈值神经细胞就会兴奋 感觉神经元 感觉神经元仅对其敏感的事物属性作出反应 输入外部事物属性一般以光波、声波、电波等方式作为输入刺激人类的生物传感器输出的感觉编码是一种可符号化的心理信息 感觉属性检测是一类将数值信息转化为符号信息的定性操作 感觉将事物属性转化为感觉编码不仅能让大脑检测到相应属性还在事物属性集与人脑感觉记忆集之间建立起对应关系所以感觉属性检测又叫 感觉定性映射 。 神经网络对来自神经元的 各种简单映像加以组合得到的就是关于 整合属性的感觉映像 苹果又红又圆大脑整合了苹果的颜色属性和形状属性 在感觉映射下事物属性结构与其感觉映像结构之间应保持不变 感觉映像应该是树屋属性集与其感觉记忆集之间的一个同态映像。 通俗说法人脑认知是外部世界的反映——认知可归结为一个 高度抽象的加工模型 表征处理 表征处理的物质基础是神经元大量神经元群体的同步活动是实现表征和加工的生理学机制 从信息科学的角度 整个加工过程可以理解为多次特征提取提取出的特征从简单到复杂甚至“概念”这种十分抽象的特征也可以被提取出来。 神经网络 作为一个复杂的多级系统大脑思维来源于功能的逐级整合。 神经元的功能被整合为神经网络的功能神经网络的功能被整合为神经回路的功能神经回路的功能最终被整合为大脑的思维功能 但在逐级整合的过程中每一个层次上实现的都是 1 1 2 112 112 的效果在较高层次上产生了较低层次的每个子系统都不具备的 突出功能 思维问题不能用还原论的方法来解决即不能靠发现单个细胞的结构和物质分子来解决。揭示出能把大量神经元组装成一个功能系统的设计原理这才是NN的问题所在 人认知的其他影响因素 认知还和注意、情绪等系统有着极强的交互作用 0.4.2 神经网络与智能 人类智能的本质取决于 什么是认知的基本单元 目前的理论和实验表明分析的有效手段是设计科学实验加以验证 结论认知基本单元是知觉组织形成的 “知觉物体” 智能的物质基础 从物质基础的角度看**人类智能 **是建立在有机物基础上的 碳基智能而 人工智能 是建立在无机物基础上的 硅基智能 归根到底人工智能是一套软件人工神经网络也属于硅基智能的范畴 碳基智能与硅基智能的本质区别在于架构 架构决定了数据的传输与处理是否能够同时进行 硅基数据的传输与处理无法同步进行 基于冯·诺依曼结构体系的计算机核心特征是运算单元和存储单元是分离的两者有数据总线连接。运算单元需要从数据总线接收来自存储单元的数据运算完成后再将运算结果通过数据总线传回给存储单元 在大脑中数据的传输和处理由突触和神经元之间的交互完成。且数据的传输和处理是同步进行的 人的记忆过程也不仅仅是数据存储的过程还伴随着去粗取精的提炼与整合。 数据是为了在需要时能够快速提取而存储 ——存储的作用是为了提升数据处理的有效性 0.4.3 人工神经网络 人工神经网络介绍 当下人工智能的主要研究方法是连接主义连接主义认为智能建立在神经生理学和认知科学基础上 强调智能活动是将大量简单的单元通过复杂方式相互连接后并行运行的结果 连接主义通过人工构建神经网络方式模拟人类智能。 以工程技术手段 模拟人类神经系统的结构和功能通过大量的 非线性并行处理器模拟 人脑中众多的 神经元用处理器的连接关系模拟人脑神经元间的突触行为 人工神经网络 (Neural Network)指一系列受生物学和神经科学启发的数学模型 这些模型主要是通过对人脑的神经元网络进行抽象构建人工神经元并按照一定的拓扑结构来建立人工神经元之间的链接 神经网络是一种 大规模的并行分布式处理器 天然具有存储并使用经验知识的能力。从两个方面提取大脑 网络获取的知识是通过学习来获取的内部神经元的链接强度突触权重用于存储获取的知识 分布式并行处理器20世纪80年代中后期最流行的一种连接主义模型 信息表示是分布式的非局部的记忆和知识的存储在单元之间的连接上通过逐渐改变神经元之间的连接强度来学习新的知识 早期模型强调模型的生物学合理性后期更关注对某种特定认知能力的模拟物体识别语言理解等 在引入 误差反向传播 来改进学习能力后神经网络也越来越多地应用在各种机器学习任务上即作为一种机器学习模型的神经网络 从机器学习角度神经网络一般可以看做一个非线性模型其基本组成单元为具有非线性激活函数的神经元通过大量神经元之间的连接使得神经网络成为一种高度非线性的模型。神经元之间的连接权重就是需要学习的参数可以使用梯度下降法来进行学习 人工神经元 1943 年美国芝加哥大学的神经科学家沃伦·麦卡洛克和他的助手沃尔特·皮茨发表了论文《神经活动中思想内在性的逻辑演算》A Logical Calculus of Ideas Immanent in Nervous Activity 标志着人工神经网络的诞生 MP神经元 接受一个或多个输入并对输入的线性加权进行非线性处理以产生输出 在MP神经元中 输入和输出 都限定为二进制信号 假设一个神经元接收 D D D 个输入 x 1 , x 2 , ⋯ , x D x_1,x_2,\cdots,x_D x1​,x2​,⋯,xD​ 令向量 x [ x 1 ; x 2 ; ⋯ ; x D ] x[x_1;x_2;\cdots;x_D] x[x1​;x2​;⋯;xD​] 来表示这组输入并用 净输入 z ∈ R z\in \R z∈R 表示一个神经元所获得的输入信号 x x x 的加权和 z ∑ d 1 D ω d x d b ω T x b z\sum\limits_{d1}^D\omega_dx_db\omega^Txb zd1∑D​ωd​xd​bωTxb 其中 ω [ ω 1 ; ω 2 ; ⋯ ; ω D ] ∈ R \omega[\omega_1;\omega_2;\cdots;\omega_D]\in \R ω[ω1​;ω2​;⋯;ωD​]∈R 是D维的权重向量 b ∈ R b\in \R b∈R 是偏置 净输入 z z z 在经过一个非线性函数 f ( ⋅ ) f(\cdot) f(⋅) 后得到神经元的活性值 α f ( z ) \alphaf(z) αf(z) 其中非线性函数 f ( ⋅ ) f(\cdot) f(⋅) 称为 激活函数 MP神经元使用的激活函数是符号函数以预先设定的阈值作为参数当输入大于阈值输出1反之输出0 激活函数分类0.4.6 MP神经元的工作形式类似与数字电路中的逻辑门 缺乏AI 中重要的特性——学习机制 神经网络学习机制 核心观点是 学习过程主要是通过神经元之间突触的形成和变化来实现 两个神经细胞之间通过神经元进行交流越多二者之间的联系就会被强化学习效果也在联系强化过程中产生 赫布理论 给出了改变模型神经元之间权重的准则 如果两个神经元同时被激活它们的权重就应该增加如果分别被激活两者之间的权重就应该降低如果两个结点倾向于同时输出相同的结果二者有较强的正值权重如果两个结点倾向于同时输出相反的结果二者有较强的负值权重 赫布理论并不能用于改善MP神经元因为MP神经元中的权重 ω i \omega_i ωi​ 都是固定不变的不能做出动态调整 知识存储 知识存储在人脑之间的神经元连接上 记忆 长期记忆如果一个经验重复足够次数此经验就可存储在长期记忆中短期记忆持续时间不超过一分钟 短期记忆转化为长期记忆的过程称为凝固作用 海马区 人工神经网络 神经网络天然不是深度学习,但是 深度学习天然是神经网络 y f 3 ( f 2 ( f 1 ( x ) ) ) yf^{3}(f^{2}(f^1(x))) yf3(f2(f1(x))) 人工神经网络主要由大量的神经元以及它们之间的有向连接构成 神经元间的激活规则 非线性函数 网络结构 学习算法通过训练数据来学习神经网络的参数 网络结构 通过一定的连接方式或信息传递方式进行协作的神经元可以看作一个网络就是神经网络 前馈网络 各个神经元按接收信息的先后分为不同的组。 每一组可以看作一个神经层每一层中的神经元接收前一层神经元的输出并输出到下一层神经元 整个网络中的信息是朝一个方向传播没有反向的信息传播可以用一个有向无环路图表示 全连接前馈网络卷积神经网络 可以看做非线性函数的多次复合实现输入空间到输出空间的复杂映射 记忆网络(反馈网络) 网络中神经元不但可以接收其他神经元的信息也可以接收自己的历史信息 记忆网络中的神经元具有记忆功能在不同的时刻具有不同的状态——记忆 记忆神经网络中的信息传播可以是单向或双向传递可以用一个有向循环图或无向图表示 循环神经网络Hopfield网络玻尔兹曼机受限玻尔兹曼机 可以看做一个程序具有更强的计算和记忆能力 改进增强记忆网络的记忆容量引入外部记忆单元和读写机制——记忆增强网络 神经图灵机记忆网络 图网络 前馈网络和记忆网络的输入都可以表示为向量或向量序列 实际应用中图结构的数据很多如知识图谱、社交网络、分子网络前馈网络和记忆网络很难处理图结构的数据 图网络是定义在图结构数据上的神经网络图中每个节点都由一个或一组神经元构成 节点之间的链接可以有向或无向都可以接收来自邻接节点或自身结点的信息 图卷积网络图注意力网络消息传递神经网络 贡献度分配问题 偏导数 ∂ y ∂ ω l y ( ω l Δ ω ) − y ( ω l ) Δ ω \frac{\partial y}{\partial \omega^{l}}\frac{y(\omega^l\Delta \omega)-y(\omega^l)}{\Delta \omega} ∂ωl∂y​Δωy(ωlΔω)−y(ωl)​ 若某个参数 ω i \omega^i ωi 对结果很重要则该参数有微小扰动对于结果 y y y 的影响也会很大贡献度也会很大 0.4.5 神经网络发展史 第一阶段模型提出 第二阶段冰河期 第三阶段反向传播算法引起的复兴 第四阶段流行度降低 第五阶段深度学习的崛起 0.4.6 激活函数 激活函数性质 连续并可导允许少数点上不可导的非线性函数可导的激活函数可以直接用数值优化的方法来学习网络参数激活函数机器导函数尽可能简单有利于提高网络计算效率激活函数的导函数至于要在一个合适的区间内不能太大也不能太小否则会影响训练的效率和稳定性 sigmod型函数(S型) sigmod型函数指一类 S 型曲线函数为两端饱和函数 logistic函数Tanh函数 饱和对于函数 f ( x ) f(x) f(x) 若 x → − ∞ x\rightarrow -\infty x→−∞ 其导数 f ′ ( x ) → 0 f(x)\rightarrow 0 f′(x)→0 则称其为左饱和若 x → ∞ x\rightarrow \infty x→∞ 其导函数 f ′ ( x ) → 0 f(x)\rightarrow 0 f′(x)→0 则称其为右饱和 Logistic函数 σ ( x ) 1 1 e − x ∈ ( 0 , 1 ) \sigma(x)\frac{1}{1e^{-x}}\in(0,1) σ(x)1e−x1​∈(0,1) 当输入值在 0 0 0 附近时Sigmoid 型函数近似为线性函数当输入值靠近两端时对输入进行抑制输入越小越接近于 0 0 0 输入越大越接近于 1 1 1 输出可以直接看做概率分布非负性可以看做一个逻辑门用来控制其他神经元输出信息的数量饱和性 非零中心化的输出(Logistic函数)会使其后一层的神经元输入发生偏置偏移并进一步使得梯度下降的收敛速度变慢 假设 y f ( ω ⋅ σ ( x ) ) ∂ y ∂ ω f ′ ( ) σ ( x ) yf(\omega\cdot \sigma(x))\\ \frac{\partial y}{\partial \omega}f()\sigma(x) yf(ω⋅σ(x))∂ω∂y​f′()σ(x) 由于 σ ( x ) \sigma(x) σ(x) 非负其后一层神经元梯度要么全正要么全负 f ′ ( ) f() f′() 决定 梯度下降效率变低一次只能朝着某一方向向最优梯度下降其余梯度为零 数据归一化为零中心偏置 σ ( x ) b \sigma(x)b σ(x)b Tanh函数 t a n h ( x ) e x − e − x e x e − x ∈ ( − 1 , 1 ) 2 σ ( 2 x ) − 1 \begin{aligned} tanh(x)\frac{e^x-e^{-x}}{e^xe^{-x}}\in (-1,1)\\ 2\sigma(2x)-1 \end{aligned} tanh(x)​exe−xex−e−x​∈(−1,1)2σ(2x)−1​ 饱和函数Tanh函数的输出是零中心化的 Hard-Logistic函数和Hard-Tanh函数 Logistic函数和TanH函数都是Sigmod型函数但由于饱和性计算开销比较大。 在中间近似线性两端饱和 可以通过分段函数来近似中间的线性部分 在0附近1阶泰勒展开 g l ( x ) ≈ σ ( 0 ) x σ ′ ( x ) 0.25 x 0.5 \begin{aligned} g_l(x)\approx\sigma(0)x\sigma(x)\\ 0.25x0.5 \end{aligned} gl​(x)​≈σ(0)xσ′(x)0.25x0.5​ h a r d − l o g i s t i c ( x ) { 1 g l ( x ) ≥ 1 g l ( x ) 0 g l ( x ) 1 0 g l ( x ) ≤ 0 max ⁡ ( min ⁡ ( g l ( x ) , 1 ) , 0 ) max ⁡ ( min ⁡ ( 0.25 x 0.5 , 1 ) , 0 ) \begin{aligned} hard-logistic(x)\begin{cases} 1g_l(x)\ge 1\\ g_l(x)0g_l(x)1\\ 0g_l(x)\le 0 \end{cases}\\ \max(\min(g_l(x),1),0)\\ \max(\min(0.25x0.5,1),0) \end{aligned} hard−logistic(x)​⎩ ⎨ ⎧​1gl​(x)0​gl​(x)≥10gl​(x)1gl​(x)≤0​max(min(gl​(x),1),0)max(min(0.25x0.5,1),0)​ g t ( x ) ≈ tanh ⁡ ( 0 ) x tanh ⁡ ′ ( x ) x \begin{aligned} g_t(x)\approx\tanh(0)x\tanh(x)\\ x \end{aligned} gt​(x)​≈tanh(0)xtanh′(x)x​ h a r d − t a n h ( x ) { 1 g t ( x ) ≥ 1 g t ( x ) − 1 g t ( x ) 1 − 1 g t ( x ) ≤ − 1 max ⁡ ( min ⁡ ( g t ( x ) , 1 ) , − 1 ) max ⁡ ( min ⁡ ( x , 1 ) , − 1 ) \begin{aligned} hard-tanh(x)\begin{cases} 1g_t(x)\ge 1\\ g_t(x)-1g_t(x)1\\ -1g_t(x)\le -1 \end{cases}\\ \max(\min(g_t(x),1),-1)\\ \max(\min(x,1),-1) \end{aligned} hard−tanh(x)​⎩ ⎨ ⎧​1gt​(x)−1​gt​(x)≥1−1gt​(x)1gt​(x)≤−1​max(min(gt​(x),1),−1)max(min(x,1),−1)​ ReLU函数(斜坡型) 修正线性单元也叫 Rectifier 函数是目前深度神经网络中常用的激活函数 R e L U ( x ) { x x ≥ 0 0 x 0 max ⁡ ( 0 , x ) \begin{aligned} ReLU(x)\begin{cases} xx\ge 0\\ 0x0 \end{cases}\\ \max(0,x) \end{aligned} ReLU(x)​{x0​x≥0x0​max(0,x)​ 优点 计算高效采用ReLU 的神经元只需要进行加、乘和比较的操作 具有生物学合理性在生物神经网络中同时处于兴奋状态的神经元非常稀疏。 sigmod会导致一个非稀疏的神经网络 ReLU具有很好的稀疏性大约 50 % 50\% 50% 的神经元处于激活状态——单侧抑制、宽兴奋边界 在一定程度上缓解了神经网络的梯度消失问题ReLU函数为左饱和函数且在 x 0 x0 x0 时导数为 1 1 1 加速梯度下降的收敛速度 缺点 非零中心化后一层神经网络引入偏置偏移影响梯度下降的效率死亡ReLU问题如果参数在一次不恰当的更新后第一个隐藏层中的某个ReLU 神经元在所有的训练数据上都不能被激活那么这个神经元自身参数的梯度永远都会是0在以后的训练过程中永远不能被激活 带泄露的ReLU 在输入 x 0 x0 x0 时保持一个很小的梯度 γ \gamma γ 当神经元非激活时也能有一个非零的梯度可以更新参数避免永远不能被激活 L e a k y R e L U ( x ) { x x 0 γ x x ≤ 0 max ⁡ ( 0 , x ) γ min ⁡ ( 0 , x ) \begin{aligned} LeakyReLU(x)\begin{cases} xx0\\ \gamma xx\le 0 \end{cases}\\ \max(0,x)\gamma\min(0,x) \end{aligned} LeakyReLU(x)​{xγx​x0x≤0​max(0,x)γmin(0,x)​ γ \gamma γ 通常为很小的常数如 γ 0.01 \gamma0.01 γ0.01 带泄露的 ReLU也可以写成 L e a k y R e L U ( x ) max ⁡ ( x , γ x ) LeakyReLU(x)\max(x,\gamma x) LeakyReLU(x)max(x,γx) 带参数的ReLU 引入一个可学习的参数不同神经元可以有不同的参数 对于第 i i i 个神经元其PReLU定义为 P R e L U i ( x ) { x x 0 γ i x x ≤ 0 max ⁡ ( 0 , x ) γ i min ⁡ ( 0 , x ) \begin{aligned} PReLU_i(x)\begin{cases} xx0\\ \gamma_i xx\le 0 \end{cases}\\ \max(0,x)\gamma_i\min(0,x) \end{aligned} PReLUi​(x)​{xγi​x​x0x≤0​max(0,x)γi​min(0,x)​ P R e L U PReLU PReLU 是非饱和函数允许不同的神经元有不同的参数也可以共享一个参数 γ i 0 \gamma_i0 γi​0 则 P R e L U PReLU PReLU 退化为 R e L U ReLU ReLU γ i \gamma_i γi​ 是一个很小的常数则 P R e L U PReLU PReLU 可以看做带泄露的 R e L U ReLU ReLU ELU 近似的零中心化的非线性函数 E L U ( x ) { x x 0 γ ( e x − 1 ) x ≤ 0 max ⁡ ( 0 , x ) min ⁡ ( 0 , γ ( e x − 1 ) ) \begin{aligned} ELU(x)\begin{cases} xx0\\ \gamma(e^x-1)x\le 0 \end{cases}\\ \max(0,x)\min(0,\gamma(e^x-1)) \end{aligned} ELU(x)​{xγ(ex−1)​x0x≤0​max(0,x)min(0,γ(ex−1))​ γ ≥ 0 \gamma\ge 0 γ≥0 是一个超参数决定 x ≤ 0 x\le 0 x≤0 时的饱和曲线并调整输出均值在0附近 Softplus函数 可以看做ReLU的平滑版本 S o f t p l u s ( x ) log ⁡ ( 1 e x ) Softplus(x)\log(1e^x) Softplus(x)log(1ex) 其导数刚好为 L o g i s t i c Logistic Logistic 函数 有单侧抑制宽兴奋边界没有稀疏激活性 Swish函数(复合型) 自门控激活函数(软门控——允许信息通过的多少 σ ( x ) ∈ { 0 , 1 } \sigma(x)\in\{0,1\} σ(x)∈{0,1}) s w i s h ( x ) x σ ( β x ) swish(x)x\sigma(\beta x) swish(x)xσ(βx) 其中 σ ( ⋅ ) \sigma(\cdot) σ(⋅) 为 L o g i s t i c Logistic Logistic 函数 β \beta β 为可学习的参数或一个固定的超参数 当 σ ( β x ) \sigma(\beta x) σ(βx) 接近于1时门处于开状态激活函数输出近似于 x x x 本身当 σ ( β x ) \sigma(\beta x) σ(βx) 接近于0时门处于关状态激活函数的输出近似于0 Swish函数可以看做线性函数和ReLU函数之间的非线性插值其程度由 β \beta β 控制 β 0 \beta0 β0 时Swish函数变为线性函数 x 2 \frac{x}{2} 2x​ β 1 \beta1 β1 时 x 0 x0 x0 时近似线性 x 0 x0 x0 时近似饱和具有一定单调性 β → ∞ \beta\rightarrow \infty β→∞ 时 σ ( β x ) \sigma(\beta x) σ(βx) 趋向于离散的 0 − 1 0-1 0−1 函数 GELU函数 高斯误差线性单元与Swish函数类似 G E L U ( x ) x P ( X ≤ x ) , X ∼ N ( μ , σ 2 ) GELU(x)xP(X\le x),X\sim \mathcal{N}(\mu,\sigma^2) GELU(x)xP(X≤x),X∼N(μ,σ2) 其中 μ , σ \mu,\sigma μ,σ 为超参数一般设 μ 0 , σ 1 \mu0,\sigma1 μ0,σ1 P ( X ≤ x ) P(X\le x) P(X≤x) 为高斯分布的累计函数为S型函数可以用 L o g i s t i c Logistic Logistic 函数或 T a n h Tanh Tanh 函数近似 G E L U ( x ) ≈ 0.5 x [ 1 tanh ⁡ ( 2 π ( x 0.044715 x 3 ) ) ] G E L U ( x ) ≈ x σ ( 1.702 x ) GELU(x)\approx 0.5x\left[1\tanh\left(\frac{2}{\pi}(x0.044715x^3)\right)\right]\\ GELU(x)\approx x\sigma(1.702x) GELU(x)≈0.5x[1tanh(π2​(x0.044715x3))]GELU(x)≈xσ(1.702x) Maxout单元 Maxout单元也是一种S型分段线性函数 Maxout单元的输入是上一层神经元的全部原始输出 x [ x 1 ; x 2 ; ⋯ ; x D ] x[x_1;x_2;\cdots;x_D] x[x1​;x2​;⋯;xD​] 每个Maxout单元有 K K K 个权重向量 ω k ∈ R D \omega_k\in \R^D ωk​∈RD 和偏置 b k ( 1 ≤ k ≤ K ) b_k(1\le k\le K) bk​(1≤k≤K) 对于输入 x x x 可以得到 K K K 个净输入 z k z_k zk​ z k ω k x b k ω k [ ω k ( 1 ) , ω k ( 2 ) , ⋯ , ω k ( D ) ] z_k\omega_kxb_k\omega_k\left[\omega_{k}^{(1)},\omega_k^{(2)},\cdots,\omega_k^{(D)}\right] zk​ωk​xbk​ωk​[ωk(1)​,ωk(2)​,⋯,ωk(D)​] Maxout单元的非线性函数定义为 m a x o u t ( x ) max ⁡ k ∈ [ 1 , K ] ( z k ) maxout(x)\max\limits_{k\in [1,K]}(z_k) maxout(x)k∈[1,K]max​(zk​) Maxout单元不单是净输入到输出之间的非线性映射而是整体学习输入到输出之间的非线性映射关系 Maxout激活函数可以看做任意凸函数的分段线性近似
http://www.pierceye.com/news/104803/

相关文章:

  • 高端外贸网站制作智慧团建网站没有验证码
  • 做网站需要买服务器么网站建设营销外包公司排名
  • 网站建设中要多使用图片258网站建设
  • 做多语言网站教程开网页慢是什么原因
  • 汽车商城网站模板seo公司网站推广
  • 网站备案查询工信部官网网站建设费用推荐网络专业
  • 网站开发费用是研发费用国内做seo最好公司
  • 什么是网站建设公司企业网站后台管理
  • 做网站阿里巴巴好还是百度好柠檬网络科技网站建设
  • 做个网站要多少钱网站建设工作 方案
  • 一个主体如何添加网站室内设计公司的名字
  • 中国建设学会网站洛阳市住房和城乡建设局网站
  • 北京网站优化方式做物流的网站都有什么风险
  • 零基础学做网站页怎么部署wordpress
  • 网站如何做死链接提交筑站网络推广
  • 小说网站开发php网站后台如何修改文字
  • 网站制作是那个带有客户案例的网站
  • 中国纪检监察报数字报湛江关键词优化平台
  • 网站品牌词如何优化东莞公司网站建设营销型网站建设
  • 鞍山网站建设营销想把自己做的网站放到网上
  • 松原公司做网站青岛工程建设管理信息网官方网站
  • 一个空间2个网站网站 手机 app
  • 河北网站建设方案详细磁器口网站建设
  • 怎么做网站树洞wordpress edd 会员
  • 购物网站中加减数目的怎么做仿站违法吗
  • 代理ip访问网站局门户网站的建设
  • 建网站业务如何开展阳江房产信息网官网
  • 企业网站建设套餐费用网站开发完后期维护重要吗
  • 3营销型网站建设湖北短视频seo推荐
  • 鸿运通网站建设未成年怎么在网上卖东西