当前位置：首页 > news >正文

网站建设最新教程怎样做微信网站

news 2025/11/13 12:49:24

网站建设最新教程,怎样做微信网站,花店o2o的特色,网站开发平台来源#xff1a;36氪作者#xff1a;何沛宽本文尝试复盘梳理深度学习目前的技术要点#xff0c;深度学习中模型迭代的方向#xff0c;以及改进后存在的局限。第一部分#xff1a;深度学习技术基本要素#xff1a;神经元、神经网络、分类器、可视化框架在深度学习领域36氪作者何沛宽本文尝试复盘梳理深度学习目前的技术要点深度学习中模型迭代的方向以及改进后存在的局限。第一部分深度学习技术基本要素神经元、神经网络、分类器、可视化框架在深度学习领域神经元是深度学习的基本单位。神经元从数学角度来看为一个线性函数公式如下图神经元里的公式非线性函数激励函数组成。线性函数包括降维后的线性函数此处不细展开用于深度学习神经网络的模型训练这其中很可能出现欠拟合欠拟合是指相对简单的线性函数分类处理信息时因为分类标签数量或准确度不足以做有效区分。于是在处理这一个问题时工程师们人为设置了激励函数来平衡线性函数无法解决的问题激活函数是神经元中非线性部分用来减低线性部分造成的误差。经由神经元作为节点连接而成的网络是神经网络。最基本的神经网络有两个神经元分别处在隐含层、输出层如下图最简神经网络结构示意图深度神经网络是由含多层隐含层神经元组成的神经网络。具体的原理和实践会在下文再做展开展开之前不妨先了解深度学习技术层面到底解决了什么问题首先深度学习与传统机器学习处理输入信息方式有一个根本的差异传统机器学习主要是通过四种基于人为整理、明确分类维度逻辑关系的方式处理输入的信息。包括朴素贝叶斯用概率量化计算模型决策树用合适的维度降低分类信息熵回归模型建模降低预测值与训练目标值的差距SVM支持向量机寻找超平面保证分类的置信度最大。在深度学习中有大量的线性与非线性分类器分类器是自动对信息进行处理并不需要人为事先明确特征、标签分类。相对而言不需要预先准确分类标签的深度学习解决了传统机器学习的两大问题特征清晰度要求降低。训练中不再只是在固定明确的标签下处理还允许模糊、噪声存在对不同特征偏向的数据敏感程度自动忽略。不可分类变为可分。由于没有明确分类的前提使得原本大量人为无法分类的特征可以变成机器可分类的特征且相对高效地进行。人为分类总是有局限的因为需要明确定义、标签一来需要时间、二来需要有效共识的达成接着可以大致了解目前深度学习使用的框架有哪些比如TensorFlow、Caffe、Chainer、Torch、Theano等。在这里我想强调的是深度学习中主流选用的框架TensorFlow的部分特性。在一个前沿技术领域一个框架是否值得使用或者更准确地说在这里我想提到的是能否下一步扩大使用范围比如TensorFlow是否值得使用专业的工程师可能会提到框架性能、社区活跃度、语言、环境与集群支持等等。就我目前的了解到的有两个我觉得面向用户很受启发的值得关注的地方一个是使用的社区活跃度一个是使用界面是否可视化。社群活跃度意味着这个框架使用时开发者之间的交流与相互促进程度如果是一个非常小众、其他开发者不愿参与的框架那么是不利于下一步扩大使用范围的。使用界面可视化TensorFlow 有TensorboardTensorboard支持可视化的训练网络过程——事实上可视化操作一直是开发者与使用者无论是相对原创开发者而言后来的开发者、还是普通用户之间达成相对简单沟通的一个非常重要的环节。开发者/工程人员致力于用最简洁的语言无论是否友好甚至可能晦涩难懂来运行工程但这个结果很可能是后来者、用户的“艰难”读取。这不难让我想到一个《硅谷》 Silicon ValleyHBO电视剧中一个情节Pied Piper最初上线时用户界面异常简陋男主Richard Hendricks还有他的所有工程界的朋友都完全没有意识到这一点——他们觉得非常适合自己使用但作为普通用户投资人的女主Monica Hall本来是对Pied Piper抱着极大期待的在内测使用时第一反应是觉得界面一点都不友好没有继续使用的兴趣。后来Pied Piper用户数一直徘徊在万人左右没有上升趋势教育用户后接受使用的人数也没有明显提升。这个可视化友好面向用户的一种是题外话了不过回到深度学习无论是其目前主流选择的框架如TensorFlow还是编程语言如Python都是往面向用户友好/易用的方向行进的。上面提到深度学习技术实现的基本元素包括神经元、激活函数、神经网络和深度神经网络目前深度学习使用的主流框架及其选择标准。此外还提到深度学习可以解决传统机器学习无法突破的“明确的特征”局限。第二部分深度学习模型迭代/改进方向改进后对应局限接下来回到前面提到的目前深度学习基于上面提到的基本元素真正落地的深度神经网络工程原理和实践。这一部分会按前馈神经网络、卷积神经网络、循环神经网络、深度残差网络、强化学习、对抗学习的顺序展开。我会比较详细介绍前馈神经网络在工程训练中的流程其他会把它们分别要解决的问题以及可能的局限。前馈神经网络前馈神经网络是深度学习中最简单的神经网络一般分为反向传播神经网络BP网络径向基函数神经网络RBF网络。在这里我会相对详细地梳理这个最朴素的神经网络是如何落地的。首先我们来看一下前馈神经网络最基础的网络结构以BP网络为例这个我们在上文最基础的神经网络中就给出了示意图。上文的示意图中神经元里的wxb-其实是简化了的具体函数表达式会如下图神经网络函数表达式这个神经网络进入工程训练需要经过以下三个环节准备样本可以是文本、图片、音频以及音视频结合等训练样本清洗处理目的是帮助网络更高效、准确分类正式训练将训练样本代入训练模型即上述示图公式在上面三个环节中正式训练的时候训练过程不断迭代使得w、b的值越来越适合拟合要训练的模型为了求出w、b深度学习中有梯度下降法迭代法思维来获取逼近最优w、b值。再进一步由于梯度下降法训练时候要动用比较重的样本训练后来又出现了随机梯度下降法即随机抽样而不是全部样本进行处理来获得相对较优的w、b值。值得注意的是从梯度下降法到随机梯度下降这样的思维转化在深度学习领域是非常常见的深度学习面向万级以上的海量样本如何使训练由相对重的模式变成比较轻的模式从总体到随机抽样是一种解决方案——核心就是在无限成本取得最优到有限成本取得次优之间权衡。梯度下降法求取w,b极值使损失最小化另外在求取w、b值的过程中无论是取任何值难以避免产生的是一个误差值在训练过程中工程师们会引入一个损失函数Loss而上述的梯度下降求取w、b最优解的同时便是求出最小损失函数的过程。在训练过程中有两个主要环节一个是训练集训练一个是验证集测试。前者是搭建最合适模型所需后者是检验所搭建模型是否合适使用。在检验的过程中可能会出现过拟合Overfitting问题深度学习中高VC维的分类器可能使模型过度拟合降低模型的准确性——验证集验证过程中会基于Loss损失函数和准确率Accuracy来判断是否在较优的准确度。在搭建模型完成后还有第三步就是用测试集检验搭建模型的效用了。以上便是一个基础神经网络的流程框架和在训练处理中引入的比较核心的思维。介绍完最简单的神经网络工程流程接下来我会针对卷积神经网络、循环神经网络、深度残差网络要解决的问题和目前的局限来分享。之所以以这个角度是因为在学习深度学习的过程中我们会很容易发现基于上述提到的最基础的神经网络结构开发者们是一一针对工程实践时遇到的瓶颈找到对应的解决办法。而这些办法慢慢建立成为新的落地模型。所以我们是可以基于最简单网络模型再进一步了解这些更新的神经网络模型的它们的特性与功能。这些模型既可以解决最基本神经网络无法突破的部分问题同时也面临着其他具体的局限。卷积神经网络CNNCNN也是一种BP网络不过与之前的相比其神经元可响应一部分覆盖范围的周围单元、通关权值共享的方式使得下一层工作量大大较少可参照下图。而之前提到的是全连接网络。全连接网络的好处是最大程度让整个网络节点不会漏掉就像上面的神经网络示意图每一个上一层神经元全部连接到下一层的神经元。但是就像上文也提到的深度学习要处理的是万级以上的海量数据要对海量数据进行全连接处理是一种非常重的模式训练过程中收敛速度会很慢。CNN相较而言就是比较轻的模式这里再一次提到用有限成本处理海量信息的方案了可以在训练中较少更新权重、明显快于全连接网络地完成收敛。卷积网络处理数据过程及方式CNN的训练过程如上图所示除了一般处理方式图中加和处理的模式即将所有卷积的数据汇总还有池化层处理的方式。池化层处理主要分为两种路径一种是取最大值一种是取平均值。无论是哪种路径目的都在于对数据进行又一次特征提取减少下一层的数据处理量同时获得相对抽象、模糊的信息提高泛化性想象一下目标是找到所有人的共性。那上一步是只提取一个人的特性和找到几个人的共性哪一种方式的更快、特征更有效。当然上面提到的池化层会对信息进行模糊化处理算是一种有损压缩。与之对应的是整个卷积神经网络在卷积核对输入向量进行特征提取的过程将高维向量映射成低维向量其实也是一种有损压缩。到这里又可以解答卷积神经网络可以解决什么的问题了。在开始的时候我们提到CNN神经元通过权值共享加快训练过程中的收敛速度现在我们可以发现CNN可以解决的另一个问题减少噪声、讹误对分类的影响。当然这个可能需要更具体的工程流程展示才会比较清楚感兴趣的读者可以进一步了解循环神经网络RNN它要解决的问题是什么呢是上下文场景记忆的问题。上文提到的神经网络模型都不能解决“记忆暂存功能”对比较远期输入的内容无法进行量化与当前内容一起反应到网络中进行训练循环神经网络可以解决在自然语言处理NLP中也应用最广泛。在讲RNN如何实现上下文场景记忆问题时无法跳过的一个基础是隐马尔可夫模型HMM。隐马尔可夫模型中有马尔可夫链。马尔可夫链的核心是在给定当前知识和信息的前提下观察对象过去的历史状态对将来的预测来说是无关的。在RNN中隐含状态下的马尔可夫链会处理神经元之间的信息传递。不过理论上RNN是行得通的但在实践上工程师们发现训练效果并不佳所以现在用了LSTMLong Short-Term Memory长短期记忆网络来取代传统的RNN。LSTM规避了传统RNN中遇到的问题并启动了一个有效的机制忘记门Forget Gate在训练过程中LSTM会把有潜在影响的关系学习忽略无效不具有影响的关系。LSTM目前应用在翻译器、聊天机器人、分类器等场景。说到局限性训练过程中目前只支持相对固定、边界划定清晰的场景LSTM对多场景问题也是无能为力的这也是深度学习所有网络模型没有本质突破的问题观点取自参考书籍。深度残差网络DRN。它要解决的问题是传统深度学习网络中网络到一定深度后学习率、准确率会下降的问题。目前DRN在图像分类、对象检测、语义分割等领域都有较好的识别确信度。强化学习、对抗学习、其他强化学习Reinforcement Learning和对抗学习相对来说都是深度学习比较前沿的部分。强化学习严格来说是AI在训练中得到策略的训练过程强调的是一个过程而不同于上述各种神经网络强调的是搭建模型的方式。那强化学习要解决的问题是什么上面我们提到的神经网络大部分是在完成分类问题判断样本标签类别等那机器如何更智能表现呢强化学习就作为一种机器自学习的状态来解决上面神经网络相对来说需干预才可学习的局限。比如在AlphaGo围棋学习中就会用到强化学习这样的自学习过程。强化学习模型核心强化学习要做的主要有两步将奖励、损失定义好以主体较低成本不断尝试总结不同状态State下奖励Reward大的工作方式。其中一种思路就是上图提到的马尔可夫决策过程可参照RNN部分对抗学习目前主要是指生成对抗网络Generative Adversarial NetworksGAN。GAN是通过模拟一种数据概率分布的生成器使得概率分布与观测数据的概率统计分布一致或者尽可能接近。这个过程涉及纳什均衡中的博弈机制具体包括在训练中判别模型Discriminative Model——尽可能提取特征正确率增加的模型生成模型Generative Model——尽可能“伪造”让判别模型以为是真的结果。其他还有相对更前沿的包括条件生成对抗网络CGAN、深度卷积对抗网络DCGAN等等。这些前沿方向对应解决的包括对抗学习稳定性不高、训练数据还原度及质量水平等问题。到这里全文梳理了深度学习的基本元素、目前比较核心的神经网络模型、较为前沿的训练模式以及它们要解决的问题、在实践中对应的局限。如果想进一步了解深度学习你下一步可以学习的方向是在这个框架之下基于更具体的算法、问题与案例实践代码工程。未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能互联网和脑科学交叉研究机构。由互联网进化论作者计算机博士刘锋与中国科学院虚拟经济与数据科学研究中心石勇、刘颖教授创建。未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市云脑研究计划构建互联网城市云脑技术和企业图谱为提升企业行业与城市的智能水平服务。如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

查看全文

http://www.pierceye.com/news/260461/