当前位置：首页 > news >正文

宁波南部商务区网站建设电子商务网站dw建设实验报告

news 2025/11/17 6:02:50

宁波南部商务区网站建设,电子商务网站dw建设实验报告,湖南响应式官网建设哪家好,wordpress网站更改主题信息来源#xff1a;不止数据分析统计学和机器学习之间的界定一直很模糊。无论是业界还是学界一直认为机器学习只是统计学披了一层光鲜的外衣。而机器学习支撑的人工智能也被称为“统计学的外延”。例如#xff0c;诺奖得主托马斯萨金特曾经说过人工智能其实就是统计学#xff0… 来源不止数据分析统计学和机器学习之间的界定一直很模糊。无论是业界还是学界一直认为机器学习只是统计学披了一层光鲜的外衣。而机器学习支撑的人工智能也被称为“统计学的外延”。例如诺奖得主托马斯·萨金特曾经说过人工智能其实就是统计学只不过用了一个很华丽的辞藻。萨金特在世界科技创新论坛上表示人工智能其实就是统计学当然也有一些不同的声音。但是这一观点的正反双方在争吵中充斥着一堆看似高深实则含糊的论述着实让人摸不着头脑。一位名叫Matthew Stewart的哈佛大学博士生从统计与机器学习的不同统计模型与机器学习的不同这两个角度论证了机器学习和统计学并不是互为代名词。机器学习和统计的主要区别在于它们的目的与大部分人所想的正相反机器学习其实已经存在几十年了。当初只是因为那时的计算能力无法满足它对大量计算的需求而渐渐被人遗弃。然而近年来由于信息爆炸所带来的数据和算力优势机器学习正快速复苏。言归正传如果说机器学习和统计学是互为代名词那为什么我们没有看到每所大学的统计学系都关门大吉而转投机器学习系呢因为它们是不一样的!我经常听到一些关于这个话题的含糊论述最常见的是这样的说法:机器学习和统计的主要区别在于它们的目的。机器学习模型旨在使最准确的预测成为可能。统计模型是为推断变量之间的关系而设计的。虽然技术上来说这是正确的但这样的论述并没有给出特别清晰和令人满意的答案。机器学习和统计之间的一个主要区别确实是它们的目的。然而说机器学习是关于准确的预测而统计模型是为推理而设计几乎是毫无意义的说法除非你真的精通这些概念。首先我们必须明白统计和统计建模是不一样的。统计是对数据的数学研究。除非有数据否则无法进行统计。统计模型是数据的模型主要用于推断数据中不同内容的关系或创建能够预测未来值的模型。通常情况下这两者是相辅相成的。因此实际上我们需要从两方面来论述第一统计与机器学习有何不同第二统计模型与机器学习有何不同说得更直白些就是有很多统计模型可以做出预测但预测效果比较差强人意。而机器学习通常会牺牲可解释性以获得强大的预测能力。例如从线性回归到神经网络尽管解释性变差但是预测能力却大幅提高。从宏观角度来看这是一个很好的答案。至少对大多数人来说已经足够好。然而在有些情况下这种说法容易让我们对机器学习和统计建模之间的差异产生误解。让我们看一下线性回归的例子。统计模型与机器学习在线性回归上的差异或许是因为统计建模和机器学习中使用方法的相似性使人们认为它们是同一个东西。对于这个我可以理解但事实上不是这样。最明显的例子是线性回归这可能是造成这种误解的主要原因。线性回归是一种统计方法通过这种方法我们既可以训练一个线性回归器又可以通过最小二乘法拟合一个统计回归模型。可以看到在这个案例中前者做的事儿叫训练模型它只用到了数据的一个子集而训练得到的模型究竟表现如何需要通过数据的另一个子集测试集测试之后才能知道。在这个例子中机器学习的最终目的是在测试集上获得最佳性能。对于后者我们则事先假设数据是一个具有高斯噪声的线性回归量然后试图找到一条线最大限度地减少了所有数据的均方误差。不需要训练或测试集在许多情况下特别是在研究中(如下面的传感器示例)建模的目的是描述数据与输出变量之间的关系, 而不是对未来数据进行预测。我们称此过程为统计推断而不是预测。尽管我们可以使用此模型进行预测这也可能是你所想的但评估模型的方法不再是测试集而是评估模型参数的显著性和健壮性。机器学习这里特指有监督学习的目的是获得一个可反复预测的模型。我们通常不关心模型是否可以解释。机器学习只在乎结果。就好比对公司而言你的价值只用你的表现来衡量。而统计建模更多的是为了寻找变量之间的关系和确定关系的显著性恰巧迎合了预测。下面我举一个自己的例子来说明两者的区别。我是一名环境科学家。工作的主要内容是和传感器数据打交道。如果我试图证明传感器能够对某种刺激(如气体浓度)做出反应, 那么我将使用统计模型来确定信号响应是否具有统计显著性。我会尝试理解这种关系并测试其可重复性以便能够准确地描述传感器的响应并根据这些数据做出推断。我还可能测试响应是否是线性的响应是否归因于气体浓度而不是传感器中的随机噪声等等。而同时我也可以拿着从20个不同传感器得到的数据, 去尝试预测一个可由他们表征的传感器的响应。如果你对传感器了解不多这可能会显得有些奇怪但目前这确实是环境科学的一个重要研究领域。用一个包含20个不同变量的模型来表征传感器的输出显然是一种预测而且我也没期待模型是可解释的。要知道由于化学动力学产生的非线性以及物理变量与气体浓度之间的关系等等因素可能会使这个模型非常深奥就像神经网络那样难以解释。尽管我希望这个模型能让人看懂, 但其实只要它能做出准确的预测我就相当高兴了。如果我试图证明数据变量之间的关系在某种程度上具有统计显著性以便我可以在科学论文中发表我将使用统计模型而不是机器学习。这是因为我更关心变量之间的关系而不是做出预测。做出预测可能仍然很重要但是大多数机器学习算法缺乏可解释性这使得很难证明数据中存在的关系。很明显这两种方法在目标上是不同的尽管使用了相似的方法来达到目标。机器学习算法的评估使用测试集来验证其准确性。然而对于统计模型通过置信区间、显著性检验和其他检验对回归参数进行分析可以用来评估模型的合法性。因为这些方法产生相同的结果所以很容易理解为什么人们会假设它们是相同的。统计与机器学习在线性回归上的差异有一个误解存在了10年仅基于它们都利用相同的基本概率概念这一事实来混淆这两个术语是不合理的。然而仅仅基于这两个术语都利用了概率里相同的基本概念这一事实而将他们混为一谈是不合理的。就好比如果我们仅仅把机器学习当作披了一层光鲜外衣的统计我们也可以这样说物理只是数学的一种更好听的说法。动物学只是邮票收藏的一种更好听的说法。建筑学只是沙堡建筑的一种更好听的说法。这些说法尤其是最后一个非常荒谬完全混淆了两个类似想法的术语。实际上物理是建立在数学基础上的理解现实中的物理现象是数学的应用。物理学还包括统计学的各个方面而现代统计学通常是建立在Zermelo-Frankel集合论与测量理论相结合的框架中以产生概率空间。它们有很多共同点因为它们来自相似的起源并运用相似的思想得出一个逻辑结论。同样建筑学和沙堡建筑可能有很多共同点但即使我不是一个建筑师也不能给出一个清晰的解释但也看得出它们显然不一样。在我们进一步讨论之前需要简要澄清另外两个与机器学习和统计有关的常见误解。这就是人工智能不同于机器学习数据科学不同于统计学。这些都是没有争议的问题所以很快就能说清楚。数据科学本质上是应用于数据的计算和统计方法包括小数据集或大数据集。它也包括诸如探索性数据分析之类的东西例如对数据进行检查和可视化以帮助科学家更好地理解数据并从中做出推论。数据科学还包括诸如数据包装和预处理之类的东西因此涉及到一定程度的计算机科学因为它涉及编码和建立数据库、Web服务器之间的连接和流水线等等。要进行统计你并不一定得依靠电脑但如果是数据科学缺了电脑就没法操作了。这就再次说明了虽然数据科学借助统计学这两者不是一个概念。同理机器学习也并非人工智能事实上机器学习是人工智能的一个分支。这一点挺明显的因为我们基于以往的数据“教”训练机器对特定类型的数据进行概括性的预测。机器学习是基于统计学在我们讨论统计学和机器学习之间的区别前我们先来说说其相似性其实文章的前半段已经对此有过一些探讨了。机器学习基于统计的框架因为机器学习涉及数据而数据必须基于统计学框架来进行描述所以这点十分明显。然而扩展至针对大量粒子的热力学的统计机制同样也建立在统计学框架之下。压力的概念其实是数据温度也是一种数据。你可能觉得这听起来不合理但这是真的。这就是为什么你不能描述一个分子的温度或压力这不合理。温度是分子相撞产生的平均能量的显示。而例如房屋或室外这种拥有大量分子的我们能用温度来描述也就合理了。你会认为热力学和统计学是一个东西吗当然不会热力学借助统计学来帮助我们理解运动的相互作用以及转移现象中产生的热。事实上热力学基于多种学科而非仅仅统计学。类似地机器学习基于许多其他领域的内容比如数学和计算机科学。举例来说机器学习的理论来源于数学和统计学机器学习算法基于优化理论、矩阵代数和微积分机器学习的实现来源于计算机科学和工程学概念比如核映射、特征散列等。当一个人开始用Python开始编程突然从Sklearn程序库里找出并使用这些算法许多上述的概念都比较抽象因此很难看出其中的区别。这样的情况下这种抽象定义也就致使了对机器学习真正包含的内容一定程度上的无知。统计学习理论——机器学习的统计学基础统计学和机器学习之间最主要的区别在于统计学完全基于概率空间。你可以从集合论中推导出全部的统计学内容集合论讨论了我们如何将数据归类这些类被称为“集”然后对这个集进行某种测量保证其总和为1.我们将这种方法成为概率空间。统计学除了对这些集合和测量有所定义之外没有其他假设。这就是为什么我们对概率空间的定义非常严谨的原因。一个概率空间其数学符号写作(Ω,F,P)包含三部分一个样本空间Ω也就是所有可能结果的集合。一个事件集合F每个事件都包含0或者其它值。对每个事件发生的可能性赋予概率P这是一个从事件到概率的函数。机器学习基于统计学习理论统计学习理论也依旧基于对概率空间的公理化语言。这个理论基于传统的统计学理论并发展于19世纪60年代。机器学习分为多个类别这篇文章我仅着眼于监督学习理论因为它最容易解释虽然因其充斥数学概念依然显得晦涩难懂。统计学习理论中的监督学习给了我们一个数据集我们将其标为S {(xᵢ,yᵢ)}也就是说我们有一个包含N个数据点的数据集每个数据点由被称为“特征”的其它值描述这些特征用x描述这些特征通过特定函数来描绘以返回我们想要的y值。已知这个数据集问如何找到将x值映射到y值的函数。我们将所有可能的描述映射过程的函数集合称为假设空间。为了找到这个函数我们需要给算法一些方法来“学习”如何最好地着手处理这个问题而这由一个被称为“损失函数”的概念来提供。因此对我们所有的每个假设也即提议的函数我们要通过比较所有数据下其预期风险的值来衡量这个函数的表现。预期风险本质上就是损失函数之和乘以数据的概率分布。如果我们知道这个映射的联合概率分布找到最优函数就很简单了。但是这个联合概率分布通常是未知的因此我们最好的方式就是猜测一个最优函数再实证验证损失函数是否得到优化。我们将这种称为实证风险。之后我们就可以比较不同函数找出最小预期风险的那个假设也就是所有函数中得出最小下确界值的那个假设。然而为了最小化损失函数算法有通过过度拟合来作弊的倾向。这也是为什么要通过训练集“学习”函数之后在训练集之外的数据集测试集里对函数进行验证。我们如何定义机器学习的本质引出了过度拟合的问题也对需要区分训练集和测试集作出了解释。而我们在统计学中无需试图最小化实证风险过度拟合不是统计学的固有特征。最小化统计学中无需视图程向于一个从函数中选取最小化实证风险的学习算法被称为实证风险最小化。例证以线性回归做一个简单例子。在传统概念中我们试图最小化数据中的误差找到能够描述数据的函数这种情况下我们通常使用均值方差。使用平方数是为了不让正值和负值互相抵消。然后我们可以使用闭合表达式来求出回归系数。如果我们将损失函数计为均值方差并基于统计学习理论进行最小化实证风险碰巧就能得到传统线性回归分析同样的结果。这个巧合是因为两个情况是相同的对同样的数据以相同的方式求解最大概率自然会得出相同的结果。最大化概率有不同的方法来实现同样的目标但没人会去争论说最大化概率与线性回归是一个东西。这个最简单的例子显然没能区分开这些方法。这里要指出的第二点在于传统的统计方法中没有训练集和测试集的概念但我们会使用不同的指标来帮助验证模型。验证过程虽然不同但两种方法都能够给我们统计稳健的结果。另外要指出的一点在于传统统计方法给了我们一个闭合形式下的最优解它没有对其它可能的函数进行测试来收敛出一个结果。相对的机器学习方法尝试了一批不同的模型最后结合回归算法的结果收敛出一个最终的假设。如果我们用一个不同的损失函数结果可能并不收敛。例如如果我们用了铰链损失使用标准梯度下降时不太好区分因此需要使用类似近梯度下降等其它方法那么结果就不会相同了。最后可以对模型偏差进行区分。你可以用机器学习算法来测试线性模型以及多项式模型指数模型等来检验这些假设是否相对我们的先验损失函数对数据集给出更好的拟合度。在传统统计学概念中我们选择一个模型评估其准确性但无法自动从100个不同的模型中摘出最优的那个。显然由于最开始选择的算法不同找出的模型总会存在一些偏误。选择算法是非常必要的因为为数据集找出最优的方程是一个NP-hard问题。那么哪个方法更优呢这个问题其实很蠢。没有统计学机器学习根本没法存在但由于当代信息爆炸人类能接触到的大量数据机器学习是非常有用的。对比机器学习和统计模型还要更难一些你需要视乎你的目标而定究竟选择哪种。如果你只是想要创建一个高度准确的预测房价的算法或者从数据中找出哪类人更容易得某种疾病机器学习可能是更好的选择。如果你希望找出变量之间的关系或从数据中得出推论选择统计模型会更好。图中文字这是你的机器学习系统对的你从这头把数据都倒进这一大堆或者线性代数里然后从那头里拿答案就好了。答案错了咋整那就搅搅搅到看起来对了为止。如果你统计学基础不够扎实你依然可以学习机器学习并使用它——机器学习程序库里的抽象概念能够让你以业余者的身份来轻松使用它们但你还是得对统计概念有所了解从而避免模型过度拟合或得出些貌似合理的推论。相关报道https://towardsdatascience.com/the-actual-difference-between-statistics-and-machine-learning-64b49f07ea3?gi412e8f93e22e未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市大脑研究计划构建互联网城市大脑技术和企业图谱为提升企业行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

查看全文

http://www.pierceye.com/news/543503/