当前位置: 首页 > news >正文

郑州网站建设详细内容推荐工程项目建设网站

郑州网站建设详细内容推荐,工程项目建设网站,wordpress个人建站教程,沧州做网站的专业公司一直有一个问题:时间序列的基础模型能像自然语言处理那样存在吗?一个预先训练了大量时间序列数据的大型模型#xff0c;是否有可能在未见过的数据上产生准确的预测?最近刚刚发表的一篇论文#xff0c;Azul Garza和Max Mergenthaler-Canseco提出的TimeGPT-1#xff0c;将ll…一直有一个问题:时间序列的基础模型能像自然语言处理那样存在吗?一个预先训练了大量时间序列数据的大型模型是否有可能在未见过的数据上产生准确的预测?最近刚刚发表的一篇论文Azul Garza和Max Mergenthaler-Canseco提出的TimeGPT-1将llm背后的技术和架构应用于预测领域成功构建了第一个能够进行零样本推理的时间序列基础模型。探索TimeGPT背后的体系结构以及如何训练模型。 《TimeGPT-1》论文地址在这里如下所示 本文介绍了时间序列的第一个基础模型TimeGPT能够为不同的数据集生成准确的预测训练我们根据已建立的统计、机器学习和深度学习方法评估我们的预训练模型证明TimeGPT零样本推理在性能、效率和简单性方面都很出色。我们的研究提供令人信服的证据表明来自人工智能其他领域的见解可以有效地应用于时间序列分析。我们得出结论大规模时间序列模型提供了一个令人兴奋的机会可以民主化访问精确预测并通过利用当代的能力来减少不确定性深度学习的进步。 1、简介 不确定性是生活的一个内在方面是人类不懈寻求驾驭和理解的一个不变因素。从古代文明确立的传统到当代世界复杂的研究工作聪明的头脑不断努力预测未来可能发生的事件的分布精心设计系统的方法来揭示未来。 预测潜在结果的愿望是多种学科的基础反映了人类预测、制定战略和减轻风险的深层次倾向。减少下一步会发生什么的不确定性的目标映射到许多现实世界的应用从了解经济周期和趋势到识别消费者消费模式从优化能源生产和电网管理的电力需求到调整服务器、工人和机器的容量和基础设施。 时间序列——按时间顺序排列的数据——构成了系统、企业和机构的底层结构。它的影响范围从测量海潮到追踪道琼斯指数的每日收盘价。这种类型的数据表示在金融、医疗保健、气象、社会科学等领域是必不可少的在这些领域识别时间模式、趋势和周期变化对于预测未来价值和为决策过程提供信息至关重要。然而目前对时间序列的理论和实践理解尚未在从业者中达成共识这反映了在人类条件的其他基本领域如语言和感知对生成模型的广泛赞誉。我们的领域在评估深度学习对预测任务的有效性方面仍然存在分歧。预测科学的努力未能实现真正普遍的预训练模型的承诺。 在本文中我们走上了一条新的道路并介绍了TimeGPT这是第一个用于时间序列预测的预训练基础模型它可以在不需要额外训练的情况下在不同的领域和应用程序中产生准确的预测。一个通用的预训练模型构成了一项突破性的创新为预测实践开辟了一条新的范式之路这种范式更容易获得、更准确、耗时更少并大大降低了计算复杂性。 2、背景 关于深度学习方法的优越性预测界目前存在分歧。尚未制定统一的办法。最近这些不同的范式越来越相互挑战质疑新发展的有用性、准确性和复杂性。尽管深度学习架构在其他领域取得了成功但一些时间序列从业者已经证明该领域的一些拟议创新并没有达到他们的要求或期望。1. 从历史上看ARIMA、ETS、MSTL、Theta和CES等统计方法已可靠地应用于各个领域。在过去的十年里XGBoost和LightGBM等机器学习模型越来越受欢迎在公开竞争和实际应用中都取得了可喜的成果。 然而随着深度学习的出现时间序列分析的范式发生了转变。深度学习方法在学术界和大规模工业预测应用中越来越受欢迎[Benidis等人2022]。 鉴于其全局方法深度学习方法在可扩展性、灵活性和潜在准确性方面比统计局部方法具有显著优势。此外它们学习复杂数据依赖关系的能力有效地绕过了对其他全局方法如LightGBM或XGBoost所需的复杂功能工程的需求。因此基于深度学习的时间序列模型旨在简化预测管道并增强可扩展性。在数据量不断增长的时代它们能够处理大量数据并捕获长期依赖关系这使它们有利于执行复杂的预测任务。 然而学术研究人员和从业者对这些承诺的看法存在分歧。各种研究人员和从业者对提高准确性的基本假设提出了质疑提出的证据表明更简单的模型优于更复杂的方法具有更低的成本和复杂性。相反一些行业领导者报告称深度学习方法增强了他们的结果简化了他们的分析管道[Kunz等人2023]。在当前的历史背景下深度学习模型在自然语言处理NLP和计算机视觉CV方面的卓越能力是不可否认的值得注意的是时间序列分析领域仍然对神经预测方法的性能持怀疑态度。 我们认为这种怀疑源于 •评估设置不一致或定义不清与其他受益于引入理想测试数据集如计算机视觉的ImageNet的领域不同时间序列的公开可用数据集不具备必要的规模和容量 深度学习的方法来超越。 •次优模型考虑到有限和特定的数据集即使是构思良好的深度学习架构也可能难以泛化或者需要付出相当大的努力才能找到最佳设置和参数。 此外缺乏满足深度学习方法要求的标准化大规模数据集也可能阻碍这一领域的进展。虽然其他领域受益于基准数据集和明确的评估指标但时间序列社区仍需要开发此类资源以促进创新和验证新技术。2 在本文中我们证明了更大、更多样的数据集使更复杂的模型能够在各种任务中更好地执行。TimeGPT是第一个以最小的复杂性始终优于替代方案的基础模型。进一步研究时间序列基础模型的改进可能会开创该领域的新篇章促进对时间数据的更深入理解并提高预测的准确性和效率。 3、文献综述 深度学习预测模型已成为一个突出的研究领域这得益于它们在最近的著名竞赛中的成功包括[Markridakis et al.202022]以及它们对行业中大规模任务的适用性。[Benidis等人2022]对神经预测模型及其应用进行了全面的综述和分类。 最初的深度学习时间序列预测成功源于对既定架构的适应即递归神经网络RNN和卷积神经网络CNN最初分别为自然语言处理NLP和计算机视觉CV设计。RNN是流行模型的支柱如概率预测的DeepAR[Salinas et al.2020]和M4竞赛的获胜者ESRNN[Smyl2020]。如[Bai et al.2018]所示在序列数据的多个任务中细胞神经网络表现出优于RNN的性能。正如DPMN[Olivares等人2023b]和TimesNet[Wu等人2022]等模型所使用的那样它们现在构成了一个流行的构建块。前馈网络由于其低计算成本和效率也经常被使用值得注意的例子包括N-BEATS[Orishkin等人2019Olivares等人2022]和NHITS[Challu等人2023]。 近年来基于变压器的模型[Vaswani et al.2017]越来越受欢迎因为它们在大规模环境[Kunz et al.2023]和复杂任务如长序列预测中表现出了显著的性能。早期的例子包括TFT[Lim等人2021]和MQTransformer[Esenach等人2020]两者都具有多分位数功能。Informer通过Prob稀疏自注意机制引入了用于长序列预测的Transformers[Zhou et al.2021]。此后这一概念通过Autoformer[Wu et al.2021]、FEDformer[Zhou et al.2022]和PatchTST[Nie et al.022]等模型中各种形式的归纳偏见和注意力机制得到了进一步完善。 基础模型的潜力即在大型数据集上预先训练并随后针对特定任务进行微调的大型模型在时间序列预测任务中仍然相对不足。然而预测基础模型的可能性有一些早期指标。例如[Orishkin等人2021]表明预先训练的模型可以在任务之间转移而不会降低性能。此外[Kunz等人2023]提供了证据证明在时间序列预测任务中Transformer架构的数据和模型大小存在缩放定律。 4、时间序列的基础模型 基础模型依赖于其跨域泛化的能力特别是在训练期间不可用的新数据集中。因此我们将迁移学习理解为将从一项任务中收集的知识应用于解决新任务的能力。接下来我们在先前时间序列预测研究的基础上解释迁移学习的概念[Orishkin等人2021Olivares等人2023a]。 是预测范围y是目标时间序列x是外生协变量。预测任务的目标是估计以下条件分布 所提出的基础模型的核心思想是通过在迄今为止最大的公开可用时间序列数据集上训练它利用数据集和模型大小的缩放定律来利用这些原理。就广度和深度而言一个多样化的数据集使TimeGPT能够从多个领域前所未有的时间模式阵列中收集见解。 5、timeGPT 5.1架构 TimeGPT是一个基于Transformer的时间序列模型具有基于[Vaswani et al.2017]的自注意机制。TimeGPT使用历史值窗口来生成预测并添加本地位置编码来丰富输入。该体系结构由具有多个层的编码器-解码器结构组成每个层具有残差连接和层规范化。最后线性层将解码器的输出映射到预测窗口维度。一般的直觉是基于注意力的机制能够捕捉过去事件的多样性并正确推断未来潜在的分布。 时间序列的广义全局模型的开发带来了许多挑战主要是由于处理从一组广泛的底层过程中得出的信号的复杂任务。频率、稀疏性、趋势性、季节性、平稳性和异方差性等特征为局部和全局模型带来了明显的复杂性。因此任何基础预测模型都必须具备管理这种异质性的能力。我们的模型TimeGPT被设计为处理不同频率和特征的时间序列同时适应不同的输入大小和预测范围。这种适应性在很大程度上归因于TimeGPT所基于的底层基于转换器的架构。 需要注意的是TimeGPT不是基于现有的大型语言模型LLM。虽然TimeGPT遵循在庞大的数据集上训练大型变换器模型的相同原理但其架构专门处理时间序列数据并经过训练以将预测误差降至最低 5.2训练数据集 据我们所知TimeGPT是根据最大的公开时间序列集合进行训练的总共包含1000多亿个数据点。该培训集包含了来自广泛领域的时间序列包括金融、经济、人口统计、医疗保健、天气、物联网传感器数据、能源、网络流量、销售、运输和银行。由于这组不同的域训练数据集包含具有广泛特征的时间序列。 就时间模式而言训练数据集包含具有多个季节性、不同长度的周期和各种类型趋势的序列。除了时间模式之外数据集在噪声和异常值方面也有所不同从而提供了一个稳健的训练环境。一些系列包含干净、规则的模式而另一些系列则以显著的噪声或意外事件为特征为模型提供了广泛的场景可供学习。大部分时间序列都是以原始形式包含的处理仅限于格式标准化和填写缺失值以确保数据的完整性。 选择这样一个多样化的训练集对于开发一个稳健的基础模型至关重要。这种多样性涵盖了非平稳真实世界数据的复杂现实其中的趋势和模式可能会因多种因素而随时间变化。在这个丰富的数据集上训练TimeGPT使其能够处理各种场景增强了其稳健性和泛化能力。这有效地使TimeGPT能够准确预测看不见的时间序列同时消除了对单个模型训练和优化的需求。 5.3训练timeGPT TimeGPT在NVIDIA A10G GPU集群上接受了为期多日的培训。在此过程中我们进行了广泛的超参数探索以优化学习率、批量大小和其他相关参数。我们观察到一种与[Brown et al.2020]的发现一致的模式其中较大的批量和较小的学习率被证明是有益的。在PyTorch中实现TimeGPT使用Adam进行训练并采用学习速率衰减策略将速率降低到初始值的12%。 5.4不确定度量化 概率预测是指估计模型在预测周围的不确定性。正确评估预测模型的校准可以实现风险评估和知情决策。保形预测是一种非参数框架它为生成具有预先指定的覆盖精度水平的预测区间提供了一种令人信服的方法[Shafer和Vovk2008Stankeviciute等人2021]。与传统方法不同共形预测不需要严格的分布假设使其对模型或时间序列域更加灵活和不可知。在推断新的时间序列的过程中我们对最新的可用数据进行滚动预测以估计模型在预测特定目标时间序列时的误差。 6、实验结果 传统上预测性能评估是基于根据定义的截止值将数据集的每个时间序列划分为训练集和测试集。这样的原理即使是在交叉验证版本中也不足以严格评估基础模型因为它的主要特性是能够准确预测完全新颖的序列。 在本节中我们将探索TimeGPT作为预测基础模型的能力方法是在一组庞大而多样的时间序列中对其进行测试而这些时间序列在训练过程中从未被模型看到过。该测试集包括来自多个领域的30多万个时间序列包括金融、网络流量、物联网、天气、需求和电力。 评估是在每个时间序列的最后一个预测窗口中进行的其长度随采样频率而变化。TimeGPT使用以前的历史值作为输入如图3所示而不重新训练其权重零样本。我们根据频率指定了一个不同的预测范围以表示常见的实际应用12表示每月1表示每周7表示每天24表示每小时的数据。 TimeGPT以广泛的基线、统计、机器学习和神经预测模型为基准提供全面的性能分析。基线和统计模型在测试集的每个时间序列上单独训练利用上一个预测窗口之前的历史值。我们为每个频率选择了机器学习的全局模型方法和深度学习方法利用测试集中的所有时间序列。一些流行的模型如Prophet[Taylor和Letham2018]和ARIMA由于其过高的计算要求和大量的训练时间被排除在分析之外。 我们选择的评估指标包括相对中绝对误差rMAE和相对均方根误差rRMSE这两个指标都根据季节性Naive模型的性能进行了归一化。这些相对误差提供的额外见解证明了这一选择的合理性因为它们显示了与已知基线相关的性能增益提高了我们结果的可解释性。相对误差度量带来了规模独立性的额外好处能够对每个频率的结果进行比较。为了确保稳健的数值稳定性和评估的一致性我们在全球范围内对每个综合数据集应用这种归一化。方程2中描述了适用于具有n个时间序列和h的预测范围的数据集的这些度量的具体计算。 6.1零样本推断 我们首先在零样本推理上测试TimeGPT功能这意味着不会在测试集上执行额外的微调。表1给出了零样本结果。值得注意的是TimeGPT的性能优于经过战斗测试的综合统计模型和SoTA深度学习方法在各个频率中排名前三。 必须注意的是预测模型的有效性只能根据其相对于竞争替代品的表现来评估。尽管精度通常被视为唯一相关的度量标准但计算成本和实现复杂性是实际应用的关键因素。在这方面值得注意的是TimeGPT的报告结果是对预训练模型的预测方法进行简单且极其快速调用的结果。相比之下其他模型需要一个完整的训练和预测管道。 6.2微调 微调是有效利用基础模型和基于变压器的架构的关键步骤。基础模型是在大量数据上预先训练的捕获了广泛的通用特征。然而这些模型通常需要针对特定的上下文或领域进行专门化。通过微调我们调整特定任务数据集上的模型参数使模型能够根据新任务的要求调整其大量预先存在的知识。这个过程确保模型保持其广泛的理解并擅长手头的特定任务。由于其固有的灵活性和学习复杂模式的能力基于转换器的架构尤其受益于微调从而增强了其在特定领域应用中的性能。因此微调是一座至关重要的桥梁将基础模型的广泛能力与目标任务的特殊性联系起来。图5显示了TimeGPT相对于测试集上时间序列子集的微调步骤数量的准确性改进结果。 6.3时间比较 对于零样本推理我们的内部测试记录了TimeGPT每个系列0.6毫秒的平均GPU推理速度这几乎反映了简单的季节性天真。作为比较点我们考虑了并行计算优化的统计方法当与Numba编译互补时用于训练和推理的平均速度为每个系列600毫秒。另一方面LGBM、LSTM和NHITS等全局模型在考虑训练和推理的情况下每个系列的平均时间延长了57毫秒。由于其零样本功能TimeGPT在总速度上优于传统统计方法和全局模型几个数量级。 7讨论和未来研究 目前的预测实践通常涉及一个复杂的管道包括从数据处理到模型训练和选择的多个步骤。TimeGPT通过将流水线减少到推理步骤极大地简化了这一过程大大降低了复杂性和时间投入同时仍然实现了最先进的性能。也许最重要的是TimeGPT使大型变压器模型的优势民主化如今这些模型仅限于拥有大量数据、计算资源和技术专业知识的组织。我们相信基础模型将对预测领域产生深远影响并可以重新定义当前的实践。 在时间序列中引入一个类似于其他领域的基础模型为未来的改进开辟了可能的道路这可以被视为时间序列领域的一个重要里程碑。然而这项工作必须被理解为一个更大的学术传统的一部分有很多悬而未决的问题。尽管我们相信TimeGPT显示了惊人的结果首次提出了一个能够准确预测未知序列的通用全局模态但仍存在许多重要的局限性和悬而未决的问题。我们希望这一评估对当前和未来的研究人员有帮助。 我们的结果与之前关于大型时间序列模型的预期性能的直觉一致。这与Zalando、OpenAI、阿里巴巴和亚马逊的研究结果一致[Kunz等人2023Brown等人2020Eisenach等人2020]。这些结果验证了与模型大小、数据集大小和Transformer性能相关的缩放定律。正如在[Zeng et al.2023]等研究中观察到的那样这些定律阐明了为什么更简单的模型在较小的数据集上可能优于Transformers。因此Transformers的相关性依赖于上下文并且随着数据集大小的增加它们通常变得更加有益。这些定律提供了重要的实践见解指导特定任务的模型选择。在大型数据集或计算资源的可用性受到限制的情况下更简单的模型可能更适合。展望未来我们确定了未来勘探的两个主要领域 1. Informed forecasting包括关于潜在过程的知识如物理定律、经济原理或医学事实。 2.Time Series Embedding虽然传统上从业者假设零售或金融等同一类别的序列比跨领域的序列具有更大的相似性但衡量序列之间相似性的稳健指标可能会对该领域大有裨益。这项工作表明围绕时间序列分类的某些假设值得进一步研究。 此外关于时间序列分类的基础模型以及真正的多模式文本、视频和多时相基础模型的集成的相邻问题有望成为未来研究的重要领域。这些领域不仅将扩展我们对时间序列数据的理解还将提高我们开发更强大、更通用的预测模型的能力。 简单粗略读了一下作者的论文初步体会学习了第一个TimeGPT的构建路线后续可能会有更多这类的项目出来。
http://www.pierceye.com/news/104464/

相关文章:

  • 做个网站要多少钱网站建设工作 方案
  • 一个主体如何添加网站室内设计公司的名字
  • 中国建设学会网站洛阳市住房和城乡建设局网站
  • 北京网站优化方式做物流的网站都有什么风险
  • 零基础学做网站页怎么部署wordpress
  • 网站如何做死链接提交筑站网络推广
  • 小说网站开发php网站后台如何修改文字
  • 网站制作是那个带有客户案例的网站
  • 中国纪检监察报数字报湛江关键词优化平台
  • 网站品牌词如何优化东莞公司网站建设营销型网站建设
  • 鞍山网站建设营销想把自己做的网站放到网上
  • 松原公司做网站青岛工程建设管理信息网官方网站
  • 一个空间2个网站网站 手机 app
  • 河北网站建设方案详细磁器口网站建设
  • 怎么做网站树洞wordpress edd 会员
  • 购物网站中加减数目的怎么做仿站违法吗
  • 代理ip访问网站局门户网站的建设
  • 建网站业务如何开展阳江房产信息网官网
  • 企业网站建设套餐费用网站开发完后期维护重要吗
  • 3营销型网站建设湖北短视频seo推荐
  • 鸿运通网站建设未成年怎么在网上卖东西
  • 郑州网站推广排名公司商会小程序开发一个多少钱啊
  • wordpress单页网站在本页跳转心理网站的建设与维护
  • 哪里可以做网站系统企业管理官网登录入口
  • iis7 网站404错误信息官网下载软件
  • 广州建设网站平台广东seo网站推广代运营
  • 网站 优化 关键字qq官网登录
  • 建设银行园区公积金管理中心网站地方门户网站推广
  • 桂林市网站设计wordpress远程数据库
  • 网站建设多钱怎么做网上卖菜网站