当前位置: 首页 > news >正文

公司网站招聘的作用怎么让别人找你做网站

公司网站招聘的作用,怎么让别人找你做网站,淘宝运营培训课程免费,杭州钱塘区网站建设现代机器学习模型#xff08;如深度神经网络和梯度提升决策树#xff09;由于其提取复杂非线性模式的优越能力#xff0c;在金融市场预测中越来越受欢迎。然而#xff0c;由于金融数据集的信噪比非常低#xff0c;并且是非平稳的#xff0c;复杂的模型往往很容易过拟合。…现代机器学习模型如深度神经网络和梯度提升决策树由于其提取复杂非线性模式的优越能力在金融市场预测中越来越受欢迎。然而由于金融数据集的信噪比非常低并且是非平稳的复杂的模型往往很容易过拟合。此外随着各种机器学习和数据挖掘工具在量化交易中的应用越来越广泛许多交易公司已经提取了越来越多的特征也称为因子factors。因此如何自动选择有效特征成为一个迫在眉睫的问题。为了解决这些问题作者提出了DoubleEnsemble这是一个基于样本重新加权和基于shuffling特征选择的集成框架。具体来说我们基于训练动态识别关键样本并通过shuffling每个特征的消融影响来引出关键特征。该模型适用于广泛的基础模型能够提取复杂的模式同时缓解金融市场预测的过拟合问题。我们使用DNN和GBDT作为baseline进行了广泛的实验包括加密货币和股票交易的价格预测。实验结果表明与几种基线方法相比DoubleEnsemble实现了优越的性能。 来自DoubleEnsemble: A New Ensemble Method Basedon Sample Reweighting and Feature Selection forFinancial Data Analysis 目录 背景概述相关工作集成模型样本重加权特征选择金融数据去噪 方法样本重加权基于混洗的特征选择 实验-股票交易实验设置评价指标实验结果 背景概述 众所周知金融市场难以预测。首先困难来自众所周知的有效市场理论该理论认为股价反映的所有信息不可能完全超过整个市场。其次由于有大量噪声交易和影响市场运行的隐藏因素比如政策变化和突发新闻的存在金融数据具有高度的噪声。 多因子模型是一种流行的资产定价和市场预测模型。该模型基于多个特征或因子对资产进行定价或预测市场走势如公司规模firm size、收益率earnings’ yield、杠杆率leverage和账面市值比book-to-market ratio。线性模型一直是多因子模型的标准算法但在发现复杂模式方面有很大的局限性。最近非线性机器学习模型如GBDT或DNN变得流行。然而这些复杂的非线性模型容易过拟合并且对噪声样本敏感。 为了给模型提供更多信息量化交易者或研究人员通常会创建数百甚至数千个特征也称为因子。因此选择不仅具有信息性而且与其他特征不相关的特征是至关重要的。对于线性模型如线性回归我们可以选择相关性低的特征来缓解多重共线性问题。但是对于高噪声的财务数据如何有效地选择特征尚不清楚。 为了解决上述问题作者提出了一种新的金融数据预测集成框架DoubleEnsemble。该框架在集合中逐个构建子模型其中每个子模型都使用重加权的样本和精心选择的特征进行训练。广泛的模型可作为子模型如线性回归模型、GBDT和DNN。 在实验中作者将DoubleEnsemble应用于两个金融市场即加密货币交易所OKEx和证券交易所中国A股市场China’s A-share market。这两个市场具有不同的交易规则和市场参与者因此在这两个交易市场的历史数据中存在不同类型的噪声和模式。此外作者使用DoubleEnsemble来构建预测模型以不同的频率从几秒到几周进行交易。实验表明DoubleEnsemble在这两个市场上都取得了优异的性能。 相关工作 集成模型 集成是增强模型鲁棒性的有效方法。集成模型的关键是构建良好的和多样化的子模型。构建子模型的方法可以分为两类。在第一类中可以单独构建不同的模型例如bagging。另一类是基于先前构建的子模型的性能构建子模型如boosting。通过这类方法建立的模型具有更好的预测精度但容易过拟合训练数据中的噪声。 样本重加权 对模型训练的样本进行加权在一些计算机视觉应用中被证明是有效的。在为训练样本分配权重时boosting和denoising的目标之间存在冲突。boosting会增加困难样本的权重模型首先拟合简单样本然后拟合困难样本。在金融市场预测中这也可以被解释为在利用以前的模式时获得另一种新模式。另一方面为了构建对异常值和噪声样本具有鲁棒性的集合应该减少这些噪声样本的权重。然而我们很难区分困难样本和异常样本。因此在进行boosting学习的同时减少噪声样本的权重是一项挑战。 特征选择 通常金融市场预测的特征是手动选择的。然而当特征数量增加时需要实现特征选择的自动化。Advances in financial machine learning介绍了金融机器学习的几个特征重要性度量。然而现有方法没有研究如何结合样本重加权来选择特征以获得更好的性能。 金融数据去噪 降噪是从低信噪比的金融数据中提取信息的关键。作者重点讨论了模型的训练。除了重加权样本去噪外过去的研究一般是设计特定的损失函数去噪。降噪可以从信号处理的角度进行例如在提取特征之前对原始序列数据进行滤波。 方法 作者提出了DoubleEnsemble这是一个具有两个关键组件的模型基于学习轨迹的样本重加权和基于混洗的特征选择。 训练数据包含特征矩阵 X X X和标签 y y y其中 X [ x 1 , . . . , x N ] T ∈ R N × F X[x_{1},...,x_{N}]^{T}\in R^{N\times F} X[x1​,...,xN​]T∈RN×F x i x_{i} xi​是 X X X的第 i i i个样本另外 y [ y 1 , . . . , y N ] y[y_{1},...,y_{N}] y[y1​,...,yN​]。依次构建 K K K个子模型 M 1 , . . . , M K M_{1},...,M_{K} M1​,...,MK​。在构建第 k k k个子模型后当前的集成模型 M ‾ k ( ⋅ ) 1 k ∑ i 1 k M i ( ⋅ ) \overline{M}^{k}(\cdot)\frac{1}{k}\sum_{i1}^{k}M^{i}(\cdot) Mk(⋅)k1​∑i1k​Mi(⋅)为前 k k k个模型的简单平均。 每个子模型不仅基于训练数据 ( X , y ) (X,y) (X,y)也基于一组选定的特征 f ⊆ F f\subseteq F f⊆F和样本权重 w ( w 1 , . . . , w N ) w(w_{1},...,w_{N}) w(w1​,...,wN​)进行训练。对于第一个子模型使用所有特征和相等的权重。对于随后的子模型分别使用基于学习轨迹的样本重加权SRsample reweighting和基于混洗的特征选择FS来确定权重和选择特征。 在介绍SR和FS的细节之前首先介绍这两个过程的输入。对于SR我们检索前一个子模型训练期间的loss曲线和当前集成模型的loss值。假设前一个子模型训练 T T T次迭代。我们使用 C ∈ R N × T C\in R^{N\times T} C∈RN×T来表示loss曲线其中元素 c i , t c_{i,t} ci,t​表示在前一个子模型的训练中第 t t t次迭代后第 i i i个样本上的误差。对于神经网络迭代指的是一个训练epoch而对于GBDT我们在迭代中构造一个新的树。然后我们使用 L ∈ R N × 1 L\in R^{N\times 1} L∈RN×1表示损失值元素 l i l_{i} li​是当前集成模型在第 i i i个样本上的误差比如 M ‾ k ( x i ) \overline{M}^{k}(x_{i}) Mk(xi​)和 y i y_{i} yi​的误差。对于FS我们直接提供训练数据和当前集成作为输入。 DoubleEnsemble的算法为 样本重加权 在这个过程中首先计算每个样本的 h h h值然后根据 h h h值将所有样本划分为 B B B个bins再将相同的权重分配给同一个bin中的样本。 h h h值的计算基于前一个子模型的 C C C和当前集成模型的 L L L。对于鲁棒性首先对 C C C和 L L L进行标准化 R N × d → [ 0 , 1 ] N × d R^{N\times d}\rightarrow [0,1]^{N\times d} RN×d→[0,1]N×d。比如如果 X i j X_{ij} Xij​大于 X X X第 j j j列元素的90%则 n o r m ( X ) i j 0.9 norm(X)_{ij}0.9 norm(X)ij​0.9为了表示在训练过程中样本的丢失是否得到改善作者比较了它在训练开始和结束时的损失。作者使用 C s t a r t , C e n d ∈ R N × 1 C_{start},C_{end}\in R^{N\times 1} Cstart​,Cend​∈RN×1分别表示训练开始和结束时所有样本的损失。具体地说它们分别是前10%列和后10%列的平均值。比如如果对每个子模型训练 T 100 T100 T100个迭代次数 C s t a r t C_{start} Cstart​中的每个元素为前10次迭代中样本的平均归一化损失。然后我们计算所有样本的 h h h值 SR算法如下 h α 1 ( − L ) α 2 n o r m ( C e n d C s t a r t ) (1) h\alpha_{1}(-L)\alpha_{2} norm(\frac{C_{end}}{C_{start}})\tag{1} hα1​(−L)α2​norm(Cstart​Cend​​)(1)其中 h ∈ R N × 1 h\in R^{N\times 1} h∈RN×1。为了避免权值极值进一步根据 h h h值将样本划分为 B B B个bins并为同一个bin中的样本分配相同的权重。假设第 i i i个样本被分成第2个bin。该样本的权重分配如下 w i 1 γ k h b i 0.1 (2) w_{i}\frac{1}{\gamma^{k}h_{b_{i}}0.1}\tag{2} wi​γkhbi​​0.11​(2)其中 h b h_{b} hb​为第 b b b个bins的平均 h h h值使用衰减因子 γ ∈ [ 0 , 1 ] \gamma\in[0,1] γ∈[0,1]以鼓励在集成的最后一个子模型中权重分配更均匀。 SR的算法为 基于混洗的特征选择 作者在DoubleEnsemble中用基于混洗的FS训练下一个子模型与SR相似首先计算每个特征的 g g g值然后根据 g g g值将所有特征划分为 D D D个bins然后从不同的bin中随机选择不同采样比例的特征。 特征的 g g g值度量了该特征对当前集成的贡献即特征重要性。为了计算特征的 g g g值作者对该特征的值进行混洗并比混洗前后的损失算法3中的第5-7行。当特征的消除通过混洗实现显著增加样本上的损失时特征的 g g g值较大这表明该特征对当前集成很重要。为了提高 g g g值的鲁棒性作者根据 g g g值将所有特征划分为 D D D个bins并随机从具有不同采样比率的不同bin中选择特征算法3中的第8-12行。采样比率是预设的并且对于具有较大 g g g值的bin该比率较大。最后将所有随机选择的特征拼接并返回。 FS的算法如下 这样设计的原因如下为了估计一个特征对模型的贡献我们想要比较该特征不存在时的性能。一种自然但代价高昂的方法是消除特征重新训练然后重新评估模型。我们不是训练一个新的模型而是对数据集进行扰动以消除特征的贡献并比较使用扰动数据集和使用原始数据集的模型的性能。由于不需要重新训练模型该方案在计算上更有效。 实验-股票交易 作者使用 K 6 K 6 K6个子模型。在SR过程中使用 α 1 α 2 1 α_1 α_2 1 α1​α2​1 B 10 B 10 B10个bins。在FS过程中使用 D 5 D 5 D5个bins样本比例为 ( 0.8 ; 0.7 ; 0.6 ; 0.5 ; 0.4 ) (0.8;0.7;0.6;0.5;0.4) (0.8;0.7;0.6;0.5;0.4)。 在这个实验中作者训练股票市场的预测器并根据预测结果进行股票交易。实验以中国A股市场为基础该市场有3000多只股票在交易。每个样本对应一个股票的一个交易日。 实验设置 作者在两种不同的环境下进行实验。在第一个设置中用DAILY表示我们在每个交易日收盘时做多predictor建议的前20只股票然后在下一个交易日收盘时卖出这些股票。该预测基于182个特征这些特征值是在该交易日收盘前3分钟计算出来的这些特征可能包括当天的价格变动、交易量、以及其他市场指标等。在第二个设置中用WEEKLY表示在每个交易日收盘后根据历史市场信息计算254个特征并进行预测。在接下来的一个交易日我们以开盘价做多预测建议的前10只股票并持有5个交易日。此后我们在第五个交易日开盘后卖出这些股票。在这种情况下我们大部分时间持有50只股票。两种情况下的特征是为不同频率的预测而设计的由不同的交易公司创建。因此它们具有完全不同的基本性质。由于实验的特征较多作者在MLP模型中使用了三个神经元较多的隐藏层分别为256、128和64个神经元在GBM模型中使用了250棵树。 做多是指“先买入后卖出”做空是指“先卖出再买入”。在金融市场中做多指看好股票、外汇或期货等未来的上涨前景而进行买入持有等待上涨获利。例如如果你认为某股票的市场价格会涨到150元你可以用100元买入该股票等到市场价格涨到150元时再卖出就可以赚50元了。 作者按照如下所述的滚动方案对模型运行回测每周重新训练模型并在每次训练模型时使用最近500个交易日即大约最近两年的特征所以结果图中的曲线会呈现整体上升的情况就像loss总是不断被降低。两种设置的交易期限为2017年1月至2019年11月。对于交易细节不包括在3个月内上市的股票然后以同等权重做多排名前N的股票。 评价指标 Ann.Ret我们用对冲后的年化收益来衡量由模型构建的投资组合所获得的收益超过市场的多少。我们把每天的资金分成两部分分别用来买股票和对冲市场。为了对冲市场我们做空相应的股指期货。 做空相应的股指期货是金融交易中的一个策略指的是出于预期股指将下跌的判断预期股指通常指的是市场参与者对股票市场未来运动趋势的预期通过卖出股指期货合约来获取利润的行为。在这个策略中交易者不持有股指期货合约的实际持仓而是先卖出合约希望在未来以更低的价格买入同等数量的合约来平仓从而赚取卖高买低的差价。 这种做空策略通常用于对冲风险或投机。例如如果投资者持有一篮子股票且这篮子股票与某股指表现高度相关他们可能会通过做空这个股指的期货来对冲持仓股票的下跌风险。如果股市下跌股票持仓的价值可能会减少但做空股指期货的部分将会获得收益从而减少总体损失。 Sharpe夏普比率是股票投资最常用的指标之一它反映了风险调整后的盈利能力。 MDD最大损失是投资组合从峰值到低谷的最大相对损失。MDD是一个特定时期内下行风险的指示器。MDD与投资者的最大承受能力有关需要保持尽可能低的价格。 IC/IR信息系数IC和信息比IR表示预测的质量。这里的IC是mean IC。 实验结果 图中绘制了模型在不同设置下的对冲权益曲线。表中列出了回测结果的性能度量。 不同模型在不同设置下的对冲权益曲线。背景中的蓝色条表示总体预测的IC。 图中展示了四组实验。四组实验分别在不同的设定DAILY和WEEKLY和不同的基模型MLP和GBM下进行。图中曲线为不同模型对冲后的权益曲线背景中的蓝条表示SRFS模型在每个交易日的IC。交易日的IC是该交易日模型输出的连续信号与实际未来收益之间的Spearman秩相关系数。权益曲线equity反映了top检索样本的预测精度IC反映了所有样本的预测精度。 可以看到SRFS(红线)的性能优于SRALL(橙色线)。这表明FS的有效性。但是FS过程的自动特征选择不如手动选择特征这是一个相当强的基准。因此作者将发现一种可与人工选择相媲美或更好的端到端自动特征选择方法作为未来的研究方向。 此外观察到具有SR过程的模型比没有SR过程的模型(即SimpleEnsemble)获得了更好的性能。这可以通过比较SRManual模型(绿色实线)和SimpleEnsembleManual模型(绿色虚线)或者比较SRALL模型(橙色实线)和SimpleEnsembleALL(橙色虚线)来观察。这说明SR可以通过对关键样本的关注来提高性能。 基础模型如MLP的输入为股票在特定日期下的因子值如技术指标、基本面指标等。输出则依赖于实验的具体目标可能是股票未来一段时间的收益率、价格变动或是涨跌趋势的分类
http://www.pierceye.com/news/600543/

相关文章:

  • 阿里巴巴国际站网站建设青岛网站搭建公司哪家好
  • 能看人与动物做的网站浙江企业响应式网站建设设计
  • 乌兰察布做网站公司营销策划公司有哪些职位
  • 南宁区建设银行招聘网站建设部网站申请表无法打印
  • 建一个网站怎么赚钱吗家具网站源码
  • 云优化网站建设wordpress开启icon
  • 招聘网站开发的目的与意义农特产品电商网站建设目标
  • 三水 网站建设公司企业黄页
  • 网站建设公司词辽宁阜新建设学校官方网站
  • 广州公司网站建设设计顾视频网站的建设预算
  • 商务网站规划与网页制作seo优化内容
  • 石家庄网站定做公众号开发单位
  • 做预定网站的作用网站建设需求方案文档
  • 西安网站建设高端万网总裁张向东
  • 肖鸿昌建筑网站广州网站建设设计公司信息
  • 网站建设 大公司好成都网站建设哪家售后好
  • 外贸网站模板制作微营销推广方案
  • 网站开发体系用node.js可以做网站吗
  • 一个vps建两个网站怎么弄数据库网络营销应用方式
  • 网站开发快递c 网站开发入门视频教程
  • 阿里巴巴国际站介绍深圳网站建设 猴王网络
  • 扬中网站建设哪家好五百丁简历官网
  • 素马设计顾问讲解价格短视频seo什么意思
  • 注册域名查询网站智慧团建网站登陆平台
  • 网站建设和搜索引擎优化技术有哪些
  • 网站创建的基本流程seo网站排名全选
  • 乐山网站公众号建设wordpress微电影模板
  • 天津专门做网站长春市网站制作
  • 怎样用php做网站英文网站建设580
  • 凡客登录入口网站优化垂直化好还是扁平化好