当前位置：首页 > news >正文

网站建设网页设计网站建设需要哪些材料

news 2025/11/15 4:22:03

网站建设网页设计,网站建设需要哪些材料,西安专业网站建设,重庆李健做网站原文链接#xff1a;https://zhuanlan.zhihu.com/p/183852900 欢迎关注《高能AI》公众号#xff5e;声明#xff1a;文中观点谨代表笔者个人立场#xff0c;盲目搬运有风险#xff5e;在2020这个时间节点#xff0c;对于NLP分类任务#xff0c;我们的关注重点早已不再是…原文链接https://zhuanlan.zhihu.com/p/183852900 欢迎关注《高能AI》公众号声明文中观点谨代表笔者个人立场盲目搬运有风险在2020这个时间节点对于NLP分类任务我们的关注重点早已不再是如何构造模型、拘泥于分类模型长什么样子了。如同CV领域当前的重点一样我们更应该关注如何利用机器学习思想更好地去解决NLP分类任务中的低耗时、小样本、鲁棒性、不平衡、测试检验、增量学习、长文本等问题。本文以QA形式探讨了以下问题Q1: 如何科学地构建分类标签体系Q2: 标注是「人工」智能的精髓所在如何省成本、鲁棒、高效地构建任务数据集Q3: 模型化就是唯一吗分类任务中算法策略构建的基本原则是什么Q4: 特征挖掘立竿见影如何在特征工程方面搞点事情Q5: 数据为王不要将数据闲置如何将无标注数据更好地派上用场Q6: 攻克分类任务的难点如何更好处理不平衡问题hard example问题Q7: BERT时代如何处理长文本分类Q8: 预训练融合NLP竞赛利器Q9: 你认真构造离线测试集了吗指标高也许是虚高Q10: 模型更新迭代时如何进行增量学习不遗忘先前记忆Q11: 低耗时场景如何让TextCNN逼近BERT的效果img srchttps://pic2.zhimg.com/v2-740b29d1ac7460d4617855c1174d8089_b.jpg data-rawwidth896 data-rawheight1456 data-sizenormal data-caption classorigin_image zh-lightbox-thumb width896 data-originalhttps://pic2.zhimg.com/v2-740b29d1ac7460d4617855c1174d8089_r.jpg/NLP分类任务我们每个NLPer都异常熟悉了其在整个NLP业务中占据着举足轻重的地位更多领域的子任务也常常转化为一个分类任务例如新闻分类、情感识别、意图识别、关系分类、事件类型判断等等。构建一个完整的NLP分类任务主要包含4部分标签定义、数据构建、算法策略、测试部署。本文的组织架构如下图所示。img srchttps://pic2.zhimg.com/v2-7bf3e0c7c61fe1ebb72cf76ccbb751d1_b.jpg data-rawwidth1080 data-rawheight827 data-sizenormal data-caption classorigin_image zh-lightbox-thumb width1080 data-originalhttps://pic2.zhimg.com/v2-7bf3e0c7c61fe1ebb72cf76ccbb751d1_r.jpg/Q1: 如何科学地构建分类标签体系分类标签的定义至关重要面对复杂的标签问题最为关键的一点就是要紧密贴合业务、和专家共同设定而不是靠“蛮力”去解决。这里给出笔者曾涉及到的一些标签定义方法长尾标签某些分类标签下的样本天然就很少可以把这一类标签设置「其他」然后在下一层级单独对这些长尾标签进一步处理。易混淆标签一些标签下的样本表现形式不易区分首先需要思考这类标签是否可以直接合并如果不可以可以先将这类标签进行统一然后在下一层级进行规则处理。多标签一些场景下的标签设置可能达到几百个可以设置多层级的标签体系进行处理。例如先构建标签大类、再构建标签小类也可以设置多个二分类适用于标签分类相对独立并且经常需要新增修改的场景能做到相互独立、便于维护。未知标签业务冷启动时如果尚不清楚设置哪些标签合适可以尝试通过文本聚类方式初步划分标签再辅以专家介入共同设定这也是一个循环迭代的过程。对于上述的「长尾标签」和「易混淆标签」当然也可在模型层面进行优化这往往涉及样本不平衡和hard example的处理问题我们在下文详细阐述。Q2: 标注是「人工」智能的精髓所在如何省成本、鲁棒、高效地构建任务数据集标签定义好后就需要构建分类任务数据集。数据集构建是日常工作的重要一环。既要省成本、也要鲁棒更要高效。构建数据集的主要流程包括以下4步1、构建初始数据集为每个标签生产约100个样本具体的措施可以采取关键词匹配等规则手段再结合人工check进行。2、「主动学习迁移学习」降低标注规模主动学习旨在挖掘高价值样本即通过构建较少的样本就可以满足指标要求。根据初始构建的数据集可以train一个base model然后挑选一些不确定性程度高熵最大代表性高非离群点的样本进行人工标注。迁移学习降低对数据的依赖迁移学习中预训练语言模型的成功可以使其在较少的标注样本上finetune就可达到目标指标。3、扩充标注规模数据增强最为关键在标注规模较小的少样本场景下可以通过文本增强方式扩充数据集撬动数据杠杆。在《标注样本少怎么办「文本增强半监督学习」总结》一文中我们对有关的文本增强技术进行了详细探究。4、清洗数据噪音让模型更加鲁棒对于标注质量问题要严格把关标志质量除了人工核查也可以下面的方法自动化构建降噪系统人工规则清洗可以配置关键词信息在内的黑白名单进行强规则清洗。交叉验证可以通过对训练集进行交叉验证对那些标签不一致的样本进行去除或者人工纠正。置信学习本质上是对交叉验证的进一步推广构建置信度混淆矩阵并引入rank机制过滤噪声样本。《标注数据存在错误怎么办MITGoogle提出用置信学习找出错误标注》一文中有详细介绍。深度KNN过滤KNN中的最近邻度量使其在鲁棒学习中更加有效。《Deep k-NN for Noisy Labels》一文表明即使深度模型在含噪数据上进行训练而将模型中间层表示适配于KNN进行噪声样本过滤效果提升也很明显。在构建数据集时除了上述4步外也要注重一些细节和原则问题针对少样本问题不能盲目追求前沿算法的变现落地。很多时候我们总想寄托于某种方法能够通用地解决低资源问题但现实往往是策略调研的时间过长指标增益还没有直接人工补标数据来得快。笔者发现绝大数少样本问题必要的人工标注不可少多策略组合“有计划、有策略”的人工标注也许是解决少样本问题的最佳方式。智能标注是否是一个伪命题智能标注的本质是高效但主动学习往往并不高效。主动学习需要对专家系统多次查询来进行标注。所以采用主动学习方法时不仅要降低标注规模也要注意降低查询次数。实践中我们可以根据经验公式优先对指标增益明显的类别标签进行主动查询。也可以根据经验公式预估一下满足增益目标的数据补充量一次查询尽量满足要求多标一点也没关系。所谓的“智能标注系统”是否真正的智能笔者总觉得多多少少还是不能脱离人工介入。预训练模型要具备领域性不要停止预训练当我们所执行任务的标注数据较少所属的领域与初始预训练语料越不相关那就不要停止领域预训练笔者这里给出了上述一些策略的简要实验结果如下图所示![在这里插入图片描述](https://img-blog.csdnimg.cn/20210115144959464.png?x-oss-processimage/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3N0YXlfZm9vbGlzaDEy,size_16,color_FFFFFF,t_70) Q3: 模型化就是唯一吗分类任务中算法策略构建的基本原则是什么算法策略主要包括规则挖掘和模型化方法基本原则应是规则兜底高频case和hard case优先进入规则模块防止因模型的更新迭代而使针对重要case的处理不够健壮。规则挖掘主要包括重要case缓存、模式挖掘、关键词规则设置等。此外规则也可以跟在分类模型后面进行兜底处理。模型泛化模型化方法适合处理无法命中规则的case具备泛化性。还有另一种处理逻辑是如果case命中了规则但模型对于规则预测的结果给出了很低的置信度也就是模型认为另一种类别的置信度更高这时我们可以选择相信模型以模型输出为准。不过无论是对于规则还是模型长尾问题的处理都是比较棘手的但我们可以通过一些手段尽可能加强处理长尾case的能力Q6中具体介绍。Q4: 特征挖掘立竿见影如何在特征工程方面搞点事情对于NLP分类任务特别是垂直领域的分类任务如果能够在业务特征层面更好地进行挖掘那么指标增益可是立竿见影啊在特征工程方面笔者这里主要给出了3种技巧离散数据挖掘构建关键词的高维稀疏特征类似结构化数据挖掘如CTR中的widedeep比如根据关键词列表对文本内容进行挖掘构建高维稀疏特征并喂入xDeepFM [1] 中进行处理最后与文本向量一同拼接。其他业务特征如疾病大类划分、就诊科室等业务特征。文本特征挖掘关键词实体词与文本拼接将从文本序列提取的关键词或实体词拼接在文本序列后再进行分类。如在BERT中[CLS][原始文本][SEP][关键词1][SEP][实体词1]...关键词embedding化将关键词划分为不同的类别属性进行embedding化不同于离散数据挖掘这里的embedding不应稀疏。领域化向量挖掘除了在领域语料上继续预训练词向量外还可以有监督地构建词向量例如对于21分类问题先根据弱监督方法训练21个基于SVM的二分类器然后提取每个词汇在21个SVM中的权重即可为每个词汇可以构建21维的词向量。标签特征融入标签embedding 化设置label embedding然后通过注意力机制与词向量进行交互提取全局向量分类。标签信息补充可以将类别标签与原始文本一同拼接然后进行2分类如在BERT中[CLS][原始文本][SEP][类别标签]。此外也可以通过强化学习动态地补充标签信息具体可参考文献 [2] 。Q5: 数据为王不要将数据闲置如何将无标注数据更好地派上用场大量的无标注数据蕴藏着巨大的能量机器学习中能够充分利用、并挖掘无标注数据价值的自然是——自监督学习和半监督学习了。自监督学习乘风破浪的NLP预训练语言模型充分利用了无标注数据展现出强大能力。而如果我们设计分类任务时能够释放更多的无标注数据亦或者通过度量学习采集更多的无标注数据就可以继续进行任务级别的预训练这是一种廉价、快速提升指标的手段。与分类任务一起构造语言模型loss进行多任务学习。半监督学习半监督学习在CV中已经发扬光大常常有两种形式伪标可分为自训练和协同训练Q6中介绍的数据蒸馏就属于自训练的一种。在Google的最新论文《Rethinking Pre-training and Self-training》中表明自监督的局限性而自训练表现良好在每种条件设置下均能很好地发挥作用。可见如果在NLP中能够构建类似于ImageNet那样大规模的有标签数据集自训练“未来可期”。而联合自监督预训练和自训练可能会获得更大的增益。一致性训练对于未标记数据希望模型在其输入受到轻微扰动时仍然产生相同的输出分布这种方式能够提高一致性训练性能充分挖掘未标注数据中潜在的价值最终增强泛化性能。来自Google的《UDAUnsupervised Data Augmentation for Consistency Training》结合了自监督预训练和半监督学习中的一致性训练在六个文本分类任务进行了实验表明在少样本场景下借助UDA最终能够逼近全量数据集时所达到的指标在IMDb的2分类任务上具有20个标注数据的UDA优于在1250倍标注数据上训练的SOTA模型。但相较于2分类任务5分类任务难度更高未来仍有提升空间。全量数据下融合UDA框架性能也有一定提升。下面是笔者的一些简要实验结果img srchttps://pic1.zhimg.com/v2-2d117c09ea324562fafb147be76a2c08_b.jpg data-rawwidth1080 data-rawheight238 data-sizenormal data-caption classorigin_image zh-lightbox-thumb width1080 data-originalhttps://pic1.zhimg.com/v2-2d117c09ea324562fafb147be76a2c08_r.jpg/Q6: 攻克分类任务的难点如何更好处理不平衡问题hard example问题不平衡问题长尾问题是文本分类任务一个难啃的骨头。也许有人会问为何不在初始构造数据集时就让每个分类标签下的样本数量相同这不就解决不平衡问题了吗事实上不平衡问题不仅仅是分类标签下样本数量的不平衡其本质上更是难易样本的不平衡即使样本数量是平衡的有的hard example还是很难学习。类似对那些数量较少的类别进行学习在不做数据补充的情况下也可看作是一个hard example问题。解决不平衡问题的通常思路有两种重采样re-sampling和重加权re-weighting1重采样re-sampling重采用的通用公式为为数据集的类别数量为类别的样本总数为从类别中采样一个样本的概率. 表示所有类别都采样相同数量的样本。为数据集的类别数量为类别的样本总数为从类别中采样一个样本的概率表示所有类别都采样相同数量的样本。常用的重采样方法有欠采样过采样SMOTE欠采样抛弃大量case可能导致偏差加大过采样可能会导致过拟合SMOTE一种近邻插值降低过拟合风险但不能直接应用于NLP任务的离散空间插值。数据增强文本增强技术更适合于替代上述过采样和SMOTE。解耦特征和标签分布文献[3] 认为对不平衡问题的再平衡本质应只是分类器的再平衡过程类别标签分布不应影响特征空间的分布。基于此可以解耦类别标签分布和特征空间分布首先不做任何再平衡直接对原始数据训练一个base_model。将base_model的特征提取器freeze通过类别平衡采样对尾部类别重采样只调整分类器。分类器权重模与类别数量呈正相关因此还需将做归一化处理。Curriculum Learning课程学习课程学习[4]是一种模拟人类学习过程的训练策略从易到难进行学习Sampling Scheduler调整训练集的数据分布逐步将采样数据集的样本分布从原先的不平衡调整到后期的平衡状态Loss Scheduler开始倾向于拉大不同类目之间特征的距离后期再倾向于对特征做分类。2重加权re-weighting重加权就是改变分类loss。相较于重采样重加权loss更加灵活和方便。其常用方法有loss类别加权通常根据类别数量进行加权加权系数与类别数量成反比。 Focal Loss上述loss类别加权主要关注正负样本数量的不平衡并没有关注难易不平衡。Focal Loss主要关注难易样本的不平衡问题可根据对高置信度(p)样本进行降权 GHM LossGHM(gradient harmonizing mechanism) 是一种梯度调和机制。Focal Loss虽然强调对hard example的学习但不是所有的hard example都值得关注有的hard example很可能是离群点过分关注不是错上加错了吗GHM定义了梯度模长g 如下图所示图片来自知乎[5]梯度模长g接近于0的样本数量最多随着梯度模长的增长样本数量迅速减少但是在梯度模长接近于1时样本数量也挺多。img srchttps://pic4.zhimg.com/v2-151e4b4cf33d1a2d58373e92104ab38b_b.jpg data-rawwidth1080 data-rawheight779 data-sizenormal data-caption classorigin_image zh-lightbox-thumb width1080 data-originalhttps://pic4.zhimg.com/v2-151e4b4cf33d1a2d58373e92104ab38b_r.jpg/因此GHM的出发点是既不要关注那些容易学的样本也不要关注那些离群点特别难分的样本。为此作者定义了梯度密度其物理含义是单位梯度模长g部分的样本个数。最终GHM Loss为 Dice Loss:主要为了解决训练和测试时F1指标不一致的问题提出一个基于Dice Loss的自适应损失——DSC,对F1指标更加健壮与Focal Loss类似训练时推动模型更加关注困难的样本,使用作为每个样本的权重。改进之后的DSC为对logit调整权重实际上是将类别概率引入loss中并对logit调整权重本质上是一种通过互信息思想来缓解类别不平衡问题: Q7: BERT时代如何处理长文本分类由于显存占用和算力的限制BERT等预训练语言模型的input一般来说最长512个token。某些场景下处理长文本分类BERT可能还不如CNN效果好。为能让BERT等更适合处理长文本笔者从「文本处理」和「改进attention机制」两个方面给出一些可以尝试的方法1文本处理固定截断一般来说文本的开头和结尾信息量较大可以按照一定比例对截取出文本的开头和结尾随机截断如果固定截断信息损失较大可以在DataLoader中每次以不同的随机概率进行截断这种截断可以让模型看到更多形态的case截断滑窗预测平均通过随机截断或者固定滑窗将一个样本切割成多个样本在预测时对多个样本的结果进行平均截断关键词提取采取直接截断的方式可能会导致信息量损失可以通过关键词提取补充信息。如[CLS][截断文本][SEP][关键词1][SEP][关键词2]...2改进attention机制Transformer采取的attention机制其时间复杂度为其中为文本长度。最近一些paper聚焦于对attention机制的改进、降低计算复杂度以更适合处理长文本序列。主要包括Reformer[6]主要采取局部敏感哈希机制(Locality Sensitve HashingLSH)这种机制类似于桶排序将相近的向量先归为一类只计算同类向量之间的点积将时间复杂度降为考虑到相似的向量会被分到不同的桶里Reformer进行了多轮LSH但这反而会降低效率。Linformer[7]提出自注意力是低秩的信息集中在少量( 个)的最大奇异值中。Linformer利用线性映射将时间复杂度降为当时接近于线性时间。但实践中表明k增加效果会更好k一般取256或512。Longformer[8]采取滑窗机制只在固定窗口大小w内计算局部attention复杂度降为当时接近于线性时间实践中仍然取512为扩大感受野也可以采取“膨胀滑窗机制”; 也可以在特殊位置例如[CLS]处局部地计算全局attention。Big Bird[9]在Longformer基础上增加了Random attention当前长序列建模的SOTA刷新了QA和摘要的SOTA同时也被证明是图灵完备的。如下图对于绝大数长文本分类问题笔者建议首选「文本处理」方式。对于有条件的可以采取上述「改进attention机制」方法进行尝试比如对已经预训练好的RoBERTa采取Longformer机制继续预训练。Longformer已经开源并且可以直接在cuda内核上进行优化加速。Q8: 预训练融合NLP竞赛利器各大NLP竞赛中模型融合集成是一个重要的提分神器而除了不同模型的融合另一种更加有效的方式就是——预训练融合。在NLP任务中不同模型的预测差异更多取决于底层模型embedding层的差异这不同于CV领域往往取决于上层模型的异构程度。那么怎么丰富底层模型呢一个直接的方式就是把不同预训练模型融合如可以将word2vec、elmo、BERT、XLNET、ALBERT统一作为特征提取器但这时需要注意以下内容部分参考自王然老师课程[10]笔者进行了归纳整合一般不需要直接进行finetune。当然也可先单独对BERT、XLNET、ALBERT进行finetune然后再一起进行特征集成。分词器可以采取最佳预训练模型的tokenizer也可同时使用不同预训练模型的tokenizer。不要忽视简单词向量的作用。类似字词向量、bi-gram向量的补充对于底层模型的丰富性很关键。配置上层模型时应注意学习率的调整。将集成的底层特征喂入biLSTM或CNN中也可以拼接biLSTM和CNN共同作为上层模型。训练时可以先将底层预训练模型freeze只调整上层模型的学习率较大最后再全局调整学习率较小。CLS最后一定还要再用一次。无论上层模型怎样。CLS特征要再最后直接进入全连接层。Q9: 你认真构造离线测试集了吗指标高也许是虚高很多时候时候我们构造测试集往往都是根据初始标注集自动划分测试集这在任务初期完全OK。但我们不能就此相信指标高一切就OK。模型的评估环节至关重要不能总是上线了才醒悟不能总是等着线上badcase来迭代。ACL2020最佳论文《Beyond Accuracy: Behavioral Testing of NLP Models with CHECKLIST》告诉我们应通过CheckList全方位对模型多项“能力”进行评估其可快速生成大规模的测试样例。笔者发现在具体实践中为了让评估更加全面其实可以积累同义词库、生僻字进行性质不变测试、词汇测试构造对抗样本进行攻击测试防患于未然提前捞一批数据找到那些不确定性高的case进行测试从上述测试中发现bug自然是一件好事问题的暴露让我们心里才有底。最近开源的OpenAttack文本对抗攻击工具包也可帮助我们进行鲁棒性测试主要包括文本预处理、受害模型访问、对抗样本生成、对抗攻击评测以及对抗训练等。对抗攻击能够帮助暴露受害模型的弱点有助于提高模型的鲁棒性和可解释性具有重要的研究意义和应用价值。Q10: 模型更新迭代时如何进行增量学习不遗忘先前记忆模型化的手段在进行更新迭代时也许会出现遗忘问题即对之前已经处理好的case不work。如果badcase不多先采取规则优化是相对健壮的可以用规则设置旁路专门处置应急badcase。此外笔者给出以下几种解决此问题的方案直接现有数据与原有数据混合训练将特征抽取层freeze对新类别只更新softMax全连接层采取知识蒸馏方式。在现有数据与原有数据混合一起训练时对原有类别进行蒸馏指导新模型学习。将分类标签统一进行label embedding新增类别单独构建的label embedding不影响原有类别。从而将分类转为一个match和rank问题。Q11: 低耗时场景如何让TextCNN逼近BERT的效果BERT虽然强大但在低耗时场景、少机器场景下直接拿BERT部署分类模型通常行不通。我们是否可以采取一个轻量级的模型比如TextCNN去逼近BERT的效果呢为解决这一问题我们通常采用知识蒸馏技术。蒸馏的本质是函数逼近但如果直接将BERTTeacher模型蒸馏到一个十分轻量的TextCNNStudent模型指标一般会下降。如何尽量缓解这一情况呢笔者根据「无标注数据规模大小」分别给出了2种蒸馏方案——模型蒸馏和数据蒸馏。1模型蒸馏如果业务中的无标注数据较少我们通常采取logits近似值近似让TextCNN进行学习这种方式可称之为模型蒸馏。这是一种离线蒸馏方式即先对Teacher模型finetune然后freeze再让Student模型学习。为避免蒸馏后指标下降明显我们可以采取以下方式改进数据增强在蒸馏的同时引入文本增强技术具体的增强技术可参考《NLP中的少样本困境问题探究》。TinyBERT就采取了增强技术以辅助蒸馏。集成蒸馏对不同Teacher模型如不同的预训练模型的logits集成让TextCNN学习。「集成蒸馏数据增强」可以有效避免指标明显下降。联合蒸馏不同于离线蒸馏这是一种联合训练方式。Teacher模型训练的同时就将logits传给Student模型学习。联合蒸馏可以减轻异构化严重的Teacher和Student模型间的gapStudent模型可以慢慢从中间状态进行学习更好地模仿Teacher行为。2数据蒸馏如果业务中的无标注数据规模较大我们可以采取标签近似让TextCNN进行学习。这种方式称为数据蒸馏。其本质与伪标方法类似让Teacher模型对无标注数据进行伪标再让Student模型进行学习。其具体步骤为训练1BERT在标注数据集A上finetune训练一个bert_model伪标bert_model对大量无标注数据U进行预测伪标然后根据置信度打分选择高置信度的数据B填充到标注数据A这时候标注数据变为AB训练2基于标注数据AB训练TextCNN得到textcnn_model_1训练3optional让第3步训练好的textcnn_model_1基于标注数据A再训练一次形成最终模型textcnn_model_2对上述两种蒸馏方式笔者对业务中的一个21个分类任务每类100条样本进行了实验相关结果如下img srchttps://pic4.zhimg.com/v2-d439cd6d2c188ef17bd0b3c437c7849b_b.jpg data-rawwidth1080 data-rawheight569 data-sizenormal data-caption classorigin_image zh-lightbox-thumb width1080 data-originalhttps://pic4.zhimg.com/v2-d439cd6d2c188ef17bd0b3c437c7849b_r.jpg/从上图可以看出如果我们能够获取更多的无标注数据采取数据蒸馏的方式则更为有效可以让一个轻量级的TextCNN最大程度逼近BERT。不过也许有的读者会问为什么不直接蒸馏为一个浅层BERT呢这当然可以不过笔者这里推荐TextCNN的原因是它实在太轻了而且会更加方便引入一些业务相关的特征。如果仍然想蒸馏为一个浅层BERT我们需要首先思考自己所在的领域是否与BERT原始预训练领域的gap是否较大如果gap较大我们不要停止预训练继续进行领域预训练、然后再蒸馏或者重新预训练一个浅层BERT。此外采取BERT上线时也可以进行算子融合Faster Transformer或者混合精度等方式。写在最后让我们一起致敬那些年陪我们一起入门坑NLP的分类模型吧Reference[1] xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems: https://arxiv.org/pdf/1803.05170.pdf[2] Description Based Text Classification with Reinforcement Learning:https://arxiv.org/pdf/2002.03067.pdf[3] Decoupling Representation and Classifier for Long-Tailed Recognition:https://arxiv.org/pdf/1910.09217.pdf[4] Dynamic Curriculum Learning for Imbalanced Data Classification:https://arxiv.org/pdf/1901.06783.pdf[5] https://zhuanlan.zhihu.com/p/80594704[6] REFORMER: THE EFFICIENT TRANSFORMER:https://arxiv.org/pdf/2001.04451.pdf[7] Linformer: Self-Attention with Linear Complexity:https://arxiv.org/pdf/2006.04768.pdf[8] Longformer: The Long-Document Transformer :https://arxiv.org/pdf/2004.05150.pdf[9] Big Bird: Transformers for Longer Sequences:https://arxiv.org/pdf/2007.14062.pdf[10] 王然老师课程:https://time.geekbang.org/course/intro/100046401

查看全文

http://www.pierceye.com/news/229410/