做网站市场价格多少,海外seo,程序员做笔记的网站,厦门人才网建筑设计招聘前言
论文分享 来自2022ACL的长文本抽取式摘要方法论文 MemSum: Extractive Summarization of Long Documents Using Multi-Step Episodic Markov Decision Processes
自动文本摘要抽取可以分为抽取式(extractive)和抽象性式(abstractive)#xff0c;抽取式方法将摘要抽取任…前言
论文分享 来自2022ACL的长文本抽取式摘要方法论文 MemSum: Extractive Summarization of Long Documents Using Multi-Step Episodic Markov Decision Processes
自动文本摘要抽取可以分为抽取式(extractive)和抽象性式(abstractive)抽取式方法将摘要抽取任务看成是一个二分类任务给定 N N N个句子从中选择 M ( M N ) M(MN) M(MN)个句子作为文本的摘要。
抽取式摘要可以分为两个步骤1句子打分2句子选择。在句子选择阶段可以通过3种方式选择句子i根据分数给句子标签为0和1选择标签为1的句子ii将句子按照分数进行排序选择Top-k的句子作为摘要iii以剩余句子归一化后的分数作为可能性分布进行依次不放回采样
论文表明上述传统方法计算句子分数的时候通常没有根据当前已抽取的句子摘要进行更新丢失了抽取历史知识the knowledge of extraction history。论文指出现有抽取模型不根据历史抽取信息会更倾向于将一些可能重复的高ROUGE指标的句子重复选择最终造成整体的指标下降。
论文将摘要抽取看作是多步情景马尔可夫决策过程multi-step episodic Markov Decision Process其与single-step的区别在于是否在每一步会更新状态single-step根据输入一次输出所有句子分数而multi-step在每一个时间节点根据历史的抽取信息更新剩余其他句子的分数。在NeuSum论文中已经提出使用历史抽取信息但是只能抽取固定数量的句子这可能是次优的论文在此基础上增加了终止机制stop mechanism可以抽取任意长度的句子同时增加了对历史抽取信息的量化评判。
模型
模型的整体框架如下 其主要由3个部分组成LSE局部句子编码器GCE全局上下文编码器和EHE抽取历史编码器LSE的输出为GCE的输入GCE的输出为EHE的输入EHE的输出为剩余句子的隐层向量其和GCE的输出以及LSE的输出进行级联后分别输入MHPmulti-head pooling network和全连接层得到停止概率和句子得分根据停止概率与停止阈值的比较选择是否将得分最高的句子作为抽取句子在停止概率大于停止阈值后将从第一次抽取到最后一次抽取的累计奖励作为指标对LSEGCEEHE和MHP网络进行更新。 论文优化的目标为最大化目标函数我们希望 R 0 R_0 R0越大越好 J ( θ ) E π θ [ R 0 ] J(\theta)\mathbb{E}_{\pi_\theta}[R_0] J(θ)Eπθ[R0] 每一步的reward计算公式由ROUGE-1ROUGE-2和ROUGE-L的均值构成 从第一步到终止的reward计算公式为 R t ∑ k t 1 T r k R_t\sum_{kt1}^T r_k Rtkt1∑Trk 根据强化学习算法梯度下降的公式可以表达为 其中 π ( A t ∣ S t , θ ) \pi(A_t|S_t,\theta) π(At∣St,θ)代表在时间t下给定参数 θ \theta θ和状态 S t S_t St的情况下策略 π \pi π给出的行为 A t A_t At的可能性其可以表示为 策略 π \pi π的行为可能性为当前步伐下停止的可能性乘以行为的可能性行为的可能性有两种情况第一当决策为终止时行为的可能性为剩余所有句子的平均可能性当决策不为终止时行为的可能性为归一后的概率 在给定学习率的情况下参数更新如下 LSE模块和GCE模块均为LSTM结构EHE为多层transformer解码器结构目的为将历史抽取信息融入到剩余未抽取的句子中根据历史抽取信息进行重新打分这里我有一个疑惑论文是如何精准控制模型根据历史信息不去抽取冗余句子当然结果表明对于减少冗余的效果很好。
整体的实现流程伪代码 对于给定文本和摘要首先采用LSE编码局部句子向量然后根据局部句子向量采用GCE编码全局句子向量在文本中采样高ROUGE的场景这个场景存在多个每个场景选择的句子可能是不同的但是ROUGE的数值是差不多的其中 S t S_t St代表句子3种编码的级联 s a t s_{a_t} sat代表选择抽取的句子 a t a_t at, A s t o p A_stop Astop代表停止r代表最终的ROUGE在每一步EHE和Extractor输出根据历史抽取信息进行调整的剩余句子的得分根据得分按照公式4计算行为可能性然后进行梯度下降。
实验 作者给出了在4个数据集PubMed, arXiv, P u b M e d t r u n c PubMed_trunc PubMedtrunc和Gov Report上的实验结果可以发现在PubMedGov Report和arXiv数据集上MemSum都要比最好的摘要抽取方法NeuSum和摘要生成方法Hepos-LSH要好上1-2个点同时可以看到Gov Report的GOUGE分数要明显高于其他数据集这归因于政府数据的摘要为了保证其忠诚性很难用其他摘要性语句进行概括大部分保留了其原文的原因从下方例子可以看出真实摘要和抽取式摘要在文字重叠部分要明显多于摘要式方法 作者还给出了MatchSUmORACLE和MEMSUM在 P u b M e d t r u n c PubMed_trunc PubMedtrunc数据集上抽取的句子位置的分布图ORACLE是采用贪婪算法抽取得到的最优ROUGE分数的摘要MatchSUM是使用Bert预训练模型的抽取式方法可以发现MEMSUM的曲线与ORACLE很像MatchSum的曲线在句子15后为0归因于Bert只能编码前512个字符
作者做了LSEGCE和EHE模块的消融实验并且增加了使用GRU的EHE模块不使用stop停止增加“STOP”字段抽取到“STOP”就停止的方法可以发现GCE上下文模块的重要性要高于LSE作者指出这与Extractive Summarization of Long Documents by Combining Global and Local Context的结论是相反的EHE有效但是与GRU还是attention结构没很大的关系stop是有效的但是如果增加特殊的“STOP”字段则会影响模型过早的停止抽取 为了证明历史抽取信息能够避免重复抽取的假设作者构建了一个冗余句子数据集对PubMed数据集的每一个句子进行重复例如原始文章为 s 1 , s 2 , . . . , s n s_1,s_2,...,s_n s1,s2,...,sn构建的冗余句子数据集为 s 1 , s 1 , s 2 , s 2 , . . . , s n , s n s_1,s_1,s_2,s_2,...,s_n,s_n s1,s1,s2,s2,...,sn,sn摘要保持不变通过在这种冗余句子数据集上进行训练没有历史抽取信息的模型重复率达到了41%说明历史抽取信息能够有效的避免历史抽取的冗余这种完全重复的方法简单有效的可以证明有去冗余的效果。采用Text Summarization with Pretrained Encoders中判断当前句子是否有3-gram重复的句子将其跳过的策略可以有效地避免冗余但是其ROUGE score远远低于EHE模块 作者通过分步操作来解释了为什么MemSum可以去冗余在第0步的时候Memsum抽取了分数最高的句子10在第1步的时候冗余句子11的分数降为了0后续的4849和2829都是同样的现象说明了MemSum避免冗余比较了剩余句子和已抽取句子的相似度而非简单的记忆位置 作者在附录还给出了摘要抽取时间最优stop阈值的选择方法如何构建高GOUGE场景的方法等
总结与思考
作者给出了一种基于历史抽取信息的多步场景长文本抽取式摘要方法不使用预训练模型可以有效的应用于实际场景中有几个点可以思考1、作者认为去冗余和决定是否停止与位置信息的相关性很小几乎可以忽略。2、完全重复的句子比较是否过于简单3、作者给出的可重复性方法值得借鉴