当前位置：首页 > news >正文

深圳网站建设易佰讯包头网络

news 2025/11/20 13:24:34

深圳网站建设易佰讯,包头网络,太原网站建设谁家好,广告设计论文文章目录abstract1.introduction2. 相关工作2.1 命名实体识别2.2 关系抽取2.3 实体关系联合抽取模型3.联合模型3.1 Embedding层3.2 bilstm--编码层3.3 命名实体识别3.4 多头选择的关系抽取模型3.5. Edmonds’ algorithmJoint entity recognition and relation extraction as a … 文章目录abstract1.introduction2. 相关工作2.1 命名实体识别2.2 关系抽取2.3 实体关系联合抽取模型3.联合模型3.1 Embedding层3.2 bilstm--编码层3.3 命名实体识别3.4 多头选择的关系抽取模型3.5. Edmonds’ algorithmJoint entity recognition and relation extraction as a multi-head selection problemcodeabstract 联合实体识别和关系提取的最新模型严重依赖外部自然语言处理(NLP)工具如词性标记器和依赖解析器。因此这种联合模型的性能取决于从这些NLP工具中获得的特征的质量。然而这些特性对于不同的语言和上下文并不总是准确的。在本文中我们提出了一个联合神经模型它可以同时进行实体识别和关系提取不需要任何手动提取的特征或使用任何外部工具。具体地我们使用CRF(条件随机域)层将实体识别任务和关系提取任务建模为一个多头选择问题。可能为每个实体标识多个关系)。我们提出了一个广泛的实验设置以证明我们的方法的有效性使用数据集从不同的上下文(即。、新闻、生物医学、房地产)和语言(即、英语、荷兰)。我们的模型优于之前使用自动提取特征的神经模型而它在基于特征的神经模型的合理范围内执行甚至超过了它们转化为多头选择问题同时实体识别和关系识别多重关系 1.introduction 管道模型(分开进行这个问题传统上是作为两个独立的子任务处理的即(i)命名实体识别(NER) (Nadeau Sekine, 2007)和(ii)关系提取(RE) (Bach Badaskar, 2007)在一个管道设置中。管道模型的主要限制是:(i)组件之间的错误传播(即(ii)来自一个任务的可能有用的信息不会被另一个任务利用(例如识别一个关联的工作可能有助于NER模块检测两个实体的类型即。 PER, ORG反之亦然)。另一方面最近的研究建议使用联合模型来检测实体及其关系以克服上述问题并实现最先进的性能。问题组件之间错误传播来自一个任务的有用信息不一定会被使用以前的联合模式严重依赖手工制作的特征。神经网络的最新进展缓解了手工特征工程的问题但其中一些仍然依赖于NLP工具(如POS标记器、依赖解析器)。关系抽取 MiwaBansal(2016)提出了一种基于递归神经网络(RNN)的联合模型该模型使用双向顺序LSTM (Long - Short - Term Memory长短时记忆)对实体进行建模并使用一种考虑依赖树信息的树-LSTM对实体之间的关系进行建模。依赖项信息是使用外部依赖项解析器提取的。依赖于依赖解析器依赖解析器在特定语言英语)和上下文(即、新闻)上表现得特别好——泛化性弱。同样Li等人(2017)在生物医学文本的实体和关系提取中采用了同样使用树- lstms的模型来提取依赖信息。Gupta等人(2016)提出了一种依赖于RNNs的方法但是使用了大量手工制作的特性和额外的NLP工具来提取诸如posr -tag等特性。注意前面的工作是检查实体对的关系提取而不是直接对整个句子建模。Adel,Schutze(2017)使用卷积神经网络(CNNs)复制实体周围的上下文。这意味着同一句子中其他对实体的关系(可能有助于决定关系类型为特定的一对)不考虑Katiyar,Cardie(2017)提出了一种基于LSTMs的神经联合模型他们一次对整个句子进行建模但仍然没有一个处理多重关系的原则性方法。Bekoulis等人(2018)引入了一个二次评分层来同时对两个任务进行建模。该方法的局限性在于只能将单个关系分配给一个token而实体识别任务的时间复杂度与线性复杂度的标准方法相比有所增加本文贡献 (i)我们的模型不依赖于外部NLP工具还是手工功能,(ii)实体和关系在同一文本片段(通常是一个句子)同时提取,(3)一个实体可以参与多个关系与Miwa比本文想要开发一个能在各种设置中很好概括的模型因此只使用在训练中学习到的自动提取的特性。——不同的上下文下也用相同的模型得到了改进。与Adel和Schutze(2017)相比我们通过一次建模所有实体和句子之间的关系来训练我们的模型。这种类型的推理有助于获得关于相邻实体和关系的信息而不是每次只检查一对实体。最后我们解决了Katiyar Cardie(2017)和Bekoulis等人(2017)他们本质上假定类(即关系是互斥的我们通过将关系提取组件描述为一个多标签预测问题来解决这个问题 2. 相关工作 2.1 命名实体识别在我们的工作中为了解决端到端关系提取问题NER是我们首先要解决的任务。许多不同的方法来ner任务提出了基于手工的特性,如 CRFs(拉弗蒂et al ., 2001),最大利润率马尔可夫网络(Taskar et al ., 2003)和对结构化输出(Tsochantaridis et al ., 2004)的支持向量机(svm),等等。基于CNN和rnn模型的深度学习方法与CRF损失函数相结合(Collobert et al. 2011;黄等2015;Lample等人2016;马,霍维2016)。这些方法在不依赖手工特性的情况下在公开可用的NER数据集上实现了最先进的性能。 2.2 关系抽取我们将关系提取作为联合模型的第二个任务。关系提取的主要方法依赖于手工特征(Zelenko et al. 2003;Kambhatla, 2004)或神经网络(Socher et al. 2012;曾等2014)。基于特征的方法侧重于获得有效的手工特征例如定义kernel函数(Zelenko et al. 2003;Culotta,Sorensen, 2004)和设计词汇、句法、语义特征等(Kambhatla, 2004;RinkHarabagiu, 2010)。神经网络模型已经被提出来克服手工设计的问题从而提高性能。 CNN-(Zeng等2014;徐等2015a;dos Santos等人2015)和rnn-based (Socher等人2013;张,王,2015;Xu等人2015b)引入了模型来自动提取词汇和句子级特征从而更深入地理解语言。Vu等人(2016)使用集成方案将CNNs和RNNs结合起来以获得最先进的结果。 2.3 实体关系联合抽取模型 Feature-based joint models (Kate Mooney, 2010; Yang Cardie, 2013; Li Ji,2014; Miwa Sasaki, 2014)提出了同时解决实体识别和关系提取(RE)子任务的方法。这些方法依赖于NLP工具(如POS标记器)或手工设计的特性的可用性因此 (i)需要额外的数据预处理工作(ii)在NLP工具不可靠的不同应用程序和语言设置中表现较差(iii)增加计算复杂度。在本文中我们引入一个联合神经网络模型来克服上述问题并自动执行端到端的关系提取而不需要任何手动的特征工程或使用额外的NLP组件神经网络方法已经被考虑在联合设置(端到端关系提取)中解决这个问题通常包括使用RNNs和CNNs (Miwa Bansal, 2016; Zheng et al., 2017; Li et al., 2017)。特别的,Miwa Bansal(2016)提出使用双向树结构的RNNs来捕获依赖树信息(其中使用最先进的依赖解析器来提取解析树)这已被证明对关系提取是有益的(Xu et al. 2015a,b)。Li等人(2017)将Miwa Bansal的工作应用于生物医学文本报告了两个生物医学数据集的最新性能。Gupta等人(2016)提出在RNNs的同时使用大量手工制作的功能。Adel,Schutze(2017)解决了实体分类任务(与NER不同因为在实体分类中实体的边界是已知的只需要预测实体的类型)和关系提取问题使用了全局规范化目标的近似值(即:它们复制句子的上下文(实体的左右部分)每次向CNN提供一个实体对以提取关系。因此他们不会在同一句话中同时推断出其他潜在的实体和关系。Katiyar,Cardie(2017)和Bekoulis等人(2018)研究了RNNs注意在不使用任何依赖解析树特征的情况下提取实体提及之间的关系。我们不一样不同于Katiyar Cardie(2017)在这项工作中我们将该问题定义为一个多头选择问题通过使用sigmoid损失来获得多个关系并为NER组件使用CRF损失。通过这种方式我们能够独立地预测不互斥的类而不是在标记之间分配相等的概率值。我们克服了额外的时间复杂度增加问题由Bekoulis等人(2018)通过将损失函数分为NER和关系提取组件造成的。此外我们可以处理多个关系而不只是预测单个关系正如Bekoulis等人(2018)在结构化房地产广告中的应用中所描述的那样。 3.联合模型在本节中我们将给出如图1所示的多头关节模型。模型能够同时识别实体(即以及它们之间所有可能的关系。我们将该问题描述为一个扩展了以前工作的多头选择问题(Zhang et al. 2017;(Bekoulis et al. 2018)如2.3节所述。所谓多头我们的意思是任何特定的实体都可能涉及到与其他实体的多种关系。模型的基本层如下图1所示: (i)embedding层 (ii)双向序列LSTM (BiLSTM)层 (iii) CRF层 (iv) sigmoid评分层。 Embedding层输入句子的token单词输出词向量 BiLSTM层能够为每个通过RNN结构合并上下文的单词提取更复杂的表示。然后CRF和sigmoid层就能够生成这两个任务的输出。每个token的输出(例如,史密斯)是双重的:(i)一个实体识别标签(如I-PER,表示命名实体的类型)和(2)一组元组组成的头标记实体和它们之间的关系的类型(例如,{(中心工作),(住在亚特兰大)})。由于我们假设了基于标记的编码所以我们只将实体的最后一个标记作为另一个标记的头部从而消除了冗余关系。例如有一个关于实体约翰·史密斯和疾病控制中心之间工作关系。我们只连接Smith和Center而不连接实体的所有令牌。同样对于没有关系的情况我们引入N标签并预测令牌本身为头部。 3.1 Embedding层输入一个token序列输出一个token输出一个word vector方法 skip-gramword2vec 在这项工作中我们还使用了字符嵌入(character embeddings)因为它们通常应用于神经网络(Ma Hovy, 2016;Lample等人2016)。这种类型的嵌入能够捕获前缀和后缀等形态特征。eg 例如在不良药物事件(ADE)数据集中后缀“毒性”可以指定一个不良药物事件实体如“神经毒性”或“肝毒性”因此它是非常有用的。另一个例子可能是荷兰语中的后缀“kamer”(英语中的“房间”)荷兰房地产分类(DREC)数据集用于指定空间实体“badkamer”(英语中的“bathroom”)和“slaapkamer”(英语中的“bedroom”)。字符级嵌入是在training中学习的类似于Ma Hovy(2016)和Lample等人(2016)。有效果有提升图2说明了基于字嵌入特征的神经网络结构。每个单词的字符由字符向量表示 (即。嵌入的)。将字符嵌入提供给BiLSTM并将两个最终状态(向前和向后)连接起来。向量wchars是单词的字符级表示。然后将这个向量进一步连接到单词级表示wword2vec以获得完整的单词嵌入向量字符embedding-bilstm-forwardbackwardwcharwwordw_{char}w_{word}wcharwword–完整的单词嵌入向量 3.2 bilstm–编码层这项工作中我们使用了多层的LSTMs这是一种能够很好地捕获长期依赖关系的特定类型的rns(Bengio et al., 1994; Pascanu et al.,2013). 第i时间步的输出: 3.3 命名实体识别 –》序列标注问题BIO每个token分配一个标记一个词一个标记在CRF层可以看到我们分别指定了B-ORG和I-ORG标记来表示实体“疾病控制中心”的开始和内部标记。在BiLSTM层的顶层我们使用softmax或CRF层来计算每个令牌的最可能实体标记。我们计算每个令牌wi对每个实体标签的得分: 我们仅对实体分类(EC)任务(类似于NER)使用softmax方法在此任务中假设边界已知我们只需预测每个令牌的实体类型(例如PER)。CRF方法用于包含实体类型和边界识别的NER任务。尽管假设独立的标记分布有利于实体分类任务(例如POS标记)但当存在强依赖时时情况就不一样了具体来说在NER中BIO标记方案强制了几个限制(例如B-LOC不能被I-PER遵循)。softmax方法允许局部决策(即对于每个令牌的标记wi)即使BiLSTM捕获关于相邻单词的信息。但是相邻的标记并没有考虑到特定标记的标记决策。例如在实体中“John Smith”按PER标记“Smith”有助于确定“John”是B-PER。为此对于NER我们使用一个线性链CRF类似于Lample et al.(2016)在使用CRF时报告了对∼1% F1 NER点的改进。在我们的例子中使用CRF我们还报告了一个∼1%的整体性能改进如表2所示(参见5.2节)。 CRF的得分T是转移矩阵我们使用Viterbi来获得得分最高的标记序列y (e)。我们通过最小化交叉熵损失来训练softmax(用于EC任务)和CRF层(用于NER)。我们还使用实体标签作为输入到我们的关系提取层学习标签嵌入由Miwa Bansal(2016)报告了2% F1的改进(使用标签嵌入)。在我们的例子中标签嵌入导致F1得分增加1%如表2所示(见5.2节)。下一层的输入是双重的: LSTM的输出状态和学习到的标签嵌入表示对命名实体的知识对关系提取有用的直觉进行编码。在训练期间我们使用gold实体标记而在预测时我们使用预测的实体标记作为下一层的输入。下一层的输入是LSTM的隐藏状态hi带有令牌wi的标签嵌入gi的拼接: 3.4 多头选择的关系抽取模型我们将关系提取任务描述为一个多头选择问题(Zhang et al. 2017;(Bekoulis et al. 2018)。在我们方法的一般公式中每个令牌wi可以有多个头(即与其他令牌的多个关系)。我们预测元组(yi, c_i)其中yi是正面的向量而c_i是每个令牌wi对应关系的向量。这与之前的依赖分析方法的标准头选择不同(Zhang et al. 2017)因为 (i)它被扩展为预测多个头 (ii)头的决策和关系是共同做出的(即而不是先预测正面然后在下一步使用额外的分类器来预测关系)。输入给定一个令牌序列w和一组关系标签R作为输入目标我们的目标是识别每个令牌的wi, i{0… n}最可能正面的向量y i 和最可能对应关系标签r i的向量得分给定一个标签rk我们计算令牌wi和wj之间的分数如下: 交叉熵损失函数 3.5. Edmonds’ algorithm 通过使用阈值推理关系树结构不能得到保证。因此我们应该对我们的模型实施树结构约束。为此我们使用有向图的Edmonds最大生成树算法(Chu 刘,1965;埃德蒙兹,1967)。构造一个完全连通的有向图G (V, E)其中顶点V表示标识实体的最后标记(NER预测的)边E表示得分最高的关系它们的得分作为权重。Edmonds算法适用于阈值推理尚未形成树的情况。

查看全文

http://www.pierceye.com/news/937216/