网站建设技术论坛,合肥整站推广,网站建设后运维合同,风讯网站内容管理系统DeepIE: Deep Learning for Information Extraction
DeepIE#xff1a; 基于深度学习的信息抽取技术#xff08;预计2020年8月31日前全部更新完毕#xff09;
TOP
知乎专栏文章#xff1a;nlp中的实体关系抽取方法总结知乎专栏文章#xff1a;如何有效提升中文NER性能 基于深度学习的信息抽取技术预计2020年8月31日前全部更新完毕
TOP
知乎专栏文章nlp中的实体关系抽取方法总结知乎专栏文章如何有效提升中文NER性能词汇增强方法总结知乎专栏文章如何解决Transformer在NER任务中效果不佳的问题
Papers
ACL2020信息抽取相关论文汇总IJCAI2020信息抽取相关论文汇总2019各顶会中的关系抽取论文汇总事件抽取论文汇总历年来NER论文汇总
Codes
1. 实体抽取
各主流方法在主要中文NER数据集上的表现情况 具体说明
lexiconOntonotesMSRAResumeWeibobiLSTM----71.8191.8794.4156.75Lattice LSTM词表173.8893.1894.4658.79WC-LSTM词表174.4393.3694.9649.86LR-CNN词表174.4593.7195.1159.92CGN词表274.7993.4794.1263.09LGN词表174.8593.6395.4160.15Simple-Lexicon词表175.5493.5095.5961.24FLAT词表176.4594.1295.4560.32FLAT词表275.7094.3594.9363.42BERT----80.1494.9595.5368.20BERTFLAT词表181.8296.0995.8668.55
MSRA-NER
方法fprchar lstm-crf86.18%88.43%83.10%char-bigram lstm-crf91.80%92.60%90.34%char-bigram adTransformer-crf92.98%93.25%92.72%char-bigram lexion-augment lstm-crf93.33%94.26%92.43%char-bigram-BERT lstm-crf94.71%95.14%94.27%char-bigram-BERT lexion-augment lstm-crf95.26%95.90%94.63%
CCKS2019-医疗实体抽取
方法fprchar-bigram lstm-crf81.76%82.91%80.6 domain transferfrom ccks2018 to 201982.54%83.43%81.81%char-bigram adTransformer-crf82.83%82.19%83.49%char-bigram lexion-augment lstm-crf82.76%82.79%82.72%BERT-finetunecrf83.49%84.11%82.89%roBERTa-finetunecrf83.66%83.67%83.66%char-bigram-BERT lstm-crf83.37%83.51%83.22%char-bigram-BERT lexion-augment lstm-crf84.15%84.29%84.01%
CCKS2020-医疗实体抽取
(注测试集与ccks2019一致去除ccks2020训练集中已经在2019测试集中的样本下列指标未做规则处理和模型融合)
方法fprchar-bigram lstm-crf82.68%83.14%82.22%char-bigram lexion-augment lstm-crf83.12%83.10%83.14%char-bigram-BERT lstm-crf83.12%83.04%83.21%char-bigram-BERT-RoBerta_wwm lstm-crf83.66%83.76%83.56%char-bigram-BERT-XLNet lstm-crf84.12%83.88%84.36%char-bigram-BERT lexion-augment lstm-crf84.50%84.32%84.67%
CCKS2020-面向试验鉴定的命名实体识别任务TODO
2. 实体关系联合抽取
具体使用说明
2019语言与智能技术竞赛关系抽取任务
方法f(dev)p(dev)r(dev)multi head selection76.3679.2473.69ETL-BIES77.07%77.13%77.06%ETL-Span78.94%80.11%77.8%ETL-Span word2vec79.99%80.62%79.38%ETL-Span word2vec adversarial training80.38%79.95%80.82%ETL-Span BERT81.88%82.35%81.42%
2020语言与智能技术竞赛关系抽取任务
方法f(dev)p(dev)r(dev)ETL-Span BERT74.5874.4474.71
3. 属性抽取
领域数据集瑞金医院糖尿病信息抽取数据
# 药物-属性
[药品-用药频率,药品-持续时间,药品-用药剂量,药品-用药方法,药品-不良反应]
# 疾病-属性
[疾病-检查方法,疾病-临床表现,疾病-非药治疗,疾病-药品名称,疾病-部位]主体方法fpr疾病lstm multi-label pointer network76.5574.3678.86疾病bert multi-label pointer network77.5977.4577.74药物lstm multi-label pointer network81.1279.1583.19
4. 实体链接/标准化
5.事件抽取 CCKS2020-医疗事件抽取 CCKS2020面向金融领域的篇章级事件主体抽取 CCKS2020面向金融领域的篇章级事件要素抽取
6.信息抽取中的低资源解决方案
TODO-list 信息抽取领域的数据资源汇总 医疗金融电商法律 信息抽取相关竞赛汇总 百度-2020语言与智能技术竞赛关系抽取任务百度-2020语言与智能技术竞赛事件抽取任务百度-2019语言与智能技术竞赛信息抽取CCKS 2019 医疗命名实体识别CHIP 2019 临床术语标准化任务CCKS 2019 人物关系抽取CCKS 2019 公众公司公告信息抽取CCKS 2019 面向金融领域的事件主体抽取 摘要抽取 前沿技术在信息抽取中的应用
Reference