如何分析竞争对手网站,母婴行业网站建设,手游平台十大排名,网站建设手机官网中文医学数据集 ChineseBLUE 分析 基本介绍数据集分类构造成本 论文#xff1a;https://arxiv.org/pdf/2106.08087v5.pdf
链接#xff1a;https://github.com/alibaba-research/ChineseBLUE
基本介绍
需要注意的是#xff0c;中文生物医学文本在语言上与英文不同#xf… 中文医学数据集 ChineseBLUE 分析 基本介绍数据集分类构造成本 论文https://arxiv.org/pdf/2106.08087v5.pdf
链接https://github.com/alibaba-research/ChineseBLUE
基本介绍
需要注意的是中文生物医学文本在语言上与英文不同具有其领域特性这需要专门为中文设计的评估BioNLP基准测试。
在本研究中我们专注于中文旨在填补这一空白并开发第一个中文生物医学语言理解基准测试。
我们收集了真实世界的生物医学数据并提出了第一个中文生物医学语言理解评估CBLUE基准包括命名实体识别、信息抽取、临床诊断标准化、单句/句对分类等自然语言理解任务的集合以及一个用于模型评估、比较和分析的在线平台。
为了在这些任务上建立评估标准我们报告了当前11个预训练中文模型的实验结果实验结果显示最先进的神经模型的性能远远低于人类的上限。
使用当前最先进的人工智能AI技术开发的神经网络模型的性能比人类的最佳表现要差很多。
数据集分类 NER命名实体识别
命名实体识别旨在识别各种实体包括疾病药物综合症等。选择从中国电子健康记录中标记的cEHRNER数据集和从中国社区问答中标记的cMedQANER数据集。
PI释义识别
复述识别旨在识别两个句子是否表达相同的含义。我们使用cMedQQ它由搜索查询对组成。
QNLI问题自然语言推论
问题自然语言推论旨在识别答案是否对应于问题答案对中的问题我们使用cMedQNLI它由问答对组成。
QA问题解答
可以将问题回答近似为根据其相似性对候选答案句子进行排名。我们为质量检查对分配0,1标签这将转换为二进制分类问题。我们使用论文“中医问题答案选择的多尺度注意力交互网络”中发布的
cMedQA其中包括问题及其答案。
IRInformation Retrieval
信息检索旨在根据搜索查询来检索大多数相关文档。IR可以视为一项排名任务。我们使用cMedIR数据集该数据集由具有多个文档及其相对得分的查询组成。
IC意图分类
意图分类旨在为查询分配意图标签可以将其视为多个标签分类任务。我们使用cMedIC数据集该数据集由带有三个意图标签例如无意图弱意图和坚定意图的查询组成。
TC文本分类
文本分类旨在为句子分配多个标签。我们使用cMedTC数据集该数据集由带有多个标签的生物医学文本组成。
Symptom Diagnosis症状诊断
在自然语言处理中症状诊断是一个具有挑战性但意义深远的问题。我们使用论文“通过全局注意力和症状图增强对话症状诊断”发布的CMDD数据集。
比如 dev.json 是原始数据dev.txt 是清洗后的数据。
disease(疾病)口腔溃疡、感冒、癫痫、鼻炎、三叉神经痛
symptom(症状)红肿、腰酸、神经痛、疼痛、出血
body(部位)嘴、胃肠道、关节、神经、血管
treatment(治疗方法)手术、中医、平肝泻火、降压药物、活血化瘀、消炎药
drug(药物)感冒灵颗粒、络活喜、洛汀新、阿莫西林
test(检查项)胃镜、超声、CT、抽血化验、血压
crowd(人群)小孩、儿童、女性、中老年、宝宝、婴儿
time(时间)昨天、三个月、上周三、今年5月份、三个月
physiology(生理机能)怀孕、血压、血糖、脂肪、消化
feature(特征)严重、局部、轻度、剧烈、部分
department(科室)消化科、神经外科、儿科、五官科、骨科
再比如
比如 CMDD 意图识别
病症定义病因临床表现相关病症治疗方法推荐医院预防所属科室禁忌传染性治愈率严重性药物作用适用症价钱药物禁忌用法副作用成分治疗方案方法费用有效时间临床意义/检查目的治疗时间疗效恢复时间正常指标化验/体检方案恢复其他设备用法多问养生整容两性对比无法确定
构造成本
中文医学命名实体识别数据集CMeEE
注释人员
32名注释者参与 2名医学专家4名生物医学信息领域专家6名医学博士22名计算机科学硕士生
时间与费用
注释过程持续了大约3个月2018年10月至12月附加1个月时间进行数据整理总费用约为50,000人民币
中文医学信息提取数据集CMeIE
注释人员
20名注释者参与 2名医学专家2名生物医学信息领域专家4名医学博士14名计算机科学硕士生
时间与费用
注释过程持续了大约4个月2018年10月至12月总费用约为40,000人民币
临床诊断标准化数据集CHIP-CDN
注释人员
医疗团队由益度云组成所有成员都有医学背景和临床资格证书
时间与费用
工作持续了大约2个月由内部员工完成估计总成本约为100,000人民币
临床试验标准数据集CHIP-CTC
注释人员
3名注释者 1名生物医学研究员2名生物医学信息领域的博士候选人
时间
注释工作开始于2019年7月并持续了大约1个月该工作与注释者的研究项目相关无需支付费用
语义文本相似性数据集CHIP-STS
5名本科生2周2.5万
KUAKE-查询意图分类数据集KUAKE-QIC
6名全职员工2周6600元
KUAKE-查询标题相关性数据集KUAKE-QTR
9名7名众包大学生和2名阿里巴巴全职医疗背景员工2周2.8万
KUAKE-查询查询相关性数据集KUAKE-QQR
注释费用为2.2万其他信息未详细说明