设计师做兼职的网站,海口建网站公司,wordpress分类目录层级,网站 制作 工具本来这个论文用来组会讲的#xff0c;但是冲突了#xff0c;没怎么讲#xff0c;记录一下供以后学习。
创新点
按照我的理解简单概述一下这篇论文的创新点
提出使用大模型补全知识图谱#xff0c;并且融合知识图谱的结构信息提出一个新的模型KoPA模型#xff0c;采用少…本来这个论文用来组会讲的但是冲突了没怎么讲记录一下供以后学习。
创新点
按照我的理解简单概述一下这篇论文的创新点
提出使用大模型补全知识图谱并且融合知识图谱的结构信息提出一个新的模型KoPA模型采用少量的参数进行模型的微调采用类似于In-context learning的方式实现structure-aware
常规的知识图谱补全方式
根据目前对一些模型的了解我其实也没看多少篇基于大模型的知识图谱补全论文截至到目前比较系统的接触的是这篇论文。 常规的知识图谱补全方式通过实体和关系预测确实的实体如head, relation, ?or relation, tail。通常是采用一些方式结合实体和关系来和所有的候选实体进行语义相似度进行计算如ConvE: 还有一些论文则是将三元组同时作为输入进行整个三元组进行计算出一个得分在评估的时候破坏三元组计算整个三元组的得分, 如ConvKB: 以上两种方式算是一种比较传统的方式进行排序选择正确的三元组作为结果。通常采用MR MRR HitsK作为常规的评估指标。
大模型进行知识图谱补全
以我目前对大模型结合知识图谱补全的方式我理解大模型没法像上述方式进行知识图谱补全应该是有其他的方式我没太仔细看。这篇论文我理解的是它的本质是把知识图谱补全问题转化为二分类的问题。如下图所示 其实是给予一个三元组判断这个三元组是否是正确的三元组如果是正确的三元组通过prompt回答一个Yes,否则是No.的形式进行知识图谱补全和常规的方式略有区别。 下面是截取的数据形式
{instruction: Given a triple from a knowledge graph. Each triple consists of a head entity, a relation, and a tail entity. Please determine the correctness of the triple and response True or False.,input: \nThe input triple: \n( nucleic acid nucleoside or nucleotide, affects, mental or behavioral dysfunction )\n,output: True,embedding_ids: [31,27,89]},{instruction: Given a triple from a knowledge graph. Each triple consists of a head entity, a relation, and a tail entity. Please determine the correctness of the triple and response True or False.,input: \nThe input triple: \n( nucleic acid nucleoside or nucleotide, affects, fully formed anatomical structure )\n,output: False,embedding_ids: [31,27,83]},我粗略的理解为了实现label平衡的状态负样例需要针对正样例进行破坏即可从而实现label实现样例比较均衡的状态。模型的评估指标也就是常规的二分类的评估指标。
模型讲解
常规的LLM没有充分利用知识图谱的结构信息该论文则是结合文本信息和三元组信息进行微调模型结构如下 以上就是模型的输入宏观上将输入包含两个部分结构信息和文本信息。结构信息未为Adapter进行微调类似于大模型的微调方式P-tuning。
结构信息 对于结构信息作为prefix或者Adapter则是采用常规的KGC知识图谱补全如RotatE, TransE进行预训练参数但是由于结构化嵌入的参数与大模型的输入不一致则需要进行线性变换其中 K \mathcal K K表示结构信息 P \mathcal P P则是一个线性层进行维度变换在训练的过程中 h , r , t \mathcal h, r, t h,r,t 结构化参数进行冻结只训练线性层参数。文本信息 文本信息包含三个部分 I , U , X \mathcal I, \mathcal U, \mathcal X I,U,X分别表示Instruction文本信息可选的文本信息以及三元组的描述信息其描述如下就是实体和关系的描述信息进行简单的拼接的方式。 其中 U \mathcal U U可选信息在使用的时候也是ICL信息在这里称作structure-aware。本质上就是利用头实体和尾实体相邻的三元组作为样例。三元组的形式我理解应该也是实体描述的形式然后告诉这个三元组的结果。类似一下形式 可调参数 对于该可调的参数主要是两个方面结构信息的维度变化参数对于大模型并没有采用全量参数微调而是采用一种Lora微调的方式主要的可学习参数在Lora的两个线性举证方面
实验结果
数据集统计 其实就是一个正例子一个负例子 对于常规的方式则是设置一个得分的阈值进行二分类。
消融实验 消融实现则是探究常规的KGC方式进行预训练的影响 random则是探索采用随机的嵌入方式的影响。
结论
本论文实现了大模型和知识图谱结构信息结合的论文只训练很少的参数。