CN116910272A - 基于预训练模型t5的学术知识图谱补全方法 - Google Patents
基于预训练模型t5的学术知识图谱补全方法 Download PDFInfo
- Publication number
- CN116910272A CN116910272A CN202310997295.3A CN202310997295A CN116910272A CN 116910272 A CN116910272 A CN 116910272A CN 202310997295 A CN202310997295 A CN 202310997295A CN 116910272 A CN116910272 A CN 116910272A
- Authority
- CN
- China
- Prior art keywords
- model
- knowledge graph
- training
- word segmentation
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 57
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000011218 segmentation Effects 0.000 claims abstract description 46
- 230000001427 coherent effect Effects 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims description 10
- 238000010845 search algorithm Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000013461 design Methods 0.000 abstract description 5
- 238000013135 deep learning Methods 0.000 description 7
- 238000011160 research Methods 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于预训练模型T5的学术知识图谱补全方法,针对知识图谱设计了句子模板,生成了融入实体类型信息的前缀提示,将知识图谱补全任务转换为连贯句子生成任务;可以更好的引导模型依赖预训练阶段学习到的知识进行推理,无需从头训练一个特定于学术领域的大型预训练模型,节省训练成本同时提升知识图谱补全任务精度。本发明基于预训练模型T5的学术知识图谱补全方法发明采用替换词汇表中预留词汇的方法来修改分词器,避免了模型整体从头训练,显著节约了时间成本,利用集束搜索的自回归解码方式替换传统的打分方式,极大地节约了模型的训练时间。
Description
技术领域
本发明属于知识图谱技术领域,涉及一种基于预训练模型T5的学术知识图谱补全方法。
背景技术
知识图谱本质上是一个图结构化的知识库,将真实世界的知识以结构化的三元组形式来进行表示和存储,其特有的表征能力和巨大的知识储量,能够提供高质量的结构化知识而被广泛应用于诸如机器阅读、智能问答、推荐等下游任务。然而相关数据表明大型知识图谱中一些常见的基本关系缺失严重,知识图谱的不完备性引发了学术界对知识图谱补全任务的研究。
知识图谱补全任务本质上是基于知识图谱的已有知识对缺失的知识进行推理。知识图谱从应用领域的角度可分为通用领域的知识图谱和(垂直)领域知识图谱两大类,针对通用领域知识图谱补全方法的研究趋于成熟,但直接应用于金融、医疗、学术、工业等产业领域知识图谱,性能却不尽人意。
根据是否利用附加信息可将知识图谱补全方法分为两大类:依赖结构信息的方法和依赖附加信息的方法。依赖结构信息的方法是指利用知识图谱内部事实的结构信息,这类方法可根据得分函数的特点分为基于翻译的模型和基于语义匹配的模型,前者使用基于距离的得分函数,后者使用基于语义匹配的得分函数。依赖附加信息的方法是指在知识表示学习阶段融入知识图谱内部的节点属性、实体关系相关的信息或者注入知识图谱外部知识,此类方法能更好学习到稀疏实体的表示,领域知识图谱因存在较多稀疏实体,因此更适合使用依赖附加信息的方法进行补全。
发明内容
本发明的目的是提供一种基于预训练模型T5的学术知识图谱补全方法,能够更好的引导模型依赖预训练阶段学习到的知识进行推理,无需从头训练一个特定于学术领域的大型预训练模型,节省训练成本同时提升知识图谱补全任务精度。
本发明所采用的技术方案是,基于预训练模型T5的学术知识图谱补全方法,该方法按照以下步骤实施:
步骤1:对学术领域知识图谱数据集进行处理,将知识图谱中的(头实体-关系-尾实体)三元组转换为连贯的句子作为模型输入;
步骤2:修改预训练模型T5的词汇表,加入学术领域文本分词器中的高频令牌;
步骤3:将步骤1处理后的句子经步骤2修改词汇表后的T5模型编码器进行编码;
步骤4:采用集束搜索算法缩小模型解码器的搜索空间,解码后得到待预测的实体/关系的文本并对模型输出进行打分排序;
本发明的特点还在于,
作为本发明的进一步限定,步骤1具体包括:
步骤1.1:对知识图谱数据集进行数据清洗,删除数据集中三元组存在实体或关系缺失的数据项;
骤1.2:学术知识图谱只包含少量关系类型,对每种关系可以人为设计固定的句子模板,同时加入软提示符将三元组的元素进行区分,最后将三元组按照句子模板的定义转换为连贯的语句,作为模型训练的输入和输出;比如将数据项(李沐,书的作者,动手学深度学习)转换为(动手学深度学习|的作者是|李沐);
步骤1.3:对学术知识图谱中的关系进行分析,易发现关系两侧的实体类型可直接从关系中进行推理得到,如对于数据集中“书的作者”关系两侧的实体类型分别为作者和书名,将头实体和尾实体的类型补充到原始数据项后;
步骤1.4:知识图谱补全任务可分为链接预测任务和关系预测任务,针对两个子任务,将步骤1.2处理完的连贯句子进行输入和输出的拆分;对链接预测任务将头/尾实体和关系作为输入,输出为待预测实体;对关系预测任务则将头实体和为实体一起作为输入,输出为实体间的关系;
步骤1.5:T5模型在预训练阶段使用的语料针对多个下游任务设计了不同的前缀提示,为贴合T5模型预训练任务,将步骤1.3中得到的实体类型作为前缀提示的一部分添加到步骤1.2中设计的句子模板前,对输入进行增强,如(预测作者:动手学深度学习的作者是),模型输出为(李沐);
作为本发明的进一步限定,步骤2具体包括:
步骤2.1:sciBERT模型实在学术领域文本语料下训练的大型预训练模型,对学术领域文本具有更合理的分词,分别利用sciBERT和T5的分词器对步骤1中处理后的数据集文本进行分词,统计分词结果中各令牌出现的频率;
步骤2.2:对比两个模型分词结果,统计分词结果不同的令牌的频率,按照从高到低进行排序,取频率最高的前999个令牌替换T5模型词汇表中预留的令牌,将这些令牌的权重随机初始化,在保留现有模型能力情况下训练新令牌的嵌入表示;
作为本发明的进一步限定,步骤3具体包括:
步骤3.1:将步骤1处理得到连贯句子通过T5分词器进行分词处理;
步骤3.2:将分词后的令牌序列通过编码器进行编码,得到[x1,x2,x3,...,xn];
步骤3.3:将编码后的输入经带有预训练权重的T5模型得到句子的嵌入表示[y1,y2,y3,...,yn];
作为本发明的进一步限定,步骤4具体包括:
步骤4.1:解码器中选择使用集束搜索算法来进行解码,将集束搜索算法中的集束宽度N设置为3,集束搜索算法对待预测词汇的对数概率进行计算,计算方法为:
p(e)=max{logp(e1|F),logp(e2|F),logp(e3|F)},e∈c
其中,c为分词器中包含的所有令牌的集合;e1、e2、e3分别对数概率最高的三个令牌;F是模型预测输出的正确概率;
步骤4.2:通过自回归解码的方式来计算预测输出的得分,最后按照得分从高到低进行排序得到预测结果,得分计算公式为:
x为模型的输入序列;y代表模型的预测输出序列;zi代表第i个令牌;
步骤4.3:训练过程采用标准的序列到序列模型目标函数 进行优化;
本发明步骤1的固定模板设计是针对学术领域知识图谱进行设计,融入了学术领域中存在的实体类型信息,以提示工程的形式进行设计;本发明针对学术领域设计了两种类型的提示并进行对比,两种提示分别是前缀提示和完型提示,在学术领域知识图谱补全任务中均能取得一定提升,对比结果表示学术领域更适合前缀提示模板;
步骤2中修改分词器为保持预训练模型原有能力,只是替换词汇表中预留的令牌,随机初始化后在领域文本上继续训练,能够避免模型完全从头训练的问题;
步骤3中将三元组转为连贯的句子输入,步骤4利用自回归解码的方式来得到模型输出,将链接预测任务转化为了文本生成任务;
步骤4中采用了集束搜索算法,替换了模型原有的贪婪搜索算法,能够减少搜索范围并且减少空间的消耗,同时还能提高解码效率.
本发明的有益效果是:
1、本发明基于预训练模型T5的学术知识图谱补全方法发明采用替换词汇表中预留词汇的方法来修改分词器,避免了模型整体从头训练,显著节约了时间成本,利用集束搜索的自回归解码方式替换传统的打分方式,极大地节约了模型的训练时间。
2、针对知识图谱设计了句子模板,生成了融入实体类型信息的前缀提示,将知识图谱补全任务转换为文本生成任务;可以更好的引导模型依赖预训练阶段学习到的知识进行推理,无需从头训练一个特定于学术领域的大型预训练模型,节省训练成本同时提升知识图谱补全任务精度。
3、采用提示工程的手段融入实体类型信息来对模型输入进行增强,显著提升了学术领域知识图谱上链接预测任务的精度,在三个学术领域数据集上进行实验,尤其是Hits@1和Hits@3两个指标上有显著提升。
附图说明
图1是本发明的基于预训练模型的学术领域知识图谱补全方法的框架示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例1
图1为本发明基于预训练模型的学术领域知识图谱补全方法的框架示意图;本方法的主体架构主要分为三个部分:数据预处理、编码-解码模块、知识图谱补全任务应用。整体上看,数据预处理是方法的核心部分,主要包括两个步骤,一是分析每种关系对应的实体类型,为数据集中的每一种关系设计句子模板,构造带有实体信息的前缀提示,二是将用于链接预测的三元组转为连贯的句子,加入设计的前缀提示和软提示符形成模型输入;编码-解码部分主要完成两部分工作,修改分词器和更换解码的搜索算法;知识图谱补全任务应用部分主要对链接预测和关系预测两个子任务进行评估;方法整体结果的设计如图1所示:
模块一:数据预处理部分,方法的核心部分,主要完成工作分为两部分:关系固定模版设计和输入处理。T5模型对预训练阶段用到的大规模语料进行了特定处理,针对不同下游任务设计了不同的前缀提示,为贴合T5模型预训练任务,本发明针对学术领域知识图谱补全的链接预测和关系预测子任务设计了前缀提示;
学术知识图谱数据集包含的关系种类、实体类型十分有限,实体类型对可以很容易作为附加信息融入到前缀提示中来增强输入,以KG20C数据集为例,本发明针对数据集中的5种关系设计了融入实体类型信息的前缀提示。针对链接/关系预测任务对输入进行处理,除了将固定模板中的前缀提示加入,方法中还加入了特殊软提示符对三元组的实体和关系进行分割,然后将三元组输入转为连贯句子作为输入。
模块二:编码-解码部分,本发明利用谷歌模型T5的编码器-解码器的结构来完成知识图谱补全任务,方法中并没有对GoogleT5模型的结构做出调整,而是利用预训练模型T5在学术知识图谱数据集上进行微调,针对性地设计合理的输入来更好地利用模型在预训练阶段学习到的知识。本模块主要完成工作可分为两点:修改分词器和解码策略选择。
SciBERT模型在大型科学文本语料上训练了一个分词表,与通用领域下的词汇表差异高达42%,证明针对科学文本与通用领域文本的用词频率有很大不同。在保留现有模型能力的情况下训练新词汇的嵌入表示,本发明利用sciBERT提供的科学词汇分词表来对分词器进行修改,统计分词结果中出现频率高且不在T5模型词汇表中的词汇,选择出现频率最高999个词来替换T5模型词汇表中预留的999个令牌,这种修改分词器的方法无需对词汇表的大小进行修改,但能获得更适合科学文本的分词效果;
T5模型采用自回归解码的方式取代了主流方法中对所有三元组进行打分的负采样方式,本发明采取集束搜索算法来进行解码,替换了T5模型中的贪婪算法。利用搜索算法进行采样的自回归解码方式用于较大规模的知识图谱补全任务能够减少搜索范围,显著减少空间的消耗并提高时间效率;
模块三:候选实体/关系打分排序部分,本发明采用了生成类的大语言模型进行下游任务的微调,利用自回归解码方式直接生成预测实体,无需针对任务设计特定的得分函数,而是基于生成内容对应的概率分布为候选实体/关系分配一个分数,同时给未见过的内容分配一个负无穷大的分数。最后按照分数进行降序排列,得到得分最高的k个值作为预测输出,同时计算任务的评价指标。
实施例2
本发明的基于预训练模型T5的学术知识图谱补全方法,通过向词汇表中增加专业名词以及设计句子模板的方式来提升模型性能,具体按照以下步骤实施:
步骤1:对学术领域知识图谱数据集中的三元组进行数据清洗,将知识图谱中的三元组转换为特定的模型输入;所述三元组包括头实体、关系、尾实体;
步骤1.1:对知识图谱数据集进行数据清洗,删除数据集中三元组存在实体或关系缺失的数据项;方法中用到的学术知识图谱数据集包含了三个不同的数据集,包括论文及作者数据、医学文本数据以及科学文本数据,由于数据集的来源不同,数据集中除了实体和关系之外,还存在实体类型、实体描述等额外的信息;
步骤1.2:学术知识图谱只包含少量关系类型,对每一种关系设计一个句子模板,该模板用于将三元组转换为连贯句子,在句子模板中加入软提示符[SP]对三元组的头实体、关系和尾实体的字符进行分隔,最后将三元组转换为连贯句子;比如对于关系“作者是”设计句子模板为:
[SP]h[SP]r[SP]t
其中,[SP]为软提示符;h和r为头实体和尾实体;r代表实体间关系;三元组(动手学深度学习,作者是,李沐)可转换为:[SP]动手学深度学习[SP]作者是[SP]李沐;
步骤1.3:对学术知识图谱中的关系进行分析,将头实体和尾实体的类型补充到原始数据项,学术知识图谱中主要包括的实体类型有论文、作者、机构等;
步骤1.4:知识图谱补全任务可分为链接预测任务和关系预测任务,针对两个子任务,将步骤1.2处理完的连贯句子进行输入和输出的拆分;对链接预测任务将头/尾实体和关系作为输入,输出为待预测实体;对关系预测任务则将头实体和尾实体一起作为输入,输出为实体间的关系;
步骤1.5:T5模型在预训练阶段使用的语料针对多个下游任务设计了不同的前缀提示,为贴合T5模型预训练任务,将步骤1.3中得到的实体类型作为前缀提示的一部分添加到步骤1.2中设计的句子模板前,对输入进行增强。针对链接预测任务,前缀提示则分别融入了待预测实体的类型,比如“预测书名”或“预测作者所在机构”,最后的输入模板为“预测书名:[SP]头实体/尾实体[SP]关系[SP]",其中[SP]为软提示符,“预测书名”为融入实体类型的前缀提示,以这种输入模式对预训练好的模型进行引导;针对关系预测任务,统一前缀提示为“预测关系”;对于训练集中的一个三元组转换后的会得到两条训练数据:
模型输入1:“预测作者:[SP]动手学深度学习[SP]作者是[SP]";
模型输入2:“预测书名:[SP]李沐[SP]作者是[SP]";
模型预期输出1:“李沐”;
模型预期输出2:“动手学深度学习”;
步骤2:修改T5模型预训练的词汇表,加入学术领域文本分词器中的高频令牌;
步骤2.1:利用sciBERT模型分词器对步骤1处理得到的句子进行分词,统计分词结果中各令牌出现频率;
步骤2.2:利用T5模型分词器对步骤1处理得到的句子进行分词,统计分词结果中各令牌出现频率;
步骤2.3:对比两个模型分词结果,统计分词结果不同的令牌的频率,按照从高到低进行排序,取频率最高的前999个令牌替换T5词汇表中预留的令牌,将这些令牌的权重随机初始化,在保留现有模型能力情况下训练这些高频令牌的嵌入表示。
步骤3:将步骤1处理后的文本经步骤2修改词汇表后的T5模型编码器进行编码;
步骤3.1:将步骤1处理得到句子通过T5模型的分词器进行分词处理;
步骤3.2:将分词后的令牌序列通过编码器进行编码,得到[x1,x2,x3,...,xn];
步骤3.3:将编码后的输入经带有预训练权重的T5模型得到句子的嵌入表示[y1,y2,y3,...,yn]。
步骤4:采用集束搜索算法缩小模型解码器的搜索空间,解码后得到待预测的实体/关系的文本并对模型输出进行打分排序;
步骤4.1:解码器中选择使用集束搜索算法来进行解码,将集束搜索算法中的集束宽度N设置为3,集束搜索算法对待预测词汇e的概率进行计算,计算方法为:
p(e)=max{logp(e1|F),logp(e2|F),logp(e3|F)},e∈c
其中,c为分词器中包含的所有令牌的集合;e1、e2、e3分别对数概率最高的三个令牌;F是模型预测输出的正确概率;
步骤4.2:通过自回归解码的方式来计算预测输出的得分,最后按照得分从高到低进行排序得到预测结果,得分计算公式为:
x为模型的输入序列;y代表模型的预测输出序列;zi代表第i个令牌;c为分词器中包含的所有令牌集合;
步骤4.3:训练过程采用标准的序列到序列模型目标函数 进行优化。
实施例3
为了证明本发明学术领域知识图谱补全方法的有效性,分别在三个公开的学术知识图谱数据集上进行了实验,我们与其他当前较为流行的知识图谱补全方法进行了比较:Yao等人的研究(Yao,L.,Mao,C.,&Luo,Y..(2019).Kg-bert:bert for knowledge graphcompletion),Jaradeh等人的研究(Jaradeh M Y,Singh K,Stocker M,et al.TripleClassification for Scholarly Knowledge Graph Completion),以及Saxena等人的研究(Saxena A,Kochsiek A,Gemulla R.Sequence-to-Sequence Knowledge GraphCompletion and Question Answering);方法采取的评价指标为关系/链接预测任务常用的Hits@k,其中Hits@k代表前k个结果的命中概率,k值选取1、3、10,Hits@k的计算方式为:
式中S代表所有三元组的集合,ranki代表第i个三元组的排名,是指示函数,若条件真则函数值为1,否则为0。这三个指标在数据集上均有提升,最低分别是0.089、0.021、0.032,由此可以发现模型针对学术领域的知识图谱补全的效果有一定提升,这是由于本发明的方法针对学术领域的文本特点融入了具有实体类型的前缀提示,能够更好地引导模型的训练和推理。
Claims (6)
1.基于预训练模型T5的学术知识图谱补全方法,其特征在于,该方法按照以下步骤实施,
步骤1:对学术领域知识图谱数据集中的三元组进行数据清洗,将三元组转换为连贯句子作为模型输入;所述三元组包括头实体、关系、尾实体;
步骤2:修改T5模型预训练词汇表,在词汇表中加入在科学文本语料上训练得到的sciBERT分词器中的高频令牌;
步骤3:将步骤1处理后的连贯句子经步骤2修改词汇表后的T5模型进行编码;
步骤4:采用集束搜索算法缩小T5模型解码器的搜索空间,解码后得到待预测的实体/关系的文本并对模型输出进行打分排序。
2.根据权利要求1所述的基于预训练模型T5的学术知识图谱补全方法,其特征在于,步骤1具体如下:
步骤1.1:对知识图谱数据集进行数据清洗,删除数据集中三元组存在实体或关系缺失的数据项;
步骤1.2:学术知识图谱只包含少量关系类型,对每一种关系设计一个固定的句子模板,该模板用于将三元组转换为连贯句子,在句子模板中加入软提示符对三元组的头实体、关系和尾实体的字符进行区分,最后将三元组转换为连贯句子;
步骤1.3:对学术知识图谱中的关系进行分析,将头实体和尾实体的类型补充到原始数据项,学术知识图谱中主要包括的实体类型有论文、作者、机构;
步骤1.4:知识图谱补全任务可分为链接预测任务和关系预测任务,针对两个子任务,将步骤1.2处理完的连贯句子进行输入和输出的拆分;对链接预测任务将头/尾实体和关系作为输入,输出为待预测实体;对关系预测任务则将头实体和尾实体一起作为输入,输出为实体间的关系;
步骤1.5:将步骤1.3中得到的实体类型作为前缀提示的一部分添加到步骤1.2中设计的句子模板前,对输入进行增强。
3.根据权利要求2所述的基于预训练模型T5的学术知识图谱补全方法,其特征在于,步骤2修改T5模型词汇表的方法具体如下:
步骤2.1:利用sciBERT模型分词器对步骤1处理得到的句子进行分词,统计分词结果中各令牌出现频率;
步骤2.2:利用T5模型分词器对步骤1处理得到的句子进行分词,统计分词结果中各令牌出现频率;
步骤2.3:对比两个模型分词结果,统计分词结果不同的令牌的频率,按照从高到低进行排序,取频率最高的前999个令牌替换T5词汇表中预留的令牌,将这些令牌的权重随机初始化,在保留现有模型能力情况下训练这些高频令牌的嵌入表示。
4.根据权利要求3所述的基于预训练模型T5的学术知识图谱补全方法,其特征在于,步骤3具体如下:
步骤3.1:将步骤1处理得到连贯句子通过T5模型的分词器进行分词处理;
步骤3.2:将分词后的令牌序列通过编码器进行编码,得到[x1,x2,x3,...,xn];
步骤3.3:将编码后的令牌序列输入经带有预训练权重的T5模型得到句子的嵌入表示[y1,y2,y3,...,yn]。
5.根据权利要求4所述的基于预训练模型T5的学术知识图谱补全方法,其特征在于,步骤4具体如下:
步骤4.1:解码器中选择使用集束搜索算法来进行解码,将集束搜索算法中的集束宽度N设置为3,集束搜索算法对待预测词汇e的概率进行计算,计算方法为:
p(e)=max{logp(e1|F),logp(e2|F),logp(e3|F)},e∈c
其中,c为分词器中包含的所有令牌的集合;e1、e2、e3分别对数概率最高的三个令牌;F是模型预测输出的正确概率;
步骤4.2:通过自回归解码的方式来计算预测输出的得分,最后按照得分从高到低进行排序得到预测结果,得分计算公式为:
x为模型的输入序列;y代表模型的预测输出序列;zi代表第i个令牌;c为分词器中包含的所有令牌集合;
步骤4.3:训练过程采用标准的序列到序列模型目标函数 进行优化。
6.根据权利要求2所述的基于预训练模型T5的学术知识图谱补全方法,其特征在于,所述句子模板融入了实体类型信息的前缀提示,具体如下:
[SP]h[SP]r[SP]t
其中,[SP]为软提示符;h和r为头实体和尾实体;r代表实体间关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310997295.3A CN116910272B (zh) | 2023-08-09 | 2023-08-09 | 基于预训练模型t5的学术知识图谱补全方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310997295.3A CN116910272B (zh) | 2023-08-09 | 2023-08-09 | 基于预训练模型t5的学术知识图谱补全方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116910272A true CN116910272A (zh) | 2023-10-20 |
CN116910272B CN116910272B (zh) | 2024-03-01 |
Family
ID=88362978
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310997295.3A Active CN116910272B (zh) | 2023-08-09 | 2023-08-09 | 基于预训练模型t5的学术知识图谱补全方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116910272B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117474084A (zh) * | 2023-12-25 | 2024-01-30 | 淘宝(中国)软件有限公司 | 预训练模型与下游序列任务双向迭代方法、设备及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022057669A1 (zh) * | 2020-09-16 | 2022-03-24 | 浙江大学 | 基于结构化上下文信息的知识图谱预训练方法 |
CN114610900A (zh) * | 2022-03-14 | 2022-06-10 | 上海交通大学 | 知识图谱补全方法及*** |
CN114881014A (zh) * | 2022-04-21 | 2022-08-09 | 上海携旅信息技术有限公司 | 实体别名关系获取方法、训练方法、装置及存储介质 |
CN114936287A (zh) * | 2022-01-30 | 2022-08-23 | 阿里云计算有限公司 | 预训练语言模型的知识注入方法和相应的交互*** |
CN115048447A (zh) * | 2022-06-27 | 2022-09-13 | 华中科技大学 | 一种基于智能语义补全的数据库自然语言接口*** |
CN115525773A (zh) * | 2022-10-10 | 2022-12-27 | 北京智源人工智能研究院 | 知识图谱补全模型的训练方法和装置 |
US20230012063A1 (en) * | 2021-07-07 | 2023-01-12 | International Business Machines Corporation | Non-factoid question answering across tasks and domains |
-
2023
- 2023-08-09 CN CN202310997295.3A patent/CN116910272B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022057669A1 (zh) * | 2020-09-16 | 2022-03-24 | 浙江大学 | 基于结构化上下文信息的知识图谱预训练方法 |
US20230012063A1 (en) * | 2021-07-07 | 2023-01-12 | International Business Machines Corporation | Non-factoid question answering across tasks and domains |
CN114936287A (zh) * | 2022-01-30 | 2022-08-23 | 阿里云计算有限公司 | 预训练语言模型的知识注入方法和相应的交互*** |
CN114610900A (zh) * | 2022-03-14 | 2022-06-10 | 上海交通大学 | 知识图谱补全方法及*** |
CN114881014A (zh) * | 2022-04-21 | 2022-08-09 | 上海携旅信息技术有限公司 | 实体别名关系获取方法、训练方法、装置及存储介质 |
CN115048447A (zh) * | 2022-06-27 | 2022-09-13 | 华中科技大学 | 一种基于智能语义补全的数据库自然语言接口*** |
CN115525773A (zh) * | 2022-10-10 | 2022-12-27 | 北京智源人工智能研究院 | 知识图谱补全模型的训练方法和装置 |
Non-Patent Citations (3)
Title |
---|
张贞港 等: "基于实体与关系融合的知识图谱补全模型研究", 《 数据分析与知识发现》, 28 March 2023 (2023-03-28), pages 1 - 3 * |
易诗玮: "基于改进BERT的知识图谱问答研究", 《计算机科学与应用》, 31 December 2020 (2020-12-31), pages 1 - 3 * |
袁佳乐: "基于信息抽取的机场应急救援预案知识图谱设计与实现", 《中国优秀硕士学位论文全文数据库》, 15 July 2022 (2022-07-15), pages 1 - 4 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117474084A (zh) * | 2023-12-25 | 2024-01-30 | 淘宝(中国)软件有限公司 | 预训练模型与下游序列任务双向迭代方法、设备及介质 |
CN117474084B (zh) * | 2023-12-25 | 2024-05-03 | 淘宝(中国)软件有限公司 | 预训练模型与下游序列任务双向迭代方法、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116910272B (zh) | 2024-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116166782A (zh) | 一种基于深度学习的智能问答方法 | |
CN111858932A (zh) | 基于Transformer的多重特征中英文情感分类方法及*** | |
CN114757182A (zh) | 一种改进训练方式的bert短文本情感分析方法 | |
CN112905736B (zh) | 一种基于量子理论的无监督文本情感分析方法 | |
CN113032541B (zh) | 一种基于bert并融合句群检索的答案抽取方法 | |
CN116910272B (zh) | 基于预训练模型t5的学术知识图谱补全方法 | |
CN112364132A (zh) | 基于依存句法的相似度计算模型和***及搭建***的方法 | |
CN111428104A (zh) | 基于观点型阅读理解的癫痫病辅助医疗智能问答方法 | |
CN112214989A (zh) | 一种基于bert的汉语句子简化方法 | |
CN111339772B (zh) | 俄语文本情感分析方法、电子设备和存储介质 | |
CN114757184B (zh) | 实现航空领域知识问答的方法和*** | |
CN112925918A (zh) | 一种基于疾病领域知识图谱的问答匹配*** | |
CN116522945A (zh) | 一种食品安全领域中命名实体的识别模型和方法 | |
CN116010553A (zh) | 一种基于双路编码和精确匹配信号的观点检索*** | |
CN116611448A (zh) | 基于提示学习与掩码语言模型的情感文本生成方法及装置 | |
CN115759119A (zh) | 一种金融文本情感分析方法、***、介质和设备 | |
CN115858750A (zh) | 基于自然语言处理的电网技术标准智能问答方法及*** | |
CN114064901B (zh) | 一种基于知识图谱词义消歧的书评文本分类方法 | |
CN115905487A (zh) | 文档问答方法、***、电子设备及存储介质 | |
CN105045410B (zh) | 一种形式化拼音和汉字对应识别的方法 | |
CN116522165B (zh) | 一种基于孪生结构的舆情文本匹配***及方法 | |
CN115630140A (zh) | 一种基于文本特征融合的英语阅读材料难度判断的方法 | |
CN114972907A (zh) | 基于强化学习和对比学习的图像语义理解及文本生成 | |
CN115310433A (zh) | 一种针对中文文本校对的数据增强方法 | |
CN115238705A (zh) | 语义解析结果重排序方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |