CN112818138A - 知识图谱本体构建方法、装置、终端设备及可读存储介质 - Google Patents
知识图谱本体构建方法、装置、终端设备及可读存储介质 Download PDFInfo
- Publication number
- CN112818138A CN112818138A CN202110419343.1A CN202110419343A CN112818138A CN 112818138 A CN112818138 A CN 112818138A CN 202110419343 A CN202110419343 A CN 202110419343A CN 112818138 A CN112818138 A CN 112818138A
- Authority
- CN
- China
- Prior art keywords
- target
- predicate
- subject
- field
- knowledge graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请适用于计算机技术领域,提供了一种知识图谱本体构建方法、装置、终端设备及可读存储介质。知识图谱本体构建方法包括:获取目标领域的语料;将所述目标领域的语料输入目标实体抽取模型,输出目标主谓宾实体,其中,所述目标实体抽取模型是基于通用领域的三元组主谓宾语料训练得到,所述通用领域是指与目标领域不同的领域;根据所述目标主谓宾实体构建知识图谱本体。本申请提供的知识图谱本体构建方法构建知识图谱本体及知识图谱的效率高。
Description
技术领域
本申请属于计算机技术领域,尤其涉及一种知识图谱本体构建方法、装置、终端设备及可读存储介质。
背景技术
行业知识图谱构建是非常复杂的***工程,其中最重要的环节是该行业的知识图谱本体构建和知识图谱提纲(Schema)设计,这关系到知识抽取和关系抽取,且知识图谱本体构建和知识图谱提纲设计也是行业知识图谱应用的重要信息结构依托。
传统技术中,行业知识图谱构建是由专业领域的专家根据经验构造出一个知识图谱的提纲,之后在实践过程通过人工标注语料,基于标注的语料构建知识图谱本体,最终实现行业知识图谱的构建。
然而,通过人工构建行业知识图谱,存在效率低下的问题。
发明内容
本申请提供一种知识图谱本体构建方法、装置、终端设备及可读存储介质质,可以解决知识图谱构建效率低下的问题。
第一方面,本申请实施例提供了一种知识图谱本体构建方法,包括:
获取目标领域的语料;
将所述目标领域的语料输入目标实体抽取模型,输出目标主谓宾实体,其中,所述目标实体抽取模型是基于通用领域的三元组主谓宾语料训练得到,所述通用领域是指与目标领域不同的领域;
根据所述目标主谓宾实体构建知识图谱本体。
在其中一个实施例中,基于所述通用领域的三元组主谓宾语料训练得到所述目标实体抽取模型,包括:
将主语、谓语和宾语作为实体,对所述通用领域的语料的实体类型进行标注,得到主谓宾类型标注语料;
对所述主谓宾类型标注语料进行序列标注,得到序列标注语料;
基于所述序列标注语料,对预先建立的实体抽取模型进行训练,得到所述目标实体抽取模型。
在其中一个实施例中,所述目标实体抽取模型为基于转换器的双向编码表征、双向长短期记忆网络和条件随机场算法的模型。
在其中一个实施例中,所述目标主谓宾实体包括目标主语、目标谓语和目标宾语,所述根据所述目标主谓宾实体构建知识图谱本体,包括:
对所述目标主语和所述目标谓语进行统计分割,得到主谓组合;
对所述目标谓语和所述目标宾语进行统计分割,得到谓宾组合;
将所述主谓组合和所述谓宾组合进行交叉组合,得到所述知识图谱本体。
在其中一个实施例中,所述对所述目标主语和所述目标谓语进行统计分割,得到主谓组合,包括:
对所述目标主语和所述目标谓语进行共现统计,得到多个主谓共现矩阵,每个所述主谓共现矩阵对应不同的主语类型;
从所述多个主谓共现矩阵中筛选出满足第一组合条件的目标主谓共现矩阵;
将所述目标主谓共现矩阵对应的主语类型和谓语类型进行组合,得到所述主谓组合。
在其中一个实施例中,所述对所述目标主语和所述目标谓语进行共现统计,得到多个主谓共现矩阵,包括:
建立多个二维统计矩阵,每个所述二维统计矩阵包括主语列和谓语列,其中,不同的二维统计矩阵的主语列对应的主语类型不同;
确定每个所述目标主语的类型,并向与所述目标主语的类型一致的主语列计数加1;
确定每个所述目标谓语的类型,并向所述谓语列计数加1,得到所述多个主谓共现矩阵。
在其中一个实施例中,所述方法还包括:
根据所述知识图谱本体构建所述目标领域的知识图谱。
第二方面,本申请实施例提供了一种知识图谱本体构建装置,包括:
获取模块,用于获取目标领域的语料;
抽取模块,用于将所述目标领域的语料输入目标实体抽取模型,输出目标主谓宾实体,其中,所述实体抽取模型是基于通用领域的三元组语料训练得到,所述通用领域是指与目标领域不同的领域;
构建模块,用于根据所述目标主谓宾实体构建知识图谱本体。
第三方面,本申请实施例提供了一种终端设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面中任一项所述的知识图谱本体构建方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一项所述的知识图谱本体构建方法。
本申请提供的一种知识图谱本体构建方法、装置、终端设备及可读存储介质,通过获取目标领域的语料,将目标领域的语料输入目标实体抽取模型,输出目标主谓宾实体,根据目标主谓宾实体构建知识图谱本体。本实施例提供的方法能够实现目标领域知识图谱本体的自动构建,无需人工构建,不仅提高了知识图谱本体构建的效率,而且提高了知识图谱本体构建的准确性。同时,目标实体抽取模型是基于通用领域的三元组主谓宾语料训练得到,通用领域与目标领域不同,通用领域可以选用较容易进行语料标注的领域,或者以实现语料标注的成熟领域,即,通用领域的语料标注较容易实现。通过通用领域的三元组主谓宾语料训练得到的目标实体抽取模型能够从目标领域的语料中抽取出三元组主谓宾实体,通过迁移学习的方式解决了目标领域存在的语料标准困难的问题,方便了目标领域知识图谱本体及知识图谱的构建。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的知识图谱本体构建方法所适用于的终端结构示意图;
图2是本申请一实施例提供的知识图谱本体构建方法的流程示意图;
图3是本申请另一实施例提供的知识图谱本体构建方法的流程示意图;
图4是本申请又一实施例提供的知识图谱本体构建方法的流程示意图;
图5是本申请一实施例提供的知识图谱本体构建装置的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
可以理解,本申请实施例中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
可以理解,本申请所使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本申请实施例提供的知识图谱本体构建方法,可以应用于终端设备。示例性的,图1为本申请一实施例提供的终端设备的结构示意图。如图1所示,终端设备可以包括:处理器10、存储器11以及存储在存储器11中并可在处理器10上运行的计算机程序12,处理器10执行计算机程序12时可以实现本申请实施例提供的知识图谱本体构建方法。其中,本申请实施例对处理器10、存储器11的数量和类型不做限定。
其中,本申请实施例对终端设备1的类型不做限定。例如,可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。
下面将结合附图,对本申请中的技术方案进行详细描述。需要说明,在不冲突的情况下,本申请中不同的技术特征之间可以相互结合。
图2示出了本申请提供的知识图谱本体构建方法的示意性流程图。如图2所示,本实施例提供的知识图谱本体构建方法,可以包括:
S201、获取目标领域的语料。
目标领域是指待构建知识图谱本体的领域。目标领域可以为专业领域。专业领域相较于普通领域而言,其语料标注较为困难,知识图谱本体及知识图谱的构建难度较大。目标领域的语料是指待构建知识图谱本体的领域的相关语料。目标领域的语料可以预先存储于存储器,也可以从服务器等获取。
S202、将目标领域的语料输入目标实体抽取模型,输出目标主谓宾实体,其中,目标实体抽取模型是基于通用领域的三元组主谓宾语料训练得到,通用领域是指与目标领域不同的领域。
可选的,通用领域可以为语料标注较为容易的普通领域,或者已经存在标注完成的语料的普通领域。基于通用领域的三元组主谓宾语料训练得到目标实体抽取模型,该目标实体抽取模型具备主谓宾(SPO)实体抽取和识别能力。将目标领域的语料输入该目标实体抽取模型,输出目标领域的语料中所包含的主谓宾实体,得到目标主谓宾实体。目标主谓宾实体的数量可以为多个,可选的,多个目标主谓宾实体可以通过三元组主谓宾列表的方式呈现和保存。
需要说明的是,本申请对于目标实体抽取模型的具体结构,以及目标实体抽取模型的训练过程不做任何限定,只要能够实现其功能即可。
S203、根据目标主谓宾实体构建知识图谱本体。
基于步骤S202抽取得到的目标主谓宾实体,进一步建立所需的知识图谱本体。
本实施例中,通过获取目标领域的语料,将目标领域的语料输入目标实体抽取模型,输出目标主谓宾实体,根据目标主谓宾实体构建知识图谱本体。本实施例提供的方法能够实现目标领域知识图谱本体的自动构建,无需人工构建,不仅提高了知识图谱本体构建的效率,而且提高了知识图谱本体构建的准确性。同时,目标实体抽取模型是基于通用领域的三元组主谓宾语料训练得到,通用领域与目标领域不同,通用领域可以选用较容易进行语料标注的领域,或者以实现语料标注的成熟领域,即,通用领域的语料标注较容易实现。通过通用领域的三元组主谓宾语料训练得到的目标实体抽取模型能够从目标领域的语料中抽取出三元组主谓宾实体,通过迁移学习的方式解决了目标领域存在的语料标准困难的问题,方便了目标领域知识图谱本体及知识图谱的构建。
图3为一个实施例中,训练得到目标实体抽取模型的一种可能的实现方式,如图3所示,基于通用领域的三元组主谓宾语料训练得到目标实体抽取模型,包括:
S301、将主语、谓语和宾语作为实体,对通用领域的语料的实体类型进行标注,得到主谓宾类型标注语料。
可选的,主谓宾类型标注语料可以以列表等形式呈现和保存。例如,对某一通用领域的语料实体类型标注形成的列表为T={S1,S2,…,SM,P,O1,O2,…,ON}。其中,M是主语实体S的类型总数量,P是谓语实体类型,N是宾语实体O的实体类型总数量。则,通用领域的语料实体类型的数量为M+1+N。
S302、对主谓宾类型标注语料进行序列标注,得到序列标注语料。
具体的,对主谓宾类型标注语料进行主谓宾序列标注,标注主语、谓语和宾语在通用领域的语料中出现的位置及类型,得到通用三元组主谓宾序列标注语料,简称为序列标注语料。
S303、基于序列标注语料,对预先建立的实体抽取模型进行训练,得到目标实体抽取模型。
可选的,实体抽取模型可以为为基于变换的双向编码表征(BidirectionalEncoder Representation from Transformers,BERT)、双向长短记忆网络(BidirectionalLong Short-Term Memory,BiLSTM)和条件随机场(Conditional Random Field,CRF)算法的模型,即BERT-BiLSTM-CRF模型。相应的,得到的目标实体抽取模型也为BERT-BiLSTM-CRF模型。
本实施例中,通过将主语、谓语和宾语作为实体,对通用领域的语料的实体类型进行标注,得到主谓宾类型标注语料,对主谓宾类型标注语料进行序列标注,得到序列标注语料,基于序列标注语料,对预先建立的实体抽取模型进行训练,得到目标实体抽取模型。目标实体抽取模型能够从目标领域的语料中抽取出三元组主谓宾实体,通过迁移学习的方式解决了目标领域存在的语料标准困难的问题,方便了目标领域知识图谱本体及知识图谱的构建。
图4为一个实施例中,目标主谓宾实体包括目标主语、目标谓语和目标宾语。其中,目标主语是指从目标领域的语料中抽取得到的主语,目标谓语是指从目标领域的语料中抽取得到的谓语,目标宾语是指从目标领域的语料中抽取得到的宾语。如图4所示,在一个实施例中,S203包括:
S401、对目标主语和目标谓语进行统计分割,得到主谓组合(SP组合)。
作为一种实现方式,可以通过以下方式对目标主语和目标谓语进行统计分割:对目标主语和目标谓语进行共现统计,得到多个主谓共现矩阵L1,每个主谓共现矩阵L1对应不同的主语类型;从多个主谓共现矩阵L1中筛选出满足第一组合条件的目标主谓共现矩阵;将目标主谓共现矩阵对应的主语类型和谓语类型进行组合,得到主谓组合。
可选的,第一组合条件可以为大于第一分割阈值T1,即,从多个主谓共现矩阵L1中筛选出大于第一分割阈值T1主谓共现矩阵,得到目标主谓共现矩阵。
可选的,对目标主语和目标谓语进行共现统计,得到多个主谓共现矩阵L1,可以通过以下方式实现:建立多个二维统计矩阵,每个二维统计矩阵包括主语列和谓语列,其中,不同的二维统计矩阵的主语列对应的主语类型不同;确定每个目标主语的类型,并向与目标主语的类型一致的主语列计数加1;确定每个目标谓语的类型,并向谓语列计数加1,得到多个主谓共现矩阵L1。
S402、对目标谓语和目标宾语进行统计分割,得到谓宾组合(PO组合)。
作为一种实现方式,可以通过以下方式对目标谓语和目标宾语进行统计分割:对目标谓语和目标宾语进行共现统计,得到多个谓宾共现矩阵L2,每个谓宾共现矩阵L2对应不同的宾语类型;从多个谓宾共现矩阵L2中筛选出满足第二组合条件的目标谓宾共现矩阵;将目标谓宾共现矩阵对应的宾语类型和谓语类型进行组合,得到谓宾组合。
可选的,第二组合条件可以为大于第二分割阈值T2,即,从多个谓宾共现矩阵L2中筛选出大于第二分割阈值T2的谓宾共现矩阵,得到目标谓宾共现矩阵。
可选的,对目标谓语和目标宾语进行共现统计,得到多个谓宾共现矩阵L2,可以通过以下方式实现:建立多个二维统计矩阵,每个二维统计矩阵包括谓语列和宾语列,其中,不同的二维统计矩阵的宾语列对应的宾语类型不同;确定每个目标宾语的类型,并向与目标宾语的类型一致的宾语列计数加1;确定每个目标谓语的类型,并向谓语列计数加1,得到多个谓宾共现矩阵L2。
S403、将主谓组合和谓宾组合进行交叉组合,得到知识图谱本体。
本实施例中,通过共现统计的方式实现知识图谱本体的动态建模,提高了知识图谱本体构建的智能性,提高了构建效率和准确性。
在一个实施例中,所述方法还进一步包括:
根据知识图谱本体构建目标领域的知识图谱。
本实施例中,对于根据知识图谱本体构建目标领域的知识图谱的具体方法不做任何限定。可选的,上述构建的知识图谱本体方法可以与跨语言行业知识图谱构建平台相结合,针对语料稀缺领域,实现行业知识图谱的建模,进而实现行业知识图谱的快速搭建和快速迭代更新。
以下对知识图谱本体构建方法的整体过程进行说明,该方法可以包括:
1)将主语、谓语和宾语作为实体,对通用领域的语料的实体类型进行标注,得到主谓宾类型标注语料;
2)对主谓宾类型标注语料进行序列标注,得到序列标注语料;
3)基于序列标注语料,对预先建立的实体抽取模型进行训练,得到目标实体抽取模型;
4)获取目标领域的语料;
5)将目标领域的语料输入目标实体抽取模型,输出目标主谓宾实体,目标主谓宾实体包括目标主语、目标谓语和目标宾语;
6)建立目标主语和目标谓语的共现统计矩阵,得到主谓共现矩阵;
7)对目标主语和目标谓语进行共现统计,得到多个主谓共现矩阵L1,每个主谓共现矩阵L1对应不同的主语类型;
8)从多个主谓共现矩阵L1中筛选出满足第一组合条件的目标主谓共现矩阵;
9)将目标主谓共现矩阵对应的主语类型和谓语类型进行组合,得到主谓组合;
10)建立目标谓语和目标宾语的共现统计矩阵,得到谓宾共现矩阵;
11)对目标谓语和目标宾语进行共现统计,得到多个谓宾共现矩阵L2,每个谓宾共现矩阵L2对应不同的宾语类型;
12)从多个谓宾共现矩阵L2中筛选出满足第二组合条件的目标谓宾共现矩阵;
13)将目标谓宾共现矩阵对应的宾语类型和谓语类型进行组合,得到谓宾组合;
14)将主谓组合和谓宾组合进行交叉组合,得到知识图谱本体。
图5示出了本申请实施例提供的知识图谱本体构建装置的结构框图。如图5所示,本实施例提供的知识图谱本体构建装置,可以包括:
获取模块510,用于获取目标领域的语料;
抽取模块520,用于将所述目标领域的语料输入目标实体抽取模型,输出目标主谓宾实体,其中,所述实体抽取模型是基于通用领域的三元组语料训练得到,所述通用领域是指与目标领域不同的领域;
构建模块530,用于根据所述目标主谓宾实体构建知识图谱本体。
在一个实施例中,知识图谱本体构建装置还包括模型训练模块540,用于将主语、谓语和宾语作为实体,对所述通用领域的语料的实体类型进行标注,得到主谓宾类型标注语料;对所述主谓宾类型标注语料进行序列标注,得到序列标注语料;基于所述序列标注语料,对预先建立的实体抽取模型进行训练,得到所述目标实体抽取模型。
在一个实施例中,所述目标实体抽取模型为基于转换器的双向编码表征、双向长短期记忆网络和条件随机场算法的模型。
在一个实施例中,所述目标主谓宾实体包括目标主语、目标谓语和目标宾语,构建模块530具体用于对所述目标主语和所述目标谓语进行统计分割,得到主谓组合;对所述目标谓语和所述目标宾语进行统计分割,得到谓宾组合;将所述主谓组合和所述谓宾组合进行交叉组合,得到所述知识图谱本体。
在一个实施例中,构建模块530具体用于对所述目标主语和所述目标谓语进行共现统计,得到多个主谓共现矩阵,每个所述主谓共现矩阵对应不同的主语类型;从所述多个主谓共现矩阵中筛选出满足第一组合条件的目标主谓共现矩阵;将所述目标主谓共现矩阵对应的主语类型和谓语类型进行组合,得到所述主谓组合。
在一个实施例中,构建模块530具体用于建立多个二维统计矩阵,每个所述二维统计矩阵包括主语列和谓语列,其中,不同的二维统计矩阵的主语列对应的主语类型不同;确定每个所述目标主语的类型,并向与所述目标主语的类型一致的主语列计数加1;确定每个所述目标谓语的类型,并向所述谓语列计数加1,得到所述多个主谓共现矩阵。
在一个实施例中,构建模块530还用于根据所述知识图谱本体构建所述目标领域的知识图谱。
本实施例提供的知识图谱本体构建装置,用于执行本申请方法实施例提供的知识图谱本体构建方法,技术原理和技术效果相似,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述***中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供了一种终端设备,例如图1所示,该终端设备包括:至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意方法实施例中的步骤。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述任意方法实施例中的步骤。
本领域技术人员可以理解,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种知识图谱本体构建方法,其特征在于,包括:
获取目标领域的语料;
将所述目标领域的语料输入目标实体抽取模型,输出目标主谓宾实体,其中,所述目标实体抽取模型是基于通用领域的三元组主谓宾语料训练得到,所述通用领域是指与目标领域不同的领域;
根据所述目标主谓宾实体构建知识图谱本体。
2.根据权利要求1所述的方法,其特征在于,基于所述通用领域的三元组主谓宾语料训练得到所述目标实体抽取模型,包括:
将主语、谓语和宾语作为实体,对所述通用领域的语料的实体类型进行标注,得到主谓宾类型标注语料;
对所述主谓宾类型标注语料进行序列标注,得到序列标注语料;
基于所述序列标注语料,对预先建立的实体抽取模型进行训练,得到所述目标实体抽取模型。
3.根据权利要求2所述的方法,其特征在于,所述目标实体抽取模型为基于转换器的双向编码表征、双向长短期记忆网络和条件随机场算法的模型。
4.根据权利要求1所述的方法,其特征在于,所述目标主谓宾实体包括目标主语、目标谓语和目标宾语,所述根据所述目标主谓宾实体构建知识图谱本体,包括:
对所述目标主语和所述目标谓语进行统计分割,得到主谓组合;
对所述目标谓语和所述目标宾语进行统计分割,得到谓宾组合;
将所述主谓组合和所述谓宾组合进行交叉组合,得到所述知识图谱本体。
5.根据权利要求4所述的方法,其特征在于,所述对所述目标主语和所述目标谓语进行统计分割,得到主谓组合,包括:
对所述目标主语和所述目标谓语进行共现统计,得到多个主谓共现矩阵,每个所述主谓共现矩阵对应不同的主语类型;
从所述多个主谓共现矩阵中筛选出满足第一组合条件的目标主谓共现矩阵;
将所述目标主谓共现矩阵对应的主语类型和谓语类型进行组合,得到所述主谓组合。
6.根据权利要求5所述的方法,其特征在于,所述对所述目标主语和所述目标谓语进行共现统计,得到多个主谓共现矩阵,包括:
建立多个二维统计矩阵,每个所述二维统计矩阵包括主语列和谓语列,其中,不同的二维统计矩阵的主语列对应的主语类型不同;
确定每个所述目标主语的类型,并向与所述目标主语的类型一致的主语列计数加1;
确定每个所述目标谓语的类型,并向所述谓语列计数加1,得到所述多个主谓共现矩阵。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述方法还包括:
根据所述知识图谱本体构建所述目标领域的知识图谱。
8.一种知识图谱本体构建装置,其特征在于,包括:
获取模块,用于获取目标领域的语料;
抽取模块,用于将所述目标领域的语料输入目标实体抽取模型,输出目标主谓宾实体,其中,所述实体抽取模型是基于通用领域的三元组语料训练得到,所述通用领域是指与目标领域不同的领域;
构建模块,用于根据所述目标主谓宾实体构建知识图谱本体。
9.一种终端设备,其特征在于,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110419343.1A CN112818138B (zh) | 2021-04-19 | 2021-04-19 | 知识图谱本体构建方法、装置、终端设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110419343.1A CN112818138B (zh) | 2021-04-19 | 2021-04-19 | 知识图谱本体构建方法、装置、终端设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112818138A true CN112818138A (zh) | 2021-05-18 |
CN112818138B CN112818138B (zh) | 2021-10-15 |
Family
ID=75863717
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110419343.1A Active CN112818138B (zh) | 2021-04-19 | 2021-04-19 | 知识图谱本体构建方法、装置、终端设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112818138B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113298160A (zh) * | 2021-05-28 | 2021-08-24 | 深圳数联天下智能科技有限公司 | 三元组的校验方法、装置、设备和介质 |
CN113407678A (zh) * | 2021-06-30 | 2021-09-17 | 竹间智能科技(上海)有限公司 | 知识图谱构建方法、装置和设备 |
CN113486127A (zh) * | 2021-07-23 | 2021-10-08 | 上海明略人工智能(集团)有限公司 | 一种知识对齐方法、***、电子设备及介质 |
CN113486189A (zh) * | 2021-06-08 | 2021-10-08 | 广州数说故事信息科技有限公司 | 一种开放性知识图谱挖掘方法及*** |
CN113570417A (zh) * | 2021-08-09 | 2021-10-29 | 上海明略人工智能(集团)有限公司 | 社交数字化营销方法、***、存储介质及电子设备 |
CN113590836A (zh) * | 2021-07-29 | 2021-11-02 | 上海明略人工智能(集团)有限公司 | 一种构建领域知识图谱方法、***、电子设备及介质 |
CN114153943A (zh) * | 2021-11-22 | 2022-03-08 | 之江实验室 | 一种基于知识图谱构建机器人行为树的***及方法 |
CN115408534A (zh) * | 2022-08-23 | 2022-11-29 | 连连银通电子支付有限公司 | 一种知识图谱更新方法、装置、设备及存储介质 |
CN115618018A (zh) * | 2022-10-31 | 2023-01-17 | 福州果集信息科技有限公司 | 一种基于spu的知识图谱构建方法及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103207860A (zh) * | 2012-01-11 | 2013-07-17 | 北大方正集团有限公司 | 舆情事件的实体关系抽取方法和装置 |
US20160170976A1 (en) * | 2013-06-27 | 2016-06-16 | International Business Machines Corporation | Populating a knowledgebase of an expert system |
CN106919689A (zh) * | 2017-03-03 | 2017-07-04 | 中国科学技术信息研究所 | 基于术语释义知识单元的专业领域知识图谱动态构建方法 |
CN109284396A (zh) * | 2018-09-27 | 2019-01-29 | 北京大学深圳研究生院 | 医学知识图谱构建方法、装置、服务器及存储介质 |
CN110245239A (zh) * | 2019-05-13 | 2019-09-17 | 吉林大学 | 一种面向汽车领域知识图谱的构建方法及*** |
CN110598000A (zh) * | 2019-08-01 | 2019-12-20 | 达而观信息科技(上海)有限公司 | 一种基于深度学习模型的关系抽取及知识图谱构建方法 |
CN111291185A (zh) * | 2020-01-21 | 2020-06-16 | 京东方科技集团股份有限公司 | 信息抽取方法、装置、电子设备及存储介质 |
CN112487214A (zh) * | 2020-12-23 | 2021-03-12 | 中译语通科技股份有限公司 | 基于实体共现矩阵的知识图谱关系抽取方法及*** |
CN112528641A (zh) * | 2020-12-10 | 2021-03-19 | 北京百度网讯科技有限公司 | 建立信息抽取模型的方法、装置、电子设备和可读存储介质 |
-
2021
- 2021-04-19 CN CN202110419343.1A patent/CN112818138B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103207860A (zh) * | 2012-01-11 | 2013-07-17 | 北大方正集团有限公司 | 舆情事件的实体关系抽取方法和装置 |
US20160170976A1 (en) * | 2013-06-27 | 2016-06-16 | International Business Machines Corporation | Populating a knowledgebase of an expert system |
CN106919689A (zh) * | 2017-03-03 | 2017-07-04 | 中国科学技术信息研究所 | 基于术语释义知识单元的专业领域知识图谱动态构建方法 |
CN109284396A (zh) * | 2018-09-27 | 2019-01-29 | 北京大学深圳研究生院 | 医学知识图谱构建方法、装置、服务器及存储介质 |
CN110245239A (zh) * | 2019-05-13 | 2019-09-17 | 吉林大学 | 一种面向汽车领域知识图谱的构建方法及*** |
CN110598000A (zh) * | 2019-08-01 | 2019-12-20 | 达而观信息科技(上海)有限公司 | 一种基于深度学习模型的关系抽取及知识图谱构建方法 |
CN111291185A (zh) * | 2020-01-21 | 2020-06-16 | 京东方科技集团股份有限公司 | 信息抽取方法、装置、电子设备及存储介质 |
CN112528641A (zh) * | 2020-12-10 | 2021-03-19 | 北京百度网讯科技有限公司 | 建立信息抽取模型的方法、装置、电子设备和可读存储介质 |
CN112487214A (zh) * | 2020-12-23 | 2021-03-12 | 中译语通科技股份有限公司 | 基于实体共现矩阵的知识图谱关系抽取方法及*** |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113298160A (zh) * | 2021-05-28 | 2021-08-24 | 深圳数联天下智能科技有限公司 | 三元组的校验方法、装置、设备和介质 |
CN113298160B (zh) * | 2021-05-28 | 2023-03-07 | 深圳数联天下智能科技有限公司 | 三元组的校验方法、装置、设备和介质 |
CN113486189A (zh) * | 2021-06-08 | 2021-10-08 | 广州数说故事信息科技有限公司 | 一种开放性知识图谱挖掘方法及*** |
CN113407678A (zh) * | 2021-06-30 | 2021-09-17 | 竹间智能科技(上海)有限公司 | 知识图谱构建方法、装置和设备 |
CN113486127A (zh) * | 2021-07-23 | 2021-10-08 | 上海明略人工智能(集团)有限公司 | 一种知识对齐方法、***、电子设备及介质 |
CN113486127B (zh) * | 2021-07-23 | 2024-06-07 | 上海明略人工智能(集团)有限公司 | 一种知识对齐方法、***、电子设备及介质 |
CN113590836A (zh) * | 2021-07-29 | 2021-11-02 | 上海明略人工智能(集团)有限公司 | 一种构建领域知识图谱方法、***、电子设备及介质 |
CN113570417A (zh) * | 2021-08-09 | 2021-10-29 | 上海明略人工智能(集团)有限公司 | 社交数字化营销方法、***、存储介质及电子设备 |
CN114153943A (zh) * | 2021-11-22 | 2022-03-08 | 之江实验室 | 一种基于知识图谱构建机器人行为树的***及方法 |
CN114153943B (zh) * | 2021-11-22 | 2024-05-17 | 之江实验室 | 一种基于知识图谱构建机器人行为树的***及方法 |
CN115408534A (zh) * | 2022-08-23 | 2022-11-29 | 连连银通电子支付有限公司 | 一种知识图谱更新方法、装置、设备及存储介质 |
CN115408534B (zh) * | 2022-08-23 | 2023-12-12 | 连连银通电子支付有限公司 | 一种知识图谱更新方法、装置、设备及存储介质 |
CN115618018A (zh) * | 2022-10-31 | 2023-01-17 | 福州果集信息科技有限公司 | 一种基于spu的知识图谱构建方法及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112818138B (zh) | 2021-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112818138B (zh) | 知识图谱本体构建方法、装置、终端设备及可读存储介质 | |
CN110457431B (zh) | 基于知识图谱的问答方法、装置、计算机设备和存储介质 | |
CN110532397B (zh) | 基于人工智能的问答方法、装置、计算机设备及存储介质 | |
WO2020140386A1 (zh) | 基于TextCNN知识抽取方法、装置、计算机设备及存储介质 | |
US20200242140A1 (en) | Method, apparatus, device and medium for determining text relevance | |
Song et al. | Necessary and sufficient conditions for copositive tensors | |
CN112037920A (zh) | 医疗知识图谱构建方法、装置、设备及存储介质 | |
CN108932294A (zh) | 基于索引的简历数据处理方法、装置、设备及存储介质 | |
WO2022048363A1 (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
CN107480435B (zh) | 一种应用于临床数据的自动搜索机器学习***及方法 | |
US11379499B2 (en) | Method and apparatus for executing distributed computing task | |
WO2021051869A1 (zh) | 文本数据排版方法、装置、计算机设备及存储介质 | |
US20170249289A1 (en) | Text restructuring | |
CN116186522B (zh) | 大数据核心特征提取方法、电子设备及存储介质 | |
US20230281390A1 (en) | Systems and methods for enhanced review comprehension using domain-specific knowledgebases | |
CN111523960A (zh) | 基于稀疏矩阵的产品推送方法、装置、计算机设备及介质 | |
CN112380837A (zh) | 基于翻译模型的相似句子匹配方法、装置、设备及介质 | |
CN112016311A (zh) | 基于深度学习模型的实体识别方法、装置、设备及介质 | |
CN116541411A (zh) | Sql语句获取方法、报表生成方法、装置、计算机设备及存储介质置 | |
Havryliuk et al. | Extraction of Structural Elements of the Text Using Pragmatic Features for the Nomenclature of Cases Verification | |
Aouiti et al. | Pseudo almost automorphic solutions of hematopoiesis model with mixed delays | |
WO2021047327A1 (zh) | 目标概念图谱的构建方法、装置、计算机设备和存储介质 | |
CN113590811A (zh) | 文本摘要生成方法、装置、电子设备及存储介质 | |
CN116467412A (zh) | 一种基于知识图谱的问答方法、***和存储介质 | |
CN114357177A (zh) | 知识超图的生成方法、装置、终端设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |