CN115098698A - 一种构建知识图谱中Schema模型的方法及装置 - Google Patents

一种构建知识图谱中Schema模型的方法及装置 Download PDF

Info

Publication number
CN115098698A
CN115098698A CN202210713744.2A CN202210713744A CN115098698A CN 115098698 A CN115098698 A CN 115098698A CN 202210713744 A CN202210713744 A CN 202210713744A CN 115098698 A CN115098698 A CN 115098698A
Authority
CN
China
Prior art keywords
text
schema model
model
schema
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210713744.2A
Other languages
English (en)
Other versions
CN115098698B (zh
Inventor
覃祥坤
单海军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongdian Jinxin Software Co Ltd
Original Assignee
Zhongdian Jinxin Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongdian Jinxin Software Co Ltd filed Critical Zhongdian Jinxin Software Co Ltd
Priority to CN202210713744.2A priority Critical patent/CN115098698B/zh
Publication of CN115098698A publication Critical patent/CN115098698A/zh
Application granted granted Critical
Publication of CN115098698B publication Critical patent/CN115098698B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种构建知识图谱中Schema模型的方法及装置,包括:对待构建知识图谱中Schema模型的需求文本进行分析,得到业务触发词、需求文本的文本分类结果以及文本词汇的聚类结果;将需求文本、业务触发词、文本分类结果以及聚类结果,转化成第一语义空间向量;分别将预先构建的知识图谱的Schema模型库中每个Schema模型的描述信息转化成第二语义空间向量;基于各第二语义空间向量和第一语义空间向量的语义相似度,从Schema模型库中确定出至少一个候选Schema模型,并创建目标Schema模型。这样,可以根据用户的需求快速构建出Schema模型,能够提高知识图谱中Schema模型构建的效率。

Description

一种构建知识图谱中Schema模型的方法及装置
技术领域
本申请涉及知识图谱技术领域,尤其是涉及一种构建知识图谱中Schema模型的方法及装置。
背景技术
知识图谱是结构化的语义知识库,通过Schema模型,描述物理世界中的实体及其相互关系。知识图谱可以广泛地应用于智能风控、智能营销、智能问答、智能信贷、舆情分析、企业风控、反欺诈和反洗钱等场景,构建出一个领域内标准的Schema模型对于构建该领域的知识图谱尤为重要。
目前,现有的构建知识图谱中的Schema模型,主要依靠专家团队在线下从零设计。例如,首先需要专业的咨询团队实地调研,深入分析并挖掘出用户的业务需求,定义实体和实体之间的关联关系,与客户确认后,形成最终版本的Schema模型。这样的设计方法十分复杂,不仅需要耗费大量的人力物力,而且构建出的Schema模型的质量受限于专家的主观判断和认知范围。
发明内容
有鉴于此,本申请的目的在于提供一种构建知识图谱中Schema模型的方法及装置,可以针对用户的需求从Schema模型库中自动推荐出Schema模型,并构建Schema模型;这样,可以根据用户的需求快速构建出更加标准、客观的Schema模型,能够提高知识图谱中Schema模型构建的效率。
本申请实施例提供了一种构建知识图谱中Schema模型的方法,所述方法包括:
对待构建知识图谱中Schema模型的需求文本进行分析,得到业务触发词、所述需求文本的文本分类结果以及所述需求文本中的文本词汇的聚类结果;
将所述需求文本、所述业务触发词、所述文本分类结果以及所述聚类结果,转化成第一语义空间向量;
分别将预先构建的知识图谱的Schema模型库中每个Schema模型的描述信息转化成第二语义空间向量;其中,所述描述信息包括:模型名称、应用方向、实体信息以及实体关系信息;
基于各所述第二语义空间向量和所述第一语义空间向量的语义相似度,从所述Schema模型库中确定出至少一个候选Schema模型;
基于所述候选Schema模型创建目标Schema模型。
进一步的,所述对待构建知识图谱中Schema模型的需求文本进行分析,得到业务触发词、所述需求文本的文本分类结果以及所述需求文本中的文本词汇的聚类结果的步骤,包括:
基于各个业务节点对应的预设业务触发词词库对所述需求文本进行筛选,得到所述需求文本中包括的所述业务触发词;
基于预先训练好的分类算法对所述需求文本进行文本分类,得到所述需求文本的文本分类结果;
基于预先训练好的聚类算法对所述需求文本中的文本词汇进行文本聚类,得到所述需求文本中的文本词汇的聚类结果。
进一步的,所述基于所述候选Schema模型创建目标Schema模型的步骤,包括:
将所述候选Schema模型推荐给用户;
响应模型选择操作,创建所述用户从所述候选Schema模型中选择的所述目标Schema模型。
进一步的,所述Schema模型中包括实体和实体之间的关联关系,所述方法还包括:
基于所述Schema模型库中的每个Schema模型所包括的每个实体的第三语义空间向量与所述第一语义空间向量的语义相似度,从每个Schema模型所包括的实体中确定出至少一个候选实体;
确定所述候选实体中是否存在所述候选Schema模型中未包括的第一实体;
若存在,则将所述第一实体推荐给用户;
将用户从所述第一实体中选择的第二实体关联到所述目标Schema模型。
进一步的,在所述基于所述候选Schema模型创建目标Schema模型之后,所述方法还包括:
将所述目标Schema模型显示在页面中;其中,所述目标Schema模型中实体的显示形式包括节点,实体之间的关联关系的显示形式包括连接各节点的线段;
响应页面中发生的实体选择操作,确定被选中的目标节点所对应的待调整实体,并将所述待调整实体关联到所述目标Schema模型,或将所述待调整实体从所述目标Schema模型中删除;
响应页面中发生的关系调整操作,确定被拖拽的目标线段所对应的目标关联关系,并对所述目标关联关系进行修改。
进一步的,在所述基于所述候选Schema模型创建目标Schema模型之后,所述方法还包括:
利用预先构建的数据抽取模型从源数据中抽取出目标数据;
将所述目标数据与所述目标Schema模型相结合,以得到所述源数据的知识图谱。
本申请实施例还提供了一种构建知识图谱中Schema模型的装置,所述装置包括:
分析模块,用于对待构建知识图谱中Schema模型的需求文本进行分析,得到业务触发词、所述需求文本的文本分类结果以及所述需求文本中的文本词汇的聚类结果;
第一转化模块,用于将所述需求文本、所述业务触发词、所述文本分类结果以及所述聚类结果,转化成第一语义空间向量;
第二转化模块,用于分别将预先构建的知识图谱的Schema模型库中每个Schema模型的描述信息转化成第二语义空间向量;其中,所述描述信息包括:模型名称、应用方向、实体信息以及实体关系信息;
确定模块,用于基于各所述第二语义空间向量和所述第一语义空间向量的语义相似度,从所述Schema模型库中确定出至少一个候选Schema模型;
创建模块,用于基于所述候选Schema模型创建目标Schema模型。
进一步的,所述分析模块在用于对待构建知识图谱中Schema模型的需求文本进行分析,得到业务触发词、所述需求文本的文本分类结果以及所述需求文本中的文本词汇的聚类结果时,所述分析模块用于:
基于各个业务节点对应的预设业务触发词词库对所述需求文本进行筛选,得到所述需求文本中包括的所述业务触发词;
基于预先训练好的分类算法对所述需求文本进行文本分类,得到所述需求文本的文本分类结果;
基于预先训练好的聚类算法对所述需求文本中的文本词汇进行文本聚类,得到所述需求文本中的文本词汇的聚类结果。
进一步的,所述创建模块在用于基于所述候选Schema模型创建目标Schema模型时,所述创建模块用于:
将所述候选Schema模型推荐给用户;
响应模型选择操作,创建所述用户从所述候选Schema模型中选择的所述目标Schema模型。
进一步的,所述Schema模型中包括实体和实体之间的关联关系,所述装置还包括:实体推荐模块;所述实体推荐模块用于:
基于所述Schema模型库中的每个Schema模型所包括的每个实体的第三语义空间向量与所述第一语义空间向量的语义相似度,从每个Schema模型所包括的实体中确定出至少一个候选实体;
确定所述候选实体中是否存在所述候选Schema模型中未包括的第一实体;
若存在,则将所述第一实体推荐给用户;
将用户从所述第一实体中选择的第二实体关联到所述目标Schema模型。
进一步的,所述装置还包括调整模块,所述调整模块用于:
将所述目标Schema模型显示在页面中;其中,所述目标Schema模型中实体的显示形式包括节点,实体之间的关联关系的显示形式包括连接各节点的线段;
响应页面中发生的实体选择操作,确定被选中的目标节点所对应的待调整实体,并将所述待调整实体关联到所述目标Schema模型,或将所述待调整实体从所述目标Schema模型中删除;
响应页面中发生的关系调整操作,确定被拖拽的目标线段所对应的目标关联关系,并对所述目标关联关系进行修改。
进一步的,所述装置还包括图谱构建模块,所述图谱构建模块用于:
利用预先构建的数据抽取模型从源数据中抽取出目标数据;
将所述目标数据与所述目标Schema模型相结合,以得到所述源数据的知识图谱。
本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的一种构建知识图谱中Schema模型的方法的步骤。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的一种构建知识图谱中Schema模型的方法的步骤。
本申请实施例提供的一种构建知识图谱中Schema模型的方法及装置,包括:对待构建知识图谱中Schema模型的需求文本进行分析,得到业务触发词、所述需求文本的文本分类结果以及所述需求文本中的文本词汇的聚类结果;将所述需求文本、所述业务触发词、所述文本分类结果以及所述聚类结果,转化成第一语义空间向量;分别将预先构建的知识图谱的Schema模型库中每个Schema模型的描述信息转化成第二语义空间向量;其中,所述描述信息包括:模型名称、应用方向、实体信息以及实体关系信息;基于各所述第二语义空间向量和所述第一语义空间向量的语义相似度,从所述Schema模型库中确定出至少一个候选Schema模型;基于所述候选Schema模型创建目标Schema模型。
通过这种方式,可以针对用户的需求从Schema模型库中自动推荐出Schema模型,并构建Schema模型;这样,可以根据用户的需求快速构建出更加标准、客观的Schema模型,能够提高知识图谱中Schema模型构建的效率。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种构建知识图谱中Schema模型的方法的流程图;
图2示出了本申请实施例所提供的一种构建知识图谱中Schema模型的装置的结构示意图之一;
图3示出了本申请实施例所提供的一种构建知识图谱中Schema模型的装置的结构示意图之二;
图4示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
经研究发现,知识图谱是结构化的语义知识库,通过Schema模型,描述物理世界中的实体及其相互关系。知识图谱可以广泛地应用于智能风控、智能营销、智能问答、智能信贷、舆情分析、企业风控、反欺诈和反洗钱等场景,构建出一个领域内标准的Schema模型对于构建该领域的知识图谱尤为重要。
目前,现有的构建知识图谱中的Schema模型,主要依靠专家团队在线下从零设计。例如,首先需要专业的咨询团队实地调研,深入分析并挖掘出用户的业务需求,定义实体和实体之间的关联关系,与客户确认后,形成最终版本的Schema模型。这样的设计方法十分复杂,不仅需要耗费大量的人力物力,而且构建出的Schema模型的质量受限于专家的主观判断和认知范围。
基于此,本申请实施例提供了一种构建知识图谱中Schema模型的方法及装置,可以针对用户的需求从Schema模型库中自动推荐出Schema模型,并构建Schema模型;这样,可以根据用户的需求快速构建出更加标准、客观的Schema模型,能够提高知识图谱中Schema模型构建的效率。
请参阅图1,图1为本申请实施例所提供的一种构建知识图谱中Schema模型的方法的流程图。如图1中所示,本申请实施例提供的方法,包括:
S101、对待构建知识图谱中Schema模型的需求文本进行分析,得到业务触发词、所述需求文本的文本分类结果以及所述需求文本中的文本词汇的聚类结果。
其中,知识图谱是结构化的语义知识库,它通过Schema模型,来描述物理世界中的实体及其相互关系;知识图谱的Schema模型中包括实体和实体之间的关联关系。
在具体实施时,用户在请求构建Schema模型时会提供一段需求文本,需求文本中包含着用户请求构建的Schema模型的相关信息,用于描述用户期望构建出的Schema模型。示例性的,用户的需求文本可以是“我需要一个应用于银行***的、与反欺诈或者企业的风险控制相关的模型,模型中需要包括……”。
这里,对需求文本进行分析是指利用包括机器学习在内的各类方法,学习理解一段需求文本中所包含的语义内容。
在一种可能的实施方式中,步骤S101可包括:
S1011、基于各个业务节点对应的预设业务触发词词库对所述需求文本进行筛选,得到所述需求文本中包括的所述业务触发词。
其中,业务节点包括业务场景中实际的业务功能点,以银行为例,贷款业务即为一个业务节点。不同的业务节点可以具有不同的业务触发词词库。在具体实施时,可基于各个业务节点对应的预设业务触发词词库,通过预设的筛选模板或正则表达式等方式对所述需求文本进行筛选,得到所述需求文本中包括的所述业务触发词。
S1012、基于预先训练好的分类算法对所述需求文本进行文本分类,得到所述需求文本的文本分类结果。
该步骤中,可基于分类算法库中各种预先训练好的分类算法对所述需求文本进行文本分类,得到所述需求文本的文本分类结果。示例性的,可基于分类算法确定出所述需求文本属于各个类别标签的概率;当确定出的所述需求文本属于某个类别标签的概率大于一定阈值时,将该类别标签确定为需求文本的文本分类结果。
S1013、基于预先训练好的聚类算法对所述需求文本中的文本词汇进行文本聚类,得到所述需求文本中的文本词汇的聚类结果。
该步骤中,可预先对需求文本进行文本分词,得到需求文本中的多个文本词汇;再基于聚类算法库中各种预先训练好的聚类算法对文本词汇进行文本聚类,得到所述需求文本中的文本词汇的聚类结果;示例性的,可基于聚类算法确定出文本词汇的多个聚类簇,根据每个聚类簇中的聚类中心词确定需求文本中的文本词汇的聚类结果。
S102、将所述需求文本、所述业务触发词、所述文本分类结果以及所述聚类结果,转化成第一语义空间向量。
该步骤中,可以分别将需求文本、业务触发词、文本分类结果以及聚类结果转化成对应的语义空间向量;再将各语义空间向量与其对应的权重进行加权求和,得到第一语义空间向量。其中,将文本转换成对应语义空间向量的步骤可基于现有技术中的编码方式来实现,例如,词嵌入(word embedding)方法等,本申请对此不作任何限定。
S103、分别将预先构建的知识图谱的Schema模型库中每个Schema模型的描述信息转化成第二语义空间向量。
其中,所述描述信息可以表征Schema模型的特征,描述信息包括:模型名称、应用方向、实体信息以及实体关系信息。
同样地,针对预先构建的知识图谱的Schema模型库中每个Schema模型,可以采用现有技术中的编码方式将该Schema模型的描述信息转换成第二语义空间向量,本申请对此不作任何限定。
S104、基于各所述第二语义空间向量和所述第一语义空间向量的语义相似度,从所述Schema模型库中确定出至少一个候选Schema模型。
在具体实施时,可使用现有技术中的任何方式来计算每个第二语义空间向量和第一语义空间向量之间的语义相似度,例如,文本相似度算法cosin算法等。
进一步的,可基于各第二语义空间向量和第一语义空间向量的语义相似度,从所述Schema模型库中确定出至少一个候选Schema模型。在一种可能的实施方式中,可确定出与第一语义空间向量的语义相似度超过预设阈值的各第二语义空间向量,并将语义相似度超过预设阈值的各第二语义空间向量对应的Schema模型确定为候选Schema模型;或者,将计算出的语义相似度降序排列,选择语义相似度最高的前几个第二语义空间向量对应的Schema模型作为候选Schema模型。
S105、基于所述候选Schema模型创建目标Schema模型。
在一种可能的实施方式中,步骤S105可包括:
S1051、将所述候选Schema模型推荐给用户。
该步骤中,可以通过前端的可视化页面显示出候选Schema模型,以将确定出的候选Schema模型推荐给用户,为用户提供参考以及供用户选择。可选的,在向用户推荐Schema模型时,可以将多个候选Schema模型中与用户的需求最匹配,语义相似度最高的候选Schema模型优先推荐给用户。
S1052、响应模型选择操作,创建所述用户从所述候选Schema模型中选择的所述目标Schema模型。
在一种可能的实施方式中,前端的可视化页面中可以显示各个候选Schema模型对应的选项;用户可以通过点击选项,选中对应的目标Schema模型。进而,响应于用户的模型选择操作,创建出用户选择的目标Schema模型。
此外,前端的可视化页面中也可以显示Schema模型库中除各候选Schema模型外的其他Schema模型,用户也可以通过点击或者拖拽Schema模型库中的其他Schema模型,从候选Schema模型之外选择Schema模型并创建。
在一种可能的实施方式中,所述Schema模型中包括实体和实体之间的关联关系,所述方法还包括:
S106、基于所述Schema模型库中的每个Schema模型所包括的每个实体的第三语义空间向量与所述第一语义空间向量的语义相似度,从每个Schema模型所包括的实体中确定出至少一个候选实体。
该步骤中,针对Schema模型库中的每个Schema模型,可使用现有技术中的任何方式来计算该Schema模型包括的每个实体的第三语义空间向量与第一语义空间向量的语义相似度,例如,文本相似度算法cosin算法。
进一步的,可基于每个Schema模型所包括的每个实体的第三语义空间向量与第一语义空间向量的语义相似度,从每个Schema模型所包括的实体中确定出至少一个候选实体。在一种可能的实施方式中,可确定出与第一语义空间向量的语义相似度超过预设阈值的各第三语义空间向量,并将语义相似度超过预设阈值的各第三语义空间向量对应的实体确定为候选实体;或者,将计算出的语义相似度降序排列,选择语义相似度最高的前几个第三语义空间向量对应的实体作为候选实体。
S107、确定所述候选实体中是否存在所述候选Schema模型中未包括的第一实体。
S108、若存在,则将所述第一实体推荐给用户。
S109、将用户从所述第一实体中选择的第二实体关联到所述目标Schema模型。
需要说明的是,通过步骤S106中的方法,可以确定出至少一个候选实体。若候选实体中存在所述候选Schema模型中未包括的第一实体,可以将这些未包括的第一实体也推荐给用户以供用户选择。在前面的方法中,通过计算各Schema模型对应的各第二语义空间向量与需求文本对应的第一语义空间向量之间的语义相似度,可以确定出候选Schema模型,但在具体应用时,不同的用户在构建Schema模型有各种各样的需求,这些需求很可能无法被Schema模型库中单独的一个Schema模型所满足,因此需求文本中可能还指示了候选Schema模型未涵盖的其他实体。通过这样的方式,可以将这部分实体(即,第一实体)也推荐给用户,进一步方便用户构建Schema模型,节省用户的时间及精力。
同样地,前端的可视化页面中可以显示各个第一实体对应的选项;用户可以通过点击选项,选中对应的实体。进而,响应于用户的选择操作,将用户选中的实体作为第二实体关联到所述目标Schema模型。
在将第二实体关联到目标Schema模型之后,用户同样可以采用以下方法对目标Schema模型中的各实体以及实体之间的关联关系进行修改配置。
在一种可能的实施方式中,在步骤S105基于所述候选Schema模型创建目标Schema模型之后,所述方法还包括:
S110、将所述目标Schema模型显示在页面中。
其中,Schema模型的显示形式包括点线图,所述目标Schema模型中实体的显示形式包括节点,实体之间的关联关系的显示形式包括连接各节点的线段。
S111、响应页面中发生的实体选择操作,确定被选中的目标节点所对应的待调整实体,并将所述待调整实体关联到所述目标Schema模型,或将所述待调整实体从所述目标Schema模型中删除。
示例性的,实体选择操作可以是点击操作,可以通过监听页面发生的点击事件,确定用户产生了点击操作以及确定用户所选中的目标节点。
S112、响应页面中发生的关系调整操作,确定被拖拽的目标线段所对应的目标关联关系,并对所述目标关联关系进行修改。
示例性的,关系调整操作可以是拖拽操作,可以通过监听页面发生的拖拽事件,确定用户产生了拖拽操作以及确定用户所拖拽的目标线段。
在具体实施时,页面中除了显示目标Schema模型,还可以显示有Schema模型库中的各Schema模型;用户可以点击目标Schema模型中的节点,也可以点击Schema模型库内的各Schema模型中的节点;当用户点击的目标节点未包括在当前页面显示的目标Schema模型中时,可将目标节点对应的待调整实体关联到目标Schema模型;或者,当用户点击的目标节点已包括在当前页面显示的目标Schema模型中时,可将目标节点对应的待调整实体从目标Schema模型中删除。
此外,用户可以通过拖拽连接各节点之间的线段来调整实体之间的关联关系;示例性的,不同的线型代表不同的关联关系,将不同线型的线段拖拽到两个节点之间即可在两个实体之间建立相应的关联关系。例如,虚线表示包含关系,用户将虚线段拖拽到节点A和节点B之间,即可在节点A对应的实体和节点B对应的实体之间建立起包含关系,或者将节点A对应的实体和节点B对应的实体之间原本的某种关联关系修改为包含关系;再例如,用户可以将节点C和节点D之间的直线段拖拽到预定区域,以删除节点C对应的实体和节点D对应的实体之间原本的某种关联关系。
这样,本申请提供的技术方案使得用户可以在可视化界面上通过简单的点击和拖拽操作实现对Schema模型的修改和动态更新,使得Schema模型的构建更加高效便捷,更加适应不同用户的需求。
在一种可能的实施方式中,在步骤S105基于所述候选Schema模型创建目标Schema模型之后,所述方法还包括:
S113、利用预先构建的数据抽取模型从源数据中抽取出目标数据。
S114、将所述目标数据与所述目标Schema模型相结合,以得到所述源数据的知识图谱。
在具体实施时,数据抽取模型从源数据中抽取出目标数据,目标数据包括实体和关系;目标数据与目标Schema模型相结合即可构成知识图谱。通过这种方式,利用Schema模型和数据的结合可以高效地构建出源数据相应的知识图谱。
进一步的,在构建出源数据的知识图谱后,可以根据知识图谱在源数据上自动地标识出其中各目标数据所属的实体以及目标数据之间的关联关系,以便用户直观地观察构建出的目标Schema模型与数据的结合效果,例如,源数据中某个词汇是被抽取出的目标数据,词汇的不同颜色表示词汇属于不同的实体,词汇之间不同线型的连线表示词汇之间具有不同的关联关系。用户可以通过对目标数据进行操作,以修改某一目标数据所属的实体或者修改某一目标数据与其他目标数据之间的关联关系,例如,用户可以选中某一目标数据,在弹出的数据菜单中为该目标数据重新配置其所属的实体。用户还可以根据目标Schema模型与数据的结合效果以及构建需求重新修改目标Schema模型,并重新构建源数据的知识图谱进行观察。这样,有利于构建出符合用户需求的Schema模型。
本申请实施例提供的一种构建知识图谱中Schema模型的方法,包括:对待构建知识图谱中Schema模型的需求文本进行分析,得到业务触发词、所述需求文本的文本分类结果以及所述需求文本中的文本词汇的聚类结果;将所述需求文本、所述业务触发词、所述文本分类结果以及所述聚类结果,转化成第一语义空间向量;分别将预先构建的知识图谱的Schema模型库中每个Schema模型的描述信息转化成第二语义空间向量;其中,所述描述信息包括:模型名称、应用方向、实体信息以及实体关系信息;基于各所述第二语义空间向量和所述第一语义空间向量的语义相似度,从所述Schema模型库中确定出至少一个候选Schema模型;基于所述候选Schema模型创建目标Schema模型。
通过这种方式,可以针对用户的需求从Schema模型库中自动推荐出Schema模型,并构建Schema模型;这样,可以根据用户的需求快速构建出更加标准、客观的Schema模型,能够提高知识图谱中Schema模型构建的效率。
请参阅图2、图3,图2为本申请实施例所提供的一种构建知识图谱中Schema模型的装置的结构示意图之一,图3为本申请实施例所提供的一种构建知识图谱中Schema模型的装置的结构示意图之二。如图2中所示,所述装置200包括:
分析模块210,用于对待构建知识图谱中Schema模型的需求文本进行分析,得到业务触发词、所述需求文本的文本分类结果以及所述需求文本中的文本词汇的聚类结果;
第一转化模块220,用于将所述需求文本、所述业务触发词、所述文本分类结果以及所述聚类结果,转化成第一语义空间向量;
第二转化模块230,用于分别将预先构建的知识图谱的Schema模型库中每个Schema模型的描述信息转化成第二语义空间向量;其中,所述描述信息包括:模型名称、应用方向、实体信息以及实体关系信息;
确定模块240,用于基于各所述第二语义空间向量和所述第一语义空间向量的语义相似度,从所述Schema模型库中确定出至少一个候选Schema模型;
创建模块250,用于基于所述候选Schema模型创建目标Schema模型。
进一步的,所述分析模块210在用于对待构建知识图谱中Schema模型的需求文本进行分析,得到业务触发词、所述需求文本的文本分类结果以及所述需求文本中的文本词汇的聚类结果时,所述分析模块210用于:
基于各个业务节点对应的预设业务触发词词库对所述需求文本进行筛选,得到所述需求文本中包括的所述业务触发词;
基于预先训练好的分类算法对所述需求文本进行文本分类,得到所述需求文本的文本分类结果;
基于预先训练好的聚类算法对所述需求文本中的文本词汇进行文本聚类,得到所述需求文本中的文本词汇的聚类结果。
进一步的,所述创建模块250在用于基于所述候选Schema模型创建目标Schema模型时,所述创建模块250用于:
将所述候选Schema模型推荐给用户;
响应模型选择操作,创建所述用户从所述候选Schema模型中选择的所述目标Schema模型。
进一步的,所述Schema模型中包括实体和实体之间的关联关系,所述装置还包括:实体推荐模块260;所述实体推荐模块260用于:
基于所述Schema模型库中的每个Schema模型所包括的每个实体的第三语义空间向量与所述第一语义空间向量的语义相似度,从每个Schema模型所包括的实体中确定出至少一个候选实体;
确定所述候选实体中是否存在所述候选Schema模型中未包括的第一实体;
若存在,则将所述第一实体推荐给用户;
将用户从所述第一实体中选择的第二实体关联到所述目标Schema模型。
进一步的,所述装置还包括调整模块270,所述调整模块270用于:
将所述目标Schema模型显示在页面中;其中,所述目标Schema模型中实体的显示形式包括节点,实体之间的关联关系的显示形式包括连接各节点的线段;
响应页面中发生的实体选择操作,确定被选中的目标节点所对应的待调整实体,并将所述待调整实体关联到所述目标Schema模型,或将所述待调整实体从所述目标Schema模型中删除;
响应页面中发生的关系调整操作,确定被拖拽的目标线段所对应的目标关联关系,并对所述目标关联关系进行修改。
进一步的,所述装置还包括图谱构建模块280,所述图谱构建模块280用于:
利用预先构建的数据抽取模型从源数据中抽取出目标数据;
将所述目标数据与所述目标Schema模型相结合,以得到所述源数据的知识图谱。
本申请实施例提供的一种构建知识图谱中Schema模型的装置,包括:对待构建知识图谱中Schema模型的需求文本进行分析,得到业务触发词、所述需求文本的文本分类结果以及所述需求文本中的文本词汇的聚类结果;将所述需求文本、所述业务触发词、所述文本分类结果以及所述聚类结果,转化成第一语义空间向量;分别将预先构建的知识图谱的Schema模型库中每个Schema模型的描述信息转化成第二语义空间向量;其中,所述描述信息包括:模型名称、应用方向、实体信息以及实体关系信息;基于各所述第二语义空间向量和所述第一语义空间向量的语义相似度,从所述Schema模型库中确定出至少一个候选Schema模型;基于所述候选Schema模型创建目标Schema模型。
通过这种方式,可以针对用户的需求从Schema模型库中自动推荐出Schema模型,并构建Schema模型;这样,可以根据用户的需求快速构建出更加标准、客观的Schema模型,能够提高知识图谱中Schema模型构建的效率。
请参阅图4,图4为本申请实施例所提供的一种电子设备的结构示意图。如图4中所示,所述电子设备400包括处理器410、存储器420和总线430。
所述存储器420存储有所述处理器410可执行的机器可读指令,当电子设备400运行时,所述处理器410与所述存储器420之间通过总线430通信,所述机器可读指令被所述处理器410执行时,可以执行如上述图1所示方法实施例中的一种构建知识图谱中Schema模型的方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图1所示方法实施例中的一种构建知识图谱中Schema模型的方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种构建知识图谱中Schema模型的方法,其特征在于,所述方法包括:
对待构建知识图谱中Schema模型的需求文本进行分析,得到业务触发词、所述需求文本的文本分类结果以及所述需求文本中的文本词汇的聚类结果;
将所述需求文本、所述业务触发词、所述文本分类结果以及所述聚类结果,转化成第一语义空间向量;
分别将预先构建的知识图谱的Schema模型库中每个Schema模型的描述信息转化成第二语义空间向量;其中,所述描述信息包括:模型名称、应用方向、实体信息以及实体关系信息;
基于各所述第二语义空间向量和所述第一语义空间向量的语义相似度,从所述Schema模型库中确定出至少一个候选Schema模型;
基于所述候选Schema模型创建目标Schema模型。
2.根据权利要求1所述的方法,其特征在于,所述对待构建知识图谱中Schema模型的需求文本进行分析,得到业务触发词、所述需求文本的文本分类结果以及所述需求文本中的文本词汇的聚类结果的步骤,包括:
基于各个业务节点对应的预设业务触发词词库对所述需求文本进行筛选,得到所述需求文本中包括的所述业务触发词;
基于预先训练好的分类算法对所述需求文本进行文本分类,得到所述需求文本的文本分类结果;
基于预先训练好的聚类算法对所述需求文本中的文本词汇进行文本聚类,得到所述需求文本中的文本词汇的聚类结果。
3.根据权利要求1所述的方法,其特征在于,所述基于所述候选Schema模型创建目标Schema模型的步骤,包括:
将所述候选Schema模型推荐给用户;
响应模型选择操作,创建所述用户从所述候选Schema模型中选择的所述目标Schema模型。
4.根据权利要求1所述的方法,其特征在于,所述Schema模型中包括实体和实体之间的关联关系,所述方法还包括:
基于所述Schema模型库中的每个Schema模型所包括的每个实体的第三语义空间向量与所述第一语义空间向量的语义相似度,从每个Schema模型所包括的实体中确定出至少一个候选实体;
确定所述候选实体中是否存在所述候选Schema模型中未包括的第一实体;
若存在,则将所述第一实体推荐给用户;
将用户从所述第一实体中选择的第二实体关联到所述目标Schema模型。
5.根据权利要求4所述的方法,其特征在于,在所述基于所述候选Schema模型创建目标Schema模型之后,所述方法还包括:
将所述目标Schema模型显示在页面中;其中,所述目标Schema模型中实体的显示形式包括节点,实体之间的关联关系的显示形式包括连接各节点的线段;
响应页面中发生的实体选择操作,确定被选中的目标节点所对应的待调整实体,并将所述待调整实体关联到所述目标Schema模型,或将所述待调整实体从所述目标Schema模型中删除;
响应页面中发生的关系调整操作,确定被拖拽的目标线段所对应的目标关联关系,并对所述目标关联关系进行修改。
6.根据权利要求1所述的方法,其特征在于,在所述基于所述候选Schema模型创建目标Schema模型之后,所述方法还包括:
利用预先构建的数据抽取模型从源数据中抽取出目标数据;
将所述目标数据与所述目标Schema模型相结合,以得到所述源数据的知识图谱。
7.一种构建知识图谱中Schema模型的装置,其特征在于,所述装置包括:
分析模块,用于对待构建知识图谱中Schema模型的需求文本进行分析,得到业务触发词、所述需求文本的文本分类结果以及所述需求文本中的文本词汇的聚类结果;
第一转化模块,用于将所述需求文本、所述业务触发词、所述文本分类结果以及所述聚类结果,转化成第一语义空间向量;
第二转化模块,用于分别将预先构建的知识图谱的Schema模型库中每个Schema模型的描述信息转化成第二语义空间向量;其中,所述描述信息包括:模型名称、应用方向、实体信息以及实体关系信息;
确定模块,用于基于各所述第二语义空间向量和所述第一语义空间向量的语义相似度,从所述Schema模型库中确定出至少一个候选Schema模型;
创建模块,用于基于所述候选Schema模型创建目标Schema模型。
8.根据权利要求7所述的装置,其特征在于,所述分析模块在用于对待构建知识图谱中Schema模型的需求文本进行分析,得到业务触发词、所述需求文本的文本分类结果以及所述需求文本中的文本词汇的聚类结果时,所述分析模块用于:
基于各个业务节点对应的预设业务触发词词库对所述需求文本进行筛选,得到所述需求文本中包括的所述业务触发词;
基于预先训练好的分类算法对所述需求文本进行文本分类,得到所述需求文本的文本分类结果;
基于预先训练好的聚类算法对所述需求文本中的文本词汇进行文本聚类,得到所述需求文本中的文本词汇的聚类结果。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线进行通信,所述机器可读指令被所述处理器运行时执行如权利要求1至6任一所述的一种构建知识图谱中Schema模型的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至6任一所述的一种构建知识图谱中Schema模型的方法的步骤。
CN202210713744.2A 2022-06-22 2022-06-22 一种构建知识图谱中Schema模型的方法及装置 Active CN115098698B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210713744.2A CN115098698B (zh) 2022-06-22 2022-06-22 一种构建知识图谱中Schema模型的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210713744.2A CN115098698B (zh) 2022-06-22 2022-06-22 一种构建知识图谱中Schema模型的方法及装置

Publications (2)

Publication Number Publication Date
CN115098698A true CN115098698A (zh) 2022-09-23
CN115098698B CN115098698B (zh) 2023-04-28

Family

ID=83293868

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210713744.2A Active CN115098698B (zh) 2022-06-22 2022-06-22 一种构建知识图谱中Schema模型的方法及装置

Country Status (1)

Country Link
CN (1) CN115098698B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116954587A (zh) * 2023-09-19 2023-10-27 中电科大数据研究院有限公司 前端智能拖拽引擎、建立数据处理流程的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010134752A2 (ko) * 2009-05-21 2010-11-25 주식회사 아이네크 다수 분류 체계를 연동한 시멘틱 검색 방법 및 시스템
US10229163B1 (en) * 2014-08-26 2019-03-12 Twitter, Inc. Determining topic interest and/or topic expertise and generating recommendations based on topic interest and/or expertise
CN111708893A (zh) * 2020-05-15 2020-09-25 北京邮电大学 基于知识图谱的科技资源整合方法及***
CN111782825A (zh) * 2020-08-20 2020-10-16 支付宝(杭州)信息技术有限公司 知识库构建方法及装置
CN113609257A (zh) * 2021-08-09 2021-11-05 神州数码融信软件有限公司 一种金融知识图谱弹性框架构建方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010134752A2 (ko) * 2009-05-21 2010-11-25 주식회사 아이네크 다수 분류 체계를 연동한 시멘틱 검색 방법 및 시스템
US10229163B1 (en) * 2014-08-26 2019-03-12 Twitter, Inc. Determining topic interest and/or topic expertise and generating recommendations based on topic interest and/or expertise
CN111708893A (zh) * 2020-05-15 2020-09-25 北京邮电大学 基于知识图谱的科技资源整合方法及***
CN111782825A (zh) * 2020-08-20 2020-10-16 支付宝(杭州)信息技术有限公司 知识库构建方法及装置
CN113609257A (zh) * 2021-08-09 2021-11-05 神州数码融信软件有限公司 一种金融知识图谱弹性框架构建方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116954587A (zh) * 2023-09-19 2023-10-27 中电科大数据研究院有限公司 前端智能拖拽引擎、建立数据处理流程的方法
CN116954587B (zh) * 2023-09-19 2023-12-19 中电科大数据研究院有限公司 前端智能拖拽引擎、建立数据处理流程的方法

Also Published As

Publication number Publication date
CN115098698B (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
CN107967575B (zh) 一种人工智能保险咨询服务人工智能平台***
US6026397A (en) Data analysis system and method
CN102737334B (zh) 微细分定义***
WO2017190610A1 (zh) 目标用户定向方法、装置和计算机存储介质
CN110751261A (zh) 神经网络模型的训练方法和***以及预测方法和***
JP7043786B2 (ja) 営業活動支援システム、営業活動支援方法および営業活動支援プログラム
CN108133418A (zh) 实时信用风险管理***
US20230162051A1 (en) Method, device and apparatus for execution of automated machine learning process
CN112115363A (zh) 一种推荐方法、计算设备及存储介质
CN112529702B (zh) 用户授信策略分配方法、装置及电子设备
CN110909165A (zh) 数据处理方法、装置、介质及电子设备
CN111145009A (zh) 用户贷后风险评估方法、装置及电子设备
CN111369344B (zh) 一种动态生成预警规则的方法和装置
CN111612513A (zh) 一种基于业务项目信息的资源配置方法、装置和电子设备
CN112070564B (zh) 广告拉取方法、装置、***与电子设备
CN111429161B (zh) 特征提取方法、特征提取装置、存储介质及电子设备
CN111190967B (zh) 用户多维度数据处理方法、装置及电子设备
CN111582314A (zh) 目标用户确定方法、装置及电子设备
CN115098698B (zh) 一种构建知识图谱中Schema模型的方法及装置
CN117546160A (zh) 使用机器学习模型的自动化数据层次结构提取和预测
US11847599B1 (en) Computing system for automated evaluation of process workflows
CN116402546A (zh) 店铺风险归因方法及其装置、设备、介质、产品
CN112328899B (zh) 信息处理方法、信息处理装置、存储介质与电子设备
US20230030341A1 (en) Dynamic user interface and machine learning tools for generating digital content and multivariate testing recommendations
JP2022079430A (ja) 方法、システムおよびコンピュータ・プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant