CN110609906A - 知识图谱构建方法及装置、存储介质及电子终端 - Google Patents

知识图谱构建方法及装置、存储介质及电子终端 Download PDF

Info

Publication number
CN110609906A
CN110609906A CN201910870536.1A CN201910870536A CN110609906A CN 110609906 A CN110609906 A CN 110609906A CN 201910870536 A CN201910870536 A CN 201910870536A CN 110609906 A CN110609906 A CN 110609906A
Authority
CN
China
Prior art keywords
data
target
entity
knowledge
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910870536.1A
Other languages
English (en)
Other versions
CN110609906B (zh
Inventor
孙树春
陈阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Golden Panda Co Ltd
Original Assignee
Golden Panda Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Golden Panda Co Ltd filed Critical Golden Panda Co Ltd
Priority to CN201910870536.1A priority Critical patent/CN110609906B/zh
Publication of CN110609906A publication Critical patent/CN110609906A/zh
Application granted granted Critical
Publication of CN110609906B publication Critical patent/CN110609906B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及计算机技术领域,具体涉及一种知识图谱构建方法、一种知识图谱构建装置、一种存储介质以及一种电子终端。所述方法包括:获取待处理数据,对所述待处理数据进行转换以获取源数据;所述源数据包括实体数据和关系数据,并分别存储于第一存储单元和第二存储单元;结合预设的自定义基础配置数据以及所述待处理数据构建自定义目标配置数据;所述自定义目标配置数据包括:实体类别、实体属性、实体值域以及实体关系类别中任一项或任意多项的组合;基于所述自定义目标配置数据由所述第一存储单元和第二存储单元对所述源数据进行筛选,以获取目标数据;对所述目标数据进行处理以生成目标知识图谱。本公开能够实现对知识图谱的定制化构建。

Description

知识图谱构建方法及装置、存储介质及电子终端
技术领域
本公开涉及计算机技术领域,具体涉及一种知识图谱构建方法、一种知识图谱构建装置、一种存储介质以及一种电子终端。
背景技术
知识图谱(Knowledge Graph)是由Google在2012年正式提出的,其初衷是为了提高搜索引擎的能力,改善用户的搜索质量以及体验。知识图谱将真实世界中存在的各种实体、概念以及它们之间的关系用图的形式加以描述,从而为信息处理提供知识基础。知识图谱已经成为人工智能的关键技术之一,被广泛应用于智能搜索、自动问答、个性化推荐、内容分发等应用中。
现有技术在构建知识图谱时仍存在一定的缺陷和不足。例如,在一些技术方案中,可以先构建三元组数据,再构建知识图谱,但这样的方案缺乏对知识图谱整体结构的考量。此外,也无法实现对知识图谱的定制化需求。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种知识图谱构建方法、一种知识图谱构建装置、一种存储介质以及一种电子终端,实现定制化的构建知识图谱,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的第一方面,提供一种知识图谱构建方法,包括:
获取待处理数据,对所述待处理数据进行转换以获取源数据;所述源数据包括实体数据和关系数据,并分别存储于第一存储单元和第二存储单元;
结合预设的自定义基础配置数据以及所述待处理数据构建自定义目标配置数据;所述自定义目标配置数据包括:实体类别、实体属性、实体值域以及实体关系类别中任一项或任意多项的组合;
基于所述自定义目标配置数据由所述第一存储单元和第二存储单元对所述源数据进行筛选,以获取目标数据;
对所述目标数据进行处理以生成目标知识图谱。
在本公开的一种示例性实施例中,所述方法还包括:
预先构建基于RDFS的自定义基础配置数据;其中,所述自定义基础配置数据包括:实体类别、实体属性、实体值域以及实体关系类别中任一项或任意多项的组合;
对所述基于RDFS的自定义基础配置数据进行格式转换,以获取预设格式的自定义基础配置数据。
在本公开的一种示例性实施例中,所述生成目标知识图谱时,所述方法还包括:
生成一查询指令,以用于根据所述查询指令对所述目标知识图谱进行读取以获取实际配置参数;
将所述实际配置参数与所述自定义基础配置数据进行一致性比对,以生成检测统计结果。
在本公开的一种示例性实施例中,所述检测统计结果包括:实体统计结果以及关***计结果。
在本公开的一种示例性实施例中,所述方法还包括:
将所述检测统计结果与预设参数标准进行对比;
在所述检测统计结果不满足所述预设参数标准时,重新执行所述知识图谱构建方法,以获取更新后的检测统计结果;
判断所述更新后的检测统计结果是否满足所述参数标准。
在本公开的一种示例性实施例中,所述对所述目标数据进行处理以生成目标知识图谱,包括:
将所述目标数据输入图形处理工具,以生成所述目标知识图谱。
在本公开的一种示例性实施例中,所述方法还包括:
响应于至少一个知识图谱创建请求,创建对应数量的知识图谱创建任务;
为各所述知识谱图创建任务并发执行所述知识图谱构建方法,以获取多个所述目标知识图谱。
根据本公开的第二方面,提供另一种知识图谱构建装置,包括:
待处理数据转换模块,用于获取待处理数据,对所述待处理数据进行转换以获取源数据;所述源数据包括实体数据和关系数据,并分别存储于第一存储单元和第二存储单元;
目标配置数据设置模块,用于结合预设的自定义基础配置数据以及所述待处理数据构建自定义目标配置数据;所述自定义目标配置数据包括:实体类别、实体属性、实体值域以及实体关系类别中任一项或任意多项的组合;
目标数据筛选模块,用于基于所述自定义目标配置数据由所述第一存储单元和第二存储单元对所述源数据进行筛选,以获取目标数据;
知识图谱创建模块,用于对所述目标数据进行处理以生成目标知识图谱。
根据本公开的第三方面,提供一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述的知识图谱构建方法。
根据本公开的第四方面,提供一种电子终端,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行上述的知识图谱构建方法
本公开的一种实施例所提供的知识图谱构建方法中,通过结合预设的自定义基础数据和待处理数据,可以为用户构建自定义目标配置数据,从而可以根据该目标配置数据来筛选数据,从而实现对知识图谱的定制化构建。并且,通过将实体数据和关系数据独立存储,可以在构建知识图谱时先构建节点,再建立节点间关系,进而满足定制化指定实体与关系的要求。并且,通过利用自定义目标配置数据对源数据进行筛选,可以有效减少冗余数据的干扰。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出本公开示例性实施例中一种知识图谱构建方法的流程示意图;
图2示意性示出本公开示例性实施例中一种对知识图谱进行检测和统计数据的方法的流程示意图;
图3示意性示出本公开示例性实施例中一种并发执行多个知识图谱创建任务的方法的流程示意图;
图4示意性示出本公开示例性实施例中一种知识图谱构建装置的组成示意图;
图5示意性示出本公开示例性实施例中一种电子设备的组成示意图;
图6示意性示出本公开示例性实施例中一种程序产品的示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
本示例实施方式中首先提供了一种知识图谱构建方法,可以应用于对不同技术领域或者不同数据进行知识图谱的个性化定制和构建。参考图1中所示,上述的知识图谱构建方法可以包括以下步骤:
步骤S11,获取待处理数据,对所述待处理数据进行转换以获取源数据;所述源数据包括实体数据和关系数据,并分别存储于第一存储单元和第二存储单元;
步骤S12,结合预设的自定义基础配置数据以及所述待处理数据构建自定义目标配置数据;所述自定义目标配置数据包括:实体类别、实体属性、实体值域以及实体关系类别中任一项或任意多项的组合;
步骤S13,基于所述自定义目标配置数据由所述第一存储单元和第二存储单元对所述源数据进行筛选,以获取目标数据;
步骤S14,对所述目标数据进行处理以生成目标知识图谱。
本示例实施方式所提供的知识图谱构建方法,
通过结合预设的自定义基础数据和待处理数据,一方面,通过将实体数据和关系数据独立存储,可以在构建知识图谱时先构建节点,再建立节点间关系,进而满足定制化指定实体与关系的要求。另一方面,可以为用户构建自定义目标配置数据,从而可以根据该目标配置数据来筛选数据,从而实现对知识图谱的定制化构建。并且,通过利用自定义目标配置数据对源数据进行筛选,可以有效减少冗余数据的干扰。
下面,将结合附图及实施例对本示例实施方式中的知识图谱构建方法中各个步骤进行更详细的说明。
步骤S101,预先构建基于RDFS的自定义基础配置数据;其中,所述自定义基础配置数据包括:实体类别、实体属性、实体值域以及实体关系类别中任一项或任意多项的组合;
步骤S102,对所述基于RDFS的自定义基础配置数据进行格式转换,以获取预设格式的自定义基础配置数据。
本示例实施方式中,针对不同的技术领域或者针对具有不同内容的数据,用户可以首先自定义基于RDFS(Resource Description Framework Schema,资源描述语言框架)的自定义基础配置数据,并生成RDF Schema定义的配置文件。具体来说,用户可以根据RDFSchema的语法,定义实体类别,实体的基本属性以及值域,实体与实体之间的关系类别等配置参数。另外,对于使用RDF Schema构建的自定义基础配置数据,其数据结构可以使用CSV(Comma-separated values,逗号分隔值)格式,或者TSV(Tab-separated values,制表符分隔值)格式,或其他方便区分实体以及关系的格式。
举例来说,用户可以针对医疗数据和通信数据,利用RDF Schema的语法自定义不同内容的自定义基础配置数据。
此外,对于自定义基础配置数据对应的配置文件,可以将其通过自然语言处理进行格式转换。例如,转换为JSON格式、YAML格式或者XML格式等易于机器自动处理的格式。具体来说,可以通过RDFS:domain判断所属类别,通过RDFS:range判断属性或者关系的值域,将整个Schema的定义转换为JSON,YAML,XML等结构。结构中区分实体对应的基础属性以及实体与实体键的关系,方便后续的服务器自动化解析。
或者,在本公开的其他示例性实施方式中,也可以使用OWL(Web OntologyLanguage,网络本体语言)或OWL2来构建自定义基础配置数据。
步骤S11,获取待处理数据,对所述待处理数据进行转换以获取源数据;所述源数据包括实体数据和关系数据,并分别存储于第一存储单元和第二存储单元。
本示例实施方式中,上述的方法可以在服务器端执行。具体来说,服务器端可以接收用户上传的结构化后的待处理数据,或者通过爬取的方式获取待处理数据。服务器端在获取待处理数据后,可以对其进行转化处理,将待处理数据转化为源数据,即三元组的RDF数据。
具体来说,RDF数据可以分为实体数据和关系数据。其中,实体数据可以作为即节点数据,关系数据用于描述实体与实体间的关系。对于转换后的实体数据和关系数据可以分别进行保存。举例来说,上述的第一存储单元和第二存储单元可以是不同的数据库。或者,也可以是一数据库中具有不同路径和文件名的文件夹或文件***。
或者,在其他示例性实施方式中,也可以将实体数据和关系数据存储在同一数据库中,通过具体的实体数据字段和关系数据字段,或者配置不同的标识信息来区分。
通过将实体数据和关系数据分别保存,这样在构建知识图谱时,可以先根据实体数据构建知识图谱中的节点,之后再根据关系数据建立知识图谱中不同级别的节点之间的关系,让实体与关系的数据解藕,满足定制化指定实体与关系的要求。
步骤S12,结合预设的自定义基础配置数据以及所述待处理数据构建自定义目标配置数据;所述自定义目标配置数据包括:实体类别、实体属性、实体值域以及实体关系类别中任一项或任意多项的组合。
在本示例性实施方式中,用户可以根据要定制化构建的知识图谱,自定义筛选条件,并生成对应的自定义目标配置数据。具体来说,用户可以在用户终端结合待处理数据的数据内容,从上述预先确定的自定义基础配置数据中选择待生成的知识图谱所需要的实体类别、关系类别,以及实体属性、实体值域,或者为关系属性、关系值域等参数,并根据具体选择的参数生成自定义目标配置数据,并将自定义目标配置数据发送至服务器端。举例来说,自定义目标配置数据可以为JSON、YAML或者XML等格式。
通过用户自定义目标配置参数,实现对知识图谱配置参数的定制化。
步骤S13,基于所述自定义目标配置数据由所述第一存储单元和第二存储单元对所述源数据进行筛选,以获取目标数据。
在本示例性实施方式中,在确定用户自定义目标配置参数后,便可根据其中的实体相关参数和关系相关参数,分别在第一存储单元和第二存储单元中筛选相关的RDF数据,即实体数据和关系数据作为目标数据。
步骤S14,对所述目标数据进行处理以生成目标知识图谱。
在本示例性实施方式中,可以将筛选获取的目标数据输入图形处理工具中,自动生成目标数据对应的目标知识图谱。举例来说,图形处理工具可以采用Neo4j图形数据库,则通过neosemantics插件导入RDF数据。在Neo4j图形数据库中,以各实体数据为节点,以关系数据为边构建知识图谱。其中,节点即实体,由一个全局唯一的ID标示;关系(属性)用于连接两个节点。
基于上述内容,在本示例性实施方式中,参考图2所示,生成目标知识图谱时,上述的方法还可以包括:
步骤S21,生成一查询指令,以用于根据所述查询指令对所述目标知识图谱进行读取以获取实际配置参数;
步骤S22,将所述实际配置参数与所述自定义基础配置数据进行一致性比对,以生成检测统计结果。
服务器端在生成生成目标知识图谱后,便可以响应于目标知识图谱的生成状态,生成一查询指令,使服务器端可以根据该查询指令,依据根据结构化的RDF Schema,结合图形数据库的查询语言,自动化生成查询语句,查询目标知识图谱中所包含的实体、关系,以及实体或者关系的属性值域等相关参数,作为实际配置参数。
举例来说,在使用Neo4j图形数据库时,可以使用cypher查询语句,或者gremlin查询语句、graphql查询语句等。对于具体的查询语句,本公开对此不做特殊限定。
另外,在获取目标知识图谱当前的实际配置参数后,便可将其与用户预先设定的自定义基础配置参数进行比对,并生成检测统计结果。在检测统计报告中,可以分别对实体以及关系的数量,与上述的目标知识图谱中当前实际数据对应的实体类别以及关系类别进行对比和统计;以及,对实体中对应关系的填充率,实体与实体间的关系等参数进行统计。
通过根据上述的各项参数生成检测统计结果,实现从多个维度对目标知识图谱中的数据进行统计,进而可以从整体上查看实体和关系的构建规模,以及对目标知识图谱中缺失的实体数据和关系数据有更精确的把控。
此外,基于上述内容,在本公开的其他示例性实施例中,上述的方法还可以包括:
步骤S31,将所述检测统计结果与预设参数标准进行对比;
步骤S32,在所述检测统计结果不满足所述预设参数标准时,重新执行所述知识图谱构建方法,以获取更新后的检测统计结果;
步骤S33,判断所述更新后的检测统计结果是否满足所述参数标准。
在本示例性实施方式中,在获取检测统计结果后,可以将其中的具体数据内容与预先设定的参数标准进行对比,判断是否满足用户的需求。例如,对于实体类型来说,用户可以预设设置一定的容错率,若根据检测统计结果判断实体类型对应的错误率为零,则表示目标知识图谱中不存在实体类型的错误。或者,若实体类型缺失,且错误数据的比例高于预设的阈值,便可以生成控制指令,重新执行上述的步骤S12-步骤S14,重新获取新的目标知识图谱,再次对目标知识图谱进行统计获取新的检测统计结果,直至根据检测统计结果判断满足用户设定的参数标准。
在本公开的其他示例性实施例中,参考图3所示,上述的方法还可以包括:
步骤S41,响应于至少一个知识图谱创建请求,创建对应数量的知识图谱创建任务;
步骤S42,为各所述知识谱图创建任务并发执行所述知识图谱构建方法,以获取多个所述目标知识图谱。
具体来说,上述的方法可以在服务端执行。不同的用户可以分别向服务器端提交知识图谱的创建请求。服务器端在接收到各请求后,可以创建对应的知识图谱创建任务并添加至预设的任务列表中。并可以并发执行各知识图谱创建任务,实现高效构建多个应用场景下内容差异的知识图谱。
或者,在公开的其他示例性实施方式中,上述的方法也可以在用户侧终端设备执行,用户可以针对不同的数据内容分别提交多个知识图谱创建请求,使终端设备可以并发执行各知识图谱创建任务。本公开对上述方法的执行端不做特殊限定。
举例来说,对于医疗领域,首先利用RDFS语言自定义基础配置数据,具体的,可以自定义实体类型,包括:
1)基因;s:Gene a rdfs:Class;rdfs:label"Gene";rdfs:comment"基因";
2)药品;s:Drug a rdfs:Class;rdfs:label"Drug";rdfs:comment"药品";
3)疾病;s:Disease a rdfs:Class;rdfs:label"Disease";rdfs:comment"疾病"。
还可以自定义属性/关系定义,具体数据结构可以包括:
名称/编码;s:name a rdf:Property;rdfs:label"Name";s:typeName"名称";rdfs:comment"名称";rdfs:domain s:Gene,s:Drug,s:Disease;rdfs:range xsd:string。
举例来说,针对上述的自定义实体类型,属性/关系定义可以包括:
1)导致疾病;s:causeDisease a rdf:Property;rdfs:label"Disease";s:typeName"导致疾病";rdfs:comment"导致疾病";rdfs:domain s:Gene;rdfs:range s:Disease;
2)靶向药;s:targetedDrug a rdf:Property;rdfs:label"Drug";s:typeName"靶向药";rdfs:comment"靶向药";rdfs:domain s:Gene;rdfs:range s:Drug。
再对上述的自定义结构转换为JSON格式的配置数据。
在获取待处理的指定的医疗数据后,便可以根据RDF Schema的定义生成相应的RDF数据,并按照预设的文件结构保存在文件***或不用的数据库中。例如,实体数据的路径可以包括:rdf/nodes/disease.ttl;rdf/nodes/drug.ttl;rdf/nodes/gene.ttl。属性/关系数据的路径可以包括:rdf/relations/disease.ttl;rdf/relations/drug.ttl;rdf/relations/gene.ttl;rdf/relations/gene-drug.ttl;rdf/relations/gene-disease.ttl。
对于上述的指定的医疗数据,若用户指定实体类别,构建只包含“基因”和“药品”的知识图谱。便可以根据上述生成的JSON格式的自定义基础配置文件,获取以下文件进行构建:在获取指定的实体以及实体自身相关的属性rdf数据的同时,因为基因与药品间存在s__targetedDrug(靶向药)的关系,所以rdf/relations/gene-drug.ttl被获取。
具体的,筛选的实体数据可以包括:rdf/nodes/drug.ttl;rdf/nodes/gene.ttl。筛选的属性/关系数据可以包括:rdf/relations/drug.ttl;rdf/relations/gene.ttl;rdf/relations/gene-drug.ttl。再将筛选的上述数据通过脚本自动导入Neo4j工具中,生成知识图谱。
再根据上述的JSON格式的自定义基础配置数据,生成相应的查询语句,获取实际结果与JSON格式的配置数据定义进行对比,检测错误。还可以生成相应的查询统计语句,统计具体的数据指标并生成相应的报告。
本公开提供的指示图谱构建方法中,预先利用RDF Schema来定义知识图谱中的实体类别和关系类别的相关配置参数,生成自定义基础配置参数;并将其利用自然语言处理转换为易于机器自动处理的数据格式。对于待处理的数据,将其进行转换为实体数据和关系数据,并分别保存在不同的***文件或数据库中。再根据要定制化构建的知识图谱,确定筛选条件,并生成自定义目标配置数据,具体可以包括:指定实体类别、指定关系类别或者指定其他属性值域范围。根据上述的指定的各项配置参数,自动化从上述的实体数据和关系数据中筛选相应范围的RDF数据,再将该RDF数据导入构建知识图谱的数据库中,得到知识图谱。同时,可以根据自定义目标配置参数以及基于自定义基础配置参数获取的待统计的实体类别、关系类别等参数以及相关的逻辑,转换为查询语句,对知识图谱的当前实际参数进行查询。从多个维度统计知识图谱中的实际数据,并将实际数据与自定义基础配置参数进行一致性检测,生产检测统计结果报告。
通过利用自定义的配置参数来筛选三元组的数据范围,实现定制化构建知识图谱,有效的减少冗余数据的烦扰。并且,通过预先利用RDF Schema定义结构化的自定义基础配置参数,并根据数据本身的内容和特点自定义目标配置参数,能够与实际数据结合的更加紧密,便于后续针对实际数据进行统计和检测,方便对知识图谱整体数据的统计和分析。并且,可以并发执行多个知识图谱的构建,实现同时高效构建多个应用场景下内容差异的知识图谱。
需要注意的是,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
进一步的,参考图4所示,本示例的实施方式中还提供了一种知识图谱构建装置40,包括:待处理数据转换模块401、目标配置数据设置模块402、目标数据筛选模块403以及知识图谱创建模块404。其中:
所述待处理数据转换模块401可以用于获取待处理数据,对所述待处理数据进行转换以获取源数据;所述源数据包括实体数据和关系数据,并分别存储于第一存储单元和第二存储单元。
所述目标配置数据设置模块402可以用于结合预设的自定义基础配置数据以及所述待处理数据构建自定义目标配置数据;所述自定义目标配置数据包括:实体类别、实体属性、实体值域以及实体关系类别中任一项或任意多项的组合。
所述目标数据筛选模块403可以用于基于所述自定义目标配置数据由所述第一存储单元和第二存储单元对所述源数据进行筛选,以获取目标数据。
所述知识图谱创建模块404可以用于对所述目标数据进行处理以生成目标知识图谱。
在本示例性实施方式中,所述装置40还包括:基础配置数据定义模块和格式转换模块。其中,
所述基础配置数据定义模块可以用于预先构建基于RDFS的自定义基础配置数据;其中,所述自定义基础配置数据包括:实体类别、实体属性、实体值域以及实体关系类别中任一项或任意多项的组合。
所述格式转模块可以用于对所述基于RDFS的自定义基础配置数据进行格式转换,以获取预设格式的自定义基础配置数据。
在本示例性实施方式中,所述装置40还包括:实际数据查询模块和统计模块。其中,
所述实际数据查询模块可以用于生成一查询指令,以用于根据所述查询指令对所述目标知识图谱进行读取以获取实际配置参数。
所述统计模块可以用于将所述实际配置参数与所述自定义基础配置数据进行一致性比对,以生成检测统计结果。
在本示例性实施方式中,所述检测统计结果包括:实体统计结果以及关***计结果。
在本示例性实施方式中,所述装置40还包括:参数对比模块、更新模块和再判断模块。其中,
所述参数对比模块可以用于将所述检测统计结果与预设参数标准进行对比。
所述更新模块可以用于在所述检测统计结果不满足所述预设参数标准时,重新执行所述知识图谱构建方法,以获取更新后的检测统计结果。
所述在判断模块可以用于判断所述更新后的检测统计结果是否满足所述参数标准。
在本示例性实施方式中,所述知识图谱创建模块404包括:图形工具处理单元。
所述图形工具处理单元可以用于将所述目标数据输入图形处理工具,以生成所述目标知识图谱。
在本示例性实施方式中,所述装置40还包括:任务创建模块和并发执行控制模块。其中,
所述任务创建模块可以用于响应于至少一个知识图谱创建请求,创建对应数量的知识图谱创建任务。
所述并发执行控制模块可以用于为各所述知识谱图创建任务并发执行所述知识图谱构建方法,以获取多个所述目标知识图谱。
上述的知识图谱构建装置40中各模块的具体细节已经在对应的知识图谱构建方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为***、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“***”。
下面参照图5来描述根据本发明的这种实施方式的电子设备500。图5显示的电子设备500仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,电子设备500以通用计算设备的形式表现。电子设备500的组件可以包括但不限于:上述至少一个处理单元510、上述至少一个存储单元520、连接不同***组件(包括存储单元520和处理单元510)的总线530。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元510执行,使得所述处理单元510执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元510可以执行如图1中所示方法。
存储单元520可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)5201和/或高速缓存存储单元5202,还可以进一步包括只读存储单元(ROM)5203。
存储单元520还可以包括具有一组(至少一个)程序模块5205的程序/实用工具5204,这样的程序模块5205包括但不限于:操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线530可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、***总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备500也可以与一个或多个外部设备600(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备500交互的设备通信,和/或与使得该电子设备500能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口550进行。并且,电子设备500还可以通过网络适配器560与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器560通过总线530与电子设备500的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备500使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。
参考图6所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品60,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims (10)

1.一种知识图谱构建方法,其特征在于,包括:
获取待处理数据,对所述待处理数据进行转换以获取源数据;所述源数据包括实体数据和关系数据,并分别存储于第一存储单元和第二存储单元;
结合预设的自定义基础配置数据以及所述待处理数据构建自定义目标配置数据;所述自定义目标配置数据包括:实体类别、实体属性、实体值域以及实体关系类别中任一项或任意多项的组合;
基于所述自定义目标配置数据由所述第一存储单元和第二存储单元对所述源数据进行筛选,以获取目标数据;
对所述目标数据进行处理以生成目标知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
预先构建基于RDFS的自定义基础配置数据;其中,所述自定义基础配置数据包括:实体类别、实体属性、实体值域以及实体关系类别中任一项或任意多项的组合;
对所述基于RDFS的自定义基础配置数据进行格式转换,以获取预设格式的自定义基础配置数据。
3.根据权利要求1所述的方法,其特征在于,所述生成目标知识图谱时,所述方法还包括:
生成一查询指令,以用于根据所述查询指令对所述目标知识图谱进行读取以获取实际配置参数;
将所述实际配置参数与所述自定义基础配置数据进行一致性比对,以生成检测统计结果。
4.根据权利要求3所述的方法,其特征在于,所述检测统计结果包括:
实体统计结果以及关***计结果。
5.根据权利要求3或4所述的方法,其特征在于,所述方法还包括:
将所述检测统计结果与预设参数标准进行对比;
在所述检测统计结果不满足所述预设参数标准时,重新执行所述知识图谱构建方法,以获取更新后的检测统计结果;
判断所述更新后的检测统计结果是否满足所述参数标准。
6.根据权利要求1所述的方法,其特征在于,所述对所述目标数据进行处理以生成目标知识图谱,包括:
将所述目标数据输入图形处理工具,以生成所述目标知识图谱。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
响应于至少一个知识图谱创建请求,创建对应数量的知识图谱创建任务;
为各所述知识谱图创建任务并发执行所述知识图谱构建方法,以获取多个所述目标知识图谱。
8.一种知识图谱构建装置,其特征在于,包括:
待处理数据转换模块,用于获取待处理数据,对所述待处理数据进行转换以获取源数据;所述源数据包括实体数据和关系数据,并分别存储于第一存储单元和第二存储单元;
目标配置数据设置模块,用于结合预设的自定义基础配置数据以及所述待处理数据构建自定义目标配置数据;所述自定义目标配置数据包括:实体类别、实体属性、实体值域以及实体关系类别中任一项或任意多项的组合;
目标数据筛选模块,用于基于所述自定义目标配置数据由所述第一存储单元和第二存储单元对所述源数据进行筛选,以获取目标数据;
知识图谱创建模块,用于对所述目标数据进行处理以生成目标知识图谱。
9.一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现根据权利要求1至7中任一项所述的知识图谱构建方法。
10.一种电子终端,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至7中任一项所述的知识图谱构建方法。
CN201910870536.1A 2019-09-16 2019-09-16 知识图谱构建方法及装置、存储介质及电子终端 Active CN110609906B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910870536.1A CN110609906B (zh) 2019-09-16 2019-09-16 知识图谱构建方法及装置、存储介质及电子终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910870536.1A CN110609906B (zh) 2019-09-16 2019-09-16 知识图谱构建方法及装置、存储介质及电子终端

Publications (2)

Publication Number Publication Date
CN110609906A true CN110609906A (zh) 2019-12-24
CN110609906B CN110609906B (zh) 2023-01-03

Family

ID=68891358

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910870536.1A Active CN110609906B (zh) 2019-09-16 2019-09-16 知识图谱构建方法及装置、存储介质及电子终端

Country Status (1)

Country Link
CN (1) CN110609906B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111209409A (zh) * 2019-12-27 2020-05-29 南京医康科技有限公司 数据匹配方法及装置、存储介质及电子终端
CN111651465A (zh) * 2020-05-08 2020-09-11 南京航空航天大学 用于企业合作的知识数据存储方法、装置
CN111667074A (zh) * 2020-05-19 2020-09-15 北京海致星图科技有限公司 一种应用知识推理到知识图谱生成方法及***
CN111753928A (zh) * 2020-07-29 2020-10-09 北京人人云图信息技术有限公司 一种基于知识图谱与树模型构造的海关检测规则生成方法
CN111859969A (zh) * 2020-07-20 2020-10-30 航天科工智慧产业发展有限公司 数据分析方法及装置、电子设备、存储介质
CN112115315A (zh) * 2020-09-25 2020-12-22 平安国际智慧城市科技股份有限公司 血缘数据查询方法、装置、计算机设备及存储介质
CN112165395A (zh) * 2020-09-11 2021-01-01 烽火通信科技股份有限公司 一种网管配置数据转换方法与***
CN112163127A (zh) * 2020-09-30 2021-01-01 北京锐安科技有限公司 关系图谱构建方法、装置、电子设备及存储介质
CN113157947A (zh) * 2021-05-20 2021-07-23 中国工商银行股份有限公司 知识图谱的构建方法、工具、装置和服务器

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8429179B1 (en) * 2009-12-16 2013-04-23 Board Of Regents, The University Of Texas System Method and system for ontology driven data collection and processing
CN106649769A (zh) * 2016-12-27 2017-05-10 中国科学院大学 一种基于语义的xbrl数据到owl数据的转换方法
CN109658208A (zh) * 2019-01-15 2019-04-19 京东方科技集团股份有限公司 药品的推荐方法、装置、介质和电子设备
CN109684313A (zh) * 2018-12-14 2019-04-26 浪潮软件集团有限公司 一种数据清洗加工方法及***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8429179B1 (en) * 2009-12-16 2013-04-23 Board Of Regents, The University Of Texas System Method and system for ontology driven data collection and processing
CN106649769A (zh) * 2016-12-27 2017-05-10 中国科学院大学 一种基于语义的xbrl数据到owl数据的转换方法
CN109684313A (zh) * 2018-12-14 2019-04-26 浪潮软件集团有限公司 一种数据清洗加工方法及***
CN109658208A (zh) * 2019-01-15 2019-04-19 京东方科技集团股份有限公司 药品的推荐方法、装置、介质和电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
姬源等: "电力领域语义搜索***的构建方法", 《计算机***应用》 *
顾进广等: "知识图谱中链接数据质量评价研究综述", 《武汉大学学报(理学版)》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111209409A (zh) * 2019-12-27 2020-05-29 南京医康科技有限公司 数据匹配方法及装置、存储介质及电子终端
CN111209409B (zh) * 2019-12-27 2023-09-29 医渡云(北京)技术有限公司 数据匹配方法及装置、存储介质及电子终端
CN111651465A (zh) * 2020-05-08 2020-09-11 南京航空航天大学 用于企业合作的知识数据存储方法、装置
CN111651465B (zh) * 2020-05-08 2023-09-29 南京航空航天大学 用于企业合作的知识数据存储方法、装置
CN111667074A (zh) * 2020-05-19 2020-09-15 北京海致星图科技有限公司 一种应用知识推理到知识图谱生成方法及***
CN111859969A (zh) * 2020-07-20 2020-10-30 航天科工智慧产业发展有限公司 数据分析方法及装置、电子设备、存储介质
CN111859969B (zh) * 2020-07-20 2024-05-03 航天科工智慧产业发展有限公司 数据分析方法及装置、电子设备、存储介质
CN111753928B (zh) * 2020-07-29 2023-05-16 北京人人云图信息技术有限公司 一种基于知识图谱与树模型构造的海关检测规则生成方法
CN111753928A (zh) * 2020-07-29 2020-10-09 北京人人云图信息技术有限公司 一种基于知识图谱与树模型构造的海关检测规则生成方法
CN112165395A (zh) * 2020-09-11 2021-01-01 烽火通信科技股份有限公司 一种网管配置数据转换方法与***
CN112165395B (zh) * 2020-09-11 2023-04-18 烽火通信科技股份有限公司 一种网管配置数据转换方法与***
CN112115315A (zh) * 2020-09-25 2020-12-22 平安国际智慧城市科技股份有限公司 血缘数据查询方法、装置、计算机设备及存储介质
CN112163127A (zh) * 2020-09-30 2021-01-01 北京锐安科技有限公司 关系图谱构建方法、装置、电子设备及存储介质
CN112163127B (zh) * 2020-09-30 2023-11-21 北京锐安科技有限公司 关系图谱构建方法、装置、电子设备及存储介质
CN113157947A (zh) * 2021-05-20 2021-07-23 中国工商银行股份有限公司 知识图谱的构建方法、工具、装置和服务器

Also Published As

Publication number Publication date
CN110609906B (zh) 2023-01-03

Similar Documents

Publication Publication Date Title
CN110609906B (zh) 知识图谱构建方法及装置、存储介质及电子终端
US11526338B2 (en) System and method for inferencing of data transformations through pattern decomposition
US11531914B2 (en) Artificial intelligence (AI) based automatic rule generation
CN109344170B (zh) 流数据处理方法、***、电子设备及可读存储介质
AU2021212135A1 (en) Building and managing data-processing attributes for modelled data sources
WO2017059014A1 (en) Interoperability of transforms under a unified platform and extensible transformation library of those interoperable transforms
US9459843B1 (en) Methods and apparatuses for providing dynamic definition and selection of metric applications
US20200167267A1 (en) Asynchronous consumer-driven contract testing in micro service architecture
US20120158416A1 (en) Web-service based generation of business objects
CN113238740B (zh) 代码生成方法、代码生成装置、存储介质及电子设备
CN115989490A (zh) 用于为文本分类提供解释的技术
D'Souza et al. Enabling the generation of web applications from mockups
US11836591B1 (en) Scalable systems and methods for curating user experience test results
US11977473B2 (en) Providing a pseudo language for manipulating complex variables of an orchestration flow
CN115145652A (zh) 一种数据处理任务的创建方法、装置、设备及介质
CN117435177B (zh) 应用程序接口构建方法、***、设备及存储介质
US20240256503A1 (en) Hybrid approach for measuring statistical drift and data quality on large datasets
US20240086184A1 (en) Schema transformation for managing an application build
US20200226106A1 (en) Data repositories
CN117687634A (zh) 一种服务编译方法、装置和电子设备
CN118427218A (zh) 状态信息配置方法及装置、电子设备、存储介质和计算机程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant