CN112052341A - 知识图谱剪枝方法及装置 - Google Patents

知识图谱剪枝方法及装置 Download PDF

Info

Publication number
CN112052341A
CN112052341A CN202010916898.2A CN202010916898A CN112052341A CN 112052341 A CN112052341 A CN 112052341A CN 202010916898 A CN202010916898 A CN 202010916898A CN 112052341 A CN112052341 A CN 112052341A
Authority
CN
China
Prior art keywords
sub
graph
knowledge
pruning
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010916898.2A
Other languages
English (en)
Inventor
丁平
李帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN202010916898.2A priority Critical patent/CN112052341A/zh
Publication of CN112052341A publication Critical patent/CN112052341A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种知识图谱剪枝方法及装置,该方法包括:基于剪枝条件对知识图谱进行剪枝,获得剪枝后的知识图谱;将剪枝后的知识图谱拆成多个子图谱;生成每个子图谱的索引。本发明可以对知识图谱进行剪枝,便于快速查询知识图谱。

Description

知识图谱剪枝方法及装置
技术领域
本发明涉及大数据技术领域,尤其涉及一种知识图谱剪枝方法及装置。
背景技术
随着银行电子化的发展,数据电子化、信息化后,业务的发展积累大量数据,并且每日以TB级别数据进行增长。知识图谱在促进数据智能化方面起着极其重要的作用,大数据量构建的知识图谱包含数亿级的实体和数百亿条关系。某些业务***(比如风险控制)对知识图谱查询的实时性有着较高的需求,大规模知识图谱的查询相对较慢,不能满足业务***实时性要求。
发明内容
本发明实施例提出一种知识图谱剪枝方法,用以对知识图谱进行剪枝,便于快速查询知识图谱,该方法包括:
基于剪枝条件对知识图谱进行剪枝,获得剪枝后的知识图谱;
将剪枝后的知识图谱拆成多个子图谱;
生成每个子图谱的索引。
本发明实施例提出一种知识图谱剪枝装置,对知识图谱进行剪枝,便于快速查询知识图谱,该装置包括:
剪枝模块,用于基于剪枝条件对知识图谱进行剪枝,获得剪枝后的知识图谱;
拆分模块,用于将剪枝后的知识图谱拆成多个子图谱;
索引生成模块,用于生成每个子图谱的索引。
本发明实施例还提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述知识图谱剪枝方法。
本发明实施例还提出了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述知识图谱剪枝方法的计算机程序。
在本发明实施例中,基于剪枝条件对知识图谱进行剪枝,获得剪枝后的知识图谱;将剪枝后的知识图谱拆成多个子图谱;生成每个子图谱的索引。在上述实施例中,通过剪枝、拆分、生成索引,可迅速地将一个知识图谱形成几个子图谱,便于后续进行查询。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例中知识图谱剪枝方法的流程图;
图2为本发明实施例中知识图谱剪枝方法的另一流程图;
图3为本发明实施例中知识图谱剪枝装置的示意图;
图4为本发明实施例中知识图谱剪枝装置另一示意图;
图5为本发明实施例中计算机设备的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
在本说明书的描述中,所使用的“包含”、“包括”、“具有”、“含有”等,均为开放性的用语,即意指包含但不限于。参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”等的描述意指结合该实施例或示例描述的具体特征、结构或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。各实施例中涉及的步骤顺序用于示意性说明本申请的实施,其中的步骤顺序不作限定,可根据需要作适当调整。
随着知识图谱技术的快速发展,目前各个业务场景经常能形成很多大规模的知识图谱,包括很多冗余数据,从而使得对知识图谱进行检索时效率非常低,为此,本发明实施例提出一种知识图谱剪枝方法,缩小知识图谱的规模。
图1为本发明实施例中知识图谱剪枝方法的流程图,如图1所示,该方法包括:
步骤101,基于剪枝条件对知识图谱进行剪枝,获得剪枝后的知识图谱;
步骤102,将剪枝后的知识图谱拆成多个子图谱;
步骤103,生成每个子图谱的索引。
在本发明实施例中,通过剪枝、拆分、生成索引,可迅速地将一个知识图谱形成几个子图谱,便于后续进行查询。
具体实施时,在步骤101中,剪枝条件包括实体剪枝条件和实体关系剪枝条件,其中,具体剪枝条件可以根据不同的业务场景自定义,例如对于金融知识图谱来说,实体剪枝条件包括去掉垮掉的企业、注销的账户、无效的交易对应的实体等。
在步骤102中,将剪枝后的知识图谱拆成多个子图谱,目的是构建闭环的子图谱,在一实施例中,将剪枝后的知识图谱拆成多个子图谱,包括:
从剪枝后的知识图谱中查找实体关系能够形成闭环的实体,生成不同的子图谱。
在上述实施例中,实体关系能够形成闭环的实体形成的子图谱之前是没有连接的,各自形成闭环。
在一实施例中,生成每个子图谱的索引,包括:
根据每个子图谱中实体和实体关系的特征信息,确定每个子图谱的关键词和唯一标识;
基于每个子图谱的关键词和唯一标识,生成每个子图谱的索引。
在上述实施例中,例如一个子图谱中的实体均为企业风险控制相关的,那么确定该子图谱的关键词为风险控制,唯一标识为B1,那么该子图谱的索引为“风险控制》B1”;例如一个子图谱中的实体均为企业信息审核相关的,那么确定该子图谱的关键词为企业信息审核,唯一标识为B2,那么该子图谱的索引为“企业信息审核》B2”。
在一实施例中,如图2所示的本发明实施例中知识图谱剪枝方法的另一流程图,所述方法还包括:
在获得查询请求后,基于查询请求中的关键词从多个子图谱中查询获得目标子图谱的索引。
在上述实施例中,查询请求中包括相关的关键词,在接收到查询请求后,先对子图谱的关键与查询请求中的关键词进行匹配,找到匹配度最高的关键词对应的子图谱,确定为目标子图谱,获得目标子图谱的索引,之后,可从目标子图谱中进行后续查询工作,想对于从规模庞大的知识图谱中查询来说,从一个规模小的目标子图谱中国查询将节约大量时间,大大提高查询效率。
综上所述,在本发明实施例提出的方法中,基于剪枝条件对知识图谱进行剪枝,获得剪枝后的知识图谱;将剪枝后的知识图谱拆成多个子图谱;生成每个子图谱的索引。在上述实施例中,通过剪枝、拆分、生成索引,可迅速地将一个知识图谱形成几个子图谱,便于后续进行查询。
本发明实施例还提出一种知识图谱剪枝装置,其原理与知识图谱剪枝方法类似,这里不再赘述。
图3为本发明实施例中知识图谱剪枝装置的示意图,如图3所示,该装置包括:
剪枝模块301,用于基于剪枝条件对知识图谱进行剪枝,获得剪枝后的知识图谱;
拆分模块302,用于将剪枝后的知识图谱拆成多个子图谱;
索引生成模块303,用于生成每个子图谱的索引。
在一实施例中,拆分模块302具体用于:
从剪枝后的知识图谱中查找实体关系能够形成闭环的实体,生成不同的子图谱。
在一实施例中,索引生成模块303具体用于:
根据每个子图谱中实体和实体关系的特征信息,确定每个子图谱的关键词和唯一标识;
基于每个子图谱的关键词和唯一标识,生成每个子图谱的索引。
在一实施例中,如图4所述的本发明实施例中知识图谱剪枝装置另一示意图,所述装置还包括查询模块304,用于:
在获得查询请求后,基于查询请求中的关键词从多个子图谱中查询获得目标子图谱的索引。
综上所述,在本发明实施例提出的装置中,基于剪枝条件对知识图谱进行剪枝,获得剪枝后的知识图谱;将剪枝后的知识图谱拆成多个子图谱;生成每个子图谱的索引。在上述实施例中,通过剪枝、拆分、生成索引,可迅速地将一个知识图谱形成几个子图谱,便于后续进行查询。
本申请的实施例还提供一种计算机设备,图5为本发明实施例中计算机设备的示意图,该计算机设备能够实现上述实施例中的知识图谱剪枝方法中全部步骤,所述计算机设备具体包括如下内容:
处理器(processor)501、存储器(memory)502、通信接口(CommunicationsInterface)503和通信总线504;
其中,所述处理器501、存储器502、通信接口503通过所述通信总线504完成相互间的通信;所述通信接口503用于实现服务器端设备、检测设备以及用户端设备等相关设备之间的信息传输;
所述处理器501用于调用所述存储器502中的计算机程序,所述处理器执行所述计算机程序时实现上述实施例中的知识图谱剪枝方法中的全部步骤。
本申请的实施例还提供一种计算机可读存储介质,能够实现上述实施例中的知识图谱剪枝方法中全部步骤,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的知识图谱剪枝方法的全部步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种知识图谱剪枝方法,其特征在于,包括:
基于剪枝条件对知识图谱进行剪枝,获得剪枝后的知识图谱;
将剪枝后的知识图谱拆成多个子图谱;
生成每个子图谱的索引。
2.如权利要求1所述的知识图谱剪枝方法,其特征在于,将剪枝后的知识图谱拆成多个子图谱,包括:
从剪枝后的知识图谱中查找实体关系能够形成闭环的实体,生成不同的子图谱。
3.如权利要求1所述的知识图谱剪枝方法,其特征在于,生成每个子图谱的索引,包括:
根据每个子图谱中实体和实体关系的特征信息,确定每个子图谱的关键词和唯一标识;
基于每个子图谱的关键词和唯一标识,生成每个子图谱的索引。
4.如权利要求3所述的知识图谱剪枝方法,其特征在于,还包括:
在获得查询请求后,基于查询请求中的关键词从多个子图谱中查询获得目标子图谱的索引。
5.一种知识图谱剪枝装置,其特征在于,包括:
剪枝模块,用于基于剪枝条件对知识图谱进行剪枝,获得剪枝后的知识图谱;
拆分模块,用于将剪枝后的知识图谱拆成多个子图谱;
索引生成模块,用于生成每个子图谱的索引。
6.如权利要求5所述的知识图谱剪枝装置,其特征在于,拆分模块具体用于:
从剪枝后的知识图谱中查找实体关系能够形成闭环的实体,生成不同的子图谱。
7.如权利要求5所述的知识图谱剪枝装置,其特征在于,索引生成模块具体用于:
根据每个子图谱中实体和实体关系的特征信息,确定每个子图谱的关键词和唯一标识;
基于每个子图谱的关键词和唯一标识,生成每个子图谱的索引。
8.如权利要求7所述的知识图谱剪枝装置,其特征在于,还包括查询模块,用于:
在获得查询请求后,基于查询请求中的关键词从多个子图谱中查询获得目标子图谱的索引。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4任一项所述方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至4任一项所述方法的计算机程序。
CN202010916898.2A 2020-09-03 2020-09-03 知识图谱剪枝方法及装置 Pending CN112052341A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010916898.2A CN112052341A (zh) 2020-09-03 2020-09-03 知识图谱剪枝方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010916898.2A CN112052341A (zh) 2020-09-03 2020-09-03 知识图谱剪枝方法及装置

Publications (1)

Publication Number Publication Date
CN112052341A true CN112052341A (zh) 2020-12-08

Family

ID=73606861

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010916898.2A Pending CN112052341A (zh) 2020-09-03 2020-09-03 知识图谱剪枝方法及装置

Country Status (1)

Country Link
CN (1) CN112052341A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559709A (zh) * 2020-12-16 2021-03-26 中国平安人寿保险股份有限公司 基于知识图谱的问答方法、装置、终端以及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145098A (zh) * 2018-07-20 2019-01-04 西北大学 基于知识图谱的中华文化元素信息搜索方法
CN110765317A (zh) * 2019-09-18 2020-02-07 上海生腾数据科技有限公司 一种企业受益人运算***及方法
CN110941694A (zh) * 2019-10-14 2020-03-31 珠海格力电器股份有限公司 知识图谱的搜索定位方法、***、电子设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145098A (zh) * 2018-07-20 2019-01-04 西北大学 基于知识图谱的中华文化元素信息搜索方法
CN110765317A (zh) * 2019-09-18 2020-02-07 上海生腾数据科技有限公司 一种企业受益人运算***及方法
CN110941694A (zh) * 2019-10-14 2020-03-31 珠海格力电器股份有限公司 知识图谱的搜索定位方法、***、电子设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559709A (zh) * 2020-12-16 2021-03-26 中国平安人寿保险股份有限公司 基于知识图谱的问答方法、装置、终端以及存储介质

Similar Documents

Publication Publication Date Title
CN110908997B (zh) 数据血缘构建方法、装置、服务器及可读存储介质
CA2562281C (en) Partial query caching
CN108932313B (zh) 数据处理方法、装置、电子设备及存储介质
CN107729371B (zh) 区块链的数据索引及查询方法、装置、设备及存储介质
CN109508326B (zh) 用于处理数据的方法、装置和***
CN111258978B (zh) 一种数据存储的方法
CN110866029B (zh) sql语句构建方法、装置、服务器及可读存储介质
CN111767320A (zh) 数据血缘关系确定方法及装置
CN111629063A (zh) 基于区块链的分布式文件下载的方法和电子设备
CN110618999A (zh) 数据的查询方法及装置、计算机存储介质、电子设备
CN110955712A (zh) 基于多数据源的开发api处理方法及装置
CN113722600A (zh) 应用于大数据的数据查询方法、装置、设备及产品
CN112052341A (zh) 知识图谱剪枝方法及装置
CN109947736B (zh) 实时计算的方法和***
CN113297274B (zh) 一种签收数据查询方法和***
CN114048219A (zh) 图数据库更新方法及装置
CN112988778B (zh) 一种处理数据库查询脚本的方法和装置
WO2022108599A1 (en) Data processing independent of storage, format or schema
CN113342647A (zh) 一种测试数据的生成方法及装置
CN110609926A (zh) 数据标签存储管理方法及装置
CN117131071B (zh) 一种数据处理方法、装置、电子设备及计算机可读介质
CN115694841B (zh) 基于区块链和ipfs网络的元数据流通方法、装置及存储介质
CN114679471B (zh) 一种基于云端业务处理的数据匹配方法
CN117573730B (zh) 数据处理方法、装置、设备、可读存储介质及程序产品
US20160267119A1 (en) Index building in hybrid data system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination