CN115809311A - 知识图谱的数据处理方法、装置及计算机设备 - Google Patents

知识图谱的数据处理方法、装置及计算机设备 Download PDF

Info

Publication number
CN115809311A
CN115809311A CN202211654507.XA CN202211654507A CN115809311A CN 115809311 A CN115809311 A CN 115809311A CN 202211654507 A CN202211654507 A CN 202211654507A CN 115809311 A CN115809311 A CN 115809311A
Authority
CN
China
Prior art keywords
data
real
time information
information
knowledge graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211654507.XA
Other languages
English (en)
Inventor
张宝利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qichacha Technology Co ltd
Original Assignee
Qichacha Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qichacha Technology Co ltd filed Critical Qichacha Technology Co ltd
Priority to CN202211654507.XA priority Critical patent/CN115809311A/zh
Publication of CN115809311A publication Critical patent/CN115809311A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及知识图谱技术领域,具体公开了一种知识图谱的数据处理方法、装置及计算机设备,所述方法包括:获取数据生产者的历史信息,根据所述历史信息建立数据文件映射表;将所述数据文件映射表导入知识图谱形成所述知识图谱的基地数据;获取所述数据生产者的实时信息,在根据所述历史信息确定所述实时信息的内容更新的情况下,将更新的实时信息发送至消息中间件;利用所述消息中间件更新所述知识图谱的基地数据。本公开在根据历史信息确定实时信息中存在更新的实时信息后,将更新的实时信息过消息中间件导入知识图谱,不仅可以及时对知识图谱进行更新,还提高了数据写入知识图谱的稳定性,进而保证了知识图谱提供服务的稳定性。

Description

知识图谱的数据处理方法、装置及计算机设备
技术领域
本公开涉及知识图谱技术领域,特别是涉及一种知识图谱的数据处理方法、装置及计算机设备。
背景技术
随着互联网和大数据时代的到来,万物互联成为可能,这种互联所产生的数据也在爆发式地增长,而且这些数据恰好可以作为分析关系的有效原料。因此,知识图谱在数据挖掘、数据分析等需求场合得到了更为广泛的应用。
相关技术中,知识图谱中的数据往往是N+1数据,即将当天的全量数据在夜间流量较低时进行导入,且导入时暂停知识图谱服务,大大限制了知识图谱数据的实时性以及提供服务的稳定性。
发明内容
基于此,有必要针对上述技术问题,提供一种知识图谱的数据处理方法、装置、计算机设备、存储介质和计算机程序产品。
第一方面,本公开提供了一种知识图谱的数据处理方法。所述方法包括:
获取数据生产者的历史信息,根据所述历史信息建立数据文件映射表;
将所述数据文件映射表导入知识图谱形成所述知识图谱的基地数据;
获取所述数据生产者的实时信息,在根据所述历史信息确定所述实时信息的内容更新的情况下,将更新的实时信息发送至消息中间件;
利用所述消息中间件更新所述知识图谱的基地数据。
在其中一个实施例中,所述获取所述数据生产者的实时信息,在根据所述历史信息确定所述实时信息的内容更新的情况下,将更新的实时信息发送至消息中间件包括:
判断所述实时信息的信息摘要与所述数据文件映射表中历史信息的信息摘要是否一致;
响应于所述实时信息的信息摘要与所述数据文件映射表中历史信息的信息摘要不一致,确定信息摘要不一致的实时信息为所述更新的实时信息。
在其中一个实施例中,所述方法还包括:
响应于所述实时信息的信息摘要与所述数据文件映射表中历史信息的信息摘要不一致,根据所述更新的实时信息更新所述数据文件映射表。
在其中一个实施例中,所述消息中间件包括多个分区,所述获取所述数据生产者的实时信息,在根据所述历史信息确定所述实时信息的内容更新的情况下,将更新的实时信息发送至消息中间件还包括:
根据所述更新的实时信息的关键字段将所述更新的实时信息发送至所述消息中间件对应的分区。
在其中一个实施例中,所述利用所述消息中间件更新所述知识图谱的基地数据包括:
根据所述知识图谱的数据读取流量确定所述知识图谱的更新写入流量阈值;
根据所述更新写入流量阈值更新所述知识图谱的基地数据。
在其中一个实施例中,所述将所述数据文件映射表导入知识图谱形成所述知识图谱的基地数据包括:
通过分布式计算引擎将所述数据文件映射表全量导入所述知识图谱的数据库。
第二方面,本公开还提供了一种知识图谱的数据处理装置。所述装置包括:
历史数据模块,用于获取数据生产者的历史信息,根据所述历史信息建立数据文件映射表;
映射表导入模块,用于将所述数据文件映射表导入知识图谱形成所述知识图谱的基地数据;
实时数据模块,用于获取所述数据生产者的实时信息,在根据所述历史信息确定所述实时信息的内容更新的情况下,将更新的实时信息发送至消息中间件;
知识图谱更新模块,用于利用所述消息中间件更新所述知识图谱的基地数据。
在其中一个实施例中,所述实时数据模块包括:
信息摘要单元,用于判断所述实时信息的信息摘要与所述数据文件映射表中历史信息的信息摘要是否一致;
更新确定单元,用于响应于所述实时信息的信息摘要与所述数据文件映射表中历史信息的信息摘要不一致,确定信息摘要不一致的实时信息为所述更新的实时信息。
在其中一个实施例中,所述装置还包括:
映射表更新模块,用于响应于所述实时信息的信息摘要与所述数据文件映射表中历史信息的信息摘要不一致,根据所述更新的实时信息更新所述数据文件映射表。
在其中一个实施例中,所述消息中间件包括多个分区,所述更新发送单元,还用于根据所述更新的实时信息的关键字段将所述更新的实时信息发送至所述消息中间件对应的分区。
在其中一个实施例中,所述知识图谱更新模块包括:
更新写入流量阈值单元,用于根据所述知识图谱的数据读取流量确定所述知识图谱的更新写入流量阈值;
更新写入单元,用于根据所述更新写入流量阈值更新所述知识图谱的基地数据。
在其中一个实施例中,所述映射表导入模块包括:
计算引擎单元,用于通过分布式计算引擎将所述数据文件映射表全量导入所述知识图谱的数据库。
第三方面,本公开还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述知识图谱的数据处理方法的步骤。
第四方面,本公开还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述知识图谱的数据处理方法的步骤。
第五方面,本公开还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述知识图谱的数据处理方法的步骤。
上述知识图谱的数据处理方法、装置、计算机设备、存储介质和计算机程序产品,至少包括以下有益效果:
本公开通过数据文件映射表将数据导入到知识图谱中,降低了数据直接写入造成的数据错乱概率,并且有助于后续根据数据文件映射表对数据进行分析;另外,根据历史信息确定实时信息中存在更新的实时信息后,将更新的实时信息通过消息中间件导入知识图谱,不仅可以及时对知识图谱进行更新,还提高了数据写入知识图谱的稳定性,进而保证了知识图谱提供服务的稳定性;同时,将更新的实时信息写入消息中间件可以支持非必要的业务逻辑以异步的方式运行,加快响应速度,以及在写入并发量较大的情况下,消息中间件起到缓冲作用,消息中间件可以逐步导入信息到知识图谱,避免与数据库连接异常,另外,消息中间件实现了数据生产和数据消费的解耦,使得向消息中间件写入数据和从消息中间件读取数据互不干扰;并且有助于将实时信息通过入消息中间件持久化,便于后续调研分析。
附图说明
为了更清楚地说明本公开实施例或传统技术中的技术方案,下面将对实施例或传统技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一个实施例中知识图谱的数据处理方法的应用环境图;
图2为一个实施例中知识图谱的数据处理方法的流程示意图;
图3为另一个实施例中知识图谱的数据处理方法的流程示意图;
图4为一个实施例中知识图谱的数据处理方法的数据流向图;
图5为另一个实施例中知识图谱的数据处理方法的流程示意图;
图6为一个实施例中知识图谱的数据处理装置的结构框图;
图7为另一个实施例中知识图谱的数据处理装置的结构框图;
图8为另一个实施例中知识图谱的数据处理装置的结构框图;
图9为一个实施例中计算机设备的内部结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
除非另有定义,本文所使用的所有的技术和科学术语与属于本公开的技术领域的技术人员通常理解的含义相同。本文中在本公开的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本公开。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。例如若使用到第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
在此使用时,单数形式的“一”、“一个”和“所述/该”也可以包括复数形式,除非上下文清楚指出另外的方式。还应当理解的是,术语“包括/包含”或“具有”等指定所陈述的特征、整体、步骤、操作、组件、部分或它们的组合的存在,但是不排除存在或添加一个或更多个其他特征、整体、步骤、操作、组件、部分或它们的组合的可能性。同时,在本说明书中,术语“和/或”包括相关所列项目的任何及所有组合。
本公开实施例提供的知识图谱的数据处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。服务器104包括知识图谱数据库,服务器104向终端102提供知识图谱服务。服务器104可以获取公开数据源和业务***产生的数据,业务***可以是Hadoop分布式文件***(即,HDFS)。服务器104可以实时获取公开数据源和业务***产生的数据,筛选出实时数据进行变更的更新数据,并及时将更新数据导入知识图谱数据库。知识图谱数据库可以集成在服务器104上,也可以放在云上或其他网络服务器上。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在本公开的一些实施例中,如图2所示,提供了一种知识图谱的数据处理方法,以该方法200应用于图1中的服务器为例进行说明,包括以下步骤:
步骤210,获取数据生产者的历史信息,根据所述历史信息知识图谱的数据处理。
其中,数据生产者可以包括公开数据源和业务***,公开数据源可以是指公共网站、公开数据库等面向公众进行开放的数据源。业务***可以是指用于完成特定的任务所需的业务环节、实现业务提供方和用户之间交互的***。
示例性地,服务器可以通过数据接口获取公开数据源和业务***产生的历史信息,并将历史信息存储到数据文件映射表中。数据文件映射表可以基于hive建立,hive通常是指基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张hive表(即数据文件映射表),并提供SQL(Structured Query Language,结构化查询语言)查询功能。
步骤220,将所述数据文件映射表导入知识图谱形成所述知识图谱的基地数据。
其中,知识图谱可以是基于业务***的需求构建的知识图谱,用于为业务***提供知识图谱服务。基地数据可以通过信息抽取、知识融合、知识加工等处理形成知识图谱。
示例性地,将建立的数据文件映射表根据知识图谱的模式导入到知识图谱数据库。知识图谱的模式可以是指对知识图谱中的实体、属性及关系进行明确的界定,对其可行的范畴加以明确。可选地,知识图谱数据库可以选用Nebula数据库,Nebula数据库是一个分布式、可扩展的图数据库。
可选地,在将数据文件映射表导入知识图谱之前,开可以借助HQL(hive sql)进行数据清洗,使得数据文件映射表中的数据满足知识图谱所需的数据格式。数据清洗方法可以包括但不限于缺失值填充、数值替换、数据类型转换、数据分列、重复值处理等,清洗的数据结果直接影响最后数据分析的结果。
步骤230,获取所述数据生产者的实时信息,在根据所述历史信息确定所述实时信息的内容更新的情况下,将更新的实时信息发送至消息中间件。
示例性地,服务器可以实时监测数据生产者产生的实时信息,并结合历史信息进行判断,进而确定出存在更新的实时信息。服务器还可以将确定的更新的实时信息发送到消息中间件。
可选地,服务器可以利用Redis或者人为触发等多重方式监控数据生产者产生的实时信息。Redis(Remote Dictionary Server),即远程字典服务,是一个高性能的key-value数据库,Redis支持发布/订阅机制,可订阅一个频道并接收数据生产者完整的消息发布记录。消息中间件可以选择Kafka,Kafka是一种高吞吐量的分布式发布订阅消息***。
可选地,将更新的实时信息发送至消息中间件的步骤中,服务器可以将实时信息中变更的数据字段或者实时信息的整个数据对象集发送至消息中间件。
步骤240,利用所述消息中间件更新所述知识图谱的基地数据。
示例性地,服务器将更新的实时信息发送到消息中间件后,可以进一步根据消息中间件中更新的实时信息更新知识图谱的基地数据,以保证知识图谱的实时性。
上述知识图谱的数据处理方法中,通过数据文件映射表将数据导入到知识图谱中,降低了数据直接写入造成的数据错乱机率,并且有助于后续根据数据文件映射表对数据进行分析;另外,根据历史信息确定实时信息中存在更新的实时信息后,将更新的实时信息通过消息中间件导入知识图谱,不仅可以及时对知识图谱进行更新,还提高了数据写入知识图谱的稳定性,进而保证了知识图谱提供服务的稳定性;同时,将更新的实时信息写入消息中间件可以支持非必要的业务逻辑以异步的方式运行,加快响应速度,以及在写入并发量较大的情况下,消息中间件起到缓冲作用,消息中间件可以逐步导入信息到知识图谱,避免与数据库连接异常,另外,消息中间件实现了数据生产和数据消费的解耦,使得向消息中间件写入数据和从消息中间件读取数据互不干扰;并且有助于将实时信息通过入消息中间件持久化,便于后续调研分析。
在本公开的一些实施例中,如图3所示,步骤230包括:
步骤232,判断所述实时信息的信息摘要与所述数据文件映射表中历史信息的信息摘要是否一致。
示例性地,服务器可以解析获得实时信息/历史信息的信息摘要,并判断实时信息的信息摘要和历史信息的信息摘要是否一致。可选地,解析获得实时信息/历史信息的信息摘要可以通过MD5算法,MD5(MD5 Message-Digest Algorithm,信息摘要算法),通常是指一种密码散列函数,可以产生出一个128位(16字节)的散列值(即信息摘要)。散列值(即信息摘要)不同,则表示数据本身发生了变化。
步骤234,响应于所述实时信息的信息摘要与所述数据文件映射表中历史信息的信息摘要不一致,确定信息摘要不一致的实时信息为所述更新的实时信息。
示例性地,结合图4所示的本实施例提供的知识图谱的数据处理方法的数据流向图,服务器在判断实时信息的信息摘要与数据文件映射表中历史信息的信息摘要不一致时,可以确定信息摘要不一致的实时信息为更新的实时信息,并触发将更新的实时信息发送至消息中间件按的动作。
本实施例通过判断实时信息的信息摘要与历史信息的信息摘要是否一致,进而确定信息摘要不一致的实时信息为更新的实时信息,可以更加便捷高效的确定出更新的实时信息。
在本公开的一些实施例中,所述方法还包括:
响应于所述实时信息的信息摘要与所述数据文件映射表中历史信息的信息摘要不一致,根据所述更新的实时信息更新所述数据文件映射表。
示例性地,服务器在判断实时信息的信息摘要与数据文件映射表中历史信息的信息摘要不一致时,服务器还触发将数据文件映射表中的历史信息根据实时信息进行更新,以保持数据文件映射表的实时性。需要注意的是,在后续的重复判断所述实时信息的信息摘要与所述数据文件映射表中历史信息的信息摘要是否一致的步骤中,数据文件映射表均为实时的、经过更新后的数据文件映射表。
可选地,服务器将更新的实时信息发送至消息中间件时,可以同步将更新的实时信息写入数据文件映射表进行更新。数据文件映射表可以支持HDFS***读取查阅,以对实时信息进行分析。
本实施例通过根据实时信息的更新情况及时更新数据文件映射表,并通过数据文件映射表将实时信息进行存储并供HDFS***读取查阅,有助于在将实时信息导入知识图谱时结合整个数据对象集进行数据校正,降低了数据实时写入造成的数据错乱机率,以及后续的数据追踪分析。
在本公开的一些实施例中,步骤230还包括:
根据所述更新的实时信息的关键字段将所述更新的实时信息发送至所述消息中间件对应的分区。
示例性地,消息中间件可以包括多个分区,服务器可以按照预设的关键字段规则,根据更新的实时信息的关键字段将更新的实时信息发送至消息中间件对应的分区,使得同一条数据更新的实时信息可以进入相同的分区。可选地,关键字段可以根据数据的特征、时序选定。
本实施例通过将更新的实时信息根据关键字段发送至消息中间件对应的分区,既可以保证同一条数据更新的实时信息可以进入相同的分区,还加强了数据管理,提高了知识图谱写入效率。
在本公开的一些实施例中,如图5所示,步骤240包括:
步骤242,根据所述知识图谱的数据读取流量确定所述知识图谱的更新写入流量阈值。
示例性地,服务器在消息中间件中写入更新的实时信息后,获取知识图谱实时的数据读取流量,并根据知识图谱实时的数据读取流量确定知识图谱的更新写入流量阈值。其中,更新写入流量阈值可以确保知识图谱的数据读取流量不受到影响,进而确保知识图谱提供服务的稳定性。
步骤244,根据所述更新写入流量阈值更新所述知识图谱的基地数据。
示例性地,更新写入流量阈值可以根据知识图谱实时的数据读取流量进行变更,服务器根据实时确定的更新写入流量阈值,在不超过更新写入流量阈值的情况下,在知识图谱数据库中写入消息中间件中更新的实时信息。
本实施例通过知识图谱的数据读取流量确定知识图谱的更新写入流量阈值,并在不超过更新写入流量阈值的情况下,在知识图谱数据库中写入消息中间件中更新的实时信息,确保了知识图谱提供服务的稳定性,在可以及时将更新的实时信息写入知识图谱,提高了知识图谱的实时性。
在本公开的一些实施例中,步骤220包括:
通过分布式计算引擎将所述数据文件映射表全量导入所述知识图谱的数据库。
示例性地,服务器在将数据文件映射表导入知识图谱的过程中,可以通过分布式计算引擎导入。可选地,分布式计算引擎可以选用Spark,Spark是一种与Hadoop相似的开源集群计算环境,Spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
本实施例通过Spark分布式计算引擎将数据文件映射表全量导入述知识图谱的数据库,不仅可以导入大数据量的数据文件映射表全量,还提高了导入效率。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本公开实施例还提供了一种用于实现上述所涉及的知识图谱的数据处理方法的知识图谱的数据处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个知识图谱的数据处理装置实施例中的具体限定可以参见上文中对于知识图谱的数据处理方法的限定,在此不再赘述。
在本公开的一些实施例中,如图6所示,提供了一种知识图谱的数据处理装置。所述装置700包括:
历史数据模块710,用于获取数据生产者的历史信息,根据所述历史信息建立数据文件映射表;
映射表导入模块720,用于将所述数据文件映射表导入知识图谱形成所述知识图谱的基地数据;
实时数据模块730,用于获取所述数据生产者的实时信息,在根据所述历史信息确定所述实时信息的内容更新的情况下,将更新的实时信息发送至消息中间件;
知识图谱更新模块740,用于利用所述消息中间件更新所述知识图谱的基地数据。
在本公开的一些实施例中,如图7所示,所述实时数据模块730包括:
信息摘要单元732,用于判断所述实时信息的信息摘要与所述数据文件映射表中历史信息的信息摘要是否一致;
更新确定单元734,用于响应于所述实时信息的信息摘要与所述数据文件映射表中历史信息的信息摘要不一致,确定信息摘要不一致的实时信息为所述更新的实时信息。
在本公开的一些实施例中,所述装置还包括:
映射表更新模块,用于响应于所述实时信息的信息摘要与所述数据文件映射表中历史信息的信息摘要不一致,根据所述更新的实时信息更新所述数据文件映射表。
在本公开的一些实施例中,所述消息中间件包括多个分区,所述更新发送单元738,还用于根据所述更新的实时信息的关键字段将所述更新的实时信息发送至所述消息中间件对应的分区。
在本公开的一些实施例中,如图8所示,所述知识图谱更新模块740包括:
更新写入流量阈值单元742,用于根据所述知识图谱的数据读取流量确定所述知识图谱的更新写入流量阈值;
更新写入单元744,用于根据所述更新写入流量阈值更新所述知识图谱的基地数据。
在其中一个实施例中,所述映射表导入模块包括:
计算引擎单元,用于通过分布式计算引擎将所述数据文件映射表全量导入所述知识图谱的数据库。
上述知识图谱的数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。需要说明的是,本公开实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
基于前述知识图谱的数据处理方法的实施例描述,在本公开提供的另一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过***总线连接,通信接口通过输入/输出接口连接到***总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储知识图谱的基地数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种知识图谱的数据处理方法。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
基于前述知识图谱的数据处理方法的实施例描述,在本公开提供的另一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
基于前述知识图谱的数据处理方法的实施例描述,在本公开提供的另一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
在本说明书的描述中,参考术语“有些实施例”、“其他实施例”、“理想实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特征包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性描述不一定指的是相同的实施例或示例。
可以理解的是,本说明书中上述方法的各个实施例均采用递进的方式描述,各个实施例之间相同/相似的部分互相参见即可,每个实施例重点说明的都是与其它实施例的不同之处。相关之处参见其他方法实施例的描述说明即可。
上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本公开的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本公开构思的前提下,还可以做出若干变形和改进,这些都属于本公开的保护范围。因此,本公开专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种知识图谱的数据处理方法,其特征在于,所述方法包括:
获取数据生产者的历史信息,根据所述历史信息建立数据文件映射表;
将所述数据文件映射表导入知识图谱形成所述知识图谱的基地数据;
获取所述数据生产者的实时信息,在根据所述历史信息确定所述实时信息的内容更新的情况下,将更新的实时信息发送至消息中间件;
利用所述消息中间件更新所述知识图谱的基地数据。
2.根据权利要求1所述的方法,其特征在于,所述获取所述数据生产者的实时信息,在根据所述历史信息确定所述实时信息的内容更新的情况下,将更新的实时信息发送至消息中间件包括:
判断所述实时信息的信息摘要与所述数据文件映射表中历史信息的信息摘要是否一致;
响应于所述实时信息的信息摘要与所述数据文件映射表中历史信息的信息摘要不一致,确定信息摘要不一致的实时信息为所述更新的实时信息。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
响应于所述实时信息的信息摘要与所述数据文件映射表中历史信息的信息摘要不一致,根据所述更新的实时信息更新所述数据文件映射表。
4.根据权利要求2所述的方法,其特征在于,所述消息中间件包括多个分区,所述获取所述数据生产者的实时信息,在根据所述历史信息确定所述实时信息的内容更新的情况下,将更新的实时信息发送至消息中间件还包括:
根据所述更新的实时信息的关键字段将所述更新的实时信息发送至所述消息中间件对应的分区。
5.根据权利要求1所述的方法,其特征在于,所述利用所述消息中间件更新所述知识图谱的基地数据包括:
根据所述知识图谱的数据读取流量确定所述知识图谱的更新写入流量阈值;
根据所述更新写入流量阈值更新所述知识图谱的基地数据。
6.根据权利要求1所述的方法,其特征在于,所述将所述数据文件映射表导入知识图谱形成所述知识图谱的基地数据包括:
通过分布式计算引擎将所述数据文件映射表全量导入所述知识图谱的数据库。
7.一种知识图谱的数据处理装置,其特征在于,所述装置包括:
历史数据模块,用于获取数据生产者的历史信息,根据所述历史信息建立数据文件映射表;
映射表导入模块,用于将所述数据文件映射表导入知识图谱形成所述知识图谱的基地数据;
实时数据模块,用于获取所述数据生产者的实时信息,在根据所述历史信息确定所述实时信息的内容更新的情况下,将更新的实时信息发送至消息中间件;
知识图谱更新模块,用于利用所述消息中间件更新所述知识图谱的基地数据。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202211654507.XA 2022-12-22 2022-12-22 知识图谱的数据处理方法、装置及计算机设备 Pending CN115809311A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211654507.XA CN115809311A (zh) 2022-12-22 2022-12-22 知识图谱的数据处理方法、装置及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211654507.XA CN115809311A (zh) 2022-12-22 2022-12-22 知识图谱的数据处理方法、装置及计算机设备

Publications (1)

Publication Number Publication Date
CN115809311A true CN115809311A (zh) 2023-03-17

Family

ID=85486761

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211654507.XA Pending CN115809311A (zh) 2022-12-22 2022-12-22 知识图谱的数据处理方法、装置及计算机设备

Country Status (1)

Country Link
CN (1) CN115809311A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116932779A (zh) * 2023-08-14 2023-10-24 企查查科技股份有限公司 知识图谱的数据处理方法和装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021073254A1 (zh) * 2019-10-18 2021-04-22 平安科技(深圳)有限公司 基于知识图谱的实体链接方法、装置、设备和存储介质
CN113626616A (zh) * 2021-08-25 2021-11-09 中国电子科技集团公司第三十六研究所 航空器安全预警方法、装置及***
CN114153986A (zh) * 2021-11-29 2022-03-08 北京达佳互联信息技术有限公司 一种知识图谱构建方法、装置、电子设备及存储介质
CN114238654A (zh) * 2021-12-15 2022-03-25 科大讯飞股份有限公司 一种知识图谱的构建方法、装置和计算机可读存储介质
CN114328981A (zh) * 2022-03-14 2022-04-12 中国电子科技集团公司第二十八研究所 基于模式映射的知识图谱建立和数据获取方法、装置
CN114385833A (zh) * 2022-03-23 2022-04-22 支付宝(杭州)信息技术有限公司 更新知识图谱的方法及装置
WO2022222716A1 (zh) * 2021-04-21 2022-10-27 华东理工大学 化工知识图谱的构建方法及装置以及智能问答方法及装置
CN115455935A (zh) * 2022-09-14 2022-12-09 华东师范大学 一种文本信息智能处理***

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021073254A1 (zh) * 2019-10-18 2021-04-22 平安科技(深圳)有限公司 基于知识图谱的实体链接方法、装置、设备和存储介质
WO2022222716A1 (zh) * 2021-04-21 2022-10-27 华东理工大学 化工知识图谱的构建方法及装置以及智能问答方法及装置
CN113626616A (zh) * 2021-08-25 2021-11-09 中国电子科技集团公司第三十六研究所 航空器安全预警方法、装置及***
CN114153986A (zh) * 2021-11-29 2022-03-08 北京达佳互联信息技术有限公司 一种知识图谱构建方法、装置、电子设备及存储介质
CN114238654A (zh) * 2021-12-15 2022-03-25 科大讯飞股份有限公司 一种知识图谱的构建方法、装置和计算机可读存储介质
CN114328981A (zh) * 2022-03-14 2022-04-12 中国电子科技集团公司第二十八研究所 基于模式映射的知识图谱建立和数据获取方法、装置
CN114385833A (zh) * 2022-03-23 2022-04-22 支付宝(杭州)信息技术有限公司 更新知识图谱的方法及装置
CN115455935A (zh) * 2022-09-14 2022-12-09 华东师范大学 一种文本信息智能处理***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宋伟;张游杰;: "基于环境信息融合的知识图谱构建方法", 计算机***应用, no. 06, 15 June 2020 (2020-06-15) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116932779A (zh) * 2023-08-14 2023-10-24 企查查科技股份有限公司 知识图谱的数据处理方法和装置
CN116932779B (zh) * 2023-08-14 2024-03-12 企查查科技股份有限公司 知识图谱的数据处理方法和装置

Similar Documents

Publication Publication Date Title
US20220156289A1 (en) Generating a multi-column index for relational databases by interleaving data bits for selectivity
US10372723B2 (en) Efficient query processing using histograms in a columnar database
US9367574B2 (en) Efficient query processing in columnar databases using bloom filters
US8719254B2 (en) Efficient querying using on-demand indexing of monitoring tables
Chavan et al. Survey paper on big data
CN111209352A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN115809311A (zh) 知识图谱的数据处理方法、装置及计算机设备
CN107430633B (zh) 用于数据存储的***及方法和计算机可读介质
CN115858471A (zh) 业务数据变更记录方法、装置、计算机设备及介质
US20240070180A1 (en) Mutation-Responsive Documentation Regeneration Based on Knowledge Base
US11914655B2 (en) Mutation-responsive documentation generation based on knowledge base
CN117931747A (zh) 用于数据集市的元数据管理方法、装置、***和设备
CN115422199A (zh) 多维统计数据的处理方法、装置及计算机设备
CN116204549A (zh) 数据查询方法、装置、计算机设备、存储介质和程序产品
CN117807080A (zh) 文本数据处理方法、装置、计算机设备和存储介质
CN117216009A (zh) 文件处理方法、装置、设备、存储介质和计算机程序产品
CN117194524A (zh) 离线指标数据的处理方法、装置、设备及存储介质
CN116450669A (zh) 数据查询方法、装置、计算机设备、存储介质
CN117370349A (zh) 指标的存储方法和查询方法、装置、设备和介质
CN117234562A (zh) 配置参数更新方法、装置和计算机设备
CN113987051A (zh) 一种基于元数据的时空大数据管理方法
CN117312283A (zh) 分库分表的数据校验方法、装置、计算机设备和存储介质
CN115408405A (zh) 表单处理方法、装置、计算机设备
CN116483870A (zh) 数据处理方法、装置、计算机设备和存储介质
CN117909550A (zh) 查询方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Country or region after: China

Address after: No. 8 Huizhi Street, Suzhou Industrial Park, Suzhou Area, China (Jiangsu) Pilot Free Trade Zone, Suzhou City, Jiangsu Province, 215000

Applicant after: Qichacha Technology Co.,Ltd.

Address before: Room 503, 5 / F, C1 building, 88 Dongchang Road, Suzhou Industrial Park, 215000, Jiangsu Province

Applicant before: Qicha Technology Co.,Ltd.

Country or region before: China