CN111913963B - 一种接口数据按需存储的方法和*** - Google Patents

一种接口数据按需存储的方法和*** Download PDF

Info

Publication number
CN111913963B
CN111913963B CN202010753684.8A CN202010753684A CN111913963B CN 111913963 B CN111913963 B CN 111913963B CN 202010753684 A CN202010753684 A CN 202010753684A CN 111913963 B CN111913963 B CN 111913963B
Authority
CN
China
Prior art keywords
data
target
interface
column
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010753684.8A
Other languages
English (en)
Other versions
CN111913963A (zh
Inventor
易超
任彦民
张舒汇
贺赞贤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shulide Technology Co ltd
Original Assignee
Beijing Shulide Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shulide Technology Co ltd filed Critical Beijing Shulide Technology Co ltd
Priority to CN202010753684.8A priority Critical patent/CN111913963B/zh
Publication of CN111913963A publication Critical patent/CN111913963A/zh
Application granted granted Critical
Publication of CN111913963B publication Critical patent/CN111913963B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种接口数据按需存储的方法和***,涉及数据挖掘技术领域。旨在从不同的数据接口挖掘与实际应用需求相关的数据,并将从不同的数据接口挖掘的数据整合,得到符合数据实际的应用需求的目标数据表。首先确定多个源数据接口;利用预设的知识规则图谱解析多个源数据接口,得到多个源数据接口的主键;针对多个源数据接口中的每个源数据接口的接口数据,生成至少一个推荐表模式;将具有相同主键的数据表模式合并,得到合并后的多个推荐表模式;根据接收的确定操作,在多个推荐表模式中确定目标推荐表模式;根据接收的修改操作,生成对目标推荐表模式执行原子操作的结构化语句,修改推荐表模式,得到目标数据表。

Description

一种接口数据按需存储的方法和***
技术领域
本申请涉及数据挖掘技术领域,特别是涉及一种接口数据按需存储的方法和***
背景技术
随着云计算、大数据、人工智能等技术的发展,数据是关键资产已成为一项共识。数据价值的发挥,关键一环在于数据的融合与挖掘。在现有的互联网体系下,数据存在于各个孤立的WEB应用业务***或数据孤岛中。数据接口作为WEB应用业务***中数据流通的管道和基础,为数据的融合与连接提供了一种有效的支撑方案。
然而,由于不同的WEB应用业务***的接口只能独立调用,不同数据类型的数据的接口也只能独立调用,因此基于不同的接口获取的数据分散的数据片段,如何将分散的接口数据片段融合留存为完整、连续的数据集合成为了亟待解决的问题。
现有技术下,无法统一过滤和融合从不同的不同的WEB应用业务***获取的碎片数据,形成满足实际分析需求的数据仓库,从而导致相关数据分析难以实施,只能使用原始的人工筛选方式识别数据,效率低、人工耗费大。并且由于在接口获取的是碎片化的数据,需要持续留存数据,才能形成连续的数据,以保证数据融合成满足实际分析需求的数据,但留存数据是连续的过程,这一过程包含多个阶段,一旦出现由于外部原因导致的***留存过程中断,导致数据缺失,甚至造成严重的数据事故。
发明内容
本申请实施例提出一种接口数据按需存储的方法和***,按照数据的应用需求,根据获得接口数据的生成推荐表模式,利用预设的知识规则图谱解析源数据接口,获得源数据接口的主键,将具有相同主键的推荐表模式合并,实现融合从不同源数据接口获取的碎片数据的目的。同时按照主键的顺序,建立留存任务序列,按照留存任务序列留存数据并记录相应的日志,保证在***中断时,留存数据不会丢失。
本申请实施例第一方面提供一种接口数据按需存储的方法,所述方法包括:
根据接收的存储操作,确定多个源数据接口;利用预设的知识规则图谱解析所述多个源数据接口,得到所述多个源数据接口中的每个源数据接口的主键;针对所述多个源数据接口中的每个源数据接口的接口数据,分别根据所述多个源数据接口中的每个源数据接口的主键,生成至少一个推荐表模式;将具有相同主键的数据表模式合并,得到合并后的多个推荐表模式;根据接收的确定操作,在所述多个推荐表模式中确定目标推荐表模式;根据接收的修改操作,生成对所述目标推荐表模式执行原子操作的结构化语句;其中,所述原子操作包括删除列操作、调整列操作和增加列操作;利用所述结构化语句修改所述目标推荐表模式,得到目标数据表。
可选地,在根据接收的确定操作,在所述多个推荐表模式中确定目标推荐表模式之后,所述方法还包括:使用预设的列提取程序,从所述接口数据中获取所述目标推荐表模式中列属性的属性值;将所述属性值***所述目标推荐表模式对应的列属性,得到具有数据的列属性;对所述目标推荐表模式中多个具有数据的列属性做笛卡尔积,得到中间表;利用所述结构化语句修改所述目标推荐表模式,得到目标数据表,包括:利用所述结构化语句修改所述中间表,得到修改后的中间表;使用预设的行提取程序,筛选所述修改后的中间表中的行元组,得到所述目标数据表。
可选地,在利用预设的知识规则图谱解析所述多个源数据接口,得到所述多个源数据接口中的每个源数据接口的主键之后,所述方法还包括:针对所述多个源数据接口,建立留存任务序列;按照所述留存任务序列,依次确定进行数据留存的目标接口;根据所述目标接口在所述留存任务序列中的留存序号,形成数据调用的记录日志;调用所述目标接口的接口数据,将所述接口数据留存至原始库;在将所述接口数据留存至所述原始库失败时,扫描所述数据调用的记录日志,获取所述留存序号;根据所述留存序号,重新调用所述目标接口的接口数据,并将所述接口数据留存至所述原始库;使用预设的列提取程序,从所述接口数据中获取所述目标推荐表模式中列属性的属性值,包括:使用预设的列提取程序,在所述原始库中,从所述接口数据中获取所述目标推荐表模式中列属性的属性值。
可选地,将所述属性值***所述目标推荐表模式对应的列属性,包括:根据所述目标推荐表模式的主键序列,生成***任务序列;按照所述***任务序列,依次确定所述目标推荐表模式中进行数据***的目标位置;根据所述目标位置在所述***任务序列中的***序号,形成数据***的记录日志;所述数据***的记录日志包括所述目标位置对应的主键序列的数值、所述目标位置对应的列属性和所述属性值;在将所述属性值***所述目标推荐表模式对应的列属性失败时,扫描数据***的记录日志,根据所述目标位置对应的主键序列的数值和所述目标位置对应的列属性,将所述属性值***所述目标推荐表模式对应的列属性。
可选地,根据接收的修改操作,生成对所述目标推荐表模式执行原子操作的结构化语句,包括:根据接收的修改操作,生成所述原子操作,并针对所述原子操作的类型,形成列修改的日志记录;根据所述原子操作,生成对所述目标推荐表模式执行原子操作的结构化语句;在筛选所述中间数据表中的行元组之前,所述方法还包括:形成行修改的日志记录;在利用所述结构化语句修改所述中间表失败时,根据所述列修改的日志记录,删除所述修改后的中间表,并利用所述结构化语句重新修改所述中间表;或,在筛选所述修改后的中间表中的行元组失败时,根据所述行修改的日志记录删除所述目标数据表,并使用预设的行提取程序,重新筛选所述修改后的中间表中的行元组。
可选地,针对所述多个源数据接口中的每个源数据接口的接口数据,分别根据所述多个源数据接口中的每个源数据接口的主键,生成至少一个推荐表模式,包括:根据目标源数据接口的分层结构树,生成所述目标源数据接口的元数据模式;所述目标源数据接口是所述多个源数据接口中的任意源数据接口;按照规划路径,遍历所述元数据模式的所有节点;将包含多个不同的非叶子节点的非叶节点,确定为第一推荐表模式的名称;按照所述规划路径,确定所述包含多个不同的非叶子节点的非叶节点的第一层子节点;将所述包含多个不同的非叶子节点的非叶节点的第一层子节点确定为所述第一推荐表模式的元组;将包含多个不同的叶子节点的非叶节点,确定为第二推荐表模式的名称;按照所述规划路径,确定所述包含多个不同的叶子节点的非叶节点的第一层子节点;将所述包含多个不同的叶子节点的非叶节点的第一层子节点确定为所述第二推荐表模式的列属性。
可选地,所述方法还包括:从多个应用程序的不同数据接口获取多个数据本体;分别对所述多个数据本体中的每个数据本体打标签,得到多个对应单个数据本体的元标签的集合;分别从所述多个数据本体中的每个数据本体中获取参照主键,得到多个对应单个数据本体的元主键的集合;分别根据所述多个数据本体中的每个数据本体所在的接口的结构描述,和所述多个数据本体中的每个数据本体所在的应用程序的结构描述,得到多个对应单个数据本体的元结构描述信息的集合;分别从所述元标签的集合、所述元主键的集合和所述元结构描述信息的集合中获取对应同一数据接口的元标签、元参照主键和元结构描述信息;分别根据每个数据接口的元标签、元参照主键和元结构描述信息,建立对应该数据接口的知识元规则,得到多个知识元规则;针对所述多个知识元规则中的每个知识元规则,在所述多个知识元规则中搜索得到相似知识元规则和父知识元规则;对所述多个知识元规则中的每个知识元规则与所述多个知识元规则中的每个知识元规则的相似知识元规则建立相似连接,并对所述多个知识元规则中的每个知识元规则与所述多个知识元规则中的每个知识元规则的父知识元规则建立包含连接,形成所述预设的知识规则图谱。
可选地,利用预设的知识规则图谱解析所述多个源数据接口,得到所述多个源数据接口中的每个源数据接口的主键,包括:依次将所述多个源数据接口中的每个源数据接口确定为目标源数据接口;获得所述目标源数据接口的标签;解析所述目标源数据接口,得到所述目标源数据接口的目标结构描述;在所述知识规则图谱解中搜索与所述标签匹配的目标元标签,以及与所述结构描述匹配的目标元结构描述信息;将所述目标元标签和所述目标元结构描述信息对应的相同知识元规则确定为目标知识元规则;将所述目标知识元规则的元主键确定为所述目标源数据接口的主键。
可选地,所述方法还包括:
基于映射语言构建映射模型;获得多个样本接口,并根据所述多个样本接口生成多个样本元数据模式;在所述样本元数据模式中确定拟增加的样本列属性,和对应拟增加的所述样本列属性的属性值;基于所述样本列属性,采集样本示例数据集合;利用所述样本示例数据集合、所述样本元数据模式、所述样本列属性和所述样本列属性的属性值,按照所述知识规则对所述映射模型进行训练;将经过多次训练的所述映射模型确定为所述预设的列提取程序。
可选地,所述方法还包括:
在所述样本元数据模式中确定多个样本行元组;其中,所述多个样本行元组中的每个样本行元组包含的所有属性值对应同一主键;将拟增加的所述样本列属性的属性值***拟增加的所述样本列属性,得到样本具有属性值的列属性;根据所述样本元数据模式,获得具有属性值的样本推荐表;对所述样本具有属性值的列属性与所述具有属性值的样本推荐表做笛卡尔积,得到样本中间表;根据所述样本示例数据集合,得到基于数值规律约束所述中间表中的属性值的第一原子规则;根据所述样本示例数据集合,得到基于非叶子祖先节点约束所述中间表的属性值的第二原子规则;组合所述第一原子规则和所述第二原子规则,得到谓词组合;利用所述谓词组合筛选所述样本中间表,得到样本目标数据;利用所述多个样本行元组验证所述样本目标数据,并根据验证结果调整所述谓词组合;将经过多次调整的所述谓词组合确定为所述预设的行元组提取程序。
本申请实施例第二方面提供一种接口数据按需存储的***,所述接口数据按需存储的***包括:主键发现模块、推荐表生成模块和中间表映射模块;
所述主键发现模块用于根据接收的存储操作,确定多个源数据接口;所述主键发现模块还用于利用预设的知识规则图谱解析所述多个源数据接口,得到所述多个源数据接口中的每个源数据接口的主键;所述推荐表生成模块用于针对所述多个源数据接口中的每个源数据接口的接口数据,分别根据所述多个源数据接口中的每个源数据接口的主键,生成至少一个推荐表模式;所述中间表映射模块用于将具有相同主键的推荐表模式合并,得到合并后的多个推荐表模式;所述中间表映射模块还用于根据接收的确定操作,在所述多个推荐表模式中确定目标推荐表模式;所述中间表映射模块还用于根据接收的修改操作,生成对所述目标推荐表模式进行原子操作的结构化语句;其中,所述原子操作包括删除列操作、调整列操作和增加列操作;所述中间表映射模块还用于利用所述结构化语句修改所述目标推荐表模式,得到目标数据表。
可选地,所述中间表映射模块还用于使用预设的列提取程序,从所述接口数据中获取所述目标推荐表模式中列属性的属性值;所述中间表映射模块还将所述属性值***所述目标推荐表模式对应的列属性,得到具有数据的列属性;所述中间表映射模块还用于将所述属性值***所述目标推荐表模式对应的列属性,得到具有数据的列属性;所述中间表映射模块还用于对所述目标推荐表模式中多个具有数据的列属性做笛卡尔积,得到中间表;所述中间表映射模块用于:利用所述结构化语句修改所述中间表,得到修改后的中间表;使用预设的行提取程序,筛选所述修改后的中间表中的行元组,得到所述目标数据表。
本申请实施例第三方面提供一种可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如本申请第一方面所述的方法中的步骤。
本申请实施例第四方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现本申请第一方面所述的方法的步骤。
本申请根据数据接口的元数据模型,生成并显示罗列了各个数据接口的列属性的数据推荐表后,根据用户的操作指令,生成结构化语句,对数据推荐表执行删除列、修改列等操作,得到初步符合应用需求的数据推荐表。利用预设的列提取程序,从数据接口再次挖掘候选的列属性,保证不用人工浏览多个业务***的多个数据接口,才能获得满足应用需求的列属性,而是直接在预设的列提取程序挖掘的候选列属性中,挑选符合应用需求的列属性和对应列属性的属性值,添加到数据推荐表中,得到进一步符合应用需求的数据推荐表。再使用预设的列提取程序挖掘与各个列属性对应的属性值,得到具有属性值的数据推荐表,对具有属性值的列属性和具有属性值的数据推荐表做笛卡尔积得到中间表,保证了最终的目标数据表,是根据具有完整数据的中间表进一步形成的。最后使用预设的行提取程序,筛选中间表,得到目标数据表,保证了目标数据表中的行元组的各属性值对应同一主体,符合数据的主体完整性,同时满足数据的应用需求。
附图说明
图1是本申请实施例提供的接口数据按需存储的方法所涉及的实施环境示意图;
图2是接口数据按需存储的***结构示意图;
图3是对应表1所示数据本体的元数据模式;
图4是知识规则维护子模块的结构示意图;
图5是本申请实施例接口数据按需存储的步骤流程图;
图6是本申请实施例中数据元数据模式的结构示意图;
图7是本申请实施例获得预设的行元组提取程序的步骤流程图;
图8是本申请实施例留存数据的流程图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
随着云计算、大数据、人工智能等技术的发展,各种平台每天发布大量的数据,并且每个平台的数据发布的数据信息存在一定差异,难以在大量的数据中获取真实有效的信息。
鉴于上述问题,本申请提出接口数据按需存储的方法和***。针对数据的应该需求生成推荐表模式,利用预设的知识规则图谱解析获取需求数据的源数据接口,获得源数据接口的主键,将具有相同主键的推荐表模式合并,实现融合从不同源数据接口获取的碎片数据的目的。同时按照主键的属性,建立留存任务序列,按照留存任务序列留存数据并记录相应的日志,保证在***中断时,留存数据不会丢失。
图1是本申请实施例提供的数据处理方法所涉及的实施环境示意图。如图1所示,该实施环境可以包括:数据服务器110和至少一个业务***120。
数据服务器110可以是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心。业务***120可以为应用程序的后端,例如某音、某博、某度的后端。数据服务器110具有集成了本申请提出的接口数据按需存储的方法的电子设备和存储设备。
数据服务器110和业务***120之间可以通过有线网络或无线网络建立连接,用户可以使用数据服务器110调用业务***120中的数据接口。具体的,用户可以通过数据服务器110获取业务***120后端的数据接口,并选择相关的数据接口,例如数据应用的需求是分析夏季全国各地降水量,相关的数据接口是业务***中用于存储和获取气候数据的数据接口。数据服务器110可以根据用户的调用指令,生成结构化语句,从相关数据接口获取相关数据。
本申请接口数据按需存储的方法应用于接口数据按需存储的***。如图2所示,图2是接口数据按需存储的***的结构示意图。如图2所示,按需存储数据的***主要包括:主键发现模块201、接口数据持久化模块202、推荐表生成模块203、中间表映射模块204、目标数据持久化模块205和留存日志模块206。
用户在根据数据的应用需求确定目标数据表的形式后,使用本申请的按需存储数据的***,具体利用主键发现模块调用多个业务平台的数据源接口,获取来自多个业务平台的多个源数据接口的主键。
主键发现模块具体使用知识规则图谱对多个数据源接口进行解析,进而得到数据源接口的主键。本申请的主键发现模块中集成了预先构建完成的知识规则图谱,具体构建知识规则图谱的方法是:
从多个应用程序的不同数据接口获取多个数据本体;分别对所述多个数据本体中的每个数据本体打标签,得到多个对应单个数据本体的元标签的集合;分别从所述多个数据本体中的每个数据本体中获取参照主键,得到多个对应单个数据本体的元主键的集合;分别根据所述多个数据本体中的每个数据本体所在的接口的结构描述,和所述多个数据本体中的每个数据本体所在的应用程序的结构描述,得到多个对应单个数据本体的元结构描述信息的集合;分别从所述元标签的集合、所述元主键的集合和所述元结构描述信息的集合中获取对应同一数据接口的元标签、元参照主键和元结构描述信息;分别根据每个数据接口的元标签、元参照主键和元结构描述信息,建立对应该数据接口的知识元规则,得到多个知识元规则;针对所述多个知识元规则中的每个知识元规则,在所述多个知识元规则中搜索得到相似知识元规则和父知识元规则;对所述多个知识元规则中的每个知识元规则与所述多个知识元规则中的每个知识元规则的相似知识元规则建立相似连接,并对所述多个知识元规则中的每个知识元规则与所述多个知识元规则中的每个知识元规则的父知识元规则建立包含连接,形成所述预设的知识规则图谱。
数据本体是指各种相关联的数据集合在一起,形成的数据关联结构。表1示出一种数据本体的实施例。
表1
标签是数据本体的性质,以表1的数据本体为例,人工标注的标签可以是诗人的成绩。假设数据本体是电影上座率统计,标签可以是动作电影。元标签是人工对从数据接口获取的数据标注的标签。
本申请中数据接口的数据结构是分层结构树,例如JSON,XML等数据格式。一般地,可以根据数据接口的分层结构树生成数据本体,也可以根据由分层结构树得到的接口元数据模式生成数据本体。如图3所示,图3是对应表1所示数据本体的元数据模式。
参照主键是人工从数据本体中获取的主键。主键是可以标识不同主体的属性的数据。如表1所示的数据本体,学生是该数据本体关注的数据主体。属性代表数据主体拥有的某一信息要素。数据主体学生的属性包括:数学成绩、语文成绩和学号。其中学号可以作为不同数据主体的唯一标识,学号即是表1所示的数据本体的主键。元主键是人工根据数据接口的数据指定的主键。
接口的结构描述主要是关于接口分层结构树的描述。***的结构描述是描述***的信息,例如:接口的参数、接口的调用形式、协议等。元结构描述信息是人工根据接口实际参数和***实际参数获取的结构描述。
相似知识元规则是指接口类型相同或互相依赖的接口的元规则。例如统计动作电影上座率数据接口的知识元规则和统计文艺电影上座率数据接口的知识元规则。父知识元规则是指包含当前知识元规则的规则。例如,统计公司费用数据的接口的知识元规则是统计公司销售部分费用数据的接口的知识元规则的父知识元规则。
主键发现模块使用知识规则图谱解析数据接口的主键的具体方法是:依次将所述多个源数据接口中的每个源数据接口确定为目标源数据接口;获得所述目标源数据接口的标签;解析所述目标源数据接口,得到所述目标源数据接口的目标结构描述;在所述知识规则图谱解中搜索与所述标签匹配的目标元标签,以及与所述结构描述匹配的目标元结构描述信息;将所述目标元标签和所述目标元结构描述信息对应的相同知识元规则确定为目标知识元规则;将所述目标知识元规则的元主键确定为所述目标源数据接口的主键。
主键发现模块中包括知识规则维护子模块。如图4所示,图4是知识规则维护子模块的结构示意图。知识规则标签检索模块用于执行在知识规则图谱解中搜索与标签匹配的目标元标签,以及与结构描述匹配的目标元结构描述信息的步骤。
用户输入的标签相当于目标数据表的应用需求,上述示例中是由主键发现模块执行的步骤根据接收的存储操作,确定多个源数据接口的实施例。
应用需求指的是,在实际分析某一类的数据时,需求的数据本体。例如表1的数据本体,用户拟分析诗人的文化水平,根据用户分析诗人的文化水平的需求,确定目标数据表需要列属性语文成绩、数据成绩、诗人姓名等,才能更好地符合应用需求(分析诗人的文化水平)。
知识规则结构检索模块用于在知识图谱中检索与用户输入的结构描述相符的知识元规则。
目标元结构描述是,知识图谱中具有与标签(用户输入的标签)相同的元标签的知识元规则中的结构描述。假设知识图谱中标签是新增确诊人数的知识元规则,与知识图谱中结构描述与用户输入的结构描述相符的知识元规则是同一个,那么将该知识元规则确定为目标原规则。
知识规则推荐模块用将目标原规则中的主键推荐给用户。
知识规则扩展模块用于将新的知识元规则添加到知识规则图谱中。添加新的知识元规则指的是将新的知识元规则与其在知识图谱中的相似知识元规则建立相似连接,以及与其在知识图谱中的父知识元规则建立包含连接。
如果规则维护子模块没有基于知识规则图片推荐出目标源数据接口的主键,还可以使用接口的分层结构树的参数、属性和属性值计算数据的MD5值作为当前接口的主键,或将其他同类型数据接口的主键作为当前接口的主键。因此,根据本申请主键发现模块执行的步骤,成功解析数据接口得到数据接口中数据本体的主键。
图5是本申请实施例接口数据按需存储的步骤流程图。图5所示,
步骤S501:根据接收的存储操作,确定多个源数据接口;步骤S502:利用预设的知识规则图谱解析所述多个源数据接口,得到所述多个源数据接口中的每个源数据接口的主键;步骤S503:针对所述多个源数据接口中的每个源数据接口的接口数据,分别根据所述多个源数据接口中的每个源数据接口的主键,生成至少一个推荐表模式;
本申请另一个实施例提出了生成推荐表的方法:
根据目标源数据接口的分层结构树,生成所述目标源数据接口的元数据模式;所述目标源数据接口是所述多个源数据接口中的任意源数据接口;
如图6所示,图6是本申请实施例中数据元数据模式的结构示意图。先将接口主键作为元数据模式中非叶节点的子节点,再根据元数据模式中的根节点与叶节点的连接方式和各节点的层次分布,生成元数据模式。具体可以按照从上至下,从左至右的路径,遍历分层结构树的各节点,按照节点在分层结构树的位置,确定节点记载的数据在元数据模式的位置,依次罗列分层结构树中所有节点的位置后,生成元数据模式。
按照规划路径,遍历所述元数据模式的所有节点;将包含多个不同的非叶子节点的非叶节点,确定为第一推荐表模式的名称;规划路径是指从元数据模式的根节点开始,自顶向下,自左向右的路径。以图3所示的元数据模式为例,数据服务器110首先读取根节点用户集合中的数据,再读取非叶节点一号用户中的数据。一个元数据模式只有一个根节点,图3中元数据模式的根节点是用户集合。
按照所述规划路径,确定所述包含多个不同的非叶子节点的非叶节点的第一层子节点;叶节点是元数据模式中的末端节点,如姓名、编号、年限等。非叶节点是元数据模式中除末端节点外的其他节点,如一号用户、朋友关系。按照从根节点到叶节点的方向,节点的下一个节点是子节点。非叶子节点表达意思的是某个节点的子节点不是叶节点。例如,用户集合包含非叶子节点一号用户、二号用户和三号用户,即用户集合是包含多个不同的非叶子节点的非叶节点。
将所述包含多个不同的非叶子节点的非叶节点的第一层子节点确定为所述第一推荐表模式的元组;将包含多个不同的叶子节点的非叶节点,确定为第二推荐表模式的名称;按照所述规划路径,确定所述包含多个不同的叶子节点的非叶节点的第一层子节点;将所述包含多个不同的叶子节点的非叶节点的第一层子节点确定为所述第二推荐表模式的列属性。
第一层子节点是直接连接节点的子节点。以图6中的用户集合节点为例,用户集合的第一层子节点是一号用户、二号用户和三号用户,第二层子节点是编号、姓名等。
以图6为例,非叶节点用户集合包含多个非叶子节点一号用户、二号用户、三号用户。再以一号用户作为元组、二号用户作为元组和三号用户作为元组。一号用户、二号用户和三号用户都分别具有属性和对应的属性值。
元组指的是数据表中,与同一主体相关的属性值。表2是表1中的一个元组。
1 张三 80 61
表2
叶子节点表达意思的是某个节点的子节点是叶节点。例如,朋友关系包含叶子节点朋友编号和年限,即朋友是包含多个不同的叶子节点的非叶节点。以图6为例,第一数据表和第二数据表是分别以朋友编号和用户集合为名称的推荐表。按照上述实施例,根据图3所示的元数据模式生成的数据推荐表如表3和表4所示。
表2
表3
表2和表3都是以数据服务器110遍历到包含多个不同的叶子节点的非叶节点时,以当前节点生成数据推荐表的名称对应的数据推荐表。得到表名称后,数据服务器110获取当前节点的子节点,将子节点确定为列属性。
属性代表主体拥有的某一信息要素。以表1为例,数学成绩、语文成绩都是主体的列属性。由此可见,将子节点确定为列属性的含义是,根据数据接口的数据模式,确定了可以使用朋友编号和年限来描述朋友主体。
步骤S504:将具有相同主键的数据表模式合并,得到合并后的多个推荐表模式;例如,用户根据服务器110显示出的,接口数据按需存储的***生成的推荐表模式:表2和表3后,可以根据主键编号,合并表2和表3。
步骤S505:根据接收的确定操作,在所述多个推荐表模式中确定目标推荐表模式目标推荐表模式是根据用户的选择指令,在多个目标表模式中确定与数据应用需求最接近的推荐表模式。步骤S506:根据接收的修改操作,生成对所述目标推荐表模式执行原子操作的结构化语句;其中,所述原子操作包括删除列操作、调整列操作和增加列操作;步骤S507:利用所述结构化语句修改所述目标推荐表模式,得到目标数据表。
本申请另一个实施例还提出添加列属性的方法:由中间表映射模块执行下述操作:使用预设的列提取程序,从所述接口数据中获取所述目标推荐表模式中列属性的属性值;将所述属性值***所述目标推荐表模式对应的列属性,得到具有数据的列属性;对所述目标推荐表模式中多个具有数据的列属性做笛卡尔积,得到中间表;进而将具有属性值的列属性增加的推荐表中,得到数据全面的中间表。将表1中列属性姓名和数学成绩做笛卡尔积得到的中间表如表5所示:
表5
预设的行元组提取程序对表5所示的中间表筛选符合知识规则的元组后,得到的目标数据表如表6所示。
姓名 数学成绩
张三 80
李四 85
王五 90
表6
本申请另一个实施例具体说明了得到预设的列提取程序的方法:
基于映射语言构建映射模型;首先引入映射语言SML,构建映射模型,再获取训练映射模型的样本,对映射模型进行训练和验证,得到能够根据数据接口的元数据模式,获取与示例数据相符的列属性和属性值的模型,作为列提取程序。SML用于处理或表示映射中的相关数据项及数据项的定义。
获得多个样本接口,并根据所述多个样本接口生成多个样本元数据模式;可以大量获取现有的业务***的数据接口作为样本接口,也可以自行开发业务***,并将自行开发的业务***中数据接口作为样本接口。
在所述样本元数据模式中确定拟增加的样本列属性,和对应拟增加的所述样本列属性的属性值;可以从数据库或互联网获取样本列属性的示例数据集合。例如,先从新闻业务***的后端获取到天气新闻的数据接口,将天气新闻的数据接口确定为样本数据接口,从天气新闻的数据接口的分层结构树种获得描述天气的列属性:温度、湿度、风级、降水量等信息。针对每一项列属性,采集足够的属性值;比如:对于温度列属性,采集-30摄氏度到30摄氏度范围内的整数,以及部分小数作为温度列属性的属性值;对于降水量列属性,采集属性值10mm每24小时、20mm每24小时等。
基于所述样本列属性,采集样本示例数据集合;利用所述样本示例数据集合、所述样本元数据模式、所述样本列属性和所述样本列属性的属性值,按照所述知识规则对所述映射模型进行训练;将经过多次训练的所述映射模型确定为所述预设的列提取程序。
利用样本示例数据集合、样本元数据模式、样本列属性和样本列属性的属性值,按照知识规则对映射模型进行训练的具体过程如下:
利用所述映射模型按照规划路径,依次获取所述样本元数据模式的所有叶节点的数据;将位于所述样本示例数据集合的数值对应的叶节点确定为预测目标属性;
先将样本示例数据集合输入映射模型。
例如,某地天气主体的温度样本列属性的样本示例数据集合是[10、12、11.5、13、13.2、14、14.6……],映射模型从天气数据接口的样本元数据模式中搜索到十个叶节点,该十个叶节点中有部分叶节点的数值在样本示例数据集合[10、12、11.5、13、13.2、14、14.6……]中,假设叶节点1和叶节点2的数值分别是10和11.5,那么将采集的叶节点1和叶节点2的节点属性作为预测目标属性。
将所述样本元数据模式中与所述预测目标属性的属性名相同的节点的数值确定为预测目标数值;
预测目标属性是映射模型在训练过程,从数据接口中提取的需要验证的待增加列属性。预测目标数值是映射模型在训练过程,从从数据接口中提取的需要验证的待增加列属性的属性的属性值。
判断十个叶节点中的其他八个叶节点的属性与预测目标属性是否相同,假设节点4和节点5的属性与节点1和节点1的属性相同,换言之,节点4和节点5的属性与预测目标属性相同,那么将节点4记载的数值16和节点5记载的数值18作为预测目标数值。
还可以在样本数据接口中搜索与预测目标属性的属性名相同的参数名,并将参数名对应的接口参数确定为预测目标数值。利用所述样本列属性和所述样本列属性的属性值验所述证预测目标属性和所述预测目标数值。
判断样本列属性和预测目标属性是否相等,并计算出样本列属性和预测目标属性相差的程度;同样判断样本列属性的属性值和预测目标数值是否相等,并计算样本列属性的属性值和预测目标数值相差的程度;根据样本列属性和预测目标属性相差的程度以及样本列属性的属性值和预测目标数值相差的程度,调整映射模型的参数,继续按照上述流程训练调整参数后的映射模型,直到映射模型可以准确地得出与样本列属性的属性值相同的预测目标数值,和与样本列属性相同的预测目标属性,将该映射模型确定为预设的列提取程序。
不同循环次对映射模型的训练,可以使用基于不同样本数据接口,获取的样本示例数据集合、样本元数据模式、样本列属性和样本列属性的属性值。例如在使用根据天气数据接口得到气温样本相关的训练数据(样本示例数据集合是[10、12、11.5、13、13.2、14、14.6……]、样本元数据模式等)对映射模型进行前一轮训练后,可以使用天气数据接口作为下一轮训练映射模型的样本数据接口。
本申请另一个实施例具体说明了得到预设的行提取程序的方法:如图7所示,图7是本申请实施例获得预设的行元组提取程序的步骤流程图。
本申请根据数据接口的元数据模型,生成罗列了各个数据接口的列属性的数据推荐表,显示的多个数据推荐表后,根据用户的操作指令,生成结构化进行删除、修改等操作,得到初步符合应用需求的数据推荐表。利用预设的列提取程序,从数据接口再次挖掘候选的列属性,保证用户不用人工浏览多个业务***人工获得列属性的情况下,直接在预设的列提取程序的挖掘候选的列属性中挑选符合应用需求的列属性和对应列属性的属性值,添加到数据推荐表中,得到进一步符合应用需求的数据推荐表。再使用预设的列提取程序挖掘与各个列属性对应的属性值,得到具有属性值的数据推荐表,对具有属性值的列属性和具有属性值的数据推荐表做笛卡尔积得到中间表,保证了最终的目标数据表,是根据具有完整数据的中间表进一步形成的。最后使用预设的行提取程序,筛选中间表,得到目标数据表,保证了目标数据表中的行元组的各属性值对应同一主体,符合数据的主体完整性,同时满足数据的应用需求。
其中,列提取程序是基于映射语言构建的映射模型训练得到的,具有处理中间表到目标数据表映射关系的先天优势。同时,本申请基于实际的业务***,采集了大量的样本接口数据,并根据样本数据接口采集样本示例数据,并得到样本元数据模式、样本列属性和样本列属性的属性值,通过使映射模型挖掘样本元数据模式中符合样本示例数据的列属性和列属性的属性值的方式,结合样本列属性和样本列属性的属性值验证映射模型挖掘的列属性和列属性的属性值的方式,训练映射模型使映射模型能够准确地从数据接口中挖掘到符合应用需求的列属性和列属性的属性值。
步骤S701:在所述样本元数据模式中确定多个样本行元组;其中,所述多个样本行元组中的每个样本行元组包含的所有属性值对应同一主键;可以按照规划路径,遍历样本元数据模式的所有节点,将包含多个不同的非叶子节点的非叶节点的第一层子节点,确定为多个样本行元组。
步骤S702:将拟增加的所述样本列属性的属性值***拟增加的所述样本列属性,得到样本具有属性值的列属性;以表5为例,在表5的基础上增加列属性语文成绩,先将61、82、70***列属性,得到具有属性值的列属性:语文成绩-[61、82、70]。
步骤S703:根据所述样本元数据模式,获得具有属性值的样本推荐表;
可以具按照从上至下,从左至右的路径,遍历样本数据接口的分层结构树的各节点,按照节点在分层结构树的位置,确定节点记载的数据在元数据模式的位置,依次罗列分层结构树中所有节点的位置后,生成样本推荐表,再将列属性对应叶子节点记载的数值添加到样本推荐表中,得到具有属性值的样本推荐表。
步骤S704:对所述样本具有属性值的列属性与所述具有属性值的样本推荐表做笛卡尔积,得到样本中间表;步骤S705:根据所述样本示例数据集合,得到基于数值规律约束所述中间表中的属性值的第一原子规则;
基于样本示例数据集合学习得到数值规律。以温度样本列属性的样本示例数据集合是[10、12、11.5、13、13.2、14、14.6……]为例,数值规律是取值范围在1-20摄氏度的范围内,再以身高样本列属性为例,数值规律是取值范围在60cm至200的范围内。
基于数据规律约束中间表的属性值的意义是,排除中间表中不符合列属性性质的数据。步骤S706:根据所述样本示例数据集合,得到基于非叶子祖先节点约束所述中间表的属性值的第二原子规则;
基于非叶子祖先节点约束中间表指的是:任意元组中不同属性的属性值位于同一祖先节点。如图2所示,年限2和朋友编号3具有同一祖先节点朋友关系节点,与该朋友关系节点对应的是1。换言之,基于非叶子祖先节点约束中间表指的是中间表中的元组中的不同列属性的属性值,对应样本元数据模式中同一个主键。
第一原子规则不止一个,以天气数据接口为例,除了温度列属性的属性值的取值范围在1-20摄氏度的范围内外,还具有原子规则降水量属性的属性值不会是负数等。
第二原子规则不止一个,除了年限2和朋友编号3具有同一祖先节点朋友关系节点,编号1和姓名波波也具有同一祖先节点一号用户节点。将不同的第一原子规则和第二原子规则任意组合,得到谓词组合。
步骤S707:组合所述第一原子规则和所述第二原子规则,得到谓词组合;组合成一组的一个或多个第一原子规则以及一个或多个第二原子规则位一个谓词。谓词组合中有多个谓词。
例如年限2和朋友编号3具有同一祖先节点朋友关系节点,编号1和姓名波波也具有同一祖先节点一号用户节点,和温度列属性的属性值的取值范围在1-20摄氏度的范围内三个原子规则,可以组合成一个谓词。年限2和朋友编号3具有同一祖先节点朋友关系节点和降水量属性的属性值不会是负数也可以组合成另一个谓词。
步骤S708:利用所述谓词组合筛选所述样本中间表,得到样本目标数据;样本目标数据是还未训练完成的谓词组合对样本中间表进行筛选,得到的目标数据表。步骤S709:利用所述多个样本行元组验证所述样本目标数据,并根据验证结果调整所述谓词组合;步骤S710:将经过多次调整的所述谓词组合确定为所述预设的行元组提取程序。
样本行元组是通过样本接口数据得到的通过人工确认的准确的元组。根据样本行元组与样本目标数据的差异度,调整谓词组合中的原子规则,再将调整后谓词组合进行对样本中间表进行元组的筛选,直到谓词组合能够准确得筛选出符合样本示例数据的行元组。
知识规则是:利用映射模型按照规划路径,依次获取样本元数据模式的所有叶节点的数据;将位于样本示例数据集合的数值对应的叶节点确定为待增加的列属性。将样本元数据模式中与待增加的列属性的属性名相同的节点的数值确定为待***待增加的列属性的属性值。
本申请通过学习示例数据中的数值规律得到第一原子规则,结合示例数据和数据接口的元数据模式中各节点的连接关系学习,得到第二原子规则,组合第一原子规则和第二原子规则形成谓词组合,其中第一原子规则能够筛选符合数值规律的元组,第一原子规则能够筛选符合数据接口的元数据模式的元组,满足了元组的实体完整性。根据多次调整并验证后的谓词得到的行提取程序能够从冗杂的中间表中筛选出符合应用需求的元组,进而得到符合应用需求的目标数据表。
中间表映射模块得到中间表后,根据接收的删除列操作、调整列操作,调整冗杂的中间表,再使用行提取程序,筛选中间表中的行元组,得到目标数据表。利用所述结构化语句修改所述中间表,得到修改后的中间表;使用预设的行提取程序,筛选所述修改后的中间表中的行元组,得到所述目标数据表。
在样本元数据模式中确定多个样本行元组;其中,多个样本行元组中的每个样本行元组包含的所有属性值对应同一主键;将拟增加的样本列属性的属性值***拟增加的样本列属性,得到样本具有属性值的列属性;根据样本元数据模式,获得具有属性值的样本推荐表;对样本具有属性值的列属性与所述具有属性值的样本推荐表做笛卡尔积,得到样本中间表;根据所述样本示例数据集合,得到基于数值规律约束所述中间表中的属性值的第一原子规则;根据所述样本示例数据集合,得到基于非叶子祖先节点约束所述中间表的属性值的第二原子规则;组合所述第一原子规则和所述第二原子规则,得到谓词组合;利用所述谓词组合筛选所述样本中间表,得到样本目标数据;利用所述多个样本行元组验证所述样本目标数据,并根据验证结果调整所述谓词组合;将经过多次调整的所述谓词组合确定为所述预设的行元组提取程序。
本申请首先分别解析多个源数据接口,得到源数据接口的主键,再根据主键生成源数据接口的推荐表模式,根据接收的对推荐表模式的操作,生成结构化语句,直接修改推荐表模式,就能够得到符合数据应用需求的目标数据表。修改推荐表模式包括:使用列提取程序在多个源数据接口继续挖掘列属性和列属性对应的属性值,以使用户不用在人工添加列属性和列属性对应的属性值,提高了数据挖掘的效率。修改推荐表模式还包括:对具有属性值的列属性做笛卡尔积,得到中间表,进而保证从多个源数据接口获取的数据的完整性,再使用行提取程序,对中间表筛选行元组,得到按主键依次排列的行元组形成的目标数据表。
本申请根据数据接口的元数据模型,生成罗列了各个数据接口的列属性的数据推荐表,显示的多个数据推荐表后,根据用户的操作指令,生成结构化进行删除、修改等操作,得到初步符合应用需求的数据推荐表。利用预设的列提取程序,从数据接口再次挖掘候选的列属性,保证用户不用人工浏览多个业务***人工获得列属性的情况下,直接在预设的列提取程序的挖掘候选的列属性中挑选符合应用需求的列属性和对应列属性的属性值,添加到数据推荐表中,得到进一步符合应用需求的数据推荐表。再使用预设的列提取程序挖掘与各个列属性对应的属性值,得到具有属性值的数据推荐表,对具有属性值的列属性和具有属性值的数据推荐表做笛卡尔积得到中间表,保证了最终的目标数据表,是根据具有完整数据的中间表进一步形成的。最后使用预设的行提取程序,筛选中间表,得到目标数据表,保证了目标数据表中的行元组的各属性值对应同一主体,符合数据的主体完整性,同时满足数据的应用需求。
本申请还结合留存日志模块、接口数据持久化模块和目标数据持久化模块,实现保证在***中断时,留存数据不会丢失的目的。具体利用接口数据持久化模块将从源数据接口获取的数据留存到原始库,并在留存数据的过程中利用留存日志模块建立日志,记录正在留存的数据,假设***断开恢复可以扫描日志,获取***断开前正在留存的数据,再次留存该数据;利用目标数据持久化模块将生成的目标数据表留存到持久数据库,并在数据留存过程中建立日志,记录留存数据,以保证生成中间表的过程和生成目标数据表的过程不会被***断开影响。
图8是本申请实施例留存数据的流程图,如图8所示,接口数据数据留存大致可以分为三个阶段。在阶段1中,通过调用接口,获取接口数据并将数据持久化至原始库中。本申请采用mongoDB作为接口数据的存储数据库,使用原始库是为了将源接口的数据持久化,能够保障在后续出现数据缺失的情况下,从原始库中找到缺失的数据。在阶段1完成后,进行数据的多对多映射过程(推荐表到中间表、中间表到目标数据表),即第2阶段,将目标表的数据从原始库中挖掘出来。在阶段2中产生的目标数据,会持续持久化到目标数据库中,即阶段3。这一阶段是与第2阶段并行进行的。以上接口数据从获取,映射留存至数据一系列阶段都可能出现数据不一致的问题。
对于第一阶段,本申请论处接口数据的方法是:针对所述多个源数据接口,建立留存任务序列;按照所述留存任务序列,依次确定进行数据留存的目标接口;根据所述目标接口在所述留存任务序列中的留存序号,形成数据调用的记录日志;调用所述目标接口的接口数据,将所述接口数据留存至原始库;在将所述接口数据留存至所述原始库失败时,扫描所述数据调用的记录日志,获取所述留存序号;根据所述留存序号,重新调用所述目标接口的接口数据,并将所述接口数据留存至所述原始库;使用预设的列提取程序,从所述接口数据中获取所述目标推荐表模式中列属性的属性值,包括:使用预设的列提取程序,在所述原始库中,从所述接口数据中获取所述目标推荐表模式中列属性的属性值。
对于从接口获取数据并留存至原始数据库的过程,文本首先对接口调用获取建立留存任务序列,为每次调用设置调用的序号。当序号对应的请求之前,记录数据调用的记录日志,当接口获取成功数据并成功持久化后,清除数据调用的记录日志。日志记录的操作过程如下:a:在发送接口请求前,记录接口请求的相关信息,请求的序号。b:发送请求,拿到数据后,将数据存储至物理磁盘记录请求完成,删除数据调用的记录日志。当由于故障导致程序中断等问题发生时,程序再次启动,程序会扫描***的数据调用的记录日志,重新获取数据调用的记录日志中留存任务序列的序号所对应的接口数据,并将其存储至原始库中。
对于第二阶段,即数据的多对多映射分为以下过程:
(1)从原始库推荐目标数据表模式。(2)将原始库的数据转为推荐表数据。(3)用户在推荐表模式的基础上进行删改增等操作,确定目标数据表模式。(4)根据用户的操作序列,将推荐表数据转换为目标数据表数据。
在上述操作过程中,需要分别针对其中的步骤2和步骤4进行做日志处理,因为这两步中,都涉及到了数据的写操作,当故障出现时,步骤2和步骤4由于程序中断会导致最终的数据出现缺失或不一致等问题。因此,我们将分别针对步骤2和步骤4做日志处理。
对步骤2进行处理的具体方法是:根据所述目标推荐表模式的主键序列,生成***任务序列;按照所述***任务序列,依次确定所述目标推荐表模式中进行数据***的目标位置;根据所述目标位置在所述***任务序列中的***序号,形成数据***的记录日志;所述数据***的记录日志包括所述目标位置对应的主键序列的数值、所述目标位置对应的列属性和所述属性值;在将所述属性值***所述目标推荐表模式对应的列属性失败时,扫描数据***的记录日志,根据所述目标位置对应的主键序列的数值和所述目标位置对应的列属性,将所述属性值***所述目标推荐表模式对应的列属性。
在步骤2中,我们将原始库中的数据转为推荐表模式。推荐表模式和中间表的数据是在目标数据库上存储的。推荐表模式中的所有表是有主键的,根据原始库的主键序列,生成转换***任务序列。在进行数据***时,首先记录数据***的记录日志,若***成功,则删除这条数据***的记录日志,***失败,扫描数据***的记录日志,重做将推荐表数据转换中间表的任务。日志记录过程如下:a:在***数据之前,记录***数据的序列,主键,所有列属性的值。B:当遇到故障时,扫描数据***的记录日志,将未成功***的数据重新***即可。
对步骤4进行处理的具体方法是:根据接收的修改操作,生成所述原子操作,并针对所述原子操作的类型,形成列修改的日志记录;根据所述原子操作,生成对所述目标推荐表模式执行原子操作的结构化语句;在筛选所述中间数据表中的行元组之前,所述方法还包括:形成行修改的日志记录;在利用所述结构化语句修改所述中间表失败时,根据所述列修改的日志记录,删除所述修改后的中间表,并利用所述结构化语句重新修改所述中间表;或,在筛选所述修改后的中间表中的行元组失败时,根据所述行修改的日志记录删除所述目标数据表,并使用预设的行提取程序,重新筛选所述修改后的中间表中的行元组
a:记录当前进行的操作的类型(列提取操作或行提取操作),生成相应的列修改的日志记录或形成行修改的日志记录,列修改的日志记录和形成行修改的日志记录包括:涉及的列属性的属性名和表名,或者涉及的行元组的主键序列。b:当出现故障,程序重启后,会扫描日志,在扫描的日志是列修改的日志记录时,删除未完成的中间表,重新生成中间表;在扫描的日志是行修改的日志记录时,删除未完成的目标数据表,从故障发生的原中间表继续转换映射的过程。
基于同一发明构思,本申请实施例提供一种接口数据按需存储的***。如图2所示,所述接口数据按需存储的***包括:主键发现模块201、接口数据持久化模块202、推荐表生成模块203、中间表映射模块204、目标数据持久化模块205和留存日志模块206。
所述主键发现模块用于根据接收的存储操作,确定多个源数据接口;所述主键发现模块还用于利用预设的知识规则图谱解析所述多个源数据接口,得到所述多个源数据接口中的每个源数据接口的主键;所述推荐表生成模块用于针对所述多个源数据接口中的每个源数据接口的接口数据,分别根据所述多个源数据接口中的每个源数据接口的主键,生成至少一个推荐表模式;所述中间表映射模块用于将具有相同主键的推荐表模式合并,得到合并后的多个推荐表模式;所述中间表映射模块还用于根据接收的确定操作,在所述多个推荐表模式中确定目标推荐表模式;所述中间表映射模块还用于根据接收的修改操作,生成对所述目标推荐表模式执行原子操作的结构化语句;其中,所述原子操作包括删除列操作、调整列操作和增加列操作;所述中间表映射模块还用于利用所述结构化语句修改所述目标推荐表模式,得到目标数据表。
可选地,所述中间表映射模块还用于使用预设的列提取程序,从所述接口数据中获取所述目标推荐表模式中列属性的属性值;所述中间表映射模块还将所述属性值***所述目标推荐表模式对应的列属性,得到具有数据的列属性;所述中间表映射模块还用于将所述属性值***所述目标推荐表模式对应的列属性,得到具有数据的列属性;所述中间表映射模块还用于对所述目标推荐表模式中多个具有数据的列属性做笛卡尔积,得到中间表;所述中间表映射模块用于:利用所述结构化语句修改所述中间表,得到修改后的中间表;使用预设的行提取程序,筛选所述修改后的中间表中的行元组,得到所述目标数据表。
可选地,所述按需存储数据的***还包括:留存日志模块和接口数据持久化模块;所述留存日志模块用于针对所述多个源数据接口,建立留存任务序列;所述留存日志模块还用于按照所述留存任务序列,依次确定进行数据留存的目标接口;所述留存日志模块还用于根据所述目标接口在所述留存任务序列中的留存序号,形成数据调用的记录日志;所述接口数据持久化模块用于调用所述目标接口的接口数据,将所述接口数据留存至原始库;所述留存日志模块还用于在将所述接口数据留存至所述原始库失败时,扫描所述数据调用的记录日志,获取所述留存序号;所述接口数据持久化模块、还用于根据所述留存序号,重新调用所述目标接口的接口数据,并将所述接口数据留存至所述原始库;所述中间表映射模块用于:使用预设的列提取程序,在所述原始库中,从所述接口数据中获取所述目标推荐表模式中列属性的属性值。
可选地,所述按需存储数据的***还包括:目标数据持久化模块;所述目标数据持久化模块用于根据所述目标推荐表模式的主键序列,生成***任务序列;所述目标数据持久化模块还用于按照所述***任务序列,依次确定所述目标推荐表模式中进行数据***的目标位置;所述目标数据持久化模块还用于根据所述目标位置在所述***任务序列中的***序号,形成数据***的记录日志;所述数据***的记录日志包括所述目标位置对应的主键序列的数值、所述目标位置对应的列属性和所述属性值;所述目标数据持久化模块还用于在将所述属性值***所述目标推荐表模式对应的列属性失败时,扫描数据***的记录日志,根据所述目标位置对应的主键序列的数值和所述目标位置对应的列属性,将所述属性值***所述目标推荐表模式对应的列属性。
可选地,所述留存日志模块还用于根据接收的修改操作,生成所述原子操作,并针对所述原子操作的类型,形成列修改的日志记录;根据所述原子操作,生成对所述目标推荐表模式进行原子操作的结构化语句;所述中间表映射模块还用于所述留存日志模块还用于形成行修改的日志记录;所述目标数据持久化模块还用于在利用所述结构化语句修改所述中间表失败时,根据所述列修改的日志记录,删除所述修改后的中间表,并利用所述结构化语句重新修改所述中间表;或,所述目标数据持久化模块还用于在筛选所述修改后的中间表中的行元组失败时,根据所述行修改的日志记录删除所述目标数据表,并使用预设的行提取程序,重新筛选所述修改后的中间表中的行元组。
可选地,所述推荐表生成模块用于:根据目标源数据接口的分层结构树,生成所述目标源数据接口的元数据模式;所述目标源数据接口是所述多个源数据接口中的任意源数据接口;按照规划路径,遍历所述元数据模式的所有节点;将包含多个不同的非叶子节点的非叶节点,确定为第一推荐表模式的名称;按照所述规划路径,确定所述包含多个不同的非叶子节点的非叶节点的第一层子节点;将所述包含多个不同的非叶子节点的非叶节点的第一层子节点确定为所述第一推荐表模式的元组;将包含多个不同的叶子节点的非叶节点,确定为第二推荐表模式的名称;按照所述规划路径,确定所述包含多个不同的叶子节点的非叶节点的第一层子节点;将所述包含多个不同的叶子节点的非叶节点的第一层子节点确定为所述第二推荐表模式的列属性。
可选地,所述主键发现模块用于:
从多个应用程序的不同数据接口获取多个数据本体;分别对所述多个数据本体中的每个数据本体打标签,得到多个对应单个数据本体的元标签的集合;分别从所述多个数据本体中的每个数据本体中获取参照主键,得到多个对应单个数据本体的元主键的集合;分别根据所述多个数据本体中的每个数据本体所在的接口的结构描述,和所述多个数据本体中的每个数据本体所在的应用程序的结构描述,得到多个对应单个数据本体的元结构描述信息的集合;分别从所述元标签的集合、所述元主键的集合和所述元结构描述信息的集合中获取对应同一数据接口的元标签、元参照主键和元结构描述信息;分别根据每个数据接口的元标签、元参照主键和元结构描述信息,建立对应该数据接口的知识元规则,得到多个知识元规则;针对所述多个知识元规则中的每个知识元规则,在所述多个知识元规则中搜索得到相似知识元规则和父知识元规则;对所述多个知识元规则中的每个知识元规则与所述多个知识元规则中的每个知识元规则的相似知识元规则建立相似连接,并对所述多个知识元规则中的每个知识元规则与所述多个知识元规则中的每个知识元规则的父知识元规则建立包含连接,形成所述预设的知识规则图谱。
可选地,所述主键发现模块用于:依次将所述多个源数据接口中的每个源数据确定为目标源数据接口;获得所述目标源数据接口的标签;解析所述目标源数据接口,得到所述目标源数据接口的目标结构描述;在所述知识规则图谱解中搜索与所述标签匹配的目标元标签,以及与所述结构描述匹配的目标元结构描述信息;将所述目标元标签和所述目标元结构描述信息对应的相同知识元规则确定为目标知识元规则;将所述目标知识元规则的元主键确定为所述目标源数据接口的主键。
基于同一发明构思,本申请另一实施例提供一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请上述任一实施例所述的接口数据按需存储的方法中的步骤。
基于同一发明构思,本申请另一实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本申请上述任一实施例所述的接口数据按需存储的方法中的步骤。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进或说明的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、装置、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种接口数据按需存储的方法和***,进行了详细介绍,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种接口数据按需存储的方法,其特征在于,所述方法包括:
根据接收的存储操作,确定多个源数据接口;
利用预设的知识规则图谱解析所述多个源数据接口,得到所述多个源数据接口中的每个源数据接口的主键;
针对所述多个源数据接口中的每个源数据接口的接口数据,分别根据所述多个源数据接口中的每个源数据接口的主键,生成至少一个推荐表模式;
将具有相同主键的推荐表模式合并,得到合并后的多个推荐表模式;
根据接收的确定操作,在所述多个推荐表模式中确定目标推荐表模式;
根据接收的修改操作,生成对所述目标推荐表模式执行原子操作的结构化语句;其中,所述原子操作包括删除列操作、调整列操作和增加列操作;
利用所述结构化语句修改所述目标推荐表模式,得到目标数据表;
在根据接收的确定操作,在所述多个推荐表模式中确定目标推荐表模式之后,所述方法还包括:
使用预设的列提取程序,从所述接口数据中获取所述目标推荐表模式中列属性的属性值;
将所述属性值***所述目标推荐表模式对应的列属性,得到具有数据的列属性;
对所述目标推荐表模式中多个具有数据的列属性做笛卡尔积,得到中间表;
利用所述结构化语句修改所述目标推荐表模式,得到目标数据表,包括:
利用所述结构化语句修改所述中间表,得到修改后的中间表;
使用预设的行提取程序,筛选所述修改后的中间表中的行元组,得到所述目标数据表。
2.根据权利要求1所述的方法,其特征在于,在利用预设的知识规则图谱解析所述多个源数据接口,得到所述多个源数据接口中的每个源数据接口的主键之后,所述方法还包括:
针对所述多个源数据接口,建立留存任务序列;
按照所述留存任务序列,依次确定进行数据留存的目标接口;
根据所述目标接口在所述留存任务序列中的留存序号,形成数据调用的记录日志;
调用所述目标接口的接口数据,将所述接口数据留存至原始库;
在将所述接口数据留存至所述原始库失败时,扫描所述数据调用的记录日志,获取所述留存序号;
根据所述留存序号,重新调用所述目标接口的接口数据,并将所述接口数据留存至所述原始库;
使用预设的列提取程序,从所述接口数据中获取所述目标推荐表模式中列属性的属性值,包括:
使用预设的列提取程序,在所述原始库中,从所述接口数据中获取所述目标推荐表模式中列属性的属性值。
3.根据权利要求1所述的方法,其特征在于,将所述属性值***所述目标推荐表模式对应的列属性,包括:
根据所述目标推荐表模式的主键序列,生成***任务序列;
按照所述***任务序列,依次确定所述目标推荐表模式中进行数据***的目标位置;
根据所述目标位置在所述***任务序列中的***序号,形成数据***的记录日志;所述数据***的记录日志包括所述目标位置对应的主键序列的数值、所述目标位置对应的列属性和所述属性值;
在将所述属性值***所述目标推荐表模式对应的列属性失败时,扫描数据***的记录日志,根据所述目标位置对应的主键序列的数值和所述目标位置对应的列属性,将所述属性值***所述目标推荐表模式对应的列属性。
4.根据权利要求1所述的方法,其特征在于,根据接收的修改操作,生成对所述目标推荐表模式执行原子操作的结构化语句,包括:
根据接收的修改操作,生成所述原子操作,并针对所述原子操作的类型,形成列修改的日志记录;
根据所述原子操作,生成对所述目标推荐表模式执行原子操作的结构化语句;
在筛选所述中间表中的行元组之前,所述方法还包括:
形成行修改的日志记录;
在利用所述结构化语句修改所述中间表失败时,根据所述列修改的日志记录,删除所述修改后的中间表,并利用所述结构化语句重新修改所述中间表;或,
在筛选所述修改后的中间表中的行元组失败时,根据所述行修改的日志记录删除所述目标数据表,并使用预设的行提取程序,重新筛选所述修改后的中间表中的行元组。
5.根据权利要求1所述的方法,其特征在于,针对所述多个源数据接口中的每个源数据接口的接口数据,分别根据所述多个源数据接口中的每个源数据接口的主键,生成至少一个推荐表模式,包括:
根据目标源数据接口的分层结构树,生成所述目标源数据接口的元数据模式;所述目标源数据接口是所述多个源数据接口中的任意源数据接口;
按照规划路径,遍历所述元数据模式的所有节点;
将包含多个不同的非叶子节点的非叶节点,确定为第一推荐表模式的名称;
按照所述规划路径,确定所述包含多个不同的非叶子节点的非叶节点的第一层子节点;
将所述包含多个不同的非叶子节点的非叶节点的第一层子节点确定为所述第一推荐表模式的元组;
将包含多个不同的叶子节点的非叶节点,确定为第二推荐表模式的名称;
按照所述规划路径,确定所述包含多个不同的叶子节点的非叶节点的第一层子节点;
将所述包含多个不同的叶子节点的非叶节点的第一层子节点确定为所述第二推荐表模式的列属性。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从多个应用程序的不同数据接口获取多个数据本体;
分别对所述多个数据本体中的每个数据本体打标签,得到多个对应单个数据本体的元标签的集合;
分别从所述多个数据本体中的每个数据本体中获取参照主键,得到多个对应单个数据本体的元主键的集合;
分别根据所述多个数据本体中的每个数据本体所在的接口的结构描述,和所述多个数据本体中的每个数据本体所在的应用程序的结构描述,得到多个对应单个数据本体的元结构描述信息的集合;
分别从所述元标签的集合、所述元主键的集合和所述元结构描述信息的集合中获取对应同一数据接口的元标签、元参照主键和元结构描述信息;
分别根据每个数据接口的元标签、元参照主键和元结构描述信息,建立对应该数据接口的知识元规则,得到多个知识元规则;
针对所述多个知识元规则中的每个知识元规则,在所述多个知识元规则中搜索得到相似知识元规则和父知识元规则;
对所述多个知识元规则中的每个知识元规则与所述多个知识元规则中的每个知识元规则的相似知识元规则建立相似连接,并对所述多个知识元规则中的每个知识元规则与所述多个知识元规则中的每个知识元规则的父知识元规则建立包含连接,形成所述预设的知识规则图谱。
7.根据权利要求1或6所述的方法,其特征在于,利用预设的知识规则图谱解析所述多个源数据接口,得到所述多个源数据接口中的每个源数据接口的主键,包括:
依次将所述多个源数据接口中的每个源数据接口确定为目标源数据接口;
获得所述目标源数据接口的标签;
解析所述目标源数据接口,得到所述目标源数据接口的目标结构描述;
在所述知识规则图谱解中搜索与所述标签匹配的目标元标签,以及与所述结构描述匹配的目标元结构描述信息;
将所述目标元标签和所述目标元结构描述信息对应的相同知识元规则确定为目标知识元规则;
将所述目标知识元规则的元主键确定为所述目标源数据接口的主键。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于映射语言构建映射模型;
获得多个样本接口,并根据所述多个样本接口生成多个样本元数据模式;
在所述样本元数据模式中确定拟增加的样本列属性,和对应拟增加的所述样本列属性的属性值;
基于所述样本列属性,采集样本示例数据集合;
利用所述样本示例数据集合、所述样本元数据模式、所述样本列属性和所述样本列属性的属性值,按照所述知识规则对所述映射模型进行训练;
将经过多次训练的所述映射模型确定为所述预设的列提取程序。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
在所述样本元数据模式中确定多个样本行元组;其中,所述多个样本行元组中的每个样本行元组包含的所有属性值对应同一主键;
将拟增加的所述样本列属性的属性值***拟增加的所述样本列属性,得到样本具有属性值的列属性;
根据所述样本元数据模式,获得具有属性值的样本推荐表;
对所述样本具有属性值的列属性与所述具有属性值的样本推荐表做笛卡尔积,得到样本中间表;
根据所述样本示例数据集合,得到基于数值规律约束所述中间表中的属性值的第一原子规则;
根据所述样本示例数据集合,得到基于非叶子祖先节点约束所述中间表的属性值的第二原子规则;
组合所述第一原子规则和所述第二原子规则,得到谓词组合;
利用所述谓词组合筛选所述样本中间表,得到样本目标数据;
利用所述多个样本行元组验证所述样本目标数据,并根据验证结果调整所述谓词组合;
将经过多次调整的所述谓词组合确定为所述预设的行提取程序。
10.一种接口数据按需存储的***,其特征在于,所述接口数据按需存储的***包括:主键发现模块、推荐表生成模块和中间表映射模块;
所述主键发现模块用于根据接收的存储操作,确定多个源数据接口;
所述主键发现模块还用于利用预设的知识规则图谱解析所述多个源数据接口,得到所述多个源数据接口中的每个源数据接口的主键;
所述推荐表生成模块用于针对所述多个源数据接口中的每个源数据接口的接口数据,分别根据所述多个源数据接口中的每个源数据接口的主键,生成至少一个推荐表模式;
所述中间表映射模块用于将具有相同主键的推荐表模式合并,得到合并后的多个推荐表模式;
所述中间表映射模块还用于根据接收的确定操作,在所述多个推荐表模式中确定目标推荐表模式;
所述中间表映射模块还用于根据接收的修改操作,生成对所述目标推荐表模式进行原子操作的结构化语句;其中,所述原子操作包括删除列操作、调整列操作和增加列操作;
所述中间表映射模块还用于利用所述结构化语句修改所述目标推荐表模式,得到目标数据表;
所述中间表映射模块还用于使用预设的列提取程序,从所述接口数据中获取所述目标推荐表模式中列属性的属性值;所述中间表映射模块还用于将所述属性值***所述目标推荐表模式对应的列属性,得到具有数据的列属性;所述中间表映射模块还用于对所述目标推荐表模式中多个具有数据的列属性做笛卡尔积,得到中间表;所述中间表映射模块用于:利用所述结构化语句修改所述中间表,得到修改后的中间表;使用预设的行提取程序,筛选所述修改后的中间表中的行元组,得到所述目标数据表。
CN202010753684.8A 2020-07-30 2020-07-30 一种接口数据按需存储的方法和*** Active CN111913963B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010753684.8A CN111913963B (zh) 2020-07-30 2020-07-30 一种接口数据按需存储的方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010753684.8A CN111913963B (zh) 2020-07-30 2020-07-30 一种接口数据按需存储的方法和***

Publications (2)

Publication Number Publication Date
CN111913963A CN111913963A (zh) 2020-11-10
CN111913963B true CN111913963B (zh) 2023-12-26

Family

ID=73287989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010753684.8A Active CN111913963B (zh) 2020-07-30 2020-07-30 一种接口数据按需存储的方法和***

Country Status (1)

Country Link
CN (1) CN111913963B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101916272A (zh) * 2010-08-10 2010-12-15 南京信息工程大学 用于深层网数据集成的数据源选择方法
CN102004787A (zh) * 2010-12-07 2011-04-06 江西省电力公司信息通信中心 基于办公软件插件的多应用场景表单合并的方法
CN103699572A (zh) * 2013-11-26 2014-04-02 北京航空航天大学 一种云环境下数字媒体内容资源的集成共享方法
CN104537821A (zh) * 2014-11-26 2015-04-22 成都蓝宇科维科技有限公司 基于arm和linux的嵌入式远程污染数据采集终端
CN106855889A (zh) * 2016-12-29 2017-06-16 深圳市华傲数据技术有限公司 不同数据源的数据表即席查询功能的开发方法及装置
CN107256443A (zh) * 2017-04-18 2017-10-17 国网信通亿力科技有限责任公司 基于业务和数据集成的线损实时计算方法
CN110765275A (zh) * 2019-10-14 2020-02-07 平安医疗健康管理股份有限公司 搜索方法、装置、计算机设备和存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050262189A1 (en) * 2003-08-27 2005-11-24 Ascential Software Corporation Server-side application programming interface for a real time data integration service
US7895174B2 (en) * 2008-03-27 2011-02-22 Microsoft Corporation Database part table junctioning

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101916272A (zh) * 2010-08-10 2010-12-15 南京信息工程大学 用于深层网数据集成的数据源选择方法
CN102004787A (zh) * 2010-12-07 2011-04-06 江西省电力公司信息通信中心 基于办公软件插件的多应用场景表单合并的方法
CN103699572A (zh) * 2013-11-26 2014-04-02 北京航空航天大学 一种云环境下数字媒体内容资源的集成共享方法
CN104537821A (zh) * 2014-11-26 2015-04-22 成都蓝宇科维科技有限公司 基于arm和linux的嵌入式远程污染数据采集终端
CN106855889A (zh) * 2016-12-29 2017-06-16 深圳市华傲数据技术有限公司 不同数据源的数据表即席查询功能的开发方法及装置
CN107256443A (zh) * 2017-04-18 2017-10-17 国网信通亿力科技有限责任公司 基于业务和数据集成的线损实时计算方法
CN110765275A (zh) * 2019-10-14 2020-02-07 平安医疗健康管理股份有限公司 搜索方法、装置、计算机设备和存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
DiscoveryLink: A system for integrated access to life sciences data sources;L. M. Haas 等;《IBM Systems Journal》;第40卷(第2期);489-511 *
Yogalakshmi Jaybal 等.HDSanalytics: a data analytics framework for heterogeneous data sources.《CODS-COMAD '18: Proceedings of the ACM India Joint International Conference on Data Science and Management of Data》.2018,11-19. *
基于PostgreSQL的大规模分布式异构数据库统一访问研究;汪雪飞;《中国优秀硕士学位论文全文数据库 信息科技辑》(第02期);I138-928 *
数据集成交换平台引擎的设计与实现;熊彩凤;《中国优秀硕士学位论文全文数据库 信息科技辑》(第S2期);I138-280 *
结构化大数据存储与查询优化关键技术;徐涛;《中国博士学位论文全文数据库 信息科技辑》(第05期);I138-5 *

Also Published As

Publication number Publication date
CN111913963A (zh) 2020-11-10

Similar Documents

Publication Publication Date Title
CN110704411B (zh) 适用于艺术领域的知识图谱搭建方法及装置、电子设备
US20190019088A1 (en) Knowledge graph construction method and device
KR101557294B1 (ko) 편집 거리 및 문서 정보를 이용한 검색 결과 랭킹
US7941420B2 (en) Method for organizing structurally similar web pages from a web site
US9886500B2 (en) System and method for providing technology assisted data review with optimizing features
US8868621B2 (en) Data extraction from HTML documents into tables for user comparison
CN102667761B (zh) 可扩展的集群数据库
US8667015B2 (en) Data extraction method, computer program product and system
CN113254630B (zh) 一种面向全球综合观测成果的领域知识图谱推荐方法
US8577849B2 (en) Guided data repair
Döhmen et al. Multi-hypothesis CSV parsing
Ortona et al. Wadar: Joint wrapper and data repair
CN111858962B (zh) 数据处理方法、装置及计算机可读存储介质
CN113760891B (zh) 一种数据表的生成方法、装置、设备和存储介质
CN104598536B (zh) 一种分布式网络信息结构化处理方法
JP4045400B2 (ja) 検索装置及び検索方法
CN112434250B (zh) 一种基于在线网站的cms识别特征规则提取方法
CN111913963B (zh) 一种接口数据按需存储的方法和***
US11645312B2 (en) Attribute extraction apparatus and attribute extraction method
CN117093556A (zh) 日志分类方法、装置、计算机设备及计算机可读存储介质
CN109740097B (zh) 一种基于逻辑链接块的网页正文抽取方法
RU2433467C1 (ru) Способ формирования структуры агрегированных данных и способ поиска данных посредством структуры агрегированных данных в системе управления базами данных
Ouaret et al. AuMixDw: Towards an automated hybrid approach for building XML data warehouses
CN104111965B (zh) 基于差别矩阵的ogc地理信息服务描述词汇约简方法
CN113032518A (zh) 信息处理装置、存储介质及信息处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant