CN112632178A - 可视化治理数据的方法及*** - Google Patents

可视化治理数据的方法及*** Download PDF

Info

Publication number
CN112632178A
CN112632178A CN202110006818.4A CN202110006818A CN112632178A CN 112632178 A CN112632178 A CN 112632178A CN 202110006818 A CN202110006818 A CN 202110006818A CN 112632178 A CN112632178 A CN 112632178A
Authority
CN
China
Prior art keywords
data
operator
fusion
database
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110006818.4A
Other languages
English (en)
Inventor
王虹晔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Minglue Artificial Intelligence Group Co Ltd
Original Assignee
Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Minglue Artificial Intelligence Group Co Ltd filed Critical Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority to CN202110006818.4A priority Critical patent/CN112632178A/zh
Publication of CN112632178A publication Critical patent/CN112632178A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种治理数据的方法、***、计算机设备及存储介质,方法包括:构数据接入步骤:通过数据类接入算子接入数据库;数据治理步骤:通过规则映射算子配置治理过程中的表结构转换和数据格式转换;知识图谱数据融合步骤:通过知识图谱数据融合类算子进行知识图谱数据融合;数据输出步骤:将治理完成的数据结果,输入到指定的业务数据库,通过NEST输出算子定向写入NEST数据库;画布的可视化配置步骤:通过表将上述算子处理好的数据进行落地。本发明能够降低数据治理门槛,用户只需要拖拽和配置必要的参数,可以降低数据治理的技术门槛,让治理人员有更多精力关注治理的业务需求。

Description

可视化治理数据的方法及***
技术领域
本发明属于治理数据的方法领域,具体涉及一种可视化治理数据的方法及***。
背景技术
结构化数据治理是大型数据平台或数据中台中的重要一环,广泛应用于各类项目或数据平台中。
通常有几个主要环节:
1、数据源接入环节
2、数据治理环节
3、治理结果输出环节
而数据治理环节,通常会有几种常见场景:
1、表结构的转换
来自不同的业务***中,对于人的数据记录内容不同,表结构也有很大差异(如下图所示的表A和表B),我们在进入平台应用时,需要构建出一张新的表C,或者平台中已经存在表C,将A和B的数据融合到表C中;
2、数据格式的转换
例如表A的日期格式是YYYY-MM-DD,表B的日期格式是YYYY/MM/DD,整合到表C中的时候,就存在格式差异,需要在数据进入到表C之前,基于表C需要的格式,分别对表A和表B的数据格式分别做转换,我们称为【规则】;
数据治理产品核心需要解决上述问题,能够支持批量或实时的数据治理需求,治理过程自动化完成。
【现有方案一】:不使用任何工具产品,根据数据治理需求,casebycase技术开发;
【现有方案二】:一部分工具类产品,将治理环节封装成算子进行可视化配置;(每个算子都是一个技术处理单元)。
【现有方案一】:治理流程不透明,没有复用性,且开发成本高,只有代码,不便于确认业务逻辑,不做赘述更多缺点;
【现有方案二】:全流程是算子的级联,技术处理难度高,且中间结果不落地,如果出现问题,不容易修改;
算子级联类似于算子A=〉算子B=〉算子C;
如果算子B的环节出错,后续全部不能运行,且中间结果不落地,逐一排查问题后,需要全流程重跑数据,实际业务中会很耗时或处理量会很大;
区别于此,当前方案是:数据源表1=〉算子A=〉表2=〉算B=〉表3=〉算子C=〉表4;
这种方式,即便算子B的环节出错,算子B之前的表2数据是保留的,只需要排查问题后修改治理逻辑,从表2向后,重跑算子B之后的流程即可,重跑数据量不大,且更快。
发明内容
本申请实施例提供了一种可视化治理数据的方法、***、计算机存储设备,以至少解决相关技术中主观因素影响的问题。
本发明提供了一种可视化治理数据的方法,其中,包括:
数据接入步骤:通过数据类接入算子接入数据库;
数据治理步骤:通过数据治理算子配置治理过程中的表结构转换和数据格式转换;
知识图谱数据融合步骤:通过知识图谱数据融合类算子进行知识图谱数据融合;
数据输出步骤:将治理完成的数据结果,输入到指定的业务数据库,通过NEST输出算子定向写入NEST数据库;
画布的可视化配置步骤:通过表将上述算子处理好的数据进行落地。
上述方法,其中,所述数据接入步骤包括:
JDBC输入步骤:通过JDBC输入算子接入支持JDBC的数据库;
externalHive输入步骤:通过externalHive输入算子接入Hive数据。
上述方法,其中,所述数据治理步骤包括:所述数据治理算子包括规则映射算子,所述规则映射算子配置治理过程中的表结构转换和数据格式转换。
上述方法,其中,所述知识图谱数据融合步骤包括:
实体融合步骤:通过实体融合算子将结构化数据治理完成后的数据,整合成知识图谱所需要的实体数据;
关系对偶步骤:通过对偶算子将结构化数据治理完成后的数据,整合成知识图谱所需要的关系数据;
事件去重步骤:通过事件去重算子将结构化数据治理完成后的数据,整合成知识图谱所需要的事件数据。
上述方法,其中,所述画布的可视化配置步骤包括:
从数据源中抽取数据,经过JDBC接入后,落地到第一中间表中,将中间表中的数据映射到第二中间表中;再将第二中间表的数据按照知识图谱的实体表要求做实体融合,落地到目标表中;最后将目标表的数据输出写入所述NEST数据库中。
本发明还包括一种可视化治理数据的***,其中,包括:
数据接入模块,所述数据接入模块通过数据类接入算子接入数据库;
数据治理模块,所述数据治理模块通过规则映射算子配置治理过程中的表结构转换和数据格式转换;
知识图谱数据融合模块,所述知识图谱数据融合模块通过知识图谱数据融合类算子进行知识图谱数据融合;
数据输出模块,所述数据输出模块将治理完成的数据结果,输入到指定的业务数据库,通过NEST输出算子定向写入NEST数据库;
画布的可视化配置模块,所述画布的可视化配置模块通过表将上述算子处理好的数据进行落地。
上述***,其中,所述数据接入模块包括:
JDBC输入单元,所述JDBC输入单元通过JDBC输入算子接入支持JDBC的数据库;
externalHive输入单元,所述externalHive输入单元通过externalHive输入算子接入Hive数据。
上述***,其中,所述数据治理模块包括通过所述规则映射算子配置治理过程中的表结构转换和数据格式转换。
上述***,其中,所述知识图谱数据融合模块包括:
实体融合单元,所述实体融合单元通过实体融合算子将结构化数据治理完成后的数据,整合成知识图谱所需要的实体数据;
关系对偶单元,所述关系对偶单元通过对偶算子将结构化数据治理完成后的数据,整合成知识图谱所需要的关系数据;
事件去重单元,所述事件去重单元通过事件去重算子将结构化数据治理完成后的数据,整合成知识图谱所需要的事件数据。
上述***,其中,所述画布的可视化配置模块包括:
从数据源中抽取数据,经过JDBC接入后,落地到第一中间表中,将中间表中的数据映射到第二中间表中;再将第二中间表的数据按照知识图谱的实体表要求做实体融合,落地到目标表中;最后将目标表的数据输出写入所述NEST数据库中。
本发明的有益效果在于:
1、降低数据治理门槛:用户只需要拖拽和配置必要的参数,可以降低数据治理的技术门槛,让治理人员有更多精力关注治理的业务需求。
2、可视化、透明:治理流程通过血缘图的形式呈现和配置,治理全链路清晰透明。
3、中间结果落地、可见,实用性强::治理过程需要使用【中间表】将治理的每个环节数据落地,数据可落地、问题好排查、降低治理难度和应用效率。
4、扩展性强:治理能力封装成独立算子,将来治理场景扩展时,只需要做算子级开发和扩展即可,治理框架不变,例如,需要增加一种数据源介入,只需要开发一种支持该数据源介入的算子即可。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
在附图中:
图1是可视化治理数据的方法的流程图;
图2是图1中步骤S1的分步骤流程图;
图3是图1中步骤S3的分步骤流程图;
图4是本发明的治理数据的***的结构示意图;
图5是根据本发明实施例的计算机设备的框架图;
图6是画布的可视化配置描述示意图;
图7是数据治理演示示意图之一;
图8是数据治理演示示意图之一;
图9是数据治理演示示意图之一;
图10是数据治理演示示意图之一;
图11是数据治理演示示意图之一;
图12是数据治理演示示意图之一;
图13是数据治理演示示意图之一;
图14是数据治理演示示意图之一;
图15是数据治理演示示意图之一;
图16是数据治理演示示意图之一;
图17是数据治理演示示意图之一;
图18是数据治理演示示意图之一;
图19是数据治理演示示意图之一;
图20是数据治理演示示意图之一;
图21是数据治理演示示意图之一;
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
下面结合附图所示的各实施方式对本发明进行详细说明,但应当说明的是,这些实施方式并非对本发明的限制,本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代,均属于本发明的保护范围之内。
在详细阐述本发明各个实施例之前,对本发明的核心发明思想予以概述,并通过下述若干实施例予以详细阐述。
请参照图1,图1是可视化治理数据的方法的流程图。如图1所示,本发明的通过平台建模的可视化治理数据的方法包括:
数据接入步骤S1:通过数据类接入算子接入数据库;
数据治理步骤S2:通过规则映射算子配置治理过程中的表结构转换和数据格式转换;
知识图谱数据融合步骤S3:通过知识图谱数据融合类算子进行知识图谱数据融合;
数据输出步骤S4:将治理完成的数据结果,输入到指定的业务数据库,通过NEST输出算子定向写入NEST数据库;
画布的可视化配置步骤S5:通过表将上述算子处理好的数据进行落地。
请参照图2,图2是图1中步骤S1的分步骤流程图。如图2所示,所述数据接入步骤S1包括:
JDBC输入步骤S11:通过JDBC输入算子接入支持JDBC的数据库;
externalHive输入步骤S12:通过externalHive输入算子接入Hive数据。
还包括数据治理步骤,所述数据治理步骤包括:所述数据治理算子包括规则映射算子,所述规则映射算子配置治理过程中的表结构转换和数据格式转换。
请参照图3,图3是图1中步骤S3的分步骤流程图。如图3所示,所述知识图谱数据融合步骤S3包括:
实体融合步骤S31:通过实体融合算子将结构化数据治理完成后的数据,整合成知识图谱所需要的实体数据;
关系对偶步骤S32:通过对偶算子将结构化数据治理完成后的数据,整合成知识图谱所需要的关系数据;
事件去重步骤S33:通过事件去重算子将结构化数据治理完成后的数据,整合成知识图谱所需要的事件数据。
其中,所述画布的可视化配置步骤S5包括:
从数据源中抽取数据,经过JDBC接入后,落地到第一中间表中,将中间表中的数据映射到第二中间表中;再将第二中间表的数据按照知识图谱的实体表要求做实体融合,落地到目标表中;最后将目标表的数据输出写入所述NEST数据库中。
以下,列举实施例具体说明本发明的设备间用户识别方法如下。
实施例一:
数据接入类的算子:JDBC输入算子:用于接入支持JDBC的数据库,例如Oracle、MySQL等,作用是拉取远端数据复制一份到本地的中间表中;
externalHive输入算子:用于接入Hive数据这种算子数据无需落地对应输出的中间表是一种视图;
数据治理算子:
规则映射算子:用于配置治理过程中的表结构转换、数据格式转换等;
知识图谱数据融合算子:
实体融合算子:用于将结构化数据治理完成后的数据,整合成知识图谱所需要的实体数据,主要处理的是数据融合;
关系对偶算子:用于将结构化数据治理完成后的数据,整合成知识图谱所需要的关系数据,主要处理的是数据的对偶关系排序;
事件去重算子:用于将结构化数据治理完成后的数据,整合成知识图谱所需要的事件数据,主要处理的是事件数据的去重;
数据输出类算子:
NEST输出算子:用户将治理完成的数据结果,输入到指定的业务数据库,该算子用于定向写入NEST数据库(NEST是一个自有数据库名称)
上述算子类型和每个环节的算子数量不固定,均可以基于业务治理需要在当前框架基础上进行开发和扩展。
画布的可视化配置描述,如图6所示:
【矩形】表示一张落地的表
表分为3种:数据源表、中间表、目标表,使用不同的icon便于区分;
【实线框】表示“数据源表”和“目标表”;“数据源表”即待治理的原始数据表,例如前面所述提到的Oracle或MySQL中的表;“目标表”即治理后数据的表,例如前面所述,NEST中的表;
上图最左边表表示数据源表,右边表表示目标表;
【虚线框】表示“中间表”,“中间表”仅存在于当前DAG中,作为算子加工结果的暂存;
【圆形】表示一个算子
算子的个数不固定,支持插件式扩展,可由用户自定义开发;
算子能力参见上文描述;
【算子】的两端均为【表】,分别表示数据的来源和去向
举例来说,图6中表示从数据源的【Table1(父亲)】中抽取数据,经过JDBC接入后,落地到【表1中】,将表1的字段映射到【表5】中;从数据源的【Table1(母亲)】中抽取数据,经过JDBC接入后,落地到【表2】中,将【表2】的数据也映射到【表5】中;再将【表5】的数据按照知识图谱的实体表要求做实体融合,落地到目标表【人】中;最后将目标表【人】的数据输出写入好NEST数据库中。
在画布中选中表或算子,页面右侧弹出抽屉,展示具体的配置项,进行具体配置:
点击数据源表,抽屉中可展示表级详情和字段级详情,如图7所示;
点击目标表,抽屉中可以展示目标表的表详情和字段详情,如图8所示;
如果是治理过程中的中间表,需要在画布中创建,抽屉中可命名表名称并向创建字段,如图9和图10所示:
数据接入算子,抽屉中可给算子命名一个画布中的名称,并配置算子的输入表和输出表,该算子仅支持一个输入表和一个输出表,如图11所示:
规则映射算子
抽屉中可给算子命名一个画布中的名称,并配置算子的输入表和输出表,该算子仅支持一个输入表和一个输出表,如图12所示:
如果需要将多张表映射到同一张表中,需要配置多个规则映射算子,如图13所示:
上述过程为表级映射,在抽屉中点击【详细配置】可切换画布到字段级配置页面,可以配置字段的映射关系,以及具体的字段级数据处理规则(规则可通过内置的规则引擎进行接入和扩展,非本专利内容,不赘述),如14图所示:
实体融合算子
在右侧抽屉中命名算子名称,定义算子的输入表和输出表,该算子在仅支持一个输入表和一个输出表,如图15所示:
上述过程为表级配置,在抽屉中点击【详细配置】可切换画布到字段级配置页面,可以配置具体的融合要求,例如表级血缘的优先级、字段血缘的优先级、去重标志列、溯源信息等,具体的配置项都是该算子能力的独特有功能,这里不展开,视具体情况开发即可,如图16所示:
关系对偶算子
在右侧抽屉中命名算子名称,定义算子的输入表和输出表,该算子在仅支持一个输入表和一个输出表,如图17所示:
在抽屉中点击详细配置后,切换到具体的字段配置页面,该算子在可配置具体的对偶排序规则,如图18所示;
事件去重算子
在右侧抽屉中命名算子名称,定义算子的输入表和输出表,该算子在仅支持一个输入表和一个输出表,如图19所示:
在抽屉中点击详细配置后,切换到具体的字段配置页面,该算子在可配置具体的去重规则,如图20所示;
NEST输出算子,在右侧抽屉中命名算子名称,定义算子的输入表和输出表,该算子在只需要配置输入表,无需选择输出表,输出方向仅为NEST数据库,如图21所示:
实施例二:
请参照图4,图4是本发明的治理数据的***的结构示意图。如图4所示本发明的可视化治理数据的***,其中,包括:
数据接入模块,所述数据接入模块通过数据类接入算子接入数据库;
数据治理模块,所述数据治理模块通过规则映射算子配置治理过程中的表结构转换和数据格式转换;
知识图谱数据融合模块,所述知识图谱数据融合模块通过知识图谱数据融合类算子进行知识图谱数据融合;
数据输出模块,所述数据输出模块将治理完成的数据结果,输入到指定的业务数据库,通过NEST输出算子定向写入NEST数据库;
画布的可视化配置模块,所述画布的可视化配置模块通过表将上述算子处理好的数据进行落地。
上述***,其中,所述数据接入模块包括:
JDBC输入单元,所述JDBC输入单元通过JDBC输入算子接入支持JDBC的数据库;
externalHive输入单元,所述externalHive输入单元通过externalHive输入算子接入Hive数据。
上述***,其中,所述数据治理模块包括通过所述规则映射算子配置治理过程中的表结构转换和数据格式转换。
上述***,其中,所述知识图谱数据融合模块包括:
实体融合单元,所述实体融合单元通过实体融合算子将结构化数据治理完成后的数据,整合成知识图谱所需要的实体数据;
关系对偶单元,所述关系对偶单元通过对偶算子将结构化数据治理完成后的数据,整合成知识图谱所需要的关系数据;
事件去重单元,所述事件去重单元通过事件去重算子将结构化数据治理完成后的数据,整合成知识图谱所需要的事件数据。
上述***,其中,所述画布的可视化配置模块包括:
从数据源中抽取数据,经过JDBC接入后,落地到第一中间表中,将中间表中的数据映射到第二中间表中;再将第二中间表的数据按照知识图谱的实体表要求做实体融合,落地到目标表中;最后将目标表的数据输出写入所述NEST数据库中。
实施例三:
结合图5所示,本实施例揭示了一种计算机设备的一种具体实施方式。计算机设备可以包括处理器81以及存储有计算机程序指令的存储器82。
具体地,上述处理器81可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器82可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器82可在数据处理装置的内部或外部。在特定实施例中,存储器82是非易失性(Non-Volatile)存储器。在特定实施例中,存储器82包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(RandomAccess Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器81所执行的可能的计算机程序指令。
处理器81通过读取并执行存储器82中存储的计算机程序指令,以实现上述实施例中的任意一种治理数据的方法。
在其中一些实施例中,计算机设备还可包括通信接口83和总线80。其中,如图5所示,处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。
通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
总线80包括硬件、软件或两者,将计算机设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(Control Bus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线80可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(Front Side Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构(Industry Standard Architecture,简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture,简称为MCA)总线、***组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
该计算机设备可以基于治理数据的方法,从而实现结合图1-图3描述的方法。
另外,结合上述实施例中治理数据的方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的一种治理数据的方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
综上所述,基于本发明的有益效果在于,本专利提供了一种治理数据的方法,该方法能够降低数据治理门槛:用户只需要拖拽和配置必要的参数,可以降低数据治理的技术门槛,让治理人员有更多精力关注治理的业务需求;该方法的优点是可视化、透明:治理流程通过血缘图的形式呈现和配置,治理全链路清晰透明;该方法的中间结果落地、可见,实用性强::治理过程需要使用【中间表】将治理的每个环节数据落地,数据可落地、问题好排查、降低治理难度和应用效率;该方法的优点是扩展性强:治理能力封装成独立算子,将来治理场景扩展时,只需要做算子级开发和扩展即可,治理框架不变,例如,需要增加一种数据源介入,只需要开发一种支持该数据源介入的算子即可;
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种可视化治理数据的方法,其特征在于,包括:
数据接入步骤:通过数据类接入算子接入数据库;
数据治理步骤:通过数据治理算子配置治理过程中的表结构转换和数据格式转换;
知识图谱数据融合步骤:通过知识图谱数据融合类算子进行知识图谱数据融合;
数据输出步骤:将治理完成的数据结果,输入到指定的业务数据库,通过NEST输出算子定向写入NEST数据库;
画布的可视化配置步骤:通过表将上述算子处理好的数据进行落地。
2.如权利要求1所述的一种可视化治理数据的方法,其特征在于,所述数据接入步骤包括:
JDBC输入步骤:通过JDBC输入算子接入支持JDBC的数据库;
externalHive输入步骤:通过externalHive输入算子接入Hive数据。
3.如权利要求1所述的一种可视化治理数据的方法,其特征在于,所述数据治理步骤包括:所述数据治理算子包括规则映射算子,所述规则映射算子配置治理过程中的表结构转换和数据格式转换。
4.如权利要求1所述的一种可视化治理数据的方法,其特征在于,所述知识图谱数据融合步骤包括:
实体融合步骤:通过实体融合算子将结构化数据治理完成后的数据,整合成知识图谱所需要的实体数据;
关系对偶步骤:通过对偶算子将结构化数据治理完成后的数据,整合成知识图谱所需要的关系数据;
事件去重步骤:通过事件去重算子将结构化数据治理完成后的数据,整合成知识图谱所需要的事件数据。
5.如权利要求1所述的一种可视化治理数据的方法,其特征在于,所述画布的可视化配置步骤包括:
从数据源中抽取数据,经过JDBC接入后,落地到第一中间表中,将中间表中的数据映射到第二中间表中;再将第二中间表的数据按照知识图谱的实体表要求做实体融合,落地到目标表中;最后将目标表的数据输出写入所述NEST数据库中。
6.一种可视化治理数据的***,其特征在于,包括:
数据接入模块,所述数据接入模块通过数据类接入算子接入数据库;
数据治理模块,所述数据治理模块通过规则映射算子配置治理过程中的表结构转换和数据格式转换;
知识图谱数据融合模块,所述知识图谱数据融合模块通过知识图谱数据融合类算子进行知识图谱数据融合;
数据输出模块,所述数据输出模块将治理完成的数据结果,输入到指定的业务数据库,通过NEST输出算子定向写入NEST数据库;
画布的可视化配置模块,所述画布的可视化配置模块通过表将上述算子处理好的数据进行落地。
7.如权利要求6所述的一种可视化治理数据的***,其特征在于,所述数据接入模块包括:
JDBC输入单元,所述JDBC输入单元通过JDBC输入算子接入支持JDBC的数据库;
externalHive输入单元,所述externalHive输入单元通过externalHive输入算子接入Hive数据。
8.如权利要求6所述的一种可视化治理数据的方法,其特征在于,所述数据治理模块包括通过所述规则映射算子配置治理过程中的表结构转换和数据格式转换。
9.如权利要求6所述的一种可视化治理数据的***,其特征在于,所述知识图谱数据融合模块包括:
实体融合单元,所述实体融合单元通过实体融合算子将结构化数据治理完成后的数据,整合成知识图谱所需要的实体数据;
关系对偶单元,所述关系对偶单元通过对偶算子将结构化数据治理完成后的数据,整合成知识图谱所需要的关系数据;
事件去重单元,所述事件去重单元通过事件去重算子将结构化数据治理完成后的数据,整合成知识图谱所需要的事件数据。
10.如权利要求6所述的一种可视化治理数据的***,其特征在于,所述画布的可视化配置模块包括:
从数据源中抽取数据,经过JDBC接入后,落地到第一中间表中,将中间表中的数据映射到第二中间表中;再将第二中间表的数据按照知识图谱的实体表要求做实体融合,落地到目标表中;最后将目标表的数据输出写入所述NEST数据库中。
CN202110006818.4A 2021-01-05 2021-01-05 可视化治理数据的方法及*** Pending CN112632178A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110006818.4A CN112632178A (zh) 2021-01-05 2021-01-05 可视化治理数据的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110006818.4A CN112632178A (zh) 2021-01-05 2021-01-05 可视化治理数据的方法及***

Publications (1)

Publication Number Publication Date
CN112632178A true CN112632178A (zh) 2021-04-09

Family

ID=75291357

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110006818.4A Pending CN112632178A (zh) 2021-01-05 2021-01-05 可视化治理数据的方法及***

Country Status (1)

Country Link
CN (1) CN112632178A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114020852A (zh) * 2021-09-29 2022-02-08 苏州臻璇数据信息技术有限公司 知识图谱的展示方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241107A (zh) * 2018-08-03 2019-01-18 北京邮电大学 基于Hadoop的大数据治理装置
CN109800226A (zh) * 2018-12-25 2019-05-24 北京明略软件***有限公司 一种数据治理中的任务管理方法及装置
CN109800069A (zh) * 2018-12-25 2019-05-24 北京明略软件***有限公司 一种实现数据治理的方法及装置
CN111488465A (zh) * 2020-04-14 2020-08-04 税友软件集团股份有限公司 一种知识图谱构建方法及相关装置
CN112084376A (zh) * 2020-09-04 2020-12-15 北京明略昭辉科技有限公司 基于图谱知识的推荐方法、推荐***及电子装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241107A (zh) * 2018-08-03 2019-01-18 北京邮电大学 基于Hadoop的大数据治理装置
CN109800226A (zh) * 2018-12-25 2019-05-24 北京明略软件***有限公司 一种数据治理中的任务管理方法及装置
CN109800069A (zh) * 2018-12-25 2019-05-24 北京明略软件***有限公司 一种实现数据治理的方法及装置
CN111488465A (zh) * 2020-04-14 2020-08-04 税友软件集团股份有限公司 一种知识图谱构建方法及相关装置
CN112084376A (zh) * 2020-09-04 2020-12-15 北京明略昭辉科技有限公司 基于图谱知识的推荐方法、推荐***及电子装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114020852A (zh) * 2021-09-29 2022-02-08 苏州臻璇数据信息技术有限公司 知识图谱的展示方法和装置

Similar Documents

Publication Publication Date Title
CN109284145A (zh) 多语言配置文件的生成和展示方法及装置、设备和介质
CN107203595A (zh) 一种基于自由表单的动态生成web界面的方法
US7975247B2 (en) Method and system for organizing data generated by electronic design automation tools
CN107526755B (zh) 数据的处理方法及装置
CN114090653A (zh) 一种资源数据统计方法、装置、元平台设备及存储介质
CN108037977B (zh) 虚拟计算机资源的管理方法、设备、计算机介质、及***
CN112632178A (zh) 可视化治理数据的方法及***
US7904856B2 (en) Arrangement handling commands as control system behaviors and data system behaviors
Maharatna et al. Systems Design for Remote Healthcare
CN112365944A (zh) 一种树状数据节点处理***、方法、电子设备及存储介质
CN117170655A (zh) 一种元数据处理方法、装置、数据处理设备及存储介质
US20210103639A1 (en) Model-based systems engineering model conversion with text requirements
JP2020123321A (ja) クリップボードデータに基づく検索処理方法および装置
CN110750973A (zh) 动态模板配置方法及***
CN111046115A (zh) 基于知识图谱的异构数据库互联管理方法
CN114124977B (zh) 跨租户间的数据分享方法、装置和电子设备
US8849440B2 (en) Manufacturing control based on a final design structure incorporating both layout and client-specific manufacturing information
JP2018109898A (ja) データマイグレーションシステム
US9626471B2 (en) Methods and systems for filtering components in hierarchically-referenced data
CN115687704A (zh) 信息显示方法、装置、电子设备及计算机可读存储介质
CN108628895A (zh) 一种地图数据的处理方法及装置
CN111783472A (zh) 一种判决书内容提取方法及相关装置
CN113742321A (zh) 一种数据更新的方法和装置
US10977282B2 (en) Generating device, generating method, and non-transitory computer-readable recording medium
CN107688683B (zh) 管理嵌入式***中半导体器件的存储器块的方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination