CN114428822B - 一种数据处理的方法、装置、电子设备及存储介质 - Google Patents

一种数据处理的方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114428822B
CN114428822B CN202210097773.0A CN202210097773A CN114428822B CN 114428822 B CN114428822 B CN 114428822B CN 202210097773 A CN202210097773 A CN 202210097773A CN 114428822 B CN114428822 B CN 114428822B
Authority
CN
China
Prior art keywords
data
access
information
consanguinity
platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210097773.0A
Other languages
English (en)
Other versions
CN114428822A (zh
Inventor
胡琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunqi Intelligent Technology Co ltd
Original Assignee
Yunqi Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunqi Intelligent Technology Co ltd filed Critical Yunqi Intelligent Technology Co ltd
Priority to CN202210097773.0A priority Critical patent/CN114428822B/zh
Publication of CN114428822A publication Critical patent/CN114428822A/zh
Application granted granted Critical
Publication of CN114428822B publication Critical patent/CN114428822B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种数据处理的方法、装置、电子设备及存储介质,该方法包括:在访问前端访问数据治理平台中的数据血缘时,数据治理平台记录访问前端的访问信息;数据治理平台在每个预设统计周期内,对该预设统计周期内的访问信息进行统计分析,得到该预设统计周期内每个链路节点的数据对应的访问信息包括的访问用户数量和访问次数;根据预设统计周期内每个链路节点的数据对应的访问信息包括的访问用户数量和访问次数,生成针对数据血缘的数据访问关系,以基于数据访问关系和数据血缘生成用户想要查询的数据信息;本申请将数据访问关系和数据生成关系融合在一起,用户可以基于融合在一起的数据访问关系和数据生成用户想要查询的数据信息。

Description

一种数据处理的方法、装置、电子设备及存储介质
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种数据处理的方法、装置、电子设备及存储介质。
背景技术
数据治理包括数据元数据管理、数据标准、数据质量、主数据管理、数据资产等主题。其中元数据管理是大型数据治理项目的核心。元数据是描述数据的数据,是对数据及资源的描述性信息。元数据管理通过将分散的、结构差异巨大的资源信息进行描述、检索、分析、评估,实现了对数据的描述和分类结构化。对数据进行采集、加工、转换生成新的数据,数据血缘就是指数据生成的链路关系。
传统数据治理中的数据血缘范围是数据生成的链路关系。数据服务平台的数据访问关系与数据治理平台中的数据生成关系是割裂的。导致存在如下的缺点:无法利用数据访问关系判断数据影响的下游访问接口、访问应用和访问用户;无法利用数据血缘关系追溯接口、应用和用户使用到的上游数据;无法利用数据访问信息分析结合数据血缘,推算数据访问热度。
发明内容
有鉴于此,本申请的目的在于提供一种数据处理的方法、装置、电子设备及存储介质,本申请将数据访问关系和数据生成关系融合在一起,用户可以基于融合在一起的数据访问关系和数据生成用户想要查询的数据信息。
第一方面,本申请实施例提供了一种数据处理的方法,所述方法应用于数据处理***,所述数据处理***包括数据治理平台和访问前端,所述数据治理平台与访问前端通信连接,所述访问前端能够访问所述数据治理平台中的数据血缘,所述数据血缘包括根据业务数据生成的链路关系;所述方法包括:
在所述访问前端访问所述数据治理平台中的数据血缘时,所述数据治理平台记录所述访问前端的访问信息;所述访问信息包括:访问用户信息、访问应用信息、访问接口信息、访问的所述数据血缘中每个链路节点的数据信息;
所述数据治理平台在每个预设统计周期内,对该预设统计周期内的所述访问信息进行统计分析,得到该预设统计周期内每个链路节点的数据对应的访问信息包括的访问用户数量和访问次数;
根据所述预设统计周期内每个链路节点的数据对应的访问信息包括的访问用户数量和访问次数,生成针对所述数据血缘的数据访问关系,以基于所述数据访问关系和所述数据血缘生成用户想要查询的数据信息。
在本申请一些技术方案中,上述应用于数据处理***,所述数据处理***包括数据治理平台和访问前端,所述数据治理平台与访问前端通信连接,所述访问前端能够访问所述数据治理平台中的数据血缘,所述数据血缘包括根据业务数据生成的链路关系;所述方法包括:
在所述访问前端访问所述数据治理平台中的数据血缘时,所述数据治理平台记录所述访问前端的访问信息;所述访问信息包括:访问用户信息、访问应用信息、访问接口信息、访问的所述数据血缘中每个链路节点的数据信息;
所述数据治理平台在每个预设统计周期内,对该预设统计周期内的所述访问信息进行统计分析,得到该预设统计周期内每个链路节点的数据对应的访问信息包括的访问用户数量和访问次数;
根据所述预设统计周期内每个链路节点的数据对应的访问信息包括的访问用户数量和访问次数,生成针对所述数据血缘的数据访问关系,以基于所述数据访问关系和所述数据血缘生成用户想要查询的数据信息。
在本申请一些技术方案中,上述数据服务装置包括网关、服务执行器和服务管理器;所述数据服务装置接收用户的通过不同应用发送的访问请求,包括:
所述网关接收用户的通过不同访问前端发送的访问请求;所述网关执行所述应用访问的鉴权和根据策略进行流量控制;所述网关将所述访问请求转发到所述服务执行器;
所述服务执行器接收到网关转发的所述访问请求后,从数据治理平台中获取数据,根据访问接口输出参数组装返回数据;调用数据治理平台数据血缘模块提供的数据访问日志接口;
所述服务管理器管理访问接口、应用、授权和流量策略;访问接口包括输入参数、输出参数、用户编码、数据源、查询数据SQL;应用包括接入应用名称和摘要签名密钥;对应用授权可以调用的访问接口;服务管理器对SQL进行解析,生成每个访问接口查询的表和字段。
在本申请一些技术方案中,上述数据治理平台包括数据仓库、数据血缘分析模块、数据血缘展示模块和数据访问日志接口;
所述数据治理平台通过所述数据血缘分析模块对业务数据进行分析处理,得到处理后的数据和数据血缘;所述数据治理平台将处理后的数据存放在所述数据仓库中,所述数据仓库通过访问接口向外提供查询服务;所述数据治理平台将所述数据血缘存放在数据血缘数据库中;
所述数据治理平台通过所述数据访问日志接口接收和响应所述访问前端的访问请求,并记录在所述访问前端访问所述数据治理平台中的数据血缘时,所述数据治理平台记录所述访问前端的访问信息,并将所述访问信息存放在所述数据血缘数据库中;
所述数据治理平台通过所述血缘展示模块对所述数据访问关系和所述数据血缘进行展示。
在本申请一些技术方案中,上述数据治理平台通过所述血缘展示模块对所述数据访问关系和所述数据血缘进行展示,包括:
所述数据治理平台通过所述血缘展示模块将数据血缘数据库中的表字段与表字段、表字段与用户、表字段与应用的关系以有向无环图的形式进行展示,表字段上展示访问用户数、表字段展示访问次数。
在本申请一些技术方案中,上述用户想要查询的数据信息包括直接展示的信息和经过计算的信息。
在本申请一些技术方案中,上述直接展示的信息包括数据访问热度信息;所述经过计算的信息包括数据影响的下游访问接口信息、访问应用信息和访问用户信息、数据血缘关系追溯的访问接口信息、访问应用信息和用户使用到的上游数据。
第二方面,本申请实施例提供了一种数据处理的装置,驻留于数据处理***,所述数据处理***包括数据治理平台和访问前端,所述数据治理平台与访问前端通信连接,所述访问前端能够访问所述数据治理平台中的数据血缘,所述数据血缘包括根据业务数据生成的链路关系;所述装置包括:
记录模块,用于在所述访问前端访问所述数据治理平台中的数据血缘时,记录所述访问前端的访问信息;所述访问信息包括:访问用户信息、访问应用信息、访问接口信息、访问的所述数据血缘中每个链路节点的数据信息;
统计模块,用于在每个预设统计周期内,对该预设统计周期内的所述访问信息进行统计分析,得到该预设统计周期内每个链路节点的数据对应的访问信息包括的访问用户数量和访问次数;
生成模块,用于根据所述预设统计周期内每个链路节点的数据对应的访问信息包括的访问用户数量和访问次数,生成针对所述数据血缘的数据访问关系,以基于所述数据访问关系和所述数据血缘生成用户想要查询的数据信息。
第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的数据处理的方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述的数据处理的方法的步骤。
本申请的实施例提供的技术方案可以包括以下有益效果:本申请在所述访问前端访问所述数据治理平台中的数据血缘时,所述数据治理平台记录所述访问前端的访问信息;所述访问信息包括:访问用户信息、访问应用信息、访问接口信息、访问的所述数据血缘中每个链路节点的数据信息;所述数据治理平台在每个预设统计周期内,对该预设统计周期内的所述访问信息进行统计分析,得到该预设统计周期内每个链路节点的数据对应的访问信息包括的访问用户数量和访问次数;根据所述预设统计周期内每个链路节点的数据对应的访问信息包括的访问用户数量和访问次数,生成针对所述数据血缘的数据访问关系,以基于所述数据访问关系和所述数据血缘生成用户想要查询的数据信息;本申请将数据访问关系和数据生成关系融合在一起,用户可以基于融合在一起的数据访问关系和数据生成用户想要查询的数据信息。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种数据处理的方法流程示意图;
图2示出了本申请实施例所提供的现有技术中数据访问示意图;
图3示出了本申请实施例所提供的一种数据处理***的示意图;
图4示出了本申请实施例所提供的一种数据处理的装置示意图;
图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
企业经过多年的信息化建设,积累了一大批数据,这些数据在支撑业务运营方面发挥了重要作用,同时也给企业带来新的挑战和问题。越来越多的企业已经引入数据治理,把数据治理作为实现企业数字化转型的基础,通过数据治理提升数据的价值。
数据治理包括数据元数据管理、数据标准、数据质量、主数据管理、数据资产等主题。其中元数据管理是大型数据治理项目的核心。元数据是描述数据的数据,是对数据及资源的描述性信息。元数据管理通过将分散的、结构差异巨大的资源信息进行描述、检索、分析、评估,实现了对数据的描述和分类结构化。
对数据进行采集、加工、转换生成新的数据,数据血缘就是指数据生成的链路关系。一般用有向无环图描述数据血缘。
数据血缘带来的价值:
故障影响分析。当出现故障后,某个表及其字段的数据出现问题,可以迅速判断后续影响。
数据波动分析。当某个数据有较大波动时,可进行溯源分析,找出哪些上游数据影响了该数据的波动。
数据价值评估。通过数据血缘推算元数据关联数量,元数据被关联引用越多,说明该元数据越重要。
如图2所示,数据血缘的末端数据存放在主题库中。数据服务装置提供数据开放的能力,将主题库中的数据以接口形式对外开放,应用通过数据服务装置查询使用主题库中的数据,用户通过应用查询使用主题库中的数据。
传统数据治理中的数据血缘范围是数据生成的链路关系。数据服务装置的数据访问关系与数据治理平台中的数据生成关系是割裂的。导致存在如下的缺点:
无法利用数据访问关系判断数据影响的下游访问接口、访问应用和访问用户。
无法利用数据血缘关系追溯接口、应用和用户使用到的上游数据。
无法利用数据访问信息分析结合数据血缘,推算数据访问热度。
基于此,本申请实施例提供了一种数据处理的方法、装置、电子设备及存储介质,下面通过实施例进行描述。
图1示出了本申请实施例所提供的一种数据处理的方法的流程示意图,该方法应用于数据处理***,数据处理***包括数据治理平台和访问前端,数据治理平台与访问前端通信连接,访问前端能够访问数据治理平台中的数据血缘,数据血缘包括根据业务数据生成的链路关系;其中,该方法包括步骤S101-S103;具体的:
S101、在访问前端访问数据治理平台中的数据血缘时,数据治理平台记录访问前端的访问信息;访问信息包括:访问用户信息、访问应用信息、访问接口信息、访问的数据血缘中每个链路节点的数据信息;
S102、数据治理平台在每个预设统计周期内,对该预设统计周期内的访问信息进行统计分析,得到该预设统计周期内每个链路节点的数据对应的访问信息包括的访问用户数量和访问次数;
S103、根据预设统计周期内每个链路节点的数据对应的访问信息包括的访问用户数量和访问次数,生成针对数据血缘的数据访问关系,以基于数据访问关系和数据血缘生成用户想要查询的数据信息。
本申请将数据访问关系和数据生成关系融合在一起,用户可以基于融合在一起的数据访问关系和数据生成用户想要查询的数据信息。
下面对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
在介绍本申请的数据处理方法之前,首先要介绍一下本申请中数据处理方法应用的数据处理***。本申请的数据处理***包括数据治理平台、数据服务装置和访问前端。本申请中用户通过不同的访问前端访问数据治理平台。具体的访问前端设置有访问前端编码,访问前端编码将不同的访问前端区分出来。本申请中的访问前端可以是应用,用户通过应用向服务装置发送访问请求。每个应用都会有自己应用编码,通过该应用编码将不同的应用进行区分。例如,用户可以通过应用A编号YQZH001向服务装置发送数据访问请求,也可以通过应用B编号YQZH002向服务装置发送数据访问请求。这里的编号YQZH001和编号YQZH002用于区分用户是通过了不同的应用A和B进行了数据访问。这里的数据访问请求包括了对数据和数据关系的增、删、改、查操作。本申请中为了区分不同的用户进行了数据访问操作,还会对用户进行区分。具体的可以通过用户ID进行区分,在用户对数据进行访问的时候,数据访问请求中需要包含有用户信息和应用信息。
如图3所示,应用将访问请求发送给数据服务装置之后,数据服务装置对访问请求进行处理。本申请中的数据服务装置包括网关、服务执行器和服务管理器;数据服务装置接收用户的通过不同应用发送的访问请求,包括:
网关接收用户的通过不同应用发送的访问请求;网关执行应用访问的鉴权和根据策略进行流量控制;网关将访问请求转发到服务执行器;
服务执行器接收到网关转发的访问请求后,从数据治理平台中获取数据,根据访问接口输出参数组装返回数据;调用数据治理平台数据血缘模块提供的数据访问日志接口;
服务管理器管理访问接口、应用、授权和流量策略;访问接口包括输入参数、输出参数、用户编码、数据源、查询数据SQL;应用包括接入应用名称和摘要签名密钥;对应用授权可以调用的访问接口;服务管理器对SQL进行解析,生成每个访问接口查询的表和字段。
本申请中的数据治理平台对企业产生的各种业务数据进行治理,对业务数据的处理包括了数据采集、数据标准管理、主数据管理、元数据管理、数据质量管理和数据资产管理等。
其中,元数据:采集汇总企业***数据属性的信息,帮助各行各业用户获得更好的数据洞察力,通过元数据之间的关系和影响挖掘隐藏在资源中的价值。
数据标准:对分散在各***中的数据提供一套统一的数据命名、数据定义、数据类型、赋值规则等的定义基准,并通过标准评估确保数据在复杂数据环境中维持企业数据模型的一致性、规范性,从源头确保数据的正确性及质量,并可以提升开发和数据管理的一贯性和效率性。
数据质量:有效识别各类数据质量问题,建立数据监管,形成数据质量管理体系,监控并揭示数据质量问题,提供问题明细查询和质量改进建议,全面提升数据的完整性、准确性、及时性,一致性以及合法性,降低数据管理成本,减少因数据不可靠导致的决策偏差和损失。
主数据:帮助企业创建并维护内部共享数据的单一视图,从而提高数据质量,统一商业实体定义,简化改进商业流程并提高业务的响应速度。
数据资产:汇集企业所有能够产生价值的数据资源,为用户提供资产视图,快速了解企业资产,发现不良资产,为管理员提供决策依据,提升数据资产的价值。
数据治理是一个通过一系列信息相关的过程来实现决策权和职责分工的***,这些过程按照达成共识的模型来执行,该模型描述了谁(Who)能根据什么信息,在什么时间(When)和情况(Where)下,用什么方法(How),采取什么行动(What)。数据治理的最终目标是提升数据的价值,数据治理非常必要,是企业实现数字战略的基础,它是一个管理体系,包括组织、制度、流程、工具。
本申请中的数据治理平台包括数据仓库、数据血缘分析模块、数据血缘展示模块和数据访问日志接口;
所述数据治理平台通过所述数据血缘分析模块对业务数据进行分析处理,得到处理后的数据和数据血缘;所述数据治理平台将处理后的数据存放在所述数据仓库中,所述数据仓库通过访问接口向外提供查询服务;所述数据治理平台将所述数据血缘存放在数据血缘数据库中;
所述数据治理平台通过所述数据访问日志接口接收和响应所述访问前端的访问请求,并记录在所述访问前端访问所述数据治理平台中的数据血缘时,所述数据治理平台记录所述访问前端的访问信息,并将所述访问信息存放在所述数据血缘数据库中;
所述数据治理平台通过所述血缘展示模块对所述数据访问关系和所述数据血缘进行展示。
在具体实施时,数据仓库还可以设置为原始库、标准库和主题库,分别将处理后的数据存储在对应的库中。以上为本申请中数据处理***和数据访问的过程。
针对上述数据处理***,本申请不仅可以实现数据访问的过程,还能够记录数据访问信息,将数据访问关系和数据生成关系融合在一起。具体方法如下:
本申请中通过在数据治理平台设置了数据访问日志接口,使得数据治理平台可以记录每次用户通过医用访问数据治理平台中数据的数据访问信息,这里记录的访问信息包括了访问用户信息、访问应用信息、访问接口信息、访问的数据血缘中每个链路节点的数据信息。
在记录时间达到了数据治理平台的统计周期的时候,数据治理平台对该周期内记录的访问信息进行统计,统计该周内每个链路节点的数据对应的访问信息包括的访问用户数量和访问次数。
然后将该周期内的统计信息和数据血缘放在一起进行分析处理,即可得到用户想要查询的数据信息。
本申请中能够将数据访问信息和数据血缘融合在一起呈现给用户,用户得到信息更加的准确。
本申请实施例中,作为一可选实施例,本申请中的数据血缘分析模块将SQL进行解析,将数据血缘关系数据保存在数据血缘库中。数据访问日志接口在数据血缘数据库中保存用户、应用、接口、查询数据、表和字段信息。数据血缘分析模块每天定时对数据访问日志进行分析,统计表字段每日和累计访问用户数、访问次数。根据数据血缘关系将访问用户数和访问次数累加到上游表字段。数据血缘展示模块提供WEB页面,将数据血缘数据库中的表字段与表字段、表字段与用户、表字段与应用的关系以有向无环图的形式进行展示,表字段上展示访问用户数、表字段展示访问次数。
数据血缘中的有向无环图,同时展示表字段及其访问次数、接口、用户、应用之间关系。用户可以根据图中节点,依据方向找到下游节点及其接口、用户和应用。用户。用户可以根据图中下游的接口、用户和应用,可以溯源到所有上游表字段节点。用户可以根据图中表字段的访问用户数和访问次数,查看到数据访问热度。
图4示出了本申请实施例所提供的一种数据处理的装置的结构示意图,所述装置包括:
记录模块,用于在所述访问前端访问所述数据治理平台中的数据血缘时,记录所述访问前端的访问信息;所述访问信息包括:访问用户信息、访问应用信息、访问接口信息、访问的所述数据血缘中每个链路节点的数据信息;
统计模块,用于在每个预设统计周期内,对该预设统计周期内的所述访问信息进行统计分析,得到该预设统计周期内每个链路节点的数据对应的访问信息包括的访问用户数量和访问次数;
生成模块,用于根据所述预设统计周期内每个链路节点的数据对应的访问信息包括的访问用户数量和访问次数,生成针对所述数据血缘的数据访问关系,以基于所述数据访问关系和所述数据血缘生成用户想要查询的数据信息。
所述数据处理***还包括数据服务装置,所述访问前端通过所述数据服务装置与所述数据治理平台通信连接;所述访问前端将用户的访问请求发送给所述服务装置,所述服务装置根据用户的访问请求,调用与所述访问请求对应的访问数据接口,所述服务装置通过访问数据接口从所述数据治理平台中获取数据血缘。
所述数据服务装置包括网关、服务执行器和服务管理器;所述数据服务装置接收用户的通过不同应用发送的访问请求,包括:
所述网关接收用户的通过不同访问前端发送的访问请求;所述网关执行所述应用访问的鉴权和根据策略进行流量控制;所述网关将所述访问请求转发到所述服务执行器;
所述服务执行器接收到网关转发的所述访问请求后,从数据治理平台中获取数据,根据访问接口输出参数组装返回数据;调用数据治理平台数据血缘模块提供的数据访问日志接口;
所述服务管理器管理访问接口、应用、授权和流量策略;访问接口包括输入参数、输出参数、用户编码、数据源、查询数据SQL;应用包括接入应用名称和摘要签名密钥;对应用授权可以调用的访问接口;服务管理器对SQL进行解析,生成每个访问接口查询的表和字段。
所述数据治理平台包括数据仓库、数据血缘分析模块、数据血缘展示模块和数据访问日志接口;
所述数据治理平台通过所述数据血缘分析模块对业务数据进行分析处理,得到处理后的数据和数据血缘;所述数据治理平台将处理后的数据存放在所述数据仓库中,所述数据仓库通过访问接口向外提供查询服务;所述数据治理平台将所述数据血缘存放在数据血缘数据库中;
所述数据治理平台通过所述数据访问日志接口接收和响应所述访问前端的访问请求,并记录在所述访问前端访问所述数据治理平台中的数据血缘时,所述数据治理平台记录所述访问前端的访问信息,并将所述访问信息存放在所述数据血缘数据库中;
所述数据治理平台通过所述血缘展示模块对所述数据访问关系和所述数据血缘进行展示。
所述数据治理平台通过所述血缘展示模块对所述数据访问关系和所述数据血缘进行展示,包括:
所述数据治理平台通过所述血缘展示模块将数据血缘数据库中的表字段与表字段、表字段与用户、表字段与应用的关系以有向无环图的形式进行展示,表字段上展示访问用户数、表字段展示访问次数。
所述用户想要查询的数据信息包括直接展示的信息和经过计算的信息;所述直接展示的信息包括数据访问热度信息;所述经过计算的信息包括数据影响的下游访问接口信息、访问应用信息和访问用户信息、数据血缘关系追溯的访问接口信息、访问应用信息和用户使用到的上游数据。
如图5所示,本申请实施例提供了一种电子设备,用于执行本申请中的数据处理的方法,该设备包括存储器、处理器、总线及存储在该存储器上并可在该处理器上运行的计算机程序,其中,上述处理器执行上述计算机程序时实现上述的数据处理的方法的步骤。
具体地,上述存储器和处理器可以为通用的存储器和处理器,这里不做具体限定,当处理器运行存储器存储的计算机程序时,能够执行上述的数据处理的方法。
对应于本申请中的数据处理的方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述的数据处理的方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述的数据处理的方法。
在本申请所提供的实施例中,应该理解到,所揭露***和方法,可以通过其它的方式实现。以上所描述的***实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,***或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种数据处理的方法,其特征在于,应用于数据处理***,所述数据处理***包括数据治理平台和访问前端,所述数据治理平台与访问前端通信连接,所述访问前端能够访问所述数据治理平台中的数据血缘,所述数据血缘包括根据业务数据生成的链路关系;所述方法包括:
在所述访问前端访问所述数据治理平台中的数据血缘时,所述数据治理平台记录所述访问前端的访问信息;所述访问信息包括:访问用户信息、访问应用信息、访问接口信息、访问的所述数据血缘中每个链路节点的数据信息;
所述数据治理平台在每个预设统计周期内,对该预设统计周期内的所述访问信息进行统计分析,得到该预设统计周期内每个链路节点的数据对应的访问信息包括的访问用户数量和访问次数;
根据所述预设统计周期内每个链路节点的数据对应的访问信息包括的访问用户数量和访问次数,生成针对所述数据血缘的数据访问关系,以基于所述数据访问关系和所述数据血缘生成用户想要查询的数据信息。
2.根据权利要求1所述的方法,其特征在于,所述数据处理***还包括数据服务装置,所述访问前端通过所述数据服务装置与所述数据治理平台通信连接;所述访问前端将用户的访问请求发送给所述服务装置,所述服务装置根据用户的访问请求,调用与所述访问请求对应的访问数据接口,所述服务装置通过访问数据接口从所述数据治理平台中获取数据血缘。
3.根据权利要求2所述的方法,其特征在于,所述数据服务装置包括网关、服务执行器和服务管理器;所述数据服务装置接收用户的通过不同应用发送的访问请求,包括:
所述网关接收用户的通过不同访问前端发送的访问请求;所述网关执行所述应用访问的鉴权和根据策略进行流量控制;所述网关将所述访问请求转发到所述服务执行器;
所述服务执行器接收到网关转发的所述访问请求后,从数据治理平台中获取数据,根据访问接口输出参数组装返回数据;调用数据治理平台数据血缘模块提供的数据访问日志接口;
所述服务管理器管理访问接口、应用、授权和流量策略;访问接口包括输入参数、输出参数、用户编码、数据源、查询数据SQL;应用包括接入应用名称和摘要签名密钥;对应用授权调用的访问接口;服务管理器对SQL进行解析,生成每个访问接口查询的表和字段。
4.根据权利要求3所述的方法,其特征在于,所述数据治理平台包括数据仓库、数据血缘分析模块、数据血缘展示模块和数据访问日志接口;
所述数据治理平台通过所述数据血缘分析模块对业务数据进行分析处理,得到处理后的数据和数据血缘;所述数据治理平台将处理后的数据存放在所述数据仓库中,所述数据仓库通过访问接口向外提供查询服务;所述数据治理平台将所述数据血缘存放在数据血缘数据库中;
所述数据治理平台通过所述数据访问日志接口接收和响应所述访问前端的访问请求,并记录在所述访问前端访问所述数据治理平台中的数据血缘时,所述数据治理平台记录所述访问前端的访问信息,并将所述访问信息存放在所述数据血缘数据库中;
所述数据治理平台通过所述血缘展示模块对所述数据访问关系和所述数据血缘进行展示。
5.根据权利要求4所述的方法,其特征在于,所述数据治理平台通过所述血缘展示模块对所述数据访问关系和所述数据血缘进行展示,包括:
所述数据治理平台通过所述血缘展示模块将数据血缘数据库中的表字段与表字段、表字段与用户、表字段与应用的关系以有向无环图的形式进行展示,表字段上展示访问用户数、表字段展示访问次数。
6.根据权利要求5所述的方法,其特征在于,所述用户想要查询的数据信息包括直接展示的信息和经过计算的信息。
7.根据权利要求6所述的方法,其特征在于,所述直接展示的信息包括数据访问热度信息;所述经过计算的信息包括数据影响的下游访问接口信息、访问应用信息和访问用户信息、数据血缘关系追溯的访问接口信息、访问应用信息和用户使用到的上游数据。
8.一种数据处理的装置,其特征在于,驻留于数据处理***,所述数据处理***包括数据治理平台和访问前端,所述数据治理平台与访问前端通信连接,所述访问前端能够访问所述数据治理平台中的数据血缘,所述数据血缘包括根据业务数据生成的链路关系;所述装置包括:
记录模块,用于在所述访问前端访问所述数据治理平台中的数据血缘时,记录所述访问前端的访问信息;所述访问信息包括:访问用户信息、访问应用信息、访问接口信息、访问的所述数据血缘中每个链路节点的数据信息;
统计模块,用于在每个预设统计周期内,对该预设统计周期内的所述访问信息进行统计分析,得到该预设统计周期内每个链路节点的数据对应的访问信息包括的访问用户数量和访问次数;
生成模块,用于根据所述预设统计周期内每个链路节点的数据对应的访问信息包括的访问用户数量和访问次数,生成针对所述数据血缘的数据访问关系,以基于所述数据访问关系和所述数据血缘生成用户想要查询的数据信息。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的数据处理的方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一所述的数据处理的方法的步骤。
CN202210097773.0A 2022-01-27 2022-01-27 一种数据处理的方法、装置、电子设备及存储介质 Active CN114428822B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210097773.0A CN114428822B (zh) 2022-01-27 2022-01-27 一种数据处理的方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210097773.0A CN114428822B (zh) 2022-01-27 2022-01-27 一种数据处理的方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN114428822A CN114428822A (zh) 2022-05-03
CN114428822B true CN114428822B (zh) 2022-07-29

Family

ID=81313119

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210097773.0A Active CN114428822B (zh) 2022-01-27 2022-01-27 一种数据处理的方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114428822B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115374773A (zh) * 2022-09-15 2022-11-22 国能信控互联技术有限公司 基于数据血缘和热点的数据中台全域数据分析方法及***
CN116383777B (zh) * 2023-03-28 2024-02-27 云启智慧科技有限公司 一种数据治理平台和面向数据治理的数据确权方法
CN116541887B (zh) * 2023-07-07 2023-09-15 云启智慧科技有限公司 一种大数据平台数据安全保护方法

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480251A (zh) * 2017-08-14 2017-12-15 福建新大陆软件工程有限公司 一种管理数据访问的***
CN107577588A (zh) * 2017-09-26 2018-01-12 北京中安智达科技有限公司 一种海量日志数据智能运维***
CN108228747A (zh) * 2017-12-20 2018-06-29 江苏数加数据科技有限责任公司 数据治理中的数据血缘关系可视化图形***
CN108694195A (zh) * 2017-04-10 2018-10-23 腾讯科技(深圳)有限公司 一种分布式数据仓库的管理方法及***
CN108920616A (zh) * 2018-06-28 2018-11-30 郑州云海信息技术有限公司 一种元数据访问性能优化方法、***、装置及存储介质
CN108920607A (zh) * 2018-06-27 2018-11-30 中国建设银行股份有限公司 字段发现方法、装置及电子设备
CN109144791A (zh) * 2018-09-30 2019-01-04 北京金山云网络技术有限公司 数据转存方法、装置和数据管理服务器
CN110442498A (zh) * 2019-06-28 2019-11-12 平安科技(深圳)有限公司 异常数据节点的定位方法、装置、存储介质及计算机设备
CN110908997A (zh) * 2019-10-09 2020-03-24 支付宝(杭州)信息技术有限公司 数据血缘构建方法、装置、服务器及可读存储介质
CN112015722A (zh) * 2020-11-02 2020-12-01 浙江大华技术股份有限公司 数据库管理方法、数据血缘分析方法以及相关装置
CN112351088A (zh) * 2020-10-29 2021-02-09 平安科技(深圳)有限公司 一种cdn缓存方法、装置、计算机设备及存储介质
CN113127450A (zh) * 2021-04-30 2021-07-16 平安普惠企业管理有限公司 数据的维护方法、装置、计算机设备及存储介质
CN113242159A (zh) * 2021-05-24 2021-08-10 中国工商银行股份有限公司 应用访问关系确定方法及装置
CN113360799A (zh) * 2021-06-03 2021-09-07 深圳红途科技有限公司 访问行为日志采集方法、装置、计算机设备及存储介质
WO2021174945A1 (zh) * 2020-10-21 2021-09-10 平安科技(深圳)有限公司 数据成本计算方法、***、计算机设备和存储介质
CN113434312A (zh) * 2021-06-29 2021-09-24 青岛海尔科技有限公司 数据血缘关系处理方法及装置
WO2021218021A1 (zh) * 2020-04-28 2021-11-04 平安科技(深圳)有限公司 数据血缘分析方法、装置、设备及计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8095507B2 (en) * 2008-08-08 2012-01-10 Oracle International Corporation Automated topology-based statistics monitoring and performance analysis

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108694195A (zh) * 2017-04-10 2018-10-23 腾讯科技(深圳)有限公司 一种分布式数据仓库的管理方法及***
CN107480251A (zh) * 2017-08-14 2017-12-15 福建新大陆软件工程有限公司 一种管理数据访问的***
CN107577588A (zh) * 2017-09-26 2018-01-12 北京中安智达科技有限公司 一种海量日志数据智能运维***
CN108228747A (zh) * 2017-12-20 2018-06-29 江苏数加数据科技有限责任公司 数据治理中的数据血缘关系可视化图形***
CN108920607A (zh) * 2018-06-27 2018-11-30 中国建设银行股份有限公司 字段发现方法、装置及电子设备
CN108920616A (zh) * 2018-06-28 2018-11-30 郑州云海信息技术有限公司 一种元数据访问性能优化方法、***、装置及存储介质
CN109144791A (zh) * 2018-09-30 2019-01-04 北京金山云网络技术有限公司 数据转存方法、装置和数据管理服务器
CN110442498A (zh) * 2019-06-28 2019-11-12 平安科技(深圳)有限公司 异常数据节点的定位方法、装置、存储介质及计算机设备
CN110908997A (zh) * 2019-10-09 2020-03-24 支付宝(杭州)信息技术有限公司 数据血缘构建方法、装置、服务器及可读存储介质
WO2021218021A1 (zh) * 2020-04-28 2021-11-04 平安科技(深圳)有限公司 数据血缘分析方法、装置、设备及计算机可读存储介质
WO2021174945A1 (zh) * 2020-10-21 2021-09-10 平安科技(深圳)有限公司 数据成本计算方法、***、计算机设备和存储介质
CN112351088A (zh) * 2020-10-29 2021-02-09 平安科技(深圳)有限公司 一种cdn缓存方法、装置、计算机设备及存储介质
CN112015722A (zh) * 2020-11-02 2020-12-01 浙江大华技术股份有限公司 数据库管理方法、数据血缘分析方法以及相关装置
CN113127450A (zh) * 2021-04-30 2021-07-16 平安普惠企业管理有限公司 数据的维护方法、装置、计算机设备及存储介质
CN113242159A (zh) * 2021-05-24 2021-08-10 中国工商银行股份有限公司 应用访问关系确定方法及装置
CN113360799A (zh) * 2021-06-03 2021-09-07 深圳红途科技有限公司 访问行为日志采集方法、装置、计算机设备及存储介质
CN113434312A (zh) * 2021-06-29 2021-09-24 青岛海尔科技有限公司 数据血缘关系处理方法及装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Informatics and data mining tools and strategies for the human connectome project;Marcus D S 等;《Frontiers in neuroinformatics》;20110627;1-4 *
一个基于Web日志的用户访问数据分析***;燕保珠 等;《计算机与数字工程》;20091106;第37卷(第9期);45-47 *
制造业数据资产管理平台的设计与实现;付成勇;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20191215(第12期);I138-121 *
基于LDA主题模型和ALS协同过滤的节目推荐算法;彭奥翔 等;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20210515(第5期);I138-1691 *
基于数据仓库的数据血缘管理研究;金泳;《轻工科技》;20190415;第35卷(第4期);81-82+93 *

Also Published As

Publication number Publication date
CN114428822A (zh) 2022-05-03

Similar Documents

Publication Publication Date Title
CN114428822B (zh) 一种数据处理的方法、装置、电子设备及存储介质
US11580680B2 (en) Systems and interactive user interfaces for dynamic retrieval, analysis, and triage of data items
US20170364697A1 (en) Data interworking method and data interworking device
US11238383B2 (en) Systems and methods for creating and managing user teams of user accounts
US20170213272A1 (en) Computer resource ranking for interconnected user profiles
US20130185293A1 (en) System for forensic analysis of search terms
US11113317B2 (en) Generating parsing rules for log messages
US11048766B1 (en) Audience-centric event analysis
CN108710654B (zh) 一种舆情数据可视化方法及设备
CN112434015B (zh) 数据存储的方法、装置、电子设备及介质
US20130198240A1 (en) Social Network Analysis
CN107766470B (zh) 一种数据分享的智能统计方法、智能统计显示方法及装置
CN112948397A (zh) 一种数据处理***、方法、装置及存储介质
CN111414410A (zh) 数据处理方法、装置、设备和存储介质
US20150317355A1 (en) Data store query
CN109711849B (zh) 以太坊地址画像生成方法、装置、电子设备及存储介质
Ramaciotti Morales et al. Role of the website structure in the diversity of browsing behaviors
US20140108091A1 (en) Method and System for Attributing Metrics in a CRM System
US20130124484A1 (en) Persistent flow apparatus to transform metrics packages received from wireless devices into a data store suitable for mobile communication network analysis by visualization
CN111639016A (zh) 大数据日志分析方法、装置及计算机存储介质
CN111078783A (zh) 一种基于监管保护的数据治理可视化方法
US10664501B2 (en) Deriving and interpreting users collective data asset use across analytic software systems
US11481513B2 (en) Decentralized storage of personal data
CN112346938B (zh) 操作审计方法、装置及服务器和计算机可读存储介质
CN115544127A (zh) 代码量处理方法和***、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A method, device, electronic device, and storage medium for data processing

Effective date of registration: 20231226

Granted publication date: 20220729

Pledgee: Bank of Communications Ltd. Wuhan East Lake New Technology Development Zone sub branch

Pledgor: Yunqi Intelligent Technology Co.,Ltd.

Registration number: Y2023980074259

PE01 Entry into force of the registration of the contract for pledge of patent right