CN116226108A

CN116226108A - 可实现不同治理程度的数据治理方法及***

Info

Publication number: CN116226108A
Application number: CN202310163498.2A
Authority: CN
Inventors: 刘葵; 刘汉胤
Original assignee: Guangdong Donglian Xinchuang Information Technology Co ltd; Guangzhou University
Current assignee: Guangdong Donglian Xinchuang Information Technology Co ltd; Guangzhou University
Priority date: 2023-02-23
Filing date: 2023-02-23
Publication date: 2023-06-06

Abstract

本发明公开了一种可实现不同治理程度的数据治理方法，包括：接收客户端发送的响应用户触发的数据治理流程对应的数据治理请求；为待治理数据创建数据索引，查询数据索引中与预设的敏感识别规则匹配的数据索引，然后基于匹配成功的数据索引，生成多个敏感数据并获取每一敏感数据的标签属性；根据数据治理请求中的用户标识获取所述用户对应的预先设置的数据治理配置界面，并从包含最多的标签类别属性所对应的数据治理策略分组中找出与标签级别属性中的最高数据级别相匹配的数据治理策略；数据治理策略包括脱敏策略，与数据治理策略对应的标签属性为最优治理标签属性，并根据最优治理标签属性计算得到待治理数据的治理程度系数。

Description

可实现不同治理程度的数据治理方法及***

技术领域

本发明涉及大数据处理技术领域，尤其涉及一种可实现不同治理程度的数据治理方法及***。

背景技术

数据是大数据工程的基础和核心，其完整性、及时性以及质量是一切目标的保障条件。在大数据的支撑下经济和技术的发展走向“智慧化”，通过整合各类数据信息对社会各个生产领域的运行状况进行监测，实现安全生产管理工作的改进和优化。

通过对大数据的数据信息的实时采集、数据存储、数据分析和综合查询，使得各行各业能够高效率的捕捉、发现和分析，能够经济地从类型繁杂、数量庞大的数据中挖掘出有价值的信息，从而为各行各业生产运行综合管理、综合调度、综合协调、综合指挥提供数据支撑。但是因为机构组织、业务***、数据平台的不同，很多数据组织呈现各自为阵、数据不共用、重复数据，信息互不相连、数据分布不均，数据平台的利用情况不平衡；从数据平台硬件角度看，也就是从数据内容透明的角度看，部分数据因为设备容量问题而更新速度过快，造成关键数据提前主动丢失，而有些数据则无条件保留。

如何进行大数据的敏感数据安全识别，并基于数据安全识别得到不同数据的级别，以实现不同治理程度的数据治理，是待解决的技术问题。

发明内容

本发明的目的在于提供一种可实现不同治理程度的数据治理方法及***，其能够有效解决现有技术中所存在的上述技术问题。

为了实现上述目的，本发明的一实施例提供了一种可实现不同治理程度的数据治理方法，包括步骤：

S1、接收客户端发送的响应用户触发的数据治理流程对应的数据治理请求；其中，所述数据治理请求包括用户标识和待治理数据；其中，所述数据治理流程包括数据读取和数据处理；

S2、为所述待治理数据创建数据索引，查询所述数据索引中与预设的敏感识别规则匹配的数据索引，然后基于匹配成功的数据索引，生成多个敏感数据并获取每一所述敏感数据的标签属性；其中，所述标签属性包括标签类别属性和标签级别属性，所述标签类别属性用于表示所述敏感数据的数据类型，所述标签级别属性用于表示所述敏感数据的数据级别；所述数据级别包括敏感程度和重要程度；

S3、根据所述数据治理请求中的用户标识获取所述用户对应的预先设置的数据治理配置界面，并从包含最多的标签类别属性所对应的数据治理策略分组中找出与标签级别属性中的最高数据级别相匹配的数据治理策略；其中，所述数据治理策略包括脱敏策略，与所述数据治理策略对应的标签属性为最优治理标签属性；根据最优治理标签属性并通过以下公式得到所述待治理数据的治理程度系数：

μ＝ω_jρ_j+ω_kσ_k，其中ω_j+ω_k＝1

其中，ρ_j为所述最优治理标签属性的敏感程度对应的分值，ρ_k为所述最优治理标签属性的重要程度对应的分值，ω_j为所述敏感程度的权重，ω_k为所述重要程度的权重，ω_j和ω_k预设取值为0.5；

S4、通过所述客户端显示所述数据治理配置界面，并根据所述数据治理策略在所述数据治理配置界面上选择对应的数据读取组件、数据处理组件并配置不同的参数后进行连线处理以完成数据治理流程配置；其中，所述配置界面上显示所述数据读取组件和数据处理组件；所述数据处理组件包括多个，当所述数据处理组件的前面连线数据读取组件或数据处理组件时所述数据处理组件作为目标节点，当所述数据处理组件的后面连线数据处理组件时所述数据处理组件作为源节点，不同的数据处理组件所需配置的参数不同，且配置的参数均与所述治理程度系数成正比，源节点的输出结果可作为目标节点的输入参数；

S5、通过所述客户端向用户提问是否以当前数据治理流程配置对待治理数据进行治理；

S6、当接收到所述客户端发送的用户同意按照当前数据治理流程配置对待治理的数据进行治理时，按照当前数据治理流程配置对待治理数据进行治理以完成数据治理；

S7、当接收到所述客户端发送的用户请求更新当前数据治理流程配置时，通过所述客户端显示更新界面以允许用户对所述待治理数据的治理程度系数中的敏感程度的权重ω_j和重要程度的权重ω_k进行更改以更新所述治理程度系数，并在接收到所述客户端发送的治理程度系数更新操作完成时，根据更新后的治理程度系数对应更改所述数据处理组件的参数以更新当前数据治理流程配置，并按照更新后的数据治理流程配置对待治理的数据进行治理以完成数据治理；

S8、通过所述客户端显示数据治理完成后的结果。

作为上述方案的改进，所述数据治理流程还包括数据发布，所述配置界面上还显示与所述数据发布对应的数据发布组件；所述可实现不同治理程度的数据治理方法还包括步骤：

S9、接收客户端发送的响应用户触发的数据治理结果发布请求，根据所述数据治理结果发布请求中用户所选择的数据发布组件将所述数据治理结果对应发布。

作为上述方案的改进，在所述步骤S3中，当从包含最多的标签类别属性所对应的数据治理策略分组中找出与标签级别属性中的最高数据级别相匹配的数据治理策略存在多个时，通过所述客户端显示多个所述数据治理策略以供用户进行选择，并以用户选择的一个数据治理策略作为最后的数据治理策略。

作为上述方案的改进，在所述步骤S3中，当从包含最多的标签类别属性所对应的数据治理策略分组中找出与标签级别属性中的最高数据级别相匹配的数据治理策略存在多个时，将所述多个数据治理策略与从包含最多的标签类别属性所对应的数据治理策略分组中的其他数据级别相匹配的数据治理策略进行统计，将出现次数最多的一个数据治理策略作为最后的数据治理策略。

作为上述方案的改进，所述数据治理请求中还包括数据清洗流程信息；所述数据处理组件包括数据清洗组件；所述可实现不同治理程度的数据治理方法还包括步骤：

对所述数据清洗流程文件进行解析，以提取数据清洗流程文件对应的工作流应用模型；

根据所多个工作流应用模型生成对应的数据清洗执行文件；

对待治理数据进行治理过程中，所述数据清洗组件根据所述数据清洗执行文件待治理数据进行清洗。

作为上述方案的改进，所述根据所多个工作流应用模型生成对应的数据清洗执行文件具体包括：

分别获取多个工作流应用模型对应的数据清洗代码；所述数据清洗代码是SQL语句、调用组件的清洗函数；

根据所述数据清洗流程文件中的顺序对所述数据清洗代码排序，形成数据清洗执行文件。

作为上述方案的改进，所述数据处理组件包括冗余数据处理组件；所述冗余数据处理组件包括冗余数据判断单元和冗余数据去除单元，所述冗余数据判断单元用于对待治理数据进行冗余信息判断，并判断冗余信息时通过冗余数据去除单元进行剔除，经所述冗余数据去除单元剔除冗余信息后的数据返回所述冗余数据判断单元继续判断直至判断不存在冗余信息为止。

作为上述方案的改进，所述冗余数据判断单元的执行过程如下：

将待治理数据进行数值化；

将数值化后的数据转化为矩阵，矩阵如下：

其中，A为m×n的多维数据；

对矩阵A进行逆矩阵求解：在特征矩阵右侧放置一个同阶的单位矩阵，形成增广矩阵A_x：

通过矩阵行列变换，判断是否能够转化成矩阵A_y：

若判断是，则判定不存在冗余信息，否则判定存在冗余信息。

作为上述方案的改进，所述数据治理流程还包括数据质量校验，所述配置界面上还显示与所述数据发布对应的数据质量校验组件；所述可实现不同治理程度的数据治理方法在步骤S9前还包括步骤：

接收客户端发送的响应用户触发的数据质量校验请求，首先判断所述数据数据质量校验请求中用户所选择的数据质量校验组件是否与所述最优治理标签属性匹配，若匹配则根据治理程度系数对所述数据数据质量校验请求中用户所选择的数据质量校验组件的参数进行对应调整后再对所述数据治理结果进行质量校验，否则通过所述客户端提示用户重新选择数据质量校验组件，直至所选择的数据质量校验组件与所述最优治理标签属性匹配后再根据治理程度系数对对所选择的数据质量校验组件的参数进行对应调整后以对所述数据治理结果进行质量校验。

本发明实施例对应提供一种可实现不同治理程度的数据治理***，所述可实现不同治理程度的数据治理***包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上任一实施例的可实现不同治理程度的数据治理方法。

与现有技术相比，本发明实施例提供的一种可实现不同治理程度的数据治理方法及***，能够进行大数据的有效治理和有效提供，使得大数据的提供满足用户访问请求的用户体验。实施本发明，为数据治理请求中的待治理数据创建数据索引，查询所述数据索引中与预设的敏感识别规则匹配的数据索引，然后基于匹配成功的数据索引，生成多个敏感数据并获取每一所述敏感数据的标签属性；其中，所述标签属性包括标签类别属性和标签级别属性，所述标签类别属性用于表示所述敏感数据的数据类型，所述标签级别属性用于表示所述敏感数据的数据级别；所述数据级别包括敏感程度和重要程度；然后基于数据治理请求中的用户标识获取所述用户对应的预先设置的数据治理配置界面，并从包含最多的标签类别属性所对应的数据治理策略分组中找出与标签级别属性中的最高数据级别相匹配的数据治理策略；其中，所述数据治理策略包括脱敏策略，与所述数据治理策略对应的标签属性为最优治理标签属性；根据所述最优治理标签属性并通过以下公式得到所述待治理数据的治理程度系数：

μ＝ω_jρ_j+ω_kσ_k，其中ω_j+ω_k＝1

其中，ρ_j为所述最优治理标签属性的敏感程度对应的分值，σ_k为所述最优治理标签属性的重要程度对应的分值，ω_j为所述敏感程度的权重，ω_k为所述重要程度的权重，ω_j和ω_k预设取值为0.5；

然后根据所述数据治理策略在所述数据治理配置界面上选择对应的数据读取组件、数据处理组件并配置不同的参数后进行连线处理以完成数据治理流程配置；然后通过所述客户端向用户提问是否以当前数据治理流程配置对待治理数据进行治理；当接收到所述客户端发送的用户同意按照当前数据治理流程配置对待治理的数据进行治理时，按照当前数据治理流程配置对待治理数据进行治理以完成数据治理；当接收到所述客户端发送的用户请求更新当前数据治理流程配置时，通过所述客户端显示更新界面以允许用户对所述待治理数据的治理程度系数中的敏感程度的权重ω_j和重要程度的权重ω_k进行更改以更新所述治理程度系数，并在接收到所述客户端发送的治理程度系数更新操作完成时，根据更新后的治理程度系数对应更改所述数据处理组件的参数以更新当前数据治理流程配置，并按照更新后的数据治理流程配置对待治理的数据进行治理以完成数据治理。因此，通过实施本发明，增加对待治理数据的安全识别，有效查找到待治理数据中的敏感数据，进而得到敏感数据的敏感级别，从而能够根据不同敏感数据的数据类型和敏感级别，配置不同的数据治理策略进行治理，实现敏感数据的差异化防护，并且能够根据最终选择的数据治理策略及所对应的最优治理标签属性获得对应的治理程度系数，并根据治理程度系数调整不同的数据处理组件配置的参数，从而实现不同治理程度的数据治理。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种可实现不同治理程度的数据治理方法的流程示意图。

图2是本发明实施例提供的一种可实现不同治理程度的数据治理方法的网络架构图。

图3是本发明实施例提供的一种可实现不同治理程度的数据治理***的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参考图1，本发明的一实施例提供了一种可实现不同治理程度的数据治理方法，包括步骤S1～S8：

S1、接收客户端发送的响应用户触发的数据治理流程对应的数据治理请求；其中，所述数据治理请求包括用户标识和待治理数据；

其中，所述数据治理流程包括数据读取和数据处理。

S2、为所述待治理数据创建数据索引，查询所述数据索引中与预设的敏感识别规则匹配的数据索引，然后基于匹配成功的数据索引，生成多个敏感数据并获取每一所述敏感数据的标签属性；

其中，所述标签属性包括标签类别属性和标签级别属性，所述标签类别属性用于表示所述敏感数据的数据类型，所述标签级别属性用于表示所述敏感数据的数据级别。所述数据级别包括敏感程度和重要程度。

在该步骤中，通过预置的敏感识别规则库，敏感识别规则库包括敏感数据的标签属性和敏感识别规则。敏感识别规则主要从数据类型入手，为不同的数据设置不同的检测规则，如为电子邮件(e-mail)检测设置正则表达式，为中文检测设置敏感词，基于规范的数据字典配置列名规则。敏感数据的标签属性即参照分类分级相关规范以及敏感数据识别需求，配置敏感数据的标签类别属性与标签级别属性，即该标签匹配的数据应属于何种类别、级别(包括敏感程度和重要程度)，作为标记敏感数据的依据。

其中，敏感数据识别通过索引技术，如全文搜索引擎(Lucene)实现敏感数据识别，并为索引增加属性，提高敏感数据识别效率和准确率，主要包括创建索引、查询索引以及标记敏感数据。其中，基于Lucene框架为敏感识别的源数据创建数据索引，包括为每一个数据创建文档对象(Document)并添加属性，包括但不限于位置属性(如数据库中数据所在的库、表、列等)、内容属性(即当前数据值)以及数量属性(如数据库的某列包含的数据量)；分析文档，将词汇分为一个个可理解的单词；对所有文档分析得出的语汇单元进行索引，最终实现只搜索被索引的语汇单元即可找到对应的Document以及相关的属性。

基于索引进行敏感识别规则匹配，即依据敏感识别规则库的具体规则查询是否有索引内容命中。基于Lucene框架可以使用查询(Query)抽象类定义查询对象，支持条件之间且、或以及非的关联查询。Lucene搜索结果可通过顶级文档(TopDocs)遍历，对敏感数据识别结果可以设置一个匹配度阈值，匹配的数量/当前数据的数量属性超过阈值即为匹配成功，可将信息标记为敏感信息。

标记敏感数据根据与识别规则成功匹配的索引获取数据的相关属性，并依据敏感标签属性标记敏感数据的级别类别，同时将标记信息保存到敏感数据库。若同一数据存在多次成功匹配，则依据敏感标签属性的级别进行比较，当后一次匹配的标签级别高于已存结果的标签级别时，更新标记信息。通过敏感数据识别规则对源数据中的敏感数据进行识别，获取到1，2……n组(个)敏感数据，并且获取到敏感数据内容和敏感数据位置，并且根据每组敏感数据的数据类别和敏感级别为每组敏感数据设置敏感标签，可例如，每组敏感数据包含的敏感标签有两个，分别为第一个敏感标签a_ir和第二个敏感标签b_jk。其中，i表示数据类别，i＝1，2，……p等，r表示数据级别，r＝1，2，……t，j表示数据级别中的敏感程度，j＝1，2，……q，k表示数据级别中的重要程度，k＝1，2，……g，其中，p、t、q和g均为大于1的自然数，具体数值可提前预置。可以理解的，在实际应用时，数据级别r根据敏感程度j、重要程度k并按照预设的公式计算得到，即数据级别r与敏感程度j、重要程度k呈一定的比例关系。可以理解的，敏感程度j、重要程度k越大，数据级别r越大。

S3、根据所述数据治理请求中的用户标识获取所述用户对应的预先设置的数据治理配置界面，并从包含最多的标签类别属性所对应的数据治理策略分组中找出与标签级别属性中的最高数据级别相匹配的数据治理策略；

其中，所述数据治理策略包括脱敏策略，与所述数据治理策略对应的标签属性为最优治理标签属性；根据所述最优治理标签属性并通过以下公式得到所述待治理数据的治理程度系数：

μ＝ω_jρ_j+ω_kσ_k，其中ω_j+ω_k＝1

具体的，例如，通过步骤S2生成8组(n＝8)敏感数据，每一组敏感数据的标签属性(括号里为对应的第二个敏感标签)分别为：a₁₂(b₁₂)，a₂₃(b₃₂)，a₂₄(b₃₄)，a₃₁(b₁₁)，a₂₅(b₄₅)，a₃₂(b₂₂)，a₁₃(b₂₃)，a₂₁(b₁₁)。其中，标签类别属性为1出现的次数是2，标签类别属性为2出现的次数是4，标签类别属性为3出现的次数是2，因此，包含最多的标签类别属性是2。因此需要从数据类别2所对应的数据治理策略分组中寻找对应的数据治理策略。进一步的，标签类别属性是2的4组数据分别为a₂₃(b₃₂)，a₂₄(b₃₄)，a₂₅(b₄₅)，a₂₁(b₁₁)，数据级别分别对应为3、4、5和1，最高数据级别为5，因此需要从数据类别2所对应的数据治理策略分组中寻找敏感级别5相匹配的数据治理策略。相应的，标签属性a₂₅(b₄₅)为最优治理标签属性。

然后，根据最优治理标签属性a₂₅(b₄₅)计算所述待治理数据的治理程度系数。可以理解的，敏感数据的标签属性中的敏感程度和重要程度分别对应一个分值(预先设置)，例如，根据最优治理标签属性a₂₅(b₄₅)，敏感程度为4，对用的分值为ρ₄，重要程度为5，对应的分值为σ₅，那么根据最优治理标签属性a₂₅(b₄₅)计算所述待治理数据的治理程度系数为：μ＝0.5ρ₄+0.5σ₅。

S4、通过所述客户端显示所述数据治理配置界面，并根据所述数据治理策略在所述数据治理配置界面上选择对应的数据读取组件、数据处理组件并配置不同的参数后进行连线处理以完成数据治理流程配置；

其中，所述配置界面上显示所述数据读取组件和数据处理组件；所述数据处理组件包括多个，当所述数据处理组件的前面连线数据读取组件或数据处理组件时所述数据处理组件作为目标节点，当所述数据处理组件的后面连线数据处理组件时所述数据处理组件作为源节点，不同的数据处理组件所需配置的参数不同，且配置的参数均与所述治理程度系数成正比，源节点的输出结果可作为目标节点的输入参数；

在该步骤中，允许用户对所述待治理数据的治理程度系数中的敏感程度的权重ω_j和重要程度的权重ω_k进行更改以更新所述治理程度系数，从而实现不同程度的数据治理。可以理解的，由于限制ω_j+ω_k＝1，当用户对其中一个参数(例如敏感程度的权重ω_j)进行更改时，更改的范围满足0<ω_j<1，重要程度的权重ω_k会根据更改后的敏感程度的权重ω_j的值自动更新。

S8、通过所述客户端显示数据治理完成后的结果。

结合图2，图2是实现本发明实施例提供的一种可实现不同治理程度的数据治理方法的网络架构图，该网络架构包括服务端101和客户端102，其中服务端101与客户端102通信连接。其中，服务端101可以是服务器，客户端102可以是计算机、智能终端等。用户在客户端102触发数据治理请求，以完成数据治理的整个流程。

其中，所述待治理数据通过数据源配置得到。数据源，即数据的来源，是提供某种所需要数据的器件或原始媒体，通过提供正确的数据源名称，可以找到相应的数据库连接。通过数据源配置来源数据库和目标数据库，来源数据库的表用于读取数据，目标数据库的表用于写数据。

可以理解的，通过来源数据库得到的数据为原始数据，可以通过对原始数据进行元数据采集获取到字段信息，所述字段可用于数据处理组件的参数，贯穿整个数据治理流程。即，所述待治理数据可包括元数据。另外，数据读取针对不同类型的数据源提供多种读取组件，支持关系型数据库、Hdfs、ES、Kafka、Hbase、Ftp读取、流读取等，不同数据读取组件需要配置的参数不同。

可见，本发明实施例提供的一种可实现不同治理程度的数据治理方法，能够进行大数据的有效治理和有效提供，使得大数据的提供满足用户访问请求的用户体验。实施本发明，为数据治理请求中的待治理数据创建数据索引，查询所述数据索引中与预设的敏感识别规则匹配的数据索引，然后基于匹配成功的数据索引，生成多个敏感数据并获取每一所述敏感数据的标签属性；其中，所述标签属性包括标签类别属性和标签级别属性，所述标签类别属性用于表示所述敏感数据的数据类型，所述标签级别属性用于表示所述敏感数据的数据级别；所述数据级别包括敏感程度和重要程度；然后基于数据治理请求中的用户标识获取所述用户对应的预先设置的数据治理配置界面，并从包含最多的标签类别属性所对应的数据治理策略分组中找出与标签级别属性中的最高数据级别相匹配的数据治理策略；其中，所述数据治理策略包括脱敏策略，与所述数据治理策略对应的标签属性为最优治理标签属性；根据所述最优治理标签属性并通过以下公式得到所述待治理数据的治理程度系数：

μ＝ω_jρ_j+ω_kσ_k，其中ω_j+ω_k＝1

其中，ρ_j为所述最优治理标签属性的敏感程度对应的分值，σ_k为所述最优治理标签属性的重要程度对应的分值，ω_j为所述敏感程度的权重，ω_k为所述重要程度的权重，ω_j和ω_k预设取值为0.5；然后根据所述数据治理策略在所述数据治理配置界面上选择对应的数据读取组件、数据处理组件并进行连线处理以完成数据治理流程配置；然后通过所述客户端向用户提问是否以当前数据治理流程配置对待治理数据进行治理；当接收到所述客户端发送的用户请求更新当前数据治理流程配置时，通过所述客户端显示更新界面以允许用户对所述待治理数据的治理程度系数中的敏感程度的权重ω_j和重要程度的权重ω_k进行更改以更新所述治理程度系数，并在接收到所述客户端发送的治理程度系数更新操作完成时，根据更新后的治理程度系数对应更改所述数据处理组件的参数以更新当前数据治理流程配置，并按照更新后的数据治理流程配置对待治理的数据进行治理以完成数据治理。因此，通过实施本发明，增加对待治理数据的安全识别，有效查找到待治理数据中的敏感数据，进而得到敏感数据的敏感级别，从而能够根据不同敏感数据的数据类型和敏感级别，配置不同的数据治理策略进行治理，实现敏感数据的差异化防护，并且能够根据最终选择的数据治理策略及所对应的最优治理标签属性获得对应的治理程度系数，并根据治理程度系数调整不同的数据处理组件配置的参数，从而实现不同治理程度的数据治理。

进一步，在本实施例中，所述数据治理流程还包括数据发布，所述配置界面上还显示与所述数据发布对应的数据发布组件；所述可实现不同治理程度的数据治理方法还包括步骤：

可以理解的，数据处理完成后分发写入数据库，数据分发针对不同类型的数据源提供多种分发组件，支持关系型数据库、Hdfs、ES、Kafka、Hbase、Ftp写数据和Hive等，不同数据分发组件需要配置的参数不同。

进一步的，所述数据治理流程还包括数据质量校验，所述配置界面上还显示与所述数据发布对应的数据质量校验组件；所述可实现不同治理程度的数据治理方法在步骤S9前还包括步骤：

接收客户端发送的响应用户触发的数据质量校验请求，首先判断所述数据数据质量校验请求中用户所选择的数据质量校验组件是否与所述最优治理标签属性匹配，若匹配则根据所述治理程度系数对数据数据质量校验请求中用户所选择的数据质量校验组件的参数进行对应调整后再对所述数据治理结果进行质量校验，否则通过所述客户端提示用户重新选择数据质量校验组件，直至所选择的数据质量校验组件与所述最优治理标签属性匹配后再根据治理程度系数对对所选择的数据质量校验组件的参数进行对应调整后以对所述数据治理结果进行质量校验。

可以理解的，数据分发完成写入数据库前，数据治理结果需要根据质量规则进行检验，看数据是否规范化；数据质量校验组件支持类型包括身份证格式校验、电话号码格式校验、更新及时性、记录完整性、数据唯一性、属性完整性、主键唯一性以及值域有效性等。

另外，可通过预先设置数据质量校验组件可适用的标签属性，从而利于判断所述数据数据质量校验请求中用户所选择的数据质量校验组件是否与所述最优治理标签属性匹配。

作为上述方案的一种改进，在所述步骤S3中，当从包含最多的标签类别属性所对应的数据治理策略分组中找出与标签级别属性中的最高数据级别相匹配的数据治理策略存在多个时，通过所述客户端显示多个所述数据治理策略以供用户进行选择，并以用户选择的一个数据治理策略作为最后的数据治理策略。作为上述方案的另一种改进，所述数据治理请求中还包括待治理数据的标签；在所述步骤S3中，当从包含最多的标签类别属性所对应的数据治理策略分组中找出与标签级别属性中的最高数据级别相匹配的数据治理策略存在多个时，将所述多个数据治理策略与从包含最多的标签类别属性所对应的数据治理策略分组中的其他数据级别相匹配的数据治理策略进行统计，将出现次数最多的一个数据治理策略作为最后的数据治理策略。

例如，当从包含最多的标签类别属性所对应的数据治理策略分组中找出与标签级别属性中的最高数据级别相匹配的数据治理策略存在多个时，即对应最优治理标签属性a₂₅的数据治理策略存在多个时，例如，包括数据治理策略a，数据治理策略e和数据治理策略f。这个时候，统计该标签类别属性下的其他数据级别(包括a₂₃，a₂₄，a₂₁)的数据治理策略，例如对应a₂₃的数据治理策略包括数据治理策略b和数据治理策略e；对应a₂₄的数据治理策略包括数据治理策略c和数据治理策略d；对应a₂₁的数据治理策略包括数据治理策略e和数据治理策略g；显然，数据治理策略e出现次数最多，则将数据治理策略e作为最后的数据治理策略。

进一步的，在本实施例中，所述数据治理请求中还包括数据清洗流程信息；所述数据处理组件包括数据清洗组件；所述可实现不同治理程度的数据治理方法还包括步骤：

根据所多个工作流应用模型生成对应的数据清洗执行文件；

可见，本实施例根据用户发送的数据清洗流程文件确定进行执行具体清洗任务的工作流应用模型，从而使执行引擎能够按照用户为每项具体的数据清洗任务专门设定的工作流应用模型对待治理数据进行清洗。另外用户可以在数据清洗流程文件中自由组合各个功能不同的工作流应用模型，使得本发明实施例的数据清洗流程具有较高的灵活性和可扩展性；同时，由于各个工作流应用模型可以重复使用，从而提高了数据清洗的可重用性。

进一步的，在本实施例中，所述数据处理组件包括冗余数据处理组件；所述冗余数据处理组件包括冗余数据判断单元和冗余数据去除单元，所述冗余数据判断单元用于对待治理数据进行冗余信息判断，并判断冗余信息时通过冗余数据去除单元进行剔除，经所述冗余数据去除单元剔除冗余信息后的数据返回所述冗余数据判断单元继续判断直至判断不存在冗余信息为止。

具体的，所述冗余数据判断单元的执行过程如下：

(1)将待治理数据进行数值化；

(2)将数值化后的数据转化为矩阵，矩阵如下：

其中，A为m×n的多维数据；

(3)对矩阵A进行逆矩阵求解：在特征矩阵A右侧放置一个同阶的单位矩阵，形成增广矩阵A_x：

(4)通过矩阵行列变换，判断是否能够转化成矩阵A_y：

(5)若判断是，则判定不存在冗余信息，否则判定存在冗余信息。

具体的，假设特征矩阵A中第x行与第y行存在冗余数据a_xj和a_yj，j＝1,2,…n。由于存在冗余数据，即数据不存在信息，a_xj和a_yj中有一个数据无价值，即a_xj或a_yj元素可为0。A的增广矩阵A_x中始终无法把原特征矩阵变换为单位矩阵，因此无法转化得到A_y，从而可检测特征数据矩阵是否存在冗余数据。根据A_y存在与否，来判断A是否存在冗余数据：如果A_y存在，则矩阵A不存在冗余数据，即不需要对待治理数据进行冗余数据处理；如果A_y不存在，则矩阵A存在冗余数据，即需要对待治理数据进行冗余数据处理。

可见，本实施例通过把需要判别是否存在冗余信息的待治理数据转化为矩阵形式，只需确定所转化的矩阵是否存在逆矩阵，就可给出该待治理数据中是否存在冗余信息的结论，只有存在冗余信息才执行冗余信息剔除操作，操作简单明了，能够有效精简处理流程，从而提高数据治理效率。

可以理解的，在本实施例中，所述数据处理组件还可以包括基础处理组件、提取组件、关联组件、比对组件和标识组件等。其中，基础处理组件支持选择字段、数据分流、聚合操作、union操作以及排序topN。提取组件包括中文字符提取、手机号提取、车牌号提取、身份证号提取以及图片提取等。关联组件包括左关联及关联；比对组件包括交集、并集和差集。标识组件包括偏好打标、属性打标、直接打标以及属性映射打标等。

如图3所示，本发明实施例对应提供一种可实现不同治理程度的数据治理***，所述可实现不同治理程度的数据治理***包括处理器61、存储器62以及存储在所述存储器62中且被配置为由所述处理器61执行的计算机程序，所述处理器61执行所述计算机程序时实现如上任一实施方式所述的可实现不同治理程度的数据治理方法。

需要说明的是，图3仅以该设备中的一个存储器和一个处理器相连接为例进行示意，在一些具体的实施方式中，该设备中还可以包括多个存储器和/或多个处理器，其具体的数目及连接方式可根据实际情况需要进行设置和适应性调整。

本发明还提供了一种计算机可读存储介质，具体包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上任一实施方式所述的可实现不同治理程度的数据治理方法。

需要说明的是，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要进一步说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上所揭露的仅为本发明一些较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种可实现不同治理程度的数据治理方法，其特征在于，包括步骤：

S3、根据所述数据治理请求中的用户标识获取所述用户对应的预先设置的数据治理配置界面，并从包含最多的标签类别属性所对应的数据治理策略分组中找出与标签级别属性中的最高数据级别相匹配的数据治理策略；其中，所述数据治理策略包括脱敏策略，与所述数据治理策略对应的标签属性为最优治理标签属性；根据所述最优治理标签属性并通过以下公式得到所述待治理数据的治理程度系数：

μ＝ω_jρ_j+ω_kσ_k，其中ω_j+ω_k＝1

S8、通过所述客户端显示数据治理完成后的结果。

2.根据权利要求1所述的可实现不同治理程度的数据治理方法，其特征在于，所述数据治理流程还包括数据发布，所述配置界面上还显示与所述数据发布对应的数据发布组件；所述可实现不同治理程度的数据治理方法还包括步骤：

3.根据权利要求2所述的可实现不同治理程度的数据治理方法，其特征在于，在所述步骤S3中，当从包含最多的标签类别属性所对应的数据治理策略分组中找出与标签级别属性中的最高数据级别相匹配的数据治理策略存在多个时，通过所述客户端显示多个所述数据治理策略以供用户进行选择，并以用户选择的一个数据治理策略作为最后的数据治理策略。

4.根据权利要求2所述的可实现不同治理程度的数据治理方法，其特征在于，在所述步骤S3中，当从包含最多的标签类别属性所对应的数据治理策略分组中找出与标签级别属性中的最高数据级别相匹配的数据治理策略存在多个时，将所述多个数据治理策略与从包含最多的标签类别属性所对应的数据治理策略分组中的其他数据级别相匹配的数据治理策略进行统计，将出现次数最多的一个数据治理策略作为最后的数据治理策略。

5.根据权利要求1所述的可实现不同治理程度的数据治理方法，其特征在于，所述数据治理请求中还包括数据清洗流程信息；所述数据处理组件包括数据清洗组件；所述可实现不同治理程度的数据治理方法还包括步骤：

根据所多个工作流应用模型生成对应的数据清洗执行文件；

6.根据权利要求5所述的可实现不同治理程度的数据治理方法，其特征在于，所述根据所多个工作流应用模型生成对应的数据清洗执行文件具体包括：分别获取多个工作流应用模型对应的数据清洗代码；所述数据清洗代码是SQL语句、调用组件的清洗函数；

7.根据权利要求1所述的可实现不同治理程度的数据治理方法，其特征在于，所述数据处理组件包括冗余数据处理组件；所述冗余数据处理组件包括冗余数据判断单元和冗余数据去除单元，所述冗余数据判断单元用于对待治理数据进行冗余信息判断，并判断冗余信息时通过冗余数据去除单元进行剔除，经所述冗余数据去除单元剔除冗余信息后的数据返回所述冗余数据判断单元继续判断直至判断不存在冗余信息为止。

8.根据权利要求7所述的可实现不同治理程度的数据治理方法，其特征在于，所述冗余数据判断单元的执行过程如下：

将待治理数据进行数值化；

将数值化后的数据转化为矩阵，矩阵如下：

其中，A为m×n的多维数据；

通过矩阵行列变换，判断是否能够转化成矩阵A_y：

9.根据权利要求2所述的可实现不同治理程度的数据治理方法，其特征在于，所述数据治理流程还包括数据质量校验，所述配置界面上还显示与所述数据发布对应的数据质量校验组件；所述可实现不同治理程度的数据治理方法在步骤S9前还包括步骤：

10.一种可实现不同治理程度的数据治理***，其特征在于，所述可实现不同治理程度的数据治理***包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1～9中任意一项的可实现不同治理程度的数据治理方法。