CN116414815A

CN116414815A - 数据质量检测方法、装置、计算机设备和存储介质

Info

Publication number: CN116414815A
Application number: CN202310240043.6A
Authority: CN
Inventors: 陈新辉; 刘映楷; 帅翡芍; 黄泽彬
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2023-03-06
Filing date: 2023-03-06
Publication date: 2023-07-11

Abstract

本申请涉及一种数据质量检测方法、装置、计算机设备和存储介质，涉及大数据技术领域。所述方法包括：从获取到的待检测数据表中确定出待检测字段；将所述待检测字段输入至预先训练的字段分类模型，得到所述待检测字段的候选质量检测模型，以及所述候选质量检测模型与所述待检测字段之间的匹配度；根据所述匹配度，从所述候选质量检测模型中确定出目标质量检测模型；将所述待检测字段输入至所述目标质量检测模型，得到所述待检测数据表的质量检测结果。采用本方法能够提高数据质量检测的效率。

Description

数据质量检测方法、装置、计算机设备和存储介质

技术领域

本申请涉及大数据技术领域，特别是涉及一种数据质量检测方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着大数据技术的发展，数据赋能金融业务逐渐成为趋势，在应用于金融业务的大数据中，可能会存在缺失、乱码等问题，对大数据进行数据质量检测，能够及时发现数据中存在的问题，针对数据中存在的问题进行数据治理，可以保证数据质量，提高大数据分析的可靠性以及大数据处理的准确性，保证金融业务的正常运营。

目前的数据质量检测通常依赖人工处理，效率较低，经常在数据使用后才发现数据中存在的问题，难以及时对数据进行治理，而且还存在后续数据维护周期长、人工复查流程繁琐等问题。

因此，目前的数据质量检测技术存在效率较低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种高效的数据质量检测方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种数据质量检测方法。所述方法包括：

从获取到的待检测数据表中确定出待检测字段；

将所述待检测字段输入至预先训练的字段分类模型，得到所述待检测字段的候选质量检测模型，以及所述候选质量检测模型与所述待检测字段之间的匹配度；

根据所述匹配度，从所述候选质量检测模型中确定出目标质量检测模型；

将所述待检测字段输入至所述目标质量检测模型，得到所述待检测数据表的质量检测结果。

在其中一个实施例中，在从获取到的待检测数据表中确定出待检测字段之前，还包括：

从获取到的样本数据表中确定出训练样本字段和测试样本字段；

通过所述训练样本字段对待训练的候选字段分类模型进行训练，得到预先训练的候选字段分类模型；

根据所述测试样本字段，确定所述预先训练的候选字段分类模型的分类准确率；

在所述分类准确率超过预设阈值的情况下，将所述预先训练的候选字段分类模型，确定为所述预先训练的字段分类模型。

在其中一个实施例中，所述从获取到的样本数据表中确定出训练样本字段和测试样本字段，包括：

确定所述样本数据表中的数据表字段；

从所述数据表字段中确定出所述训练样本字段，并将所述训练样本字段以外的数据表字段，确定为所述测试样本字段。

在其中一个实施例中，所述通过所述训练样本字段对待训练的候选字段分类模型进行训练，得到预先训练的候选字段分类模型，包括：

获取所述训练样本字段所对应的样本标签；

对所述待训练的候选字段分类模型进行网格搜索处理，得到网格搜索后的候选字段分类模型；所述网格搜索后的候选字段分类模型针对所述训练样本字段进行分类得到的候选质量检测模型与所述样本标签相匹配；

对所述网格搜索后的候选字段分类模型进行交叉验证处理，得到所述预先训练的候选字段分类模型。

在其中一个实施例中，所述根据所述测试样本字段，确定所述预先训练的候选字段分类模型的分类准确率，包括：

确定所述测试样本字段所对应的样本标签的标签数量；

将所述测试样本字段输入至所述预先训练的候选字段分类模型，得到所述测试样本字段的候选质量检测模型，并确定所述测试样本字段的候选质量检测模型的模型数量；

将所述模型数量与所述标签数量之比，确定为所述分类准确率。

在其中一个实施例中，所述质量检测结果包括数据波动检查结果和数据量检查结果；在将所述待检测字段输入至所述目标质量检测模型，得到所述待检测数据表的质量检测结果之后，还包括：

响应于针对所述数据波动检查结果的选中操作，确定所述数据波动检查结果中的目标区域；

在所述目标区域的数据量检查结果在预设范围以外的情况下，生成告警信号。

在其中一个实施例中，所述质量检测结果包括空值检查结果；在将所述待检测字段输入至所述目标质量检测模型，得到所述待检测数据表的质量检测结果之后，还包括：

根据所述空值检查结果，确定所述待检测数据表的字段缺失区域；

从所述字段缺失区域中确定目标区域，并统计所述字段缺失区域的数量；

对所述目标区域，以及所述字段缺失区域的数量进行展示。

第二方面，本申请还提供了一种数据质量检测装置。所述装置包括：

字段确定模块，用于从获取到的待检测数据表中确定出待检测字段；

字段识别模块，用于将所述待检测字段输入至预先训练的字段分类模型，得到所述待检测字段的候选质量检测模型，以及所述候选质量检测模型与所述待检测字段之间的匹配度；

模型确定模块，用于根据所述匹配度，从所述候选质量检测模型中确定出目标质量检测模型；

质量检测模块，用于将所述待检测字段输入至所述目标质量检测模型，得到所述待检测数据表的质量检测结果。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

从获取到的待检测数据表中确定出待检测字段；

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

从获取到的待检测数据表中确定出待检测字段；

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

从获取到的待检测数据表中确定出待检测字段；

上述数据质量检测方法、装置、计算机设备、存储介质和计算机程序产品，通过从获取到的待检测数据表中确定出待检测字段，将待检测字段输入至预先训练的字段分类模型，得到待检测字段的候选质量检测模型，以及候选质量检测模型与待检测字段之间的匹配度，根据匹配度，从候选质量检测模型中确定出目标质量检测模型，将待检测字段输入至目标质量检测模型，得到待检测数据表的质量检测结果；可以在确定出候选质量检测模型的同时，确定出各候选质量检测模型的匹配度，进而从候选质量检测模型中确定出与待检测数据表中的待检测字段匹配度较高的目标质量检测模型，使用目标质量检测模型对待检测数据表进行数据质量检测，避免了人工干预，提高了数据质量检测的效率。

附图说明

图1为一个实施例中数据质量检测方法的流程示意图；

图2为一个实施例中字段分类模型的训练过程的流程示意图；

图3为另一个实施例中数据质量检测方法的流程示意图；

图4为一个实施例中标准化SQL检查方法集的示意图；

图5为一个实施例中SVM多分类模型的训练方法的流程示意图；

图6为另一个实施例中数据质量检测方法的流程示意图；

图7为一个实施例中数据质量检测装置的结构框图；

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种数据质量检测方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的***，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

步骤S110，从获取到的待检测数据表中确定出待检测字段。

其中，待检测数据表可以为需要进行数据质量检测的表单。

其中，待检测字段可以为待检测数据表中的字段。

具体实现中，可以向终端输入待检测数据表，终端对待检测数据表进行识别或者分词处理，得到待检测数据表中的至少一个待检测字段。

实际应用中，终端可以通过神经网络、机器学习等方法对待检测数据表中的文本内容进行识别，得到一个或者多个待检测字段，或者对待检测数据表中的文本内容进行分词处理，得到一个或者多个待检测字段。

步骤S120，将待检测字段输入至预先训练的字段分类模型，得到待检测字段的候选质量检测模型，以及候选质量检测模型与待检测字段之间的匹配度。

其中，字段分类模型可以为对待检测字段进行分类，得到待检测字段对应的候选质量检测模型的分类模型，具体可以为SVM(Support Vector Machine，支持向量机)模型。其中，SVM模型是机器学习领域中的一个有监督的学习模型，通常用来进行模式识别、分类和回归分析。

其中，候选质量检测模型可以为候选的检查方法。其中，检查方法包括但不限于是数据量检查、数据类型检查、数据编码检查、数据重复检查、空值检查和波动检查。

其中，匹配度可以为候选质量检测模型与待检测字段之间相匹配的程度。

具体实现中，可以将每一个待检测字段分别输入至预先训练的字段分类模型，预先训练的字段分类模型对该待检测字段进行分类，得到相应的至少一个候选质量检测模型，预先训练的字段分类模型还可以确定每一个候选质量检测模型与待检测字段之间的匹配度。

实际应用中，可以预先训练SVM模型，通过将待检测字段输入至训练好的SVM模型，对待检测字段进行分类，每一类对应一个检查方法集，检查方法集中包含对该待检测字段进行数据质量检测的所有候选检查方法，每个候选检查方法为一个候选质量检测模型。例如，当待检测字段中包含“金额”或者“Amount”时，训练好的SVM模型可以通过对待检测字段进行分类，得到待检测字段对应的一个检查方法集：{数据量检查，数据类型检查}，数据量检查和数据类型检查为候选检查方法，其中，数据量检查可以是统计待检测字段中数据的数量，数据类型检查可以是确定待检测字段中数据的类型。

进一步地，训练好的SVM模型还可以确定检查方法集中的每一个候选检查方法与该待检测字段之间的匹配度，例如，当待检测字段中包含“金额占比”时，由于该字段不是对具体金额数值的描述，不适合数值检查，则SVM模型可以确定出数据量检查与待检测字段之间的匹配度为10％，数据类型检查与待检测字段之间的匹配度为20％，匹配度相对较低；当待检测字段中包含“金额”以及具体数据时，SVM模型可以确定出数据量检查与待检测字段之间的匹配度为80％，数据类型检查与待检测字段之间的匹配度为90％，匹配度相对较高。

需要说明的是，还可以通过将待检测字段输入至预先训练的字段分类模型，得到待检测字段的候选质量检测模型，以及与候选质量检测模型相对应的匹配度模型，其中，匹配度模型可以为预先设置的匹配度计算公式，通过匹配度模型，计算得到候选质量检测模型与待检测字段之间的匹配度。

步骤S130，根据匹配度，从候选质量检测模型中确定出目标质量检测模型。

其中，目标质量检测模型可以为对待检测字段进行数据质量检测的检查方法。

具体实现中，针对每一个待检测字段对应的至少一个候选质量检测模型，可以通过将各候选质量检测模型对应的匹配度与预设阈值进行比较，将匹配度超过预设阈值的候选质量检测模型确定为目标质量检测模型。

例如，候选检查方法包括数据量检查和数据类型检查，其中，数据量检查与待检测字段之间的匹配度为10％，数据类型检查与待检测字段之间的匹配度为90％，设置匹配度阈值50％，数据类型检查的匹配度超过匹配度阈值，则对待检测字段进行数据质量检测的检查方法为数据类型检查，即目标质量检测模型为数据类型检查。

步骤S140，将待检测字段输入至目标质量检测模型，得到待检测数据表的质量检测结果。

具体实现中，在确定出待检测数据表中每一个待检测字段所对应的目标质量检测模型后，可以将各待检测字段分别输入至相应的目标质量检测模型，通过目标质量检测模型对待检测字段进行检测，得到待检测字段的质量检测结果，将所有待检测字段的质量检测结果进行汇总，得到待检测数据表的质量检测结果。

例如，待检测数据表中包含待检测字段1和待检测字段2，在确定出待检测字段1对应的检查方法集为{数据类型检查}，待检测字段2对应的检查方法集为{数据编码检查，数据重复检查}之后，将对待检测字段1进行数据类型检查，对待检测字段2进行数据编码检查和数据重复检查的结果进行汇总，得到待检测数据表的质量检测结果。

上述数据质量检测方法，通过从获取到的待检测数据表中确定出待检测字段，将待检测字段输入至预先训练的字段分类模型，得到待检测字段的候选质量检测模型，以及候选质量检测模型与待检测字段之间的匹配度，根据匹配度，从候选质量检测模型中确定出目标质量检测模型，将待检测字段输入至目标质量检测模型，得到待检测数据表的质量检测结果；可以在确定出候选质量检测模型的同时，确定出各候选质量检测模型的匹配度，进而从候选质量检测模型中确定出与待检测数据表中的待检测字段匹配度较高的目标质量检测模型，使用目标质量检测模型对待检测数据表进行数据质量检测，避免了人工干预，提高了数据质量检测的效率。

在一个实施例中，如图2所示，提供了一个字段分类模型的训练过程，在上述步骤S110之前，具体还可以包括：

步骤S102，从获取到的样本数据表中确定出训练样本字段和测试样本字段；

步骤S104，通过训练样本字段对待训练的候选字段分类模型进行训练，得到预先训练的候选字段分类模型；

步骤S106，根据测试样本字段，确定预先训练的候选字段分类模型的分类准确率；

步骤S108，在分类准确率超过预设阈值的情况下，将预先训练的候选字段分类模型，确定为预先训练的字段分类模型。

其中，样本数据表可以为表单样本，例如，随机生成或者实际应用中采集到的多个表单。

其中，训练样本字段可以为样本数据表中用于进行模型训练的字段。

其中，测试样本字段可以为样本数据表中用于对训练号的模型进行测试的字段。

其中，候选字段分类模型可以为候选的字段分类模型。

具体实现中，终端可以获取到至少一个样本数据表，针对各样本数据表，确定出其中的至少一个样本字段，将各样本字段分别确定为训练样本字段或者测试样本字段，终端还可以获取到各样本字段对应的样本标签，样本标签可以为人工标定的该样本字段的检查方法集，将训练样本字段对应的样本标签确定为训练样本标签，将测试样本字段对应的样本标签确定为测试样本标签，将训练样本字段输入至待训练的候选字段分类模型，得到训练样本字段的分类结果，训练样本字段的分类结果可以是待训练的候选字段分类模型识别到的训练样本字段对应的检查方法集，根据训练样本标签与训练样本字段的分类结果之间的差异，对待训练的候选字段分类模型进行训练，得到预先训练的候选字段分类模型。

将测试样本字段输入至预先训练的候选字段分类模型，得到测试样本字段的分类结果，测试样本字段的分类结果可以是预先训练的候选字段分类模型识别到的测试样本字段对应的检查方法集，根据测试样本标签和测试样本字段的分类结果，确定预先训练的候选字段分类模型的分类准确率，将分类准确率与预设阈值进行比较，若分类准确率超过预设阈值，则将预先训练的候选字段分类模型确定为预先训练的字段分类模型，否则，若分类准确率未超过预设阈值，则不将预先训练的候选字段分类模型确定为预先训练的字段分类模型，并返回步骤S102，重新确定预先训练的字段分类模型。

例如，可以从多个数据表中采集字段作为样本字段，根据样本字段的数据类型、中文名称、英文名称、数据结构，为样本字段添加检查方法集，将该检查方法集作为样本字段的样本标签。将所有样本字段随机分为训练样本集和测试样本集，基于训练样本集训练SVM模型，在模型训练过程中，可以采用网格搜索方法对SVM模型进行参数寻优，得到网格搜索后的SVM模型，还可以采用k折交叉验证对参数寻优后的SVM模型进行验证，得到验证后的SVM模型，将测试样本集中的各测试样本输入验证后的SVM模型，根据SVM模型的分类结果确定SVM模型的分类准确率，在准确率超过预设阈值的情况下，将验证后的SVM模型确定为预先训练的字段分类模型。

本实施例中，通过从获取到的样本数据表中确定出训练样本字段和测试样本字段，通过训练样本字段对待训练的候选字段分类模型进行训练，得到预先训练的候选字段分类模型，根据测试样本字段，确定预先训练的候选字段分类模型的分类准确率，在分类准确率超过预设阈值的情况下，将预先训练的候选字段分类模型，确定为预先训练的字段分类模型，可以通过模型训练得到候选字段分类模型，并根据分类准确率筛选出预先训练的字段分类模型，通过预先训练的字段分类模型进行数据质量检测，可以提高数据质量检测的效率。

在一个实施例中，上述步骤S102，可以具体包括：确定样本数据表中的数据表字段；从数据表字段中确定出训练样本字段，并将训练样本字段以外的数据表字段，确定为测试样本字段。

其中，数据表字段可以为样本数据表中的字段。

具体实现中，可以通过神经网络、机器学习等方法对样本数据表中的文本内容进行识别，得到数据表字段，或者对样本数据表中的文本内容进行分词处理，得到数据表字段，针对得到的所有数据表字段，可以随机地从中确定出训练样本字段，并将训练样本字段以外的数据表字段，确定为测试样本字段。

本实施例中，通过确定样本数据表中的数据表字段；从数据表字段中确定出训练样本字段，并将训练样本字段以外的数据表字段，确定为测试样本字段，可以根据样本数据表得到训练样本字段和测试样本字段，通过训练样本字段进行候选字段分类模型的训练，通过测试样本字段从候选字段分类模型中确定出字段分类模型，增加了字段分类模型确定的可靠性。

在一个实施例中，上述步骤S104，可以具体包括：获取训练样本字段所对应的样本标签；对待训练的候选字段分类模型进行网格搜索处理，得到网格搜索后的候选字段分类模型；网格搜索后的候选字段分类模型针对训练样本字段进行分类得到的候选质量检测模型与样本标签相匹配；对网格搜索后的候选字段分类模型进行交叉验证处理，得到预先训练的候选字段分类模型。

其中，样本标签可以为人工标定的训练样本字段的检查方法集。

具体实现中，可以获取到多个训练样本字段中每一个训练样本字段对应的样本标签，基于多个训练样本字段对待训练的候选字段分类模型进行网格搜索，以对模型参数进行调整，使用参数调整后的候选字段分类模型对训练样本字段进行分类，若得到的候选质量检测模型与样本标签不匹配，则再次对该模型的参数进行调整，直至参数调整后的候选字段分类模型对训练样本字段进行分类所得到的候选质量检测模型与样本标签相匹配，将此时参数调整后的候选字段分类模型作为网格搜索后的候选字段分类模型。之后可以采用k折交叉验证的方法对网格搜索后的候选字段分类模型进行验证，得到预先训练的候选字段分类模型。

例如，从多个数据表中采集样本字段，对每个样本字段人工标定检查方法集，并将人工标定的检查方法集作为该样本字段的样本标签，从样本字段中随机地确定训练样本字段，将确定的所有训练样本字段确定为训练样本集，基于训练样本集训练SVM模型，在模型训练过程中，先采用网格搜索方法对SVM模型进行参数调整，使用参数调整后的SVM模型对训练样本字段进行分类，若分类得到的检查方法集与人工标定的检查方法集不匹配，则继续调整SVM模型的参数，否则，若分类得到的检查方法集与人工标定的检查方法集相匹配，则将此时参数调整后的SVM模型作为网格搜索后的SVM模型，之后可以对网格搜索后的SVM模型进行k折交叉验证，得到预先训练的SVM模型。

本实施例中，通过获取训练样本字段所对应的样本标签，对待训练的候选字段分类模型进行网格搜索处理，得到网格搜索后的候选字段分类模型，对网格搜索后的候选字段分类模型进行交叉验证处理，得到预先训练的候选字段分类模型，可以通过模型训练得到候选字段分类模型，便于通过模型直接确定待检测字段对应的检查方法集，提高数据质量检测的效率。

在一个实施例中，上述步骤S106，可以具体包括：确定测试样本字段所对应的样本标签的标签数量；将测试样本字段输入至预先训练的候选字段分类模型，得到测试样本字段的候选质量检测模型，并确定测试样本字段的候选质量检测模型的模型数量；将模型数量与标签数量之比，确定为分类准确率。

具体实现中，可以统计测试样本字段对应的样本标签的数量，得到标签数量，还可以将测试样本字段输入至预先训练的候选字段分类模型，得到预先训练的候选字段分类模型确定的测试样本字段的候选质量检测模型，统计候选质量检测模型的数量，得到模型数量，将模型数量与标签数量之比作为分类准确率，若分类准确率超过预设阈值，则可以将预先训练的候选字段分类模型确定为预先训练的字段分类模型。

实际应用中，假设一个数据表中包含的测试样本字段为t1，t2，t3，获取各测试样本字段对应的人工标定的检查方法集A1，A2，A3，其中，各检查方法集中检查方法的数量分别为N1，N2，N3，则该数据表对应的检查方法的总数量，即标签数量可以为ΣNi，i＝1，2，3；将每个测试样本字段分别输入至预先训练的SVM模型，得到预先训练的SVM模型针对各测试样本字段所确定的检查方法集B1，B2，B3，统计各检查方法集中检查方法的数量分别为M1，M2，M3，则SVM模型识别到的该数据表中检查方法的总数量，即模型数量为ΣMi，i＝1，2，3，将ΣMi/ΣNi，i＝1，2，3确定为分类准确率。

本实施例中，通过确定测试样本字段所对应的样本标签的标签数量，将测试样本字段输入至预先训练的候选字段分类模型，得到测试样本字段的候选质量检测模型，并确定测试样本字段的候选质量检测模型的模型数量，将模型数量与标签数量之比，确定为分类准确率，可以将分类准确率满足一定条件的候选字段分类模型确定为字段分类模型，保证字段分类模型所确定的检查方法集的准确性。

在一个实施例中，质量检测结果包括数据波动检查结果和数据量检查结果；在上述步骤S140之后，具体还可以包括：响应于针对数据波动检查结果的选中操作，确定数据波动检查结果中的目标区域；在目标区域的数据量检查结果在预设范围以外的情况下，生成告警信号。

其中，数据波动检查结果可以为数据表中的数据波动曲线。

其中，数据量检查结果可以为数据波动曲线中各点所对应的数据量。

具体实现中，可以在终端的显示器上展示数据波动曲线，用户针对数据波动曲线执行选中操作，从数据波动曲线中选取一个目标区域，终端在获取到目标区域后，检测目标区域对应的数据量是否在预设范围以内，若在预设范围以内，则无需生成告警信号，否则，若在预设范围以外，则生成告警信号。

例如，用户选取数据波动曲线中的一段曲线，终端检测该段曲线对应的数据量是否在[0，100]范围内，若超出该范围，则发出告警。

本实施例中，通过响应于针对数据波动检查结果的选中操作，确定数据波动检查结果中的目标区域，在目标区域的数据量检查结果在预设范围以外的情况下，生成告警信号，可以针对数据表中的数据波动进行检测，保证数据波动在合理范围内。

在一个实施例中，质量检测结果包括空值检查结果；在上述步骤S140之后，具体还可以包括：根据空值检查结果，确定待检测数据表的字段缺失区域；从字段缺失区域中确定目标区域，并统计字段缺失区域的数量；对目标区域，以及字段缺失区域的数量进行展示。

其中，空值检查结果可以为用于指示数据表中的字段为空值的标识。

具体实现中，可以在终端上展示空值检查结果，空值检查结果可以为一个或者多个空值标识，每一个空值标识与一个字段缺失区域相对应，用户可以从字段缺失区域中选取目标区域，对目标区域进行展示。还可以统计所有字段缺失区域的数量，对所有字段缺失区域的数量进行展示。

例如，可以对数据表中的所有空值位置进行高亮显示，终端上可以显示该数据表中所有空值位置的总数量，用户还可以从该数据表中选取一个目标区域，针对目标区域，对空值位置进行抽样显示。

本实施例中，通过根据空值检查结果，确定待检测数据表的字段缺失区域，从字段缺失区域中确定目标区域，并统计字段缺失区域的数量，对目标区域，以及字段缺失区域的数量进行展示，可以展示数据表中的数据缺失情况，便于用户及时处理数据异常。

为了便于本领域技术人员深入理解本申请实施例，以下将结合一个具体示例进行说明。

图3提供了一个数据质量检测方法的流程示意图。根据图3，数据质量检测方法，可以具体包括以下步骤：

步骤S301，定义标准化SQL(Structured Query Language，结构化查询语言)检查方法集，如图4所示，标准化SQL检查方法集包括但不限于是数据量检查、数据类型检查、数据编码检查、数据重复检查、空值检查和波动检查；

步骤S302，基于每个测试样本所需的标准化SQL检查方法集和验证后的SVM多分类训练模型的决策函数，获取数据质量检测方法适用性函数；其中，数据质量检测方法适用性函数可以为确定候选检查方法与待检测字段之间匹配度的函数；

步骤S303，基于数据质量检测方法适用性函数对数据表数据质量的标准化SQL集进行适应性匹配，为每个数据表及字段匹配标准化SQL检查方法集；具体地，可以通过数据质量检测方法适用性函数确定候选检查方法与待检测字段之间的匹配度，根据匹配度从候选检查方法中确定出对待检测字段进行数据质量检测的检查方法；

步骤S304，将标准SQL提交至Flink(一种分布式***)集群，由Flink集群结合数据质量计算规则进行数据质量检查；其中，数据质量计算规则可以为预先设置的计算规则，例如，针对主键检查，若数据质量计算规则得到的结果为0，则说明主键检查0条重复，若数据质量计算规则得到的结果大于0，则说明存在数据重复；

步骤S305，根据数据质量检测结果，生成数据质量报告，并发起数据质量预警；

步骤S306，根据数据质量检查报告，监控预设数据质量规则、及时发现数据的波动(同比、环比)、缺失等变化，生成数据质量趋势报告；

步骤S307，根据数据质量趋势报告，提出场景解决方案，如数据增减量、数据重复、数据缺失等，评估数据存储是否正常、评估数据增量对***存储容量的影响、评估数据抖动是否符合历史规律等；上述数据质量趋势异常分析结果与建议可以如表1所示；

趋势分类	预警分类	推荐方案
			数据波动	警告	展示数据波动情况，分析数据量是否合理
数据缺失	警告	抽样显示数据字段缺失区域，提示总缺失数
			数据乱码	错误	抽样显示乱码记录，提示当前***文件编码要求
数据重复	错误	抽样显示重复记录，高亮显示重复内容

表1数据质量趋势异常分析结果与建议

步骤S308，在数据质量趋势报告存在偏离实际情况时，提供***补录功能，为后续其他相似场景提供参考，以案例丰富***的完备性。

图5提供了一个SVM多分类模型的训练方法的流程示意图。根据图5，SVM多分类模型的训练方法，可以具体包括：

步骤S501，采集足量数据表字段作为实验数据，并根据数据表字段的数据类型、字段中文名称、字段英文名称、表结构约束等，为数据表字段分别打上检查方法标签，归类至合适的标准化SQL。比如数值类型字段、字段中文名含有“金额”、字段英文名含有“Amount”等关键信息，则需要匹配数值类型检查的SQL标签；如存在主键表结构约束，则需要匹配主键唯一性检查的SQL标签；如表结构中字段为非空约束，则需匹配非空检查的SQL标签；如此，将每一采样的数据表匹配出合适的不同分类的SQL标签；

步骤S502，对多种标签下的试验数据进行预处理，得到预处理后的样本数据，并将预处理后的样本数据随机分为训练样本集和测试样本集；

步骤S503，基于多分类问题类型和训练样本集得到SVM多分类训练模型，即获取待训练的SVM模型；

步骤S504，采用网格搜索方法对SVM多分类训练模型进行参数寻优，得到参数寻优后的SVM多分类训练模型；

步骤S505，采用k折交叉验证方法对参数寻优后的SVM多分类训练模型进行验证，得到验证后的SVM多分类训练模型；

步骤S506，将测试样本集导入验证后的SVM多分类训练模型，得到验证后的SVM多分类训练模型的准确率；

步骤S507，在验证后的SVM多分类训练模型的准确率大于或等于预设值的情况下，基于验证后的SVM多分类训练模型的准确率得到测试样本集中每个测试样本所需的标准化SQL检查方法集；具体地，针对一个数据表，人工标注该表应该匹配100条SQL检查方法，但是通过SVM多分类训练模型得到的结果有97条匹配正确，则准确率为97％，大于预设的准确率阈值95％，则认为匹配的准确率满足需求，该模型可行。

上述数据质量检测方法，提供了基于数据中台的数据质量管理平台，对数据的数据量、数据类型、数据编码、重复性、空值检查等情况进行检测，通过机器学习的方式自动生成标准化数据质量检查规则，通过Flink集群执行标准化检查SQL，得到检查结果，对异常结果进行预警报告，对数据波动的变化建立对数据质量的趋势变化分析，作出预警，支持预测场景补充录入，总结统计结果，为后续更多的预警提供方案实现了数据质量检测的自动化检测，解决了人工检查时出现的人工成本高，工作量大，重复性劳动高，耗时等诸多问题。同时数据质量问题的发现为数据治理提供了问题发现、以及可能的问题解决方法，大大提高了数据治理的时效。对于金融机构的数据准确性、完整性、健壮性，如数据录入的规范性、数据传输完整性、基于历史问题的评估推荐方案，在数据治理领域有深远意义。

在一个实施例中，如图6所示，提供了一种数据质量检测方法，以该方法应用于终端为例进行说明，包括以下步骤：

步骤S601，确定样本数据表中的数据表字段；

步骤S602，从数据表字段中确定出训练样本字段，并将训练样本字段以外的数据表字段，确定为测试样本字段；

步骤S603，获取训练样本字段所对应的样本标签；

步骤S604，对待训练的候选字段分类模型进行网格搜索处理，得到网格搜索后的候选字段分类模型；网格搜索后的候选字段分类模型针对训练样本字段进行分类得到的候选质量检测模型与样本标签相匹配；

步骤S605，对网格搜索后的候选字段分类模型进行交叉验证处理，得到预先训练的候选字段分类模型；

步骤S606，根据测试样本字段，确定预先训练的候选字段分类模型的分类准确率；

步骤S607，在分类准确率超过预设阈值的情况下，将预先训练的候选字段分类模型，确定为预先训练的字段分类模型；

步骤S608，从获取到的待检测数据表中确定出待检测字段；

步骤S609，将待检测字段输入至预先训练的字段分类模型，得到待检测字段的候选质量检测模型，以及候选质量检测模型与待检测字段之间的匹配度；

步骤S610，根据匹配度，从候选质量检测模型中确定出目标质量检测模型；

步骤S611，将待检测字段输入至目标质量检测模型，得到待检测数据表的质量检测结果。

具体实现中，可以将样本数据表中的字段确定为数据表字段，从数据表字段中随机选取训练样本字段，并将训练样本以外的数据表字段确定为测试样本字段，针对训练样本字段，获取人工标注的样本标签，根据训练样本字段和样本标签，对待训练的候选字段分类模型进行网格搜索，使网格搜索后的候选字段分类模型针对训练样本字段进行分类得到的候选质量检测模型与样本标签相匹配，对网格搜索后的候选字段分类模型进行交叉验证，并根据分类准确率确定预先训练的字段分类模型。针对待检测数据表，从中确定出待检测字段，将待检测字段输入至预先训练的字段分类模型，得到候选质量检测模型以及候选质量检测模型对应的匹配度，根据匹配度从中确定目标质量检测模型，通过目标质量检测模型对待检测字段进行检测，得到待检测数据表的质量检测结果。

上述数据质量检测方法，通过网格搜索、交叉验证以及分类准确率计算，可以提高预先训练的字段分类模型进行分类的可靠性，而且，可以在确定出候选质量检测模型的同时，确定出各候选质量检测模型的匹配度，进而从候选质量检测模型中确定出与待检测数据表中的待检测字段匹配度较高的目标质量检测模型，使用目标质量检测模型对待检测数据表进行数据质量检测，避免了人工干预，提高了数据质量检测的效率。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的数据质量检测方法的数据质量检测装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个数据质量检测装置实施例中的具体限定可以参见上文中对于数据质量检测方法的限定，在此不再赘述。

在一个实施例中，如图7所示，提供了一种数据质量检测装置，包括：字段确定模块710、字段识别模块720、模型确定模块730和质量检测模块740，其中：

字段确定模块710，用于从获取到的待检测数据表中确定出待检测字段；

字段识别模块720，用于将所述待检测字段输入至预先训练的字段分类模型，得到所述待检测字段的候选质量检测模型，以及所述候选质量检测模型与所述待检测字段之间的匹配度；

模型确定模块730，用于根据所述匹配度，从所述候选质量检测模型中确定出目标质量检测模型；

质量检测模块740，用于将所述待检测字段输入至所述目标质量检测模型，得到所述待检测数据表的质量检测结果。

在一个实施例中，上述数据质量检测装置，还包括：

样本字段确定模块，用于从获取到的样本数据表中确定出训练样本字段和测试样本字段；

候选模型训练模块，用于通过所述训练样本字段对待训练的候选字段分类模型进行训练，得到预先训练的候选字段分类模型；

准确率确定模块，用于根据所述测试样本字段，确定所述预先训练的候选字段分类模型的分类准确率；

分类模型确定模块，用于在所述分类准确率超过预设阈值的情况下，将所述预先训练的候选字段分类模型，确定为所述预先训练的字段分类模型。

在一个实施例中，上述样本字段确定模块，还用于确定所述样本数据表中的数据表字段；从所述数据表字段中确定出所述训练样本字段，并将所述训练样本字段以外的数据表字段，确定为所述测试样本字段。

在一个实施例中，上述候选模型训练模块，还用于获取所述训练样本字段所对应的样本标签；对所述待训练的候选字段分类模型进行网格搜索处理，得到网格搜索后的候选字段分类模型；所述网格搜索后的候选字段分类模型针对所述训练样本字段进行分类得到的候选质量检测模型与所述样本标签相匹配；对所述网格搜索后的候选字段分类模型进行交叉验证处理，得到所述预先训练的候选字段分类模型。

在一个实施例中，上述准确率确定模块，还用于确定所述测试样本字段所对应的样本标签的标签数量；将所述测试样本字段输入至所述预先训练的候选字段分类模型，得到所述测试样本字段的候选质量检测模型，并确定所述测试样本字段的候选质量检测模型的模型数量；将所述模型数量与所述标签数量之比，确定为所述分类准确率。

在一个实施例中，上述数据质量检测装置，还包括：

目标区域确定模块，用于响应于针对所述数据波动检查结果的选中操作，确定所述数据波动检查结果中的目标区域；

告警信号生成模块，用于在所述目标区域的数据量检查结果在预设范围以外的情况下，生成告警信号。

在一个实施例中，上述数据质量检测装置，还包括：

缺失区域确定模块，用于根据所述空值检查结果，确定所述待检测数据表的字段缺失区域；

区域数量统计模块，用于从所述字段缺失区域中确定目标区域，并统计所述字段缺失区域的数量；

目标区域展示模块，用于对所述目标区域，以及所述字段缺失区域的数量进行展示。

上述数据质量检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图8所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过***总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到***总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种数据质量检测方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种数据质量检测方法，其特征在于，所述方法包括：

从获取到的待检测数据表中确定出待检测字段；

2.根据权利要求1所述的方法，其特征在于，在从获取到的待检测数据表中确定出待检测字段之前，还包括：

3.根据权利要求2所述的方法，其特征在于，所述从获取到的样本数据表中确定出训练样本字段和测试样本字段，包括：

确定所述样本数据表中的数据表字段；

4.根据权利要求2所述的方法，其特征在于，所述通过所述训练样本字段对待训练的候选字段分类模型进行训练，得到预先训练的候选字段分类模型，包括：

获取所述训练样本字段所对应的样本标签；

5.根据权利要求2所述的方法，其特征在于，所述根据所述测试样本字段，确定所述预先训练的候选字段分类模型的分类准确率，包括：

确定所述测试样本字段所对应的样本标签的标签数量；

6.根据权利要求1所述的方法，其特征在于，所述质量检测结果包括数据波动检查结果和数据量检查结果；在将所述待检测字段输入至所述目标质量检测模型，得到所述待检测数据表的质量检测结果之后，还包括：

7.根据权利要求1所述的方法，其特征在于，所述质量检测结果包括空值检查结果；在将所述待检测字段输入至所述目标质量检测模型，得到所述待检测数据表的质量检测结果之后，还包括：

对所述目标区域，以及所述字段缺失区域的数量进行展示。

8.一种数据质量检测装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

11.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。