CN117235063A

CN117235063A - 一种基于人工智能技术的数据质量管理方法

Info

Publication number: CN117235063A
Application number: CN202311489902.1A
Authority: CN
Inventors: 李保平; 谢超; 杨建荣; 陈木辉; 麦新伟; 黄月梅; 戴思敏
Original assignee: Guangzhou Huitong Guoxin Technology Co ltd
Current assignee: Guangzhou Huitong Guoxin Technology Co ltd
Priority date: 2023-11-10
Filing date: 2023-11-10
Publication date: 2023-12-15
Anticipated expiration: 2043-11-10
Also published as: CN117235063B

Abstract

本发明涉及数据管理技术领域，具体涉及一种基于人工智能技术的数据质量管理方法。包括包括抽取指定时间下数据库内的部分数据并设为一次抽调数据；判定一次抽调数据是否异常，当判定为异常时，确定责任编号，于数据库内重新抽取部分数据，设为二次抽调数据，判定是否为异常，结合一次抽调数据与二次抽调数据的抽调结果判定责任编号的风险等级；基于风险等级划定责任编号的监管方式，及其后续数据的状况判定是否执行风险等级调控操作。结合第一次和第二次所抽取的数据判定其所对应的责任编号及风险等级，并判定后续责任编号对应的数据异常状况以判定是否执行风险等级调控操作，以合理的对责任编号及其所对应的数据进行管控。

Description

一种基于人工智能技术的数据质量管理方法

技术领域

本发明涉及数据管理技术领域，具体涉及一种基于人工智能技术的数据质量管理方法。

背景技术

随着企业自身的业务信息的逐渐增多，企业平台内部的***会因业务信息产生大量的业务数据，例如，订单数据、销售数据、产品数据等，这些在形成时，通常是通过人员或***录入的，但是在录入的过程中，数据难免会因人员的误操作、***的故障出现一些错误，以此导致目前企业内数据库的数据质量存在问题，目前对存在质量问题的数据通常的处理方式为提取数据库内的数据，进行一一核对并矫正，但是对于海量的数据来说，并不是所有的数据均存在质量问题，于此情况下，导致目前对数据质量的分析处置产生了效率性的影响；

并且，数据在录入后，需要设置录入该数据的责任人，当责任人所对应的数据出现异常时，如何能够对该责任人及数据做出相应的风险管控（避免对海量数据一一矫正的基础上进行风险管控），以降低后续数据持续异常变化的情况均是目前需要解决的问题。

发明内容

针对现有技术所存在的上述缺点，本发明提供了一种基于人工智能技术的数据质量管理方法，能够有效解决现有技术中在海量的数据出现异常时，如何对海量数据质量风险管控的问题。

为实现以上目的，本发明通过以下技术方案予以实现：

本发明提供一种基于人工智能技术的数据质量管理方法，包括如下方法步骤：

S1、抽取指定时间下数据库内的部分数据，并将所抽取的数据设为一次抽调数据；

S2、分析判定一次抽调数据是否异常，当判定为异常时，确定一次抽调数据所对应的责任编号，基于责任编号在数据库内重新抽取部分数据，并设为二次抽调数据，再次判定其是否为异常，结合一次抽调数据与二次抽调数据的抽调结果判定责任编号的风险等级；

S3、基于风险等级划定责任编号的监管方式，通过监管方式以调控当前数据库内的数据质量。

进一步地，所述指定时间包括：

周度、月度和季度。

进一步地，所述判定一次抽调数据和二次抽调数据是否异常时，依据如下方法进行判定：

数据是否存在缺失、无效、重复及异项特征，其中：

数据的异项通过Z-score算法进行判定，其算法步骤如下：

步骤一：采集与指定时间数据库内抽调数据对应的历史数据；

步骤二：求取均值：式中：/>为历史数据的平均值，均为历史数据，n为历史数据的总天数；

步骤三：求取标准差：式中：/>为历史数据的标准差，为第i个历史数据；

步骤四：设定阈值常数，基于Z-score算法进行判定：式中：Z-score为判定值，/>为当前抽取的变量数据，判定Z-score是否大于阈值常数，当其大于阈值常数时，/>为异常，并基于/>对异常的数据执行修正操作，当其小于等于阈值常数时，为正常。

进一步地，所述风险等级包括一级、二级和三级，且一级、二级和三级的风险等级由高至低序列，其中，风险等级的判定方式如下：

当一次抽调数据为异常，责任编号对应的风险等级为三级；

当一次抽调数据和二次抽调数据均为异常，责任编号对应的风险等级为二级，并设定责任编号监管方式；

当责任编号经过限定的监管方式监测，且监测判定其所对应的数据为异常时，责任编号对应的风险等级为一级。

进一步地，所述监管方式依据风险等级进行设定，包括：

风险等级为三级时，责任编号不设置监管方式；

风险等级为二级时，责任编号的监管方式为实时监测责任编号对应的数据，并记录责任编号对应异常数据的数量；

风险等级为一级时，责任编号的监管方式为中断限制输入状态，并实时监测责任编号对应的数据。

进一步地，所述风险等级为二级，且责任编号处于监控状态下时，确定当前责任编号对应异常数据与二次抽调数据异常的数量，并设定调控区间，基于调控区间判定是否执行风险等级递减/递增操作，判定及执行风险等级递减/递增操作的方式为：

式中，p为当前对应数据异常的数量，y为二次抽调数据异常的数量，设定责任编号于监控状态下对应异常数据的三次序列变化状态，A、B、C分别指代当前对应数据异常的数量p的等级，A、B、C按照由少至多的数量依次序列等级，当p于最大三次变化后处于A时，暂停后台实时监测操作，执行风险等级监督操作，以抽取责任编号下一次对应的数据，并根据异常的数据量判定是否执行风险等级调控操作。

进一步地，所述中断限制输入状态形成时，以抽取责任编号下一次对应的数据，并根据其异常状况判定是否执行风险等级递减/递增操作。

进一步地，所述一次抽调数据为异常，且一次抽调数据所对应的责任编号存在多个时，划定二次抽调数据的对应抽调数据量与总抽调数据量，对应抽调数据量与总抽调数据量的判定方式如下：

步骤一：求取历史数据下责任编号出现异常的数据量，获得累计异常的总数据量，并确定历史数据下责任编号出现异常的数据量于总数据量下的占比率；

步骤二：基于责任编号对应异常数据的总数据量确定总抽调数据量，依据责任编号的占比率确定其在总抽调数据量中的对应抽调数据量；

步骤三：设置缩减阈值，当历史数据下责任编号的数量小于一次抽调数据所对应责任编号的数量时，依据缩减阈值将步骤一中的占比率均衡缩减并重新生成占比率，依据缩减阈值和占比率确定对应抽调数据量。

本发明提供的技术方案，与已知的现有技术相比，具有如下有益效果：

1、通过在数据库内抽取数据评估其是否为异常，并基于所评估的异常数据来于数据库内重新抽取数据，结合第一次和第二次所抽取数据的异常状况综合判定其所对应的责任编号，并同步划定责任编号的风险等级，并以此给其设定风险管控措施，降低其后续对数据库内其他数据造成影响的情况。

2、通过判定责任编号的风险等级，并基于其后续于数据库内所输入的数据来进行监测，并对该责任编号形成监督操作，以判定是否执行风险等级切换调整，从而提升该责任编号后续管控数据的准确度，并且能够降低数据库内数据质量低的情况，以便数据库内的数据能够给企业状况提供较为精确的数据支撑决策。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的整体方法示意图；

图2为本发明的风险等级判定方式示意图；

图3为本发明的监督方式设定方法示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合实施例对本发明作进一步的描述。

实施例1（参阅图1-3）：一种基于人工智能技术的数据质量管理方法，包括如下方法步骤：

S1、抽取指定时间下数据库内的部分数据，并将所抽取的数据设为一次抽调数据，其中，指定时间可为周度、月度和季度，例如抽取一个月下数据库内的部分数据，以形成一次抽调数据，对于数据库内的数据来说，通常包括数据的具体信息、负责人（责任编号，如当前的产品数据：包括产品尺寸信息、应用场景信息、价格信息、订单量和拟定数据的责任人）；

S2、分析判定一次抽调数据是否异常，当判定为异常时，确定一次抽调数据所对应的责任编号，基于责任编号在数据库内重新抽取部分数据，并设为二次抽调数据，再次判定其是否为异常，结合一次抽调数据与二次抽调数据的抽调结果判定责任编号的风险等级，通过判定该数据是否为异常，当为异常时，判定一次抽调数据内异常的数据所对应的责任编号，以此责任编号在数据库内重新抽取数据，且形成二次抽调数据，同步判定其是否为异常，就可根据一次抽调数据和二次抽调数据的异常状况判定该责任编号的风险等级；

S3、基于风险等级划定责任编号的监管方式，通过监管方式以调控当前数据库内的数据质量，并依据责任编号在监管方式下后续对应数据的异常状况，以判定是否执行风险等级调控操作，以重新判定责任编号的风险等级；对于一次抽调数据和二次抽调数据中存在异常的数据来说，其所对应的责任编号均是相同的，因此便可通过异常的数据来评估该责任编号的风险等级，通过给风险等级设置对应的监管方式（具体参阅下文中的展开说明），使责任编号于对应的监管方式下管控数据，以此来降低后续数据库内异常数据产生的概率，提高数据库内数据的准确度，并且根据责任编号在此情况下其后续对应数据的异常状况，以判定是否执行风险等级调控操作来切换责任编号原有的风险等级，通过划定调控方式使责任编号降低后续所输入异常数据的情况，也能够针对责任编号自身的风险状况做出合理的分析判定，给依据责任编号具体的情况实施具体的管控，使后续能够通过准确度较高的数据给企业产品的势态变化提供数据性的分析辅助决策。

上述方案在判定一次抽调数据和二次抽调数据是否异常时，依据如下方法进行判定：

数据是否存在缺失、无效、重复及异项特征，本方案中，数据的缺失、无效、重复来说，通过采集一次抽调数据和二次抽调数据中是否存在缺失的空白（列表中存在未填写的数据）、存在多余填写的数据（如抽取的是非节假日下的数据，但是列表中存在节假日的数据，判定为多余填写的数据）、相同的数据（在不同的产品数据中存在相同的尺寸信息、应用场景信息、价格信息）来判定数据是否为异常，对于异项是指，在列表中存在不符合产品尺寸信息、应用场景信息、价格信息的数据，例如，当历史数据中的订单量为10-15区间时，当前抽取的数据中存在订单量为30的数据时，该数据被判定为异项，因此需要对其做出修改，对于具体的判定方式和修改，具体如下：

数据的异项通过Z-score算法进行判定，其算法步骤如下：

值得说明的是，数据缺失同样通过本方式进行修改，数据无效的修改为直接删除，数据重复的修改是提取既定产品原始的数据进行校验，并重新补入该列表内。

进一步的，风险等级包括一级、二级和三级，且一级、二级和三级的风险等级由高至低序列，其中，风险等级的判定方式如下：

当一次抽调数据为异常，责任编号对应的风险等级为三级，风险等级三级是指：异常的数据为第一次出现，风险概率低，不对责任编号设置监管措施；

当一次抽调数据和二次抽调数据均为异常，责任编号对应的风险等级为二级，并设定责任编号监管方式，风险等级二级是指：异常的数据为多次出现，风险概率中等，对责任编号设置监管措施，需要监测后续责任编号所对应的数据；

当责任编号经过限定的监管方式监测，且监测判定其所对应的数据为异常时，责任编号对应的风险等级为一级，风险等级一级是指：在二级的基础上，责任编号对应的数据在后续监管的时间下持续出现异常，列为一级，以限制该责任编号对数据造成影响的情况。

紧接着，监管方式依据风险等级进行设定，包括：

210、风险等级为三级时，责任编号不设置监管方式；

220、风险等级为二级时，责任编号的监管方式为实时监测责任编号对应的数据，并记录责任编号对应异常数据的数量；

230、风险等级为一级时，责任编号的监管方式为中断限制输入状态，并实时监测责任编号对应的数据，中断限制输入状态是指，在责任编号原有所需要对应的数据的时间下，给责任编号能够对数据进行输入、改变等操作的时间为既定时间的中部，如原设定责任编号为123号的人员需要对10.1-10.7日（既定时间，当其为单数时，取中值，当其为双数时，将既定时间等分划为两个时间段，各取每个时间段的中值为允许输入数据的时间）下的数据进行输入或改变，责任编号在中断限制输入状态下允许输入数据的时间就为10.4日，以实现对责任编号及其所对应的数据进行管控，提升数据的准确度。

其中，风险等级为二级，且责任编号处于监控状态下时，确定当前责任编号对应异常数据与二次抽调数据异常的数量，并设定调控区间，基于调控区间判定是否执行风险调控操作，即风险等级递减/递增操作，判定及执行风险等级递减/递增操作的方式为：

式中，p为当前对应数据异常的数量，y为二次抽调数据异常的数量，设定责任编号于监控状态下对应异常数据的三次序列变化状态，A、B、C分别指代当前对应数据异常的数量p的等级，A、B、C按照由少至多的数量依次序列等级，当p于最大三次变化后处于A时，暂停后台实时监测操作，执行风险等级监督操作，以抽取责任编号下一次对应的数据，并根据异常的数据量判定是否执行风险等级递减/递增操作，根据上述判定公式，通过后台实时监测操作来监测责任编号后续对应的数据的异常状况，给责任编号设定最大三次数据的异常条件，且责任编号对应异常的数据量需按照C-A递减，如：在处于二级后，责任编号对应异常的数据量分别为C-A、B-A或A，即当其处于A时，实时监测操作即时停止（***后台监控责任编号对应数据的输入状况），且执行风险等级监督操作，以抽取责任编号下一次对应的数据，并根据异常的数据量判定是否执行风险等级递减/递增操作，具体是：

当所抽取的数据为异常，判定责任编号数据量处于A所经历的次数:

R1、当其为三次时，抽取数据中异常的数据量处于上述C、B、A或超过y时，因经过最大允许的异常变化次数后，依旧无法消除异常的数据，列为一级；

R2、当其为二次时，风险等级不执行递减/递增操作，保持不变，基于下一次异常的数据量是否不处于C、B、A或超过y时，风险等级执行递减操作，反之保持不变，并根据下一次异常的数据量是否处于A以判定是否执行R1；

R3、当其为一次时（A），风险等级不执行递减/递增操作，保持不变，基于下一次异常的数据量是否不处于C、B、A或超过y时，风险等级执行递减操作，反之保持不变，并根据下一次异常的数据量是否处于A以判定是否执行R2；

值得说明的是，当责任编号对应异常的数据量在最大允许三次的条件下不处于A（为B或C）时，执行风险等级执行递增操作，此情况说明经过最大允许的异常变化次数后，依旧无法降低异常的数据量且持续存在（且异常的数据量与之前比较依旧较多），风险等级列为一级。

最后，中断限制输入状态形成时，以抽取责任编号下一次对应的数据，并根据其异常状况判定是否执行风险等级调控操作，具体是基于下一次异常的数据量是否不处于C、B、A或超过y时，风险等级执行递减操作，反之则保持不变，且在风险等级为一级并经过中断限制输入状态限制，抽取责任编号后三次对应的数据，其异常状况处于C、B、A或超过y时，封禁该责任编号（无法对数据进行输入、调整）并形成封禁信息输入至***终端，使***终端管控人员进行处置。

实施例2：

与上述实施例不同的是，本实施例对二次抽调数据的数据量做出具体的判定说明：

一次抽调数据为异常，且一次抽调数据所对应的责任编号存在多个时，划定二次抽调数据的对应抽调数据量与总抽调数据量，对应抽调数据量与总抽调数据量的判定方式如下：

步骤二：基于责任编号对应异常数据的总数据量确定总抽调数据量，依据责任编号的占比率确定其在总抽调数据量中的对应抽调数据量；通过确定历史数据中责任编号对应异常的数据量，并使数据量累计叠加得到总数量量，依据责任编号对应异常的数据量与总数据量之间的比值确定占比率，从而确定后续的总抽调数据量及抽调数据量的占比率，以便于在一次抽调数据形成后，通过二次抽调数据在数据库内精确的采集需要分析评估的数据量；

步骤三：设置缩减阈值，当历史数据下责任编号的数量小于一次抽调数据所对应责任编号的数量时，依据缩减阈值将步骤一中的占比率均衡缩减并重新生成占比率，依据缩减阈值和占比率确定对应抽调数据量。例如：当在10.1日的列表存在多位责任编号，分别为123、124、125，且历史数据的责任编号为124、125，有少于当前123的责任编号时，为了便于实施二次抽调数据，预先在***中设置缩减阈值，以对当前124、125等的责任编号的占比率等量缩减，如缩减阈值预设为10％，124、125的占比率分别缩减5％，避免占比率的不均衡缩减导致其影响数据抽取分析的判定精度，将10％设为123的占比率，且总抽调数据量保持不变，以便更精确的对数据库内的数据进行抽取及判断。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不会使相应技术方案的本质脱离本发明各实施例技术方案的保护范围。

Claims

1.一种基于人工智能技术的数据质量管理方法，其特征在于，包括如下方法步骤：

S3、基于风险等级划定责任编号的监管方式，并依据责任编号在监管方式下后续对应数据的异常状况，以判定是否执行风险等级调控操作，以重新判定责任编号的风险等级。

2.根据权利要求1所述的一种基于人工智能技术的数据质量管理方法，其特征在于，所述指定时间包括：

周度、月度和季度。

3.根据权利要求1所述的一种基于人工智能技术的数据质量管理方法，其特征在于，所述判定一次抽调数据和二次抽调数据是否异常时，依据如下方法进行判定：

数据是否存在缺失、无效、重复及异项特征，其中：

数据的异项通过Z-score算法进行判定，其算法步骤如下：

步骤三：求取标准差：式中：/>为历史数据的标准差，/>为第i个历史数据；

步骤四：设定阈值常数，基于Z-score算法进行判定：式中：Z-score为判定值，/>为当前抽取的变量数据，判定Z-score是否大于阈值常数，当其大于阈值常数时，/>为异常，并基于/>对异常的数据执行修正操作，当其小于等于阈值常数时，/>为正常。

4.根据权利要求1所述的一种基于人工智能技术的数据质量管理方法，其特征在于，所述风险等级包括一级、二级和三级，且一级、二级和三级的风险等级由高至低序列，其中，风险等级的判定方式如下：

当一次抽调数据为异常，责任编号对应的风险等级为三级；

5.根据权利要求4所述的一种基于人工智能技术的数据质量管理方法，其特征在于，所述监管方式依据风险等级进行设定，包括：

风险等级为三级时，责任编号不设置监管方式；

6.根据权利要求5所述的一种基于人工智能技术的数据质量管理方法，其特征在于，所述风险等级为二级，且责任编号处于监控状态下时，确定当前责任编号对应异常数据与二次抽调数据异常的数量，并设定调控区间，基于调控区间判定是否执行风险等级调控操作，判定及执行风险等级调控操作的方式为：

7.根据权利要求6所述的一种基于人工智能技术的数据质量管理方法，其特征在于，所述中断限制输入状态形成时，以抽取责任编号下一次对应的数据，并根据其异常状况判定是否执行风险等级调控操作。

8.根据权利要求1所述的一种基于人工智能技术的数据质量管理方法，其特征在于，所述一次抽调数据为异常，且一次抽调数据所对应的责任编号存在多个时，划定二次抽调数据的对应抽调数据量与总抽调数据量，对应抽调数据量与总抽调数据量的判定方式如下：