CN111950623B

CN111950623B - 数据稳定性监控方法、装置、计算机设备及介质

Info

Publication number: CN111950623B
Application number: CN202010797908.5A
Authority: CN
Inventors: 张浩然; 张跃
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2020-08-10
Filing date: 2020-08-10
Publication date: 2023-11-14
Anticipated expiration: 2040-08-10
Also published as: CN111950623A

Abstract

本发明涉及数据处理领域，公开了一种数据稳定性监控方法、装置、计算机设备及介质，所述方法包括：通过从不同的数据源头进行历史数据采集，得到初始数据，其中，初始数据包含来源标签的属性，计算初始数据中每个特征的信息值IV，并根据信息值IV筛选出监控特征，根据监控特征和来源标签，构建多层XGBoost模型，并采用初始数据中的监控特征，对多层XGBoost模型进行训练，得到训练结果，按照预设周期，从不同的数据源头进行实时数据采集，得到周期监控数据，将周期监控数据输入到多层XGBoost模型进行分析，得到分析结果，基于训练结果和分析结果，确定数据稳定性的监控结果，本发明提高了数据稳定性监控的效率。

Description

数据稳定性监控方法、装置、计算机设备及介质

技术领域

本发明涉及数据处理领域，尤其涉及一种数据稳定性监控方法、装置、计算机设备及介质。

背景技术

随着社会经济的快速发展，金融企业涉及的业务范畴也越来越大，存在许多业务交叉点，一些金融数据，往往来源于多个内部***或外部***，亦或者其他外部数据供应商，而数据质量(可正常使用的数据的稳定性)对业务处理的效率有着重要影响，因而，需要在使用这些数据之前，对这些数据的质量进行监控。

当前进行数据质量监控预警，通常采用对数据的饱和度等进行直接监控的方法来实现，发明人在实现本申请的过程中发现，现有方式至少存在如下问题：现有方式需要建立大量监控，且容易因为个别指标出现误报，同时，也不能保证可以及时通知到所有数据应用方，这导致了数据监控工作量大且效率低，因而，亟需一种高效进行数据的稳定性监控方法。

发明内容

本发明实施例提供一种数据稳定性监控方法、装置、计算机设备和存储介质，以提高数据稳定性的监控效率。

为了解决上述技术问题，本申请实施例提供一种数据稳定性监控方法，包括：

从不同的数据源头进行历史数据采集，得到初始数据，其中，所述初始数据包含来源标签的属性；

计算所述初始数据中每个特征的信息值IV，并根据所述信息值IV筛选出监控特征；

根据所述监控特征和所述来源标签，构建多层XGBoost模型，并采用所述初始数据中的监控特征，对所述多层XGBoost模型进行训练，得到训练结果；

按照预设周期，从不同的数据源头进行实时数据采集，得到周期监控数据；

将所述周期监控数据输入到所述多层XGBoost模型进行分析，得到分析结果；

基于所述训练结果和所述分析结果，确定数据稳定性的监控结果。

可选地，所述初始数据中的数据类型包括连续型和离散性，所述计算所述初始数据中每个特征的信息值IV包括：

对所述初始数据中数据类型为连续型的特征，进行分箱处理，将连续型的特征转化为离散型特征；

针对所有离散型特征进行独热编码，得到数字化变量；

根据所述数字化变量，计算每个特征对应的信息值IV。

可选地，所述根据所述信息值IV筛选出监控特征包括：

针对同一来源的信息值IV，对所述信息值IV进行重要性排序，得到重要性由高到低的排序结果；

根据所述排序结果，对所述信息值IV对应的属性特征进行筛选，得到所述监控特征。

可选地，所述多层XGBoost模型为总分结构，包括一个总模型和若干子模型，每个来源的初始数据对应一个所述子模型。

可选地，所述采用所述初始数据中的监控特征，对所述多层XGBoost模型进行训练，得到训练结果包括：

针对来源标签相同的初始数据，根据每个监控特征的特征值的大小顺序，对所述初始数据进行排序，得到M个block结构，其中，所述block结构的数量与所述监控特征的数量相同，M为正整数；

将所述M个block结构输入到所述初始数据对应的子模型中进行训练，得到树集合；

针对每个所述监控特征，将所述树集合中每棵树上所述监控特征的分数进行累加，得到所述监控特征对应的得分；

将每个所述监控特征对应的得分，作为所述训练结果。

可选地，在所述基于所述训练结果和所述分析结果，确定数据稳定性的监控结果之后，所述数据稳定性监控方法还包括：

若所述数据稳定性的监控结果为所述周期监控数据发生波动，则从所述分析结果中，确定发送波动的周期监控数据的来源标签；

获取所述来源标签对应的周期监控数据，作为待检测数据，并针对所述待检测数据，计算每个监控特征的稳定性指标PSI分布；

获取所述稳定性指标PSI分布大于预设阈值的待检测数据，作为待修复数据；

对所述待修复数据进行修复。

可选地，在所述获取所述稳定性指标PSI分布大于预设阈值的待检测数据，作为待修复数据之后，并且，在所述对所述待修复数据进行修复之前，所述数据稳定性监控方法还包括：

从所述多层XGBoost模型中，排除所述待修复数据对应的子模型，得到更新后的多层XGBoost模型；

对所述更新后的多层XGBoost模型的稳定性进行评估，得到评估结果；

若所述评估结果为稳定，则使用所述更新后的多层XGBoost模型进行数据稳定性的监控。

为了解决上述技术问题，本申请实施例还提供一种数据稳定性监控装置，包括：

第一数据采集模块，用于从不同的数据源头进行历史数据采集，得到初始数据，其中，所述初始数据包含来源标签的属性；

监控特征选取模块，用于计算所述初始数据中每个特征的信息值IV，并根据所述信息值IV筛选出监控特征；

第一数据分析模块，用于根据所述监控特征和所述来源标签，构建多层XGBoost模型，并采用所述初始数据中的监控特征，对所述多层XGBoost模型进行训练，得到训练结果；

第二数据采集模块，用于按照预设周期，从不同的数据源头进行实时数据采集，得到周期监控数据；

第二数据分析模块，用于将所述周期监控数据输入到所述多层XGBoost模型进行分析，得到分析结果；

监控结果确定模块，用于基于所述训练结果和所述分析结果，确定数据稳定性的监控结果。

可选地，所述初始数据中的数据类型包括连续型和离散性，所述监控特征选取模块包括：

针对所有离散型特征进行独热编码，得到数字化变量；

根据所述数字化变量，计算每个特征对应的信息值IV。

可选地，所述监控特征选取模块还包括：

可选地，所述第一数据分析模块包括：

将每个所述监控特征对应的得分，作为所述训练结果。

可选地，所述数据稳定性监控装置还包括：

对所述待修复数据进行修复。

可选地，所述数据稳定性监控装置还包括：

为了解决上述技术问题，本申请实施例还提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述数据稳定性监控方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述数据稳定性监控方法的步骤。

本发明实施例提供的数据稳定性监控方法、装置、计算机设备及存储介质，一方面，通过从不同的数据源头进行历史数据采集，得到初始数据，其中，初始数据包含来源标签的属性，计算初始数据中每个特征的信息值IV，并根据信息值IV筛选出监控特征，根据监控特征和来源标签，构建多层XGBoost模型，并采用初始数据中的监控特征，对多层XGBoost模型进行训练，得到训练结果，实现为不同来源数据，构建同时进行识别监控的模型，有利于提高监控效率，另一方面，按照预设周期，从不同的数据源头进行实时数据采集，得到周期监控数据，将周期监控数据输入到多层XGBoost模型进行分析，得到分析结果，基于训练结果和分析结果，确定数据稳定性的监控结果，实现通过多层XGBoost模型对周期数据进行快速分析，并依据训练结果快速监控各个监控特征的稳定性，有利于提高数据稳定性监控的效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性***架构图；

图2是本申请的数据稳定性监控方法的一个实施例的流程图；

图3是根据本申请的数据稳定性监控装置的一个实施例的结构示意图；

图4是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，如图1所示，***架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture E界面显示perts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureE界面显示perts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的数据稳定性监控方法由服务器执行，相应地，数据稳定性监控装置设置于服务器中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器，本申请实施例中的终端设备101、102、103具体可以对应的是实际生产中的应用***。

请参阅图2，图2示出本发明实施例提供的一种数据稳定性监控方法，以该方法应用在图1中的服务端为例进行说明，详述如下：

S201：从不同的数据源头进行历史数据采集，得到初始数据，其中，初始数据包含来源标签的属性。

具体地，金融数据往往涉及较多属性特征，其来源于多个场景，通过对每个数据源头的历史数据进行采集，并对采集到的数据进行来源标注，得到包含来源标签的初始数据。

其中，数据源头具体可以是数据来源的供应商或者来源的内部***，在金融领域中，数据的来源一般分为内部数据和外部数据，内部数据来源于内部的各个***，例如职岗培训APP数据、内部通讯APP数据、基本信息***、面谈***等，外部数据来源于外部数据供应商，例如集团综合金融数据、APP倾向数据等。在从数据源头采集到这些数据后，按照其具体来源，打上来源标签，以便后续快速对数据来源进行定位。

进一步地，除了对数据来源进行标注外，本实施例还构建基于数据源头的层状指标体系结构，对内部数据、外部数据进行划分，对不同***的内部数据、不同来源的外部数据进行细分管理，甚至进一步细分到不同源头的不同类型的数据(如对源自某数据供应商的APP点击行为和基本信息、源自内部会员***的信息和源自自于内部***的行为数据等进行细分)。

S202：计算初始数据中每个特征的信息值IV，并根据信息值IV筛选出监控特征。

具体地，每条初始数据包括至少一个属性特征，在本实施例中，初始数据为金融数据，往往包含数千条属性特征，但是，针对具体的某项业务，大多数属性特征作用较小甚至没有关联，而过多的属性特征，在后续数据处理过程中，会导致耗时较长，效率极低，因而，需要对数据的属性特征进行筛选，以便提高后续处理的效率，同时，也避免不相关的数据对数据处理的准确度造成影响。

对数据属性特征进行的筛选方式，包括但不限于：皮尔逊相关系数(Pearsoncorrelation coefficient)、基尼系数(Gini coefficient)、信息增益和信息值(Information Value，IV)等。

其中，信息值IV是用于做特征选择计算评分卡时，表示每一个变量对目标变量来说有多少“信息”的量。

优选地，本实施例采用信息值作为特征筛选的方式，计算初始数据中每个特征的信息值IV，并根据信息值IV筛选出监控特征的具体实现过程，可参考后续实施例的描述，为避免重复，此处不再赘述。

值得说明的是，考虑到金融数据的属性特征较多，为提高处理处理效率，可对基尼系数，对属性特征进行降维，剔除对实际业务影响较小的属性特征，再通过计算信息值IV进行进一步筛选，有利于减少运算量，提高数据处理效率。

S203：根据监控特征和来源标签，构建多层XGBoost模型，并采用初始数据中的监控特征，对多层XGBoost模型进行训练，得到训练结果。

具体地，对根据不同源头、初始数据的监控特征建立多层XGBoost模型，进行模型训练，根据训练集的模型效果确定各个模型训练结果，具体训练结果为不同分数段的基本分布情况，例如，一来自某外部供应商的APP数据建立模型，训练结果为正常分布在0-0.2分的监控特征占10％，分布在0.2-0.8分的监控特征占60％，分布在0.8-1分的监控特征占30％。

本实施例中的多层XGBOOST模型，即，对所有入模监控特征进行总模型搭建，然后根据不同来源标签(数据***片区)划分，再搭建分数据***片区的子模型，组成总分两层模型结构。该多层XGBoost模型主要用于监控，因此训练拟合程度可以适当调为普通正常拟合无需深度调优，优选地，本实施例中，总模型中树最大层深可以设置为不超过三层，总模型中树的数量(子模型)可根据实际业务需要进行设置，例如20个。

采用初始数据中的监控特征，对多层XGBoost模型进行训练，得到训练结果的具体过程，可参考后续实施例的描述，为避免重复，此处不再赘述。

S204：按照预设周期，从不同的数据源头进行实时数据采集，得到周期监控数据。

具体地，根据业务需求，提前设置预设周期，进而按照预设周期，从不同的数据源头进行实时数据采集，得到周期监控数据。

其中，预设周期可根据实际情况进行设置，例如预设周期为三天，此处不作具体限定。

需要说明的是，本实施例中的实时数据，是指当前周期中获取到的数据，是区别于步骤S201中的历史数据，而非实时获取到的数据。

S205：将周期监控数据输入到多层XGBoost模型进行分析，得到分析结果。

具体地，将获取到的周期监控数据输入到多层XGBoost模型，通过多层XGBoost模型对每个周期监控数据进行训练打分，得到分析结果，具体数据分析过程与步骤S203中的训练过程相同，为避免重复，此处不再赘述。

S206：基于训练结果和分析结果，确定数据稳定性的监控结果。

具体地，将周期监控数据对应的分析结果与训练结果进行对比分析，通过稳定性指标PSI判断周期监控数据的波动情况，若稳定性指标PSI超过预设阈值，则确定监控结果为波动较大，若未超过预设阈值，则确认监控结果为数据较为稳定。

其中，PSI(PopulationStability Index，稳定性指标)用于评估监控特征稳定性。计算公式如下：

其中，为i个监控特征在分析结果中的评分，/>为第i个监控特征在训练结果中的评分。

作为一种优选方式，本实施例中对每个周期进行监控时，对打分结果进行范围分割，例如切割为0.2-0.4分，0.4-0.6分等，认为该分数也是一个连续值，对该连续值分箱后，计算与训练结果的稳定性指标PSI，以便减少计算量，提高数据处理效率。

优选地，本实施例预设阈值为0.25。

本实施例中，一方面，通过从不同的数据源头进行历史数据采集，得到初始数据，其中，初始数据包含来源标签的属性，计算初始数据中每个特征的信息值IV，并根据信息值IV筛选出监控特征，根据监控特征和来源标签，构建多层XGBoost模型，并采用初始数据中的监控特征，对多层XGBoost模型进行训练，得到训练结果，实现为不同来源数据，构建同时进行识别监控的模型，有利于提高监控效率，另一方面，按照预设周期，从不同的数据源头进行实时数据采集，得到周期监控数据，将周期监控数据输入到多层XGBoost模型进行分析，得到分析结果，基于训练结果和分析结果，确定数据稳定性的监控结果，实现通过多层XGBoost模型对周期数据进行快速分析，并依据训练结果快速监控各个监控特征的稳定性，有利于提高数据稳定性监控的效率。

在本实施例的一些可选的实现方式中，步骤S202中，初始数据中的数据类型包括连续型和离散性，计算初始数据中每个特征的信息值IV包括：

对初始数据中数据类型为连续型的特征，进行分箱处理，将连续型的特征转化为离散型特征；

针对所有离散型特征进行独热编码，得到数字化变量；

根据数字化变量，计算每个特征对应的信息值IV。

具体地，每条初始数据包含多个属性特征，每个属性特征的类型，分为连续型和离散型两类，采用分箱法将连续性的属性特征离散化，进而对所有离散型的属性特征进行独热编码，并计算每个属性特征的信息值IV，以便后续根据信息值IV提取出需要进行监控的属性特征。

其中，属性特征是初始数据中的具体一项特征，在金融领域，一条数据往往包含多个属性特征，例如，一条初始数据为用户信息数据，其包含用户姓名、用户性别、联系方式和已办理业务等，每一项都为一个属性特征。

其中，连续型的属性特征是指在一定区间内可以任意取值的属性特征，其数值是连续不断的，相邻两个数值可作无限分割，即可取无限个数值，例如，生产零件的规格尺寸，人体测量的身高、体重、胸围等为连续型的属性特征,其数值只能用测量或计量的方法取得。

其中，离散型的属性特征是指特征值可以按一定顺序一一列举，通常以整数位取值的数据。如职工人数、工厂数、机器台数等，离散型属性特征的数值用计数的方法来获取。

需要说明的是，本实施例中对于缺失数值的离散型属性特征进行空值填充，填充为特殊字符“NA”，避免属性特征无对应的特征值导致该条初始数据中后续训练过程中产生异常。

进一步地，对于每一个初始数据，如果它有m个不同的属性特征，按照独热编码(one-hot编码)即得到m个二元特征。并且，这些特征值互斥，每次只有一个特征值被激活，被激活的特征值设置为1，其余不被激活的特征值则置为常数0，最终得到属性特征的每个特征值对应的基础数字编码。

应理解，独热编码的方式能使原始状态的数据变成稀疏数据，能更好地解决数据挖掘对属性特征数据样本分类的问题，以及在一定程度上起到了扩充特征的作用，其中，原始状态的数据指初始数据及其属性特征的取值范围。

例如，当属性特征为“性别”时，其特征值的取值范围包括“男”和“女”两个取值，即Gender＝["male"，"female"]，则性别为“男”对应的数字化编码为Gender＝[1,0]，性别为女对应的数字挂编码为Gender＝[0,1]。

值得说明的是，由于属性特征取值方式和取值范围不同，会影响模型的训练效果，而通过独热编码对不同属性特征的特征值采用统一编码方式，能使原始状态的特征值变成稀疏数据，避免了在模型构建过程中由于不同特征值的取值方式不同对模型产生负面影响，从而有效提高模型训练效果，提高模型准确性。

在本实施例中，通过对初始数据中的属性特征进行预处理后，再进行独热编码，得到得到数字化变量，进而根据数字化变量计算信息值IV，减少了需要进行运算的数据量，有利于提高信息值IV计算的效率。

在本实施例的一些可选的实现方式中，步骤S202中，根据信息值IV筛选出监控特征包括：

针对同一来源的信息值IV，对信息值IV进行重要性排序，得到重要性由高到低的排序结果；

根据排序结果，对信息值IV对应的属性特征进行筛选，得到监控特征。

具体地，针对同一来源的信息值IV，对信息值IV进行重要性排序，得到重要性由高到低的排序结果，进而根据排序结果，对信息值IV对应的属性特征进行筛选，得到监控特征。

需要说明的是，本实施例中，选取的监控特征的数据，可以是根据预先设置的数量，也可以是选取信息值IV大于预设信息值阈值的属性特征作为监控特征，具体可以根据实际需求进行设定，此处不做限定。

在本实施例中，通过信息值IV对属性特征进行筛选得到监控特征，剔除掉不重要的属性特征，有利于减少后续运算的数据量，提高数据处理效率。

在本实施例的一些可选的实现方式中，多层XGBoost模型为总分结构，包括一个总模型和若干子模型，每个来源的初始数据对应一个子模型，步骤S203中，采用初始数据中的监控特征，对多层XGBoost模型进行训练，得到训练结果包括：

针对来源标签相同的初始数据，根据每个监控特征的特征值的大小顺序，对初始数据进行排序，得到M个block结构，其中，block结构的数量与监控特征的数量相同，M为正整数；

将M个block结构输入到初始数据对应的子模型中进行训练，得到树集合；

针对每个监控特征，将树集合中每棵树上监控特征的分数进行累加，得到监控特征对应的得分；

将每个监控特征对应的得分，作为训练结果。

具体地，针对来源标签相同的初始数据，根据每一个监控特征的特征值对参与模型训练的初始数据进行排序，并将排序结果保存为block结构，进而将block结构输入到初始数据对应的子模型中进行训练，得到树集合，根据监控特征中每棵树上的得分，确定该监控特征的得分，将每个监控特征的得分，作为训练结果。

其中，block本质是一个oc对象，以结构体形式存放在内存中，形成block结构，本实施例中，采用block结构存储排序结果，是因为在后续模型训练的迭代过程中，block结构可作为一个整体，快速读取和使用，有利于减少计算量。

本实施例中使用的Xgboost模型是一种基于决策树(CART)的分布式的高效的梯度提升模型，采用了boosting的思想，通过拟合前一个基分类器(CART)与目标值的误差的负梯度来学习下一个基分类器，XGBoost是串行生成CART树，但是XGBoost在处理特征时可以做到并行处理，XGBoost并行原理体现在最优切分点的选择对每个block结构选择最佳特征切分点。本实施例采用贪婪算法，从根节点出发，每次选择一个监控特征及其对应的特征值，使得损失函数减少最多，根据选择的监控特征作为***节点，在根据特征值对初始数据进行排序，然后按照监控特征的特征值从小到大进行切分，比较每次切分后的损失函数大小，选择下降最大的节点作为该监控特征的最优切分点。最后比较不同block块结构最优切分点的损失函数下降值，选择下降最大的特征值作为最优切分点，进而通过最优切分点进行***。XGBoost使学习出来的模型更加简单，防止过拟合，提升了模型的应用能力和解释能力。

在本实施例中，通过采用初始数据中的监控特征，对多层XGBoost模型进行训练，得到每个监控特征对应的评分，有利于后续根据该评分，对周期监控数据进行稳定性评估。

在本实施例的一些可选的实现方式中，步骤S206之后，数据稳定性监控方法还包括：

若数据稳定性的监控结果为周期监控数据发生波动，则从分析结果中，确定发送波动的周期监控数据的来源标签；

获取来源标签对应的周期监控数据，作为待检测数据，并针对待检测数据，计算每个监控特征的稳定性指标PSI分布；

获取稳定性指标PSI分布大于预设阈值的待检测数据，作为待修复数据；

对待修复数据进行修复。

具体地，在数据稳定性的监控结果为所述周期监控数据发生波动时，也即，训练结果和分析结果的评分波动超出了预设阈值，此时，从分析结果中，确定发生波动的周期监控数据的来源标签，进而确定来源，再对该来源对应的子***中的监控特征的稳定性指标PSI分布，进行进一步的分布变化分析，并将每个稳定性指标PSI分布与预设的阈值进行对比，将超过预设阈值的PSI对应的待检测数据，作为待修复数据，并针对待修复数据进行修复处理。

例如，在一具体实施方式中，存在总-分两层XGBOOST模型结构，预设周期为1天，预设的阈值为0.25，每天监控总模型的稳定性指标PSI分布是否存在PSI>0.25情况，如无则正常，如有，则需要查看子模型的稳定性指标PSI，找出稳定性指标PSI超过0.25的子模型对应的来源，作为出问题的数据来源，进而对该来源的监控特征的稳定性指标PSI分布进行判断，锁定稳定性指标的监控指标，作为待修复数据。

其中，针对待修复数据进行修复处理，具体可以是对监控特征进行检查，判断是否存在空值和不规范，进而对监控特征对应的数值进行规范化处理，也可以是通过向监控端发送预警，并接收监控端发送的修复数据或修复方案执行，此处不做具体限定。

在本实施例中，数据稳定性的监控结果为周期监控数据发生波动时，快速对发生波动的监控特征进行定位修复，有利于提高数据稳定性。

在本实施例的一些可选的实现方式中，在获取稳定性指标PSI分布大于预设阈值的待检测数据，作为待修复数据之后，并且，在对待修复数据进行修复之前，数据稳定性监控方法还包括：

从多层XGBoost模型中，排除待修复数据对应的子模型，得到更新后的多层XGBoost模型；

对更新后的多层XGBoost模型的稳定性进行评估，得到评估结果；

若评估结果为稳定，则使用更新后的多层XGBoost模型进行数据稳定性的监控。

具体地，本实施例中的多层XGBoost模型为总分结构，每个来源的数据对应一个子模型，在确定待修复数据之后，从多层XGBoost模型为总分结构中关闭待修复数据对应的子模型的数据接收通道(排除待修复数据对应的子模型)，得到更新后的多层XGBoost模型，进而对更新后的多层XGBoost模型的稳定性进行评估，在评估结果为稳定时，使用更新后的多层XGBoost模型进行数据稳定性的监控。

其中，评估可采用稳定性指标PSI的方式，具体实现过程可参考上述实施例的描述，为避免重复，此处不再赘述。

需要说明的是，在评估结果为不稳定时，说明还存在其他待修复数据未查找出来，通过前述实施例的方法，重新进行待修复数据的确定。

在本实施例中，通过排除存在不稳定数据的子模型，使得其他子模型和总模型正常运行，实现在部分来源的数据存在异常波动时，仍能对其他来源数据的稳定性进行监控，提高了数据稳定性监控的稳健性和效率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

图3示出与上述实施例数据稳定性监控方法一一对应的数据稳定性监控装置的原理框图。如图3所示，该数据稳定性监控装置包括第一数据采集模块31、监控特征选取模块32、第一数据分析模块33、第二数据采集模块34、第二数据分析模块35和监控结果确定模块36。各功能模块详细说明如下：

第一数据采集模块31，用于从不同的数据源头进行历史数据采集，得到初始数据，其中，初始数据包含来源标签的属性；

监控特征选取模块32，用于计算初始数据中每个特征的信息值IV，并根据信息值IV筛选出监控特征；

第一数据分析模块33，用于根据监控特征和来源标签，构建多层XGBoost模型，并采用初始数据中的监控特征，对多层XGBoost模型进行训练，得到训练结果；

第二数据采集模块34，用于按照预设周期，从不同的数据源头进行实时数据采集，得到周期监控数据；

第二数据分析模块35，用于将周期监控数据输入到多层XGBoost模型进行分析，得到分析结果；

监控结果确定模块36，用于基于训练结果和分析结果，确定数据稳定性的监控结果。

可选地，初始数据中的数据类型包括连续型和离散性，监控特征选取模块32包括：

针对所有离散型特征进行独热编码，得到数字化变量；

根据数字化变量，计算每个特征对应的信息值IV。

可选地，监控特征选取模块32还包括：

可选地，第一数据分析模块33包括：

将每个监控特征对应的得分，作为训练结果。

可选地数据稳定性监控装置还包括：

对待修复数据进行修复。

可选地，数据稳定性监控装置还包括：

关于数据稳定性监控装置的具体限定可以参见上文中对于数据稳定性监控方法的限定，在此不再赘述。上述数据稳定性监控装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。

所述计算机设备4包括通过***总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是，图中仅示出了具有组件连接存储器41、处理器42、网络接口43的计算机设备4，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器41至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或D界面显示存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器41可以是所述计算机设备4的内部存储单元，例如该计算机设备4的硬盘或内存。在另一些实施例中，所述存储器41也可以是所述计算机设备4的外部存储设备，例如该计算机设备4上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中，所述存储器41通常用于存储安装于所述计算机设备4的操作***和各类应用软件，例如电子文件的控制的程序代码等。此外，所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中，所述处理器42用于运行所述存储器41中存储的程序代码或者处理数据，例如运行电子文件的控制的程序代码。

所述网络接口43可包括无线网络接口或有线网络接口，该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有界面显示程序，所述界面显示程序可被至少一个处理器执行，以使所述至少一个处理器执行如上述的数据稳定性监控方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种数据稳定性监控方法，其特征在于，包括：

所述采用所述初始数据中的监控特征，对所述多层XGBoost模型进行训练，得到训练结果的具体步骤，包括：

针对来源标签相同的初始数据，根据每个监控特征的特征值的大小顺序，对所述初始数据进行排序，得到M个block结构，其中，所述 block结构的数量与所述监控特征的数量相同，M为正整数；

将每个所述监控特征对应的得分，作为所述训练结果；

基于所述训练结果和所述分析结果，确定数据稳定性的监控结果；

所述基于所述训练结果和所述分析结果，确定数据稳定性的监控结果的具体步骤，包括：

将周期监控数据对应的分析结果与训练结果进行对比分析，通过稳定性指标PSI判断周期监控数据的波动情况，若稳定性指标PSI超过预设阈值，则确定监控结果为波动较大，若未超过预设阈值，则确认监控结果为数据较为稳定；

其中，PSI（PopulationStability Index，稳定性指标）用于评估监控特征稳定性，计算公式如下：；

其中，为i个监控特征在分析结果中的评分，/>第i个监控特征在训练结果中的评分。

2.如权利要求1所述的数据稳定性监控方法，其特征在于，所述初始数据中的数据类型包括连续型和离散性，所述计算所述初始数据中每个特征的信息值IV包括：

针对所有离散型特征进行独热编码，得到数字化变量；

根据所述数字化变量，计算每个特征对应的信息值IV。

3.如权利要求1所述的数据稳定性监控方法，其特征在于，所述根据所述信息值IV筛选出监控特征包括：

4.如权利要求1至3任一项所述的数据稳定性监控方法，其特征在于，所述多层XGBoost模型为总分结构，包括一个总模型和若干子模型，每个来源的初始数据对应一个所述子模型。

5.如权利要求1所述的数据稳定性监控方法，其特征在于，在所述基于所述训练结果和所述分析结果，确定数据稳定性的监控结果之后，所述数据稳定性监控方法还包括：

对所述待修复数据进行修复。

6.如权利要求5所述的数据稳定性监控方法，其特征在于，在所述获取所述稳定性指标PSI分布大于预设阈值的待检测数据，作为待修复数据之后，并且，在所述对所述待修复数据进行修复之前，所述数据稳定性监控方法还包括：

7.一种数据稳定性监控装置，其特征在于，包括：

监控结果确定模块，用于基于所述训练结果和所述分析结果，确定数据稳定性的监控结果；

所述第一数据分析模块包括：

排序子模块，用于针对来源标签相同的初始数据，根据每个监控特征的特征值的大小顺序，对所述初始数据进行排序，得到M个block结构，其中，所述 block结构的数量与所述监控特征的数量相同，M为正整数；

训练子模块，用于将所述M个block结构输入到所述初始数据对应的子模型中进行训练，得到树集合；

得分子模块，用于针对每个所述监控特征，将所述树集合中每棵树上所述监控特征的分数进行累加，得到所述监控特征对应的得分；

分析子模块，用于将每个所述监控特征对应的得分，作为所述训练结果；

所述监控结果确定模块进一步用于：

8.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的数据稳定性监控方法。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的数据稳定性监控方法。