CN108549907A

CN108549907A - 一种基于多源迁移学习的数据校验方法

Info

Publication number: CN108549907A
Application number: CN201810320808.6A
Authority: CN
Inventors: 李石君; 刘洋; 杨济海; 邓永康; 余伟; 余放; 李宇轩
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2018-04-11
Filing date: 2018-04-11
Publication date: 2018-09-18
Anticipated expiration: 2038-04-11
Also published as: CN108549907B

Abstract

本发明提出了一种基于多源迁移学习的数据校验方法。本发明的方法为提取源数据集以及目标训练集对应的站点业务数量并进行归一化；通过迁移学习模型SVR模型以及径向基函数构建基于权重的SVR模型；初始化源数据以及目标省份的站点权重并进行归一化，通过分别合并归一化源数据集、归一化目标训练数据集、归一化业务数据量训练集以及归一化业务数量得到合并训练集；将合并训练集以及归一化向量建立预测模型并计算模型误差参数；多次迭代并计算最终的预测模型；用最终的预测模型得到目标省份的预测站点业务数量，并对预测站点业务数量进行反归一化；与现有技术相比，本发明提高了数据质量，节约了数据资源。

Description

一种基于多源迁移学习的数据校验方法

技术领域

本发明属于迁移学习的范畴，尤其涉及一种基于多源迁移学习的数据校验方法。

背景技术

国家电网通信管理***(TMS)作为电力公司的第二张实体网络，承载着电网运行和经营管理的核心业务，是电网安全、稳定、经济运行的重要保障。作为电力公司通信专业的核心管理***，TMS***在资源管理、实时监控、运行管理方面发挥了巨大作用，同时也积累了大量数据。TMS***的以数据库的形式进行保存，各单位独立部署数据库服务器。主要包含TMS资源数据、告警数据、工单数据、内部各模块产生的业务数据；国网通信公司和各分部、省公司、直辖市，上下级***之间资源属地化、工单流转、统计数据上报、任务下发、告警数据上报等数据；同级的外部***存在台账数据、工作流等数据流转。但是TMS***数据质量问题严重影响着实际生产中的数据分析与决策，主要表现在静态资源数据与实际不符、动态资源数据关联错误、基础数据保鲜实施不到位三个方面，主要影响了TMS***为电力通信精益化管理提供坚强支撑的现实意义。与此同时，TMS***中不同省份数据大小差异很大。网络规模较小的省公司数据规模在1G～2G，像国网通信等网络规模大的单位，数据规模达到30G～40G，特别的对于一些特殊业务相对偏远地区的数据甚至只有几百kb，这些数据根本不足以训练一个好的传统机器学习模型。

数据的丢失、错误、过期等数据质量问题一直是大数据分析的一个重要课题，每年应为数据质量问题都会给社会带来巨大的损失。根据德国数据分析机构的调查显示：“美国每年因为劣质数据而造成的损失高达6000亿美元”，在美国由于数据错误引起的医疗事故每年使98000名患者丧生。对于TMS***，电力业务管理频度低，业务管理数据多以报表式月度数据为主，没有实现按天(或更高频度)对业务进展和状态的管理。其次，业务过程数据录入维护不及时，数据生成时间滞后于业务过程，从而产生了大量不符合实际的数据，这现象对公司对实际生产中的业务进行判断和决策带来严重的影响，所以我们在进行数据分析之前必须关注数据的本身。本发明通过对站点业务数量的预测来判断站点***中业务数量是否缺失，从而找到异常站点。这方面数据根据地区省份的不同差异很大。对于数据量足够的省份，传统的机器学习方法可以取得不错的效果，例如支持向量回归机、神经网络等算法，但是传统的机器学习要求训练数据和测试数据的分布保持一致，各个省份的数据并不能放在一起训练，所以对于数据量小的地区的训练就会出现问题，如果强行用一个地区的数据进行分析会因为数据不够而得到不好的模型，或者把各个省份的数据放在一起训练会因为各个数据集分布的不一致而导致模型效果变差。本发明基于此提出了利用其它省份的数据通过迁移学习方法训练目标数据，达到异常站点检测的目的。

迁移学习是机器学习新的一个领域，它的目的是利用已存在的知识对不同的但相关领域进行训练学习。迁移学习放宽了传统机器学习的两个基本条件：训练数据和测试数据满足独立同分布，以及拥有足够的数据训练一个好的模型。研究表明，两个不同的领域的相似度越高，迁移学习就越容易，效果越好，否则效果往往不佳，甚至出现“负迁移”得结果。Domain adaptation是迁移学习领域比较热的研究方向，Pan等人提出了域适应的TCA(Transfer Component Analysis)算法，TCA属于基于特征的迁移学习方法，它的思想是当源域和目标域处于不同数据分布时，将两个领域的数据一起映射到一个高维的再生核希尔伯特空间。在此空间中，最小化源和目标的数据距离，同时最大程度地保留它们各自的内部属性。TCA算法只考虑目标领域和源领域数据在另一个空间上的相关性，过于单一，同时TCA算法的时间复杂度比较高。Dai等人提出了基于实例相关性的TrAdaBoost(TransferAdaBoost)算法，该算法的思想是最大利用源数据，找到源数据中与目标数据相关的数据，然后和目标数据一起训练学习。但是TrAdaBoost算法只利用了一个源数据，算法的结果依赖于源数据与目标数据的相关性，算法的正确性与数据相关性成正比，如果相关很弱，容易产生负迁移。Yao等人通过考虑多个源与目标的相关性，提出了两种多源迁移学习算法，分别是MTrA(MultiSource-TrAdaBoost)和TTrA(Task-TrAdaBoost)，MTrA算法的思想是源数据是有多个数据源，每次迭代的过程中使用当前迭代与目标数据相关性最强的数据源训练弱分类器，然后得到强分类器；TTrA算法的思想是每次迭代会用所有的源数据分别训练一个弱分类器，然后选择与目标数据误差最小的分类器，迭代完后将这些分类器集成一个强的分类器。这两种多源迁移学习算法每次迭代都会选择与目标数据相关性最强的数据源，这样虽然能保证迁移的源数据与目标最相关，但是它们没有利用其它数据源的信息，在实际生产中每个数据源的成本都是很高的，这种操作浪费了公司大量的资源。TMS***中数据质量的问题严重影响了公司对实际业务的判断和操作，各地区数据的分布差异、数据量的差异也给数据质量问题的发现带了挑战。

发明内容

为了解决上述问题，本发明提出了一种基于多源迁移学习的数据校验方法，本发明所采用的技术方案是：

步骤1：通过***数据表得到站点类型、站点电压等级、站点调度等级、站点建成年限、站点中光传输设备数量、站点所属***以及通过pagerank算法计算得到的站点中心度构建站点属性，通过各省各站点的站点属性进一步构建源数据集并进行归一化，通过预测省份的站点属性进一步构建目标训练集并进行归一化，提取源数据集以及目标训练集对应的站点业务数量并进行归一化；

步骤2：通过迁移学习模型SVR模型以及径向基函数构建基于权重的SVR模型；

步骤3：初始化源数据以及目标省份各站点的权重，归一化初始化源数据以及目标省份各站点的权重，并初始化加权多源TrAdaBoost算法中源数据以及目标省份的站点权重，通过分别合并归一化源数据集以及归一化目标训练数据集、归一化业务数据量训练集以及归一化业务数量得到合并训练集；

步骤4：将合并训练集以及归一化向量通过步骤2建立预测模型并计算模型误差参数；

步骤5：重复步骤4至到最大迭代次数并计算最终的预测模型；

步骤6：用最终的预测模型对目标省份的站点属性进行预测得到目标省份的预测站点业务数量，并对预测站点业务数量进行反归一化。

作为优选，步骤1中所述站点属性即特征向量为：

其中，为省份S_k站点m的站点属性,N为省份的数量，为省份S_k站点的数量，为省份S_k站点m的站点类型，为省份S_k站点m的站点电压等级，为省份S_k站点m的站点调度等级，为省份S_k站点m的站点建成年限，为省份S_k站点m的站点中光传输设备数量，为省份S_k站点m的站点所属***，为省份S_k站点m的站点中心度；

从***的数据表中可以得到站点类型、站点电压等级、站点调度等级、站点建成年限、站点中光传输设备数量、站点所属***，省份S_k站点m的站点中心度计算过程首先为根据站点的度以及站点数量进行初始化：

其中,为省份S_k站点m的中心度，为省份S_k站点的数量，为省份S_k站点m的度,进一步根据PageRank算法迭代更新中心度，直到趋于平稳，用以下公式更新:

其中，iter为PageRank算法迭代的次数，N_I＝500为PageRank算法迭代的总次数，为第iter迭代中省份S_k站点m的中心度,为省份S_k的所有站点对省份S_k站点m有光缆连接的站点集合，为与站点连接的第j个站点的中心度,为站点的与外连接的光缆数目，α为阻尼系数；

根据数据量较大的各个省份的站点属性构建源数据集：

其中，N为数据量较大的省份的数量，为第S_k个源数据，第S_k个源数据即省份S_k包含个样本即个站点:

其中，为省份S_k站点的数量即样本的数量；为省份S_k站点m的站点属性,S_N为省份的数量，为省份S_k站点的数量，为省份S_k站点m的站点类型，为省份S_k站点m的站点电压等级，为省份S_k站点m的站点调度等级，为省份S_k站点m的站点建成年限，为省份S_k站点m的站点中光传输设备数量，为省份S_k站点m的站点所属***，为省份S_k站点m的站点中心度；

通过预测省份S_T的站点属性构建目标训练集：

其中，n_T为目标训练集的样本个数即预测省份S_T的站点数量,为预测省份S_T站点i(i∈[1,n_T])的站点属性即特征向量为：

其中，为预测省份S_T站点i的站点类型，为预测省份S_T站点i的站点电压等级，为预测省份S_T站点i的站点调度等级，为预测省份S_T站点i的站点建成年限，为预测省份S_T站点i的站点中光传输设备数量，为预测省份S_T站点i的站点所属***，为预测省份S_T站点i的站点中心度；

分别对源数据集D以及目标训练集进行离散化和归一化，得到归一化源数据集以及归一化目标训练集

统计源数据集D中省份S_k的对应的站点业务数量得到业务数量数据集为：

其中，S_k∈[1，S_N]，为省份S_k的站点数量计；

统计目标训练集中即省份S_T的对应的站点业务数量得到目标业务数量训练集为：

其中，为省份S_k的站点数量计；

将业务数量数据集Y和目标业务数量训练集采用min-max标准化的归一化：

其中，min是取集合最小值，max是取集合最大值,y为业务数量数据集Y和目标业务数量训练集中任意省份的站点数量，业务数量数据集Y和目标业务数量训练集采用min-max标准化的归一化后分别得到归一化业务数量数据集和归一化目标业务数量训练集

作为优选，步骤2中所述基于权重的SVR模型为通过步骤1中所述可知归一化源数据集为：

第S_k个归一化源数据即省份S_k包含个样本即个站点:

根据归一化源数据集构建训练数据集为：

其中，S_N为省份的数量即样本的数量，为省份S_k站点的数量即训练数据集的大小，为训练数据集中省份S_k站点i的归一化业务数量，为训练数据集中省份S_k站点i的归一化站点属性即归一化特征向量为:

其中，为省份S_k站点m的站点类型，为省份S_k站点m的站点电压等级，为省份S_k站点m的站点调度等级，为省份S_k站点m的站点建成年限，为省份S_k站点m的站点中光传输设备数量，为省份S_k站点m的站点所属***，为省份S_k站点m的站点中心度；

对第S_k个归一化源数据中的每个样本即每个站点的归一化属性加权，权重为基于权重的w-SVR模型为：

其中，q为模型的权重参数，b为模型的偏差参数；

基于权重的w-SVR模型的参数求解过程为：

定义线性ε不敏感损失函数为：

其中，ε为不敏感损失值，当省份S_k站点i的归一化业务数量和回归估计函数的预测值之间的差别小于ε，损失等于0；

本发明选择径向基核函数将训练数据集非线性变换到另一个特征空间中，并在径向基核函数变换后特征空间中构造回归估计函数，并初始化第S_k个归一化源数据中的权重径向基核函数公式：

其中，σ²为训练数据集的方差；

在SVR模型中引入权重系数来控制异方差的影响，得到优化目标为：

其中，ξ_i为第一松弛变量参数、ξ'_i为第二松弛变量参数，ε为不敏感损失值，C是模型参数，q为模型的权重参数，b为模型的偏差参数，根据拉格朗日以及对偶问题转换，将优化问题转化成：

其中，α_i为第一拉格朗日算子、α'_i为第二拉格朗日算子，求解出α_i,α'_i的值，同时应该满足KKT条件，因此有：

求出模型权重参数q,偏差参数b:

其中，最终得到回归预测模型：

作为优选，步骤3中所述源数据D中各省份S_k的站点权重初始化为：

其中，为目标省份站点数量；

省份S_k的站点权重通过归一化得到源数据省份S_k归一化权重向量加权多源TrAdaBoost算法中源数据的站点权重为：

目标省份S_T的站点权重通过归一化得到目标省份归一化权重向量加权多源TrAdaBoost算法中目标省份的站点权重为：

合并训练数据集：

其中，为步骤1中所述归一化源数据集中省份S_k的归一化源数据，N为省份的数量,为：

其中，的每个元素为站点的归一化属性，为省份S_k的站点数量，N为省份的数量；

其中，为步骤1中所述归一化业务数量数据集中省份S_k的归一化业务数量，N为省份的数量,为：

其中，的每个元素为站点的归一化业务数量，为省份S_k的站点数量，N为省份的数量；

其中，为步骤1中所述归一化目标训练集：

其中，中每个元素为目标省份S_T的归一化属性，为目标省份S_T的站点数量

其中，为步骤1中所述目标省份的归一化目标业务数量训练集：

其中，的每个元素为目标省份站点的归一化业务数量，为目标省份的站点数量；

作为优选，步骤4中所述将合并训练数据集D_k,Y_k、加权多源TrAdaBoost算法中源数据的站点权重以及目标省份的站点权重通过步骤2构建基于权重的SVR模型集合：

其中，为第t次迭代中省份S_k的第K个基于权重的SVR模型，N是源数据的数量即省份的数量，为第t次迭代中省份S_k站点i的第一拉格朗日算子，为第t次迭代中省份S_k站点i的第二拉格朗日算子，为第t次迭代中省份S_k站点i的偏差参数，为省份S_k站点i的径向基核函数；

计算预测模型在归一化目标训练集以及归一化目标业务数量训练集在第t次迭代中误差：

其中，为第t次迭代中目标省份S_T站点i的归一化权重，得到的目标省份S_T站点i的业务数量预测值，是目标省份S_T站点i的业务数量即真实值，根据误差更新预测模型的权重：

最后，得到第t次迭代的候选预测模型h_t:

同时，计算候选预测模型h_t在目标测试数据D_T,Y_T上的误差,w_t,i为目标省份数据站点的权重：

设置用于更新样本权重的参数φ_t：

其中，ε_t为第t次迭代时得到的模型的误差，更新目标数据样本的权重：

其中，为第t次迭代中目标省份S_T站点i的权重，得到的目标省份S_T站点i的业务数量预测值，是目标省份S_T站点i的业务数量即真实值，ε为不敏感损失值，为目标省份的站点数量；

更新各个地区源数据样本的权重：

其中，为第t次迭代源数据省份S_k站点i的权重，第t次迭代得到的站点业务数量预测值，是站点业务数量真实值，ε为不敏感损失值，为省份的站点数目，参数为：

其中，M为最大迭代次数，t为当前迭代次数t∈[1，M]，根据步骤1中可知源数据中，为各省份站点数的总和；

作为优选，步骤5中所述重复步骤4至到最大迭代次数并计算最终的预测模型为

如果t＝M则计算出最终的预测模型f(x)：

其中，φ_t为每次迭代过程中产生的参数值，h_t(x)是每次迭代过程中产生的模型；

作为优选，步骤6中所述对于目标省份S_T的站点i的站点属性即特征向量：

模型预测值为预测值执行反归一化操作：

其中，min是取集合最小值，max是取集合最大值,

与现有技术相比，本发明节约了数据资源，提高了数据质量。

附图说明

图1：为本发明的方法流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

下面结合图1介绍本发明实施例的具体步骤，本发明提供了一种基于多源迁移学习的数据校验方法，其具体步骤为：

步骤1中所述站点属性即特征向量为：

其中，为省份S_k站点m的站点属性,N＝10为省份的数量，为省份S_k站点的数量，为省份S_k站点m的站点类型，为省份S_k站点m的站点电压等级，为省份S_k站点m的站点调度等级，为省份S_k站点m的站点建成年限，为省份S_k站点m的站点中光传输设备数量，为省份S_k站点m的站点所属***，为省份S_k站点m的站点中心度；

其中，iter为PageRank算法迭代的次数，N_I＝500为PageRank算法迭代的总次数，为第iter迭代中省份S_k站点m的中心度,为省份S_k的所有站点对省份S_k站点m有光缆连接的站点集合，为与站点连接的第j个站点的中心度,为站点的与外连接的光缆数目，α＝0.85为阻尼系数；

根据数据量较大的各个省份的站点属性构建源数据集：

其中，N＝10为数据量较大的省份的数量，为第S_k个源数据，第S_k个源数据即省份S_k包含个样本即个站点:

通过预测省份S_T的站点属性构建目标训练集：

其中，S_k∈[1，S_N]，为省份S_k的站点数量计；

其中，为省份S_k的站点数量计；

步骤2中所述基于权重的SVR模型为通过步骤1中所述可知归一化源数据集为：

第S_k个归一化源数据即省份S_k包含个样本即个站点:

根据归一化源数据集构建训练数据集为：

其中，q为模型的权重参数，b为模型的偏差参数；

基于权重的w-SVR模型的参数求解过程为：

定义线性ε不敏感损失函数为：

其中，ε＝1/e为不敏感损失值，当省份S_k站点i的归一化业务数量和回归估计函数的预测值之间的差别小于ε，损失等于0；

其中，σ²为训练数据集的方差；

其中，ξ_i为第一松弛变量参数、ξ'_i为第二松弛变量参数，ε＝1/e为不敏感损失值，C是模型参数，q为模型的权重参数，b为模型的偏差参数，根据拉格朗日以及对偶问题转换，将优化问题转化成：

求出模型权重参数q,偏差参数b:

其中，最终得到回归预测模型：

步骤3中所述源数据D中各省份S_k的站点权重初始化为：

其中，为目标省份站点数量；

合并训练数据集：

其中，为步骤1中所述归一化业务数量数据集中省份S_k的归一化业务数量，N＝10为省份的数量,为：

其中，的每个元素为站点的归一化业务数量，为省份S_k的站点数量，N＝10为省份的数量；

其中，为步骤1中所述归一化目标训练集：

步骤4中所述将合并训练数据集D_k,Y_k、加权多源TrAdaBoost算法中源数据的站点权重以及目标省份的站点权重通过步骤2构建基于权重的SVR模型集合：

最后，得到第t次迭代的候选预测模型h_t:

设置用于更新样本权重的参数φ_t：

其中，为第t次迭代中目标省份S_T站点i的权重，得到的目标省份S_T站点i的业务数量预测值，是目标省份S_T站点i的业务数量即真实值，ε＝1/e为不敏感损失值，为目标省份的站点数量；

更新各个地区源数据样本的权重：

其中，为第t次迭代源数据省份S_k站点i的权重，第t次迭代得到的站点业务数量预测值，是站点业务数量真实值，ε＝1/e为不敏感损失值，为省份的站点数目，参数为：

其中，M＝200为最大迭代次数，t为当前迭代次数t∈[1，M]，根据步骤1中可知源数据中，为各省份站点数的总和；

步骤5中所述重复步骤4至到最大迭代次数并计算最终的预测模型为

如果t＝M,M＝200则计算出最终的预测模型f(x)：

步骤6中所述对于目标省份S_T的站点i的站点属性即特征向量：

模型预测值为预测值执行反归一化操作：

其中，min是取集合最小值，max是取集合最大值,

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于多源迁移学习的数据校验方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于多源迁移学习的数据校验方法，其特征在于：步骤1中所述站点属性即特征向量为：

其中，为省份S_k站点m的站点属性,S_k∈[1,S_N],N为省份的数量，为省份S_k站点的数量，为省份S_k站点m的站点类型，为省份S_k站点m的站点电压等级，为省份S_k站点m的站点调度等级，为省份S_k站点m的站点建成年限，为省份S_k站点m的站点中光传输设备数量，为省份S_k站点m的站点所属***，为省份S_k站点m的站点中心度；

根据数据量较大的各个省份的站点属性构建源数据集：

其中，为省份S_k站点的数量即样本的数量；为省份S_k站点m的站点属性,S_k∈[1,S_N],S_N为省份的数量，为省份S_k站点的数量，为省份S_k站点m的站点类型，为省份S_k站点m的站点电压等级，为省份S_k站点m的站点调度等级，为省份S_k站点m的站点建成年限，为省份S_k站点m的站点中光传输设备数量，为省份S_k站点m的站点所属***，为省份S_k站点m的站点中心度；

通过预测省份S_T的站点属性构建目标训练集：

其中，S_k∈[1,S_N]，为省份S_k的站点数量计；

其中，为省份S_k的站点数量计；

3.根据权利要求1所述的基于多源迁移学习的数据校验方法，其特征在于：步骤2中所述基于权重的SVR模型为通过步骤1中所述可知归一化源数据集为：

第S_k个归一化源数据即省份S_k包含个样本即个站点:

根据归一化源数据集构建训练数据集为：

其中，q为模型的权重参数，b为模型的偏差参数；

基于权重的w-SVR模型的参数求解过程为：

定义线性ε不敏感损失函数为：

其中，σ²为训练数据集的方差；

其中，ξ_i为第一松弛变量参数、ξ_i'为第二松弛变量参数，ε为不敏感损失值，C是模型参数，q为模型的权重参数，b为模型的偏差参数，根据拉格朗日以及对偶问题转换，将优化问题转化成：

其中，α_i为第一拉格朗日算子、α’_i为第二拉格朗日算子，求解出α_i,α’_i的值，同时应该满足KKT条件，因此有：

求出模型权重参数q,偏差参数b:

其中，0＜α_i,最终得到回归预测模型：

4.根据权利要求1所述的基于多源迁移学习的数据校验方法，其特征在于：

步骤3中所述源数据D中各省份S_k的站点权重初始化为：

其中，为省份S_k的样本数即站点的数量，目标省份S_T的站点权重初始化为:

其中，为目标省份站点数量；

合并训练数据集：

其中，为步骤1中所述归一化目标训练集：

其中，的每个元素为目标省份站点的归一化业务数量，为目标省份的站点数量。

5.根据权利要求1所述的基于多源迁移学习的数据校验方法，其特征在于：步骤4中所述将合并训练数据集D_k,Y_k、加权多源TrAdaBoost算法中源数据的站点权重以及目标省份的站点权重通过步骤2构建基于权重的SVR模型集合：

最后，得到第t次迭代的候选预测模型h_t:

设置用于更新样本权重的参数φ_t：

更新各个地区源数据样本的权重：

其中，M为最大迭代次数，t为当前迭代次数t∈[1，M]，根据步骤1中可知源数据中，为各省份站点数的总和。

6.根据权利要求1所述的基于多源迁移学习的数据校验方法，其特征在于：步骤5中所述重复步骤4至到最大迭代次数并计算最终的预测模型为：

如果t＝M则计算出最终的预测模型f(x)：

其中，φ_t为每次迭代过程中产生的参数值，h_t(x)是每次迭代过程中产生的模型。

7.根据权利要求1所述的基于多源迁移学习的数据校验方法，其特征在于：步骤6中所述对于目标省份S_T的站点i的站点属性即特征向量：

模型预测值为预测值执行反归一化操作：

其中，min是取集合最小值，max是取集合最大值,