CN108549907A - 一种基于多源迁移学习的数据校验方法 - Google Patents

一种基于多源迁移学习的数据校验方法 Download PDF

Info

Publication number
CN108549907A
CN108549907A CN201810320808.6A CN201810320808A CN108549907A CN 108549907 A CN108549907 A CN 108549907A CN 201810320808 A CN201810320808 A CN 201810320808A CN 108549907 A CN108549907 A CN 108549907A
Authority
CN
China
Prior art keywords
website
province
target
normalization
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810320808.6A
Other languages
English (en)
Other versions
CN108549907B (zh
Inventor
李石君
刘洋
杨济海
邓永康
余伟
余放
李宇轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201810320808.6A priority Critical patent/CN108549907B/zh
Publication of CN108549907A publication Critical patent/CN108549907A/zh
Application granted granted Critical
Publication of CN108549907B publication Critical patent/CN108549907B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/245Classification techniques relating to the decision surface

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Optimization (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提出了一种基于多源迁移学习的数据校验方法。本发明的方法为提取源数据集以及目标训练集对应的站点业务数量并进行归一化;通过迁移学习模型SVR模型以及径向基函数构建基于权重的SVR模型;初始化源数据以及目标省份的站点权重并进行归一化,通过分别合并归一化源数据集、归一化目标训练数据集、归一化业务数据量训练集以及归一化业务数量得到合并训练集;将合并训练集以及归一化向量建立预测模型并计算模型误差参数;多次迭代并计算最终的预测模型;用最终的预测模型得到目标省份的预测站点业务数量,并对预测站点业务数量进行反归一化;与现有技术相比,本发明提高了数据质量,节约了数据资源。

Description

一种基于多源迁移学习的数据校验方法
技术领域
本发明属于迁移学习的范畴,尤其涉及一种基于多源迁移学习的数据校验方法。
背景技术
国家电网通信管理***(TMS)作为电力公司的第二张实体网络,承载着电网运行和经营管理的核心业务,是电网安全、稳定、经济运行的重要保障。作为电力公司通信专业的核心管理***,TMS***在资源管理、实时监控、运行管理方面发挥了巨大作用,同时也积累了大量数据。TMS***的以数据库的形式进行保存,各单位独立部署数据库服务器。主要包含TMS资源数据、告警数据、工单数据、内部各模块产生的业务数据;国网通信公司和各分部、省公司、直辖市,上下级***之间资源属地化、工单流转、统计数据上报、任务下发、告警数据上报等数据;同级的外部***存在台账数据、工作流等数据流转。但是TMS***数据质量问题严重影响着实际生产中的数据分析与决策,主要表现在静态资源数据与实际不符、动态资源数据关联错误、基础数据保鲜实施不到位三个方面,主要影响了TMS***为电力通信精益化管理提供坚强支撑的现实意义。与此同时,TMS***中不同省份数据大小差异很大。网络规模较小的省公司数据规模在1G~2G,像国网通信等网络规模大的单位,数据规模达到30G~40G,特别的对于一些特殊业务相对偏远地区的数据甚至只有几百kb,这些数据根本不足以训练一个好的传统机器学习模型。
数据的丢失、错误、过期等数据质量问题一直是大数据分析的一个重要课题,每年应为数据质量问题都会给社会带来巨大的损失。根据德国数据分析机构的调查显示:“美国每年因为劣质数据而造成的损失高达6000亿美元”,在美国由于数据错误引起的医疗事故每年使98000名患者丧生。对于TMS***,电力业务管理频度低,业务管理数据多以报表式月度数据为主,没有实现按天(或更高频度)对业务进展和状态的管理。其次,业务过程数据录入维护不及时,数据生成时间滞后于业务过程,从而产生了大量不符合实际的数据,这现象对公司对实际生产中的业务进行判断和决策带来严重的影响,所以我们在进行数据分析之前必须关注数据的本身。本发明通过对站点业务数量的预测来判断站点***中业务数量是否缺失,从而找到异常站点。这方面数据根据地区省份的不同差异很大。对于数据量足够的省份,传统的机器学习方法可以取得不错的效果,例如支持向量回归机、神经网络等算法,但是传统的机器学习要求训练数据和测试数据的分布保持一致,各个省份的数据并不能放在一起训练,所以对于数据量小的地区的训练就会出现问题,如果强行用一个地区的数据进行分析会因为数据不够而得到不好的模型,或者把各个省份的数据放在一起训练会因为各个数据集分布的不一致而导致模型效果变差。本发明基于此提出了利用其它省份的数据通过迁移学习方法训练目标数据,达到异常站点检测的目的。
迁移学习是机器学习新的一个领域,它的目的是利用已存在的知识对不同的但相关领域进行训练学习。迁移学习放宽了传统机器学习的两个基本条件:训练数据和测试数据满足独立同分布,以及拥有足够的数据训练一个好的模型。研究表明,两个不同的领域的相似度越高,迁移学习就越容易,效果越好,否则效果往往不佳,甚至出现“负迁移”得结果。Domain adaptation是迁移学习领域比较热的研究方向,Pan等人提出了域适应的TCA(Transfer Component Analysis)算法,TCA属于基于特征的迁移学习方法,它的思想是当源域和目标域处于不同数据分布时,将两个领域的数据一起映射到一个高维的再生核希尔伯特空间。在此空间中,最小化源和目标的数据距离,同时最大程度地保留它们各自的内部属性。TCA算法只考虑目标领域和源领域数据在另一个空间上的相关性,过于单一,同时TCA算法的时间复杂度比较高。Dai等人提出了基于实例相关性的TrAdaBoost(TransferAdaBoost)算法,该算法的思想是最大利用源数据,找到源数据中与目标数据相关的数据,然后和目标数据一起训练学习。但是TrAdaBoost算法只利用了一个源数据,算法的结果依赖于源数据与目标数据的相关性,算法的正确性与数据相关性成正比,如果相关很弱,容易产生负迁移。Yao等人通过考虑多个源与目标的相关性,提出了两种多源迁移学习算法,分别是MTrA(MultiSource-TrAdaBoost)和TTrA(Task-TrAdaBoost),MTrA算法的思想是源数据是有多个数据源,每次迭代的过程中使用当前迭代与目标数据相关性最强的数据源训练弱分类器,然后得到强分类器;TTrA算法的思想是每次迭代会用所有的源数据分别训练一个弱分类器,然后选择与目标数据误差最小的分类器,迭代完后将这些分类器集成一个强的分类器。这两种多源迁移学习算法每次迭代都会选择与目标数据相关性最强的数据源,这样虽然能保证迁移的源数据与目标最相关,但是它们没有利用其它数据源的信息,在实际生产中每个数据源的成本都是很高的,这种操作浪费了公司大量的资源。TMS***中数据质量的问题严重影响了公司对实际业务的判断和操作,各地区数据的分布差异、数据量的差异也给数据质量问题的发现带了挑战。
发明内容
为了解决上述问题,本发明提出了一种基于多源迁移学习的数据校验方法,本发明所采用的技术方案是:
步骤1:通过***数据表得到站点类型、站点电压等级、站点调度等级、站点建成年限、站点中光传输设备数量、站点所属***以及通过pagerank算法计算得到的站点中心度构建站点属性,通过各省各站点的站点属性进一步构建源数据集并进行归一化,通过预测省份的站点属性进一步构建目标训练集并进行归一化,提取源数据集以及目标训练集对应的站点业务数量并进行归一化;
步骤2:通过迁移学习模型SVR模型以及径向基函数构建基于权重的SVR模型;
步骤3:初始化源数据以及目标省份各站点的权重,归一化初始化源数据以及目标省份各站点的权重,并初始化加权多源TrAdaBoost算法中源数据以及目标省份的站点权重,通过分别合并归一化源数据集以及归一化目标训练数据集、归一化业务数据量训练集以及归一化业务数量得到合并训练集;
步骤4:将合并训练集以及归一化向量通过步骤2建立预测模型并计算模型误差参数;
步骤5:重复步骤4至到最大迭代次数并计算最终的预测模型;
步骤6:用最终的预测模型对目标省份的站点属性进行预测得到目标省份的预测站点业务数量,并对预测站点业务数量进行反归一化。
作为优选,步骤1中所述站点属性即特征向量为:
其中,为省份Sk站点m的站点属性,N为省份的数量,为省份Sk站点的数量,为省份Sk站点m的站点类型,为省份Sk站点m的站点电压等级,为省份Sk站点m的站点调度等级,为省份Sk站点m的站点建成年限,为省份Sk站点m的站点中光传输设备数量,为省份Sk站点m的站点所属***,为省份Sk站点m的站点中心度;
从***的数据表中可以得到站点类型、站点电压等级、站点调度等级、站点建成年限、站点中光传输设备数量、站点所属***,省份Sk站点m的站点中心度计算过程首先为根据站点的度以及站点数量进行初始化:
其中,为省份Sk站点m的中心度,为省份Sk站点的数量,为省份Sk站点m的度,进一步根据PageRank算法迭代更新中心度,直到趋于平稳,用以下公式更新:
其中,iter为PageRank算法迭代的次数,NI=500为PageRank算法迭代的总次数,为第iter迭代中省份Sk站点m的中心度,为省份Sk的所有站点对省份Sk站点m有光缆连接的站点集合,为与站点连接的第j个站点的中心度,为站点的与外连接的光缆数目,α为阻尼系数;
根据数据量较大的各个省份的站点属性构建源数据集:
其中,N为数据量较大的省份的数量,为第Sk个源数据,第Sk个源数据即省份Sk包含个样本即个站点:
其中,为省份Sk站点的数量即样本的数量;为省份Sk站点m的站点属性,SN为省份的数量,为省份Sk站点的数量,为省份Sk站点m的站点类型,为省份Sk站点m的站点电压等级,为省份Sk站点m的站点调度等级,为省份Sk站点m的站点建成年限,为省份Sk站点m的站点中光传输设备数量,为省份Sk站点m的站点所属***,为省份Sk站点m的站点中心度;
通过预测省份ST的站点属性构建目标训练集:
其中,nT为目标训练集的样本个数即预测省份ST的站点数量,为预测省份ST站点i(i∈[1,nT])的站点属性即特征向量为:
其中,为预测省份ST站点i的站点类型,为预测省份ST站点i的站点电压等级,为预测省份ST站点i的站点调度等级,为预测省份ST站点i的站点建成年限,为预测省份ST站点i的站点中光传输设备数量,为预测省份ST站点i的站点所属***,为预测省份ST站点i的站点中心度;
分别对源数据集D以及目标训练集进行离散化和归一化,得到归一化源数据集以及归一化目标训练集
统计源数据集D中省份Sk的对应的站点业务数量得到业务数量数据集为:
其中,Sk∈[1,SN],为省份Sk的站点数量计;
统计目标训练集中即省份ST的对应的站点业务数量得到目标业务数量训练集为:
其中,为省份Sk的站点数量计;
将业务数量数据集Y和目标业务数量训练集采用min-max标准化的归一化:
其中,min是取集合最小值,max是取集合最大值,y为业务数量数据集Y和目标业务数量训练集中任意省份的站点数量,业务数量数据集Y和目标业务数量训练集采用min-max标准化的归一化后分别得到归一化业务数量数据集和归一化目标业务数量训练集
作为优选,步骤2中所述基于权重的SVR模型为通过步骤1中所述可知归一化源数据集为:
第Sk个归一化源数据即省份Sk包含个样本即个站点:
根据归一化源数据集构建训练数据集为:
其中,SN为省份的数量即样本的数量,为省份Sk站点的数量即训练数据集的大小,为训练数据集中省份Sk站点i的归一化业务数量,为训练数据集中省份Sk站点i的归一化站点属性即归一化特征向量为:
其中,为省份Sk站点m的站点类型,为省份Sk站点m的站点电压等级,为省份Sk站点m的站点调度等级,为省份Sk站点m的站点建成年限,为省份Sk站点m的站点中光传输设备数量,为省份Sk站点m的站点所属***,为省份Sk站点m的站点中心度;
对第Sk个归一化源数据中的每个样本即每个站点的归一化属性加权,权重为基于权重的w-SVR模型为:
其中,q为模型的权重参数,b为模型的偏差参数;
基于权重的w-SVR模型的参数求解过程为:
定义线性ε不敏感损失函数为:
其中,ε为不敏感损失值,当省份Sk站点i的归一化业务数量和回归估计函数的预测值之间的差别小于ε,损失等于0;
本发明选择径向基核函数将训练数据集非线性变换到另一个特征空间中,并在径向基核函数变换后特征空间中构造回归估计函数,并初始化第Sk个归一化源数据中的权重径向基核函数公式:
其中,σ2为训练数据集的方差;
在SVR模型中引入权重系数来控制异方差的影响,得到优化目标为:
其中,ξi为第一松弛变量参数、ξ'i为第二松弛变量参数,ε为不敏感损失值,C是模型参数,q为模型的权重参数,b为模型的偏差参数,根据拉格朗日以及对偶问题转换,将优化问题转化成:
其中,αi为第一拉格朗日算子、α'i为第二拉格朗日算子,求解出αi,α'i的值,同时应该满足KKT条件,因此有:
求出模型权重参数q,偏差参数b:
其中,最终得到回归预测模型:
作为优选,步骤3中所述源数据D中各省份Sk的站点权重初始化为:
其中,为目标省份站点数量;
省份Sk的站点权重通过归一化得到源数据省份Sk归一化权重向量加权多源TrAdaBoost算法中源数据的站点权重为:
目标省份ST的站点权重通过归一化得到目标省份归一化权重向量加权多源TrAdaBoost算法中目标省份的站点权重为:
合并训练数据集:
其中,为步骤1中所述归一化源数据集中省份Sk的归一化源数据,N为省份的数量,为:
其中,的每个元素为站点的归一化属性,为省份Sk的站点数量,N为省份的数量;
其中,为步骤1中所述归一化业务数量数据集中省份Sk的归一化业务数量,N为省份的数量,为:
其中,的每个元素为站点的归一化业务数量,为省份Sk的站点数量,N为省份的数量;
其中,为步骤1中所述归一化目标训练集:
其中,中每个元素为目标省份ST的归一化属性,为目标省份ST的站点数量
其中,为步骤1中所述目标省份的归一化目标业务数量训练集:
其中,的每个元素为目标省份站点的归一化业务数量,为目标省份的站点数量;
作为优选,步骤4中所述将合并训练数据集Dk,Yk、加权多源TrAdaBoost算法中源数据的站点权重以及目标省份的站点权重通过步骤2构建基于权重的SVR模型集合:
其中,为第t次迭代中省份Sk的第K个基于权重的SVR模型,N是源数据的数量即省份的数量,为第t次迭代中省份Sk站点i的第一拉格朗日算子,为第t次迭代中省份Sk站点i的第二拉格朗日算子,为第t次迭代中省份Sk站点i的偏差参数,为省份Sk站点i的径向基核函数;
计算预测模型在归一化目标训练集以及归一化目标业务数量训练集在第t次迭代中误差:
其中,为第t次迭代中目标省份ST站点i的归一化权重,得到的目标省份ST站点i的业务数量预测值,是目标省份ST站点i的业务数量即真实值,根据误差更新预测模型的权重:
最后,得到第t次迭代的候选预测模型ht:
同时,计算候选预测模型ht在目标测试数据DT,YT上的误差,wt,i为目标省份数据站点的权重:
设置用于更新样本权重的参数φt
其中,εt为第t次迭代时得到的模型的误差,更新目标数据样本的权重:
其中,为第t次迭代中目标省份ST站点i的权重,得到的目标省份ST站点i的业务数量预测值,是目标省份ST站点i的业务数量即真实值,ε为不敏感损失值,为目标省份的站点数量;
更新各个地区源数据样本的权重:
其中,为第t次迭代源数据省份Sk站点i的权重,第t次迭代得到的站点业务数量预测值,是站点业务数量真实值,ε为不敏感损失值,为省份的站点数目,参数为:
其中,M为最大迭代次数,t为当前迭代次数t∈[1,M],根据步骤1中可知源数据中,为各省份站点数的总和;
作为优选,步骤5中所述重复步骤4至到最大迭代次数并计算最终的预测模型为
如果t=M则计算出最终的预测模型f(x):
其中,φt为每次迭代过程中产生的参数值,ht(x)是每次迭代过程中产生的模型;
作为优选,步骤6中所述对于目标省份ST的站点i的站点属性即特征向量:
模型预测值为预测值执行反归一化操作:
其中,min是取集合最小值,max是取集合最大值,
与现有技术相比,本发明节约了数据资源,提高了数据质量。
附图说明
图1:为本发明的方法流程图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
下面结合图1介绍本发明实施例的具体步骤,本发明提供了一种基于多源迁移学习的数据校验方法,其具体步骤为:
步骤1:通过***数据表得到站点类型、站点电压等级、站点调度等级、站点建成年限、站点中光传输设备数量、站点所属***以及通过pagerank算法计算得到的站点中心度构建站点属性,通过各省各站点的站点属性进一步构建源数据集并进行归一化,通过预测省份的站点属性进一步构建目标训练集并进行归一化,提取源数据集以及目标训练集对应的站点业务数量并进行归一化;
步骤1中所述站点属性即特征向量为:
其中,为省份Sk站点m的站点属性,N=10为省份的数量,为省份Sk站点的数量,为省份Sk站点m的站点类型,为省份Sk站点m的站点电压等级,为省份Sk站点m的站点调度等级,为省份Sk站点m的站点建成年限,为省份Sk站点m的站点中光传输设备数量,为省份Sk站点m的站点所属***,为省份Sk站点m的站点中心度;
从***的数据表中可以得到站点类型、站点电压等级、站点调度等级、站点建成年限、站点中光传输设备数量、站点所属***,省份Sk站点m的站点中心度计算过程首先为根据站点的度以及站点数量进行初始化:
其中,为省份Sk站点m的中心度,为省份Sk站点的数量,为省份Sk站点m的度,进一步根据PageRank算法迭代更新中心度,直到趋于平稳,用以下公式更新:
其中,iter为PageRank算法迭代的次数,NI=500为PageRank算法迭代的总次数,为第iter迭代中省份Sk站点m的中心度,为省份Sk的所有站点对省份Sk站点m有光缆连接的站点集合,为与站点连接的第j个站点的中心度,为站点的与外连接的光缆数目,α=0.85为阻尼系数;
根据数据量较大的各个省份的站点属性构建源数据集:
其中,N=10为数据量较大的省份的数量,为第Sk个源数据,第Sk个源数据即省份Sk包含个样本即个站点:
其中,为省份Sk站点的数量即样本的数量;为省份Sk站点m的站点属性,SN为省份的数量,为省份Sk站点的数量,为省份Sk站点m的站点类型,为省份Sk站点m的站点电压等级,为省份Sk站点m的站点调度等级,为省份Sk站点m的站点建成年限,为省份Sk站点m的站点中光传输设备数量,为省份Sk站点m的站点所属***,为省份Sk站点m的站点中心度;
通过预测省份ST的站点属性构建目标训练集:
其中,nT为目标训练集的样本个数即预测省份ST的站点数量,为预测省份ST站点i(i∈[1,nT])的站点属性即特征向量为:
其中,为预测省份ST站点i的站点类型,为预测省份ST站点i的站点电压等级,为预测省份ST站点i的站点调度等级,为预测省份ST站点i的站点建成年限,为预测省份ST站点i的站点中光传输设备数量,为预测省份ST站点i的站点所属***,为预测省份ST站点i的站点中心度;
分别对源数据集D以及目标训练集进行离散化和归一化,得到归一化源数据集以及归一化目标训练集
统计源数据集D中省份Sk的对应的站点业务数量得到业务数量数据集为:
其中,Sk∈[1,SN],为省份Sk的站点数量计;
统计目标训练集中即省份ST的对应的站点业务数量得到目标业务数量训练集为:
其中,为省份Sk的站点数量计;
将业务数量数据集Y和目标业务数量训练集采用min-max标准化的归一化:
其中,min是取集合最小值,max是取集合最大值,y为业务数量数据集Y和目标业务数量训练集中任意省份的站点数量,业务数量数据集Y和目标业务数量训练集采用min-max标准化的归一化后分别得到归一化业务数量数据集和归一化目标业务数量训练集
步骤2:通过迁移学习模型SVR模型以及径向基函数构建基于权重的SVR模型;
步骤2中所述基于权重的SVR模型为通过步骤1中所述可知归一化源数据集为:
第Sk个归一化源数据即省份Sk包含个样本即个站点:
根据归一化源数据集构建训练数据集为:
其中,SN为省份的数量即样本的数量,为省份Sk站点的数量即训练数据集的大小,为训练数据集中省份Sk站点i的归一化业务数量,为训练数据集中省份Sk站点i的归一化站点属性即归一化特征向量为:
其中,为省份Sk站点m的站点类型,为省份Sk站点m的站点电压等级,为省份Sk站点m的站点调度等级,为省份Sk站点m的站点建成年限,为省份Sk站点m的站点中光传输设备数量,为省份Sk站点m的站点所属***,为省份Sk站点m的站点中心度;
对第Sk个归一化源数据中的每个样本即每个站点的归一化属性加权,权重为基于权重的w-SVR模型为:
其中,q为模型的权重参数,b为模型的偏差参数;
基于权重的w-SVR模型的参数求解过程为:
定义线性ε不敏感损失函数为:
其中,ε=1/e为不敏感损失值,当省份Sk站点i的归一化业务数量和回归估计函数的预测值之间的差别小于ε,损失等于0;
本发明选择径向基核函数将训练数据集非线性变换到另一个特征空间中,并在径向基核函数变换后特征空间中构造回归估计函数,并初始化第Sk个归一化源数据中的权重径向基核函数公式:
其中,σ2为训练数据集的方差;
在SVR模型中引入权重系数来控制异方差的影响,得到优化目标为:
其中,ξi为第一松弛变量参数、ξ'i为第二松弛变量参数,ε=1/e为不敏感损失值,C是模型参数,q为模型的权重参数,b为模型的偏差参数,根据拉格朗日以及对偶问题转换,将优化问题转化成:
其中,αi为第一拉格朗日算子、α'i为第二拉格朗日算子,求解出αi,α'i的值,同时应该满足KKT条件,因此有:
求出模型权重参数q,偏差参数b:
其中,最终得到回归预测模型:
步骤3:初始化源数据以及目标省份各站点的权重,归一化初始化源数据以及目标省份各站点的权重,并初始化加权多源TrAdaBoost算法中源数据以及目标省份的站点权重,通过分别合并归一化源数据集以及归一化目标训练数据集、归一化业务数据量训练集以及归一化业务数量得到合并训练集;
步骤3中所述源数据D中各省份Sk的站点权重初始化为:
其中,为目标省份站点数量;
省份Sk的站点权重通过归一化得到源数据省份Sk归一化权重向量加权多源TrAdaBoost算法中源数据的站点权重为:
目标省份ST的站点权重通过归一化得到目标省份归一化权重向量加权多源TrAdaBoost算法中目标省份的站点权重为:
合并训练数据集:
其中,为步骤1中所述归一化源数据集中省份Sk的归一化源数据,N为省份的数量,为:
其中,的每个元素为站点的归一化属性,为省份Sk的站点数量,N为省份的数量;
其中,为步骤1中所述归一化业务数量数据集中省份Sk的归一化业务数量,N=10为省份的数量,为:
其中,的每个元素为站点的归一化业务数量,为省份Sk的站点数量,N=10为省份的数量;
其中,为步骤1中所述归一化目标训练集:
其中,中每个元素为目标省份ST的归一化属性,为目标省份ST的站点数量
其中,为步骤1中所述目标省份的归一化目标业务数量训练集:
其中,的每个元素为目标省份站点的归一化业务数量,为目标省份的站点数量;
步骤4:将合并训练集以及归一化向量通过步骤2建立预测模型并计算模型误差参数;
步骤4中所述将合并训练数据集Dk,Yk、加权多源TrAdaBoost算法中源数据的站点权重以及目标省份的站点权重通过步骤2构建基于权重的SVR模型集合:
其中,为第t次迭代中省份Sk的第K个基于权重的SVR模型,N是源数据的数量即省份的数量,为第t次迭代中省份Sk站点i的第一拉格朗日算子,为第t次迭代中省份Sk站点i的第二拉格朗日算子,为第t次迭代中省份Sk站点i的偏差参数,为省份Sk站点i的径向基核函数;
计算预测模型在归一化目标训练集以及归一化目标业务数量训练集在第t次迭代中误差:
其中,为第t次迭代中目标省份ST站点i的归一化权重,得到的目标省份ST站点i的业务数量预测值,是目标省份ST站点i的业务数量即真实值,根据误差更新预测模型的权重:
最后,得到第t次迭代的候选预测模型ht:
设置用于更新样本权重的参数φt
其中,εt为第t次迭代时得到的模型的误差,更新目标数据样本的权重:
其中,为第t次迭代中目标省份ST站点i的权重,得到的目标省份ST站点i的业务数量预测值,是目标省份ST站点i的业务数量即真实值,ε=1/e为不敏感损失值,为目标省份的站点数量;
更新各个地区源数据样本的权重:
其中,为第t次迭代源数据省份Sk站点i的权重,第t次迭代得到的站点业务数量预测值,是站点业务数量真实值,ε=1/e为不敏感损失值,为省份的站点数目,参数为:
其中,M=200为最大迭代次数,t为当前迭代次数t∈[1,M],根据步骤1中可知源数据中,为各省份站点数的总和;
步骤5:重复步骤4至到最大迭代次数并计算最终的预测模型;
步骤5中所述重复步骤4至到最大迭代次数并计算最终的预测模型为
如果t=M,M=200则计算出最终的预测模型f(x):
其中,φt为每次迭代过程中产生的参数值,ht(x)是每次迭代过程中产生的模型;
步骤6:用最终的预测模型对目标省份的站点属性进行预测得到目标省份的预测站点业务数量,并对预测站点业务数量进行反归一化。
步骤6中所述对于目标省份ST的站点i的站点属性即特征向量:
模型预测值为预测值执行反归一化操作:
其中,min是取集合最小值,max是取集合最大值,
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (7)

1.一种基于多源迁移学习的数据校验方法,其特征在于,包括以下步骤:
步骤1:通过***数据表得到站点类型、站点电压等级、站点调度等级、站点建成年限、站点中光传输设备数量、站点所属***以及通过pagerank算法计算得到的站点中心度构建站点属性,通过各省各站点的站点属性进一步构建源数据集并进行归一化,通过预测省份的站点属性进一步构建目标训练集并进行归一化,提取源数据集以及目标训练集对应的站点业务数量并进行归一化;
步骤2:通过迁移学习模型SVR模型以及径向基函数构建基于权重的SVR模型;
步骤3:初始化源数据以及目标省份各站点的权重,归一化初始化源数据以及目标省份各站点的权重,并初始化加权多源TrAdaBoost算法中源数据以及目标省份的站点权重,通过分别合并归一化源数据集以及归一化目标训练数据集、归一化业务数据量训练集以及归一化业务数量得到合并训练集;
步骤4:将合并训练集以及归一化向量通过步骤2建立预测模型并计算模型误差参数;
步骤5:重复步骤4至到最大迭代次数并计算最终的预测模型;
步骤6:用最终的预测模型对目标省份的站点属性进行预测得到目标省份的预测站点业务数量,并对预测站点业务数量进行反归一化。
2.根据权利要求1所述的基于多源迁移学习的数据校验方法,其特征在于:步骤1中所述站点属性即特征向量为:
其中,为省份Sk站点m的站点属性,Sk∈[1,SN],N为省份的数量,为省份Sk站点的数量,为省份Sk站点m的站点类型,为省份Sk站点m的站点电压等级,为省份Sk站点m的站点调度等级,为省份Sk站点m的站点建成年限,为省份Sk站点m的站点中光传输设备数量,为省份Sk站点m的站点所属***,为省份Sk站点m的站点中心度;
从***的数据表中可以得到站点类型、站点电压等级、站点调度等级、站点建成年限、站点中光传输设备数量、站点所属***,省份Sk站点m的站点中心度计算过程首先为根据站点的度以及站点数量进行初始化:
其中,为省份Sk站点m的中心度,为省份Sk站点的数量,为省份Sk站点m的度,进一步根据PageRank算法迭代更新中心度,直到趋于平稳,用以下公式更新:
其中,iter为PageRank算法迭代的次数,NI=500为PageRank算法迭代的总次数,为第iter迭代中省份Sk站点m的中心度,为省份Sk的所有站点对省份Sk站点m有光缆连接的站点集合,为与站点连接的第j个站点的中心度,为站点的与外连接的光缆数目,α为阻尼系数;
根据数据量较大的各个省份的站点属性构建源数据集:
其中,N为数据量较大的省份的数量,为第Sk个源数据,第Sk个源数据即省份Sk包含个样本即个站点:
其中,为省份Sk站点的数量即样本的数量;为省份Sk站点m的站点属性,Sk∈[1,SN],SN为省份的数量,为省份Sk站点的数量,为省份Sk站点m的站点类型,为省份Sk站点m的站点电压等级,为省份Sk站点m的站点调度等级,为省份Sk站点m的站点建成年限,为省份Sk站点m的站点中光传输设备数量,为省份Sk站点m的站点所属***,为省份Sk站点m的站点中心度;
通过预测省份ST的站点属性构建目标训练集:
其中,nT为目标训练集的样本个数即预测省份ST的站点数量,为预测省份ST站点i(i∈[1,nT])的站点属性即特征向量为:
其中,为预测省份ST站点i的站点类型,为预测省份ST站点i的站点电压等级,为预测省份ST站点i的站点调度等级,为预测省份ST站点i的站点建成年限,为预测省份ST站点i的站点中光传输设备数量,为预测省份ST站点i的站点所属***,为预测省份ST站点i的站点中心度;
分别对源数据集D以及目标训练集进行离散化和归一化,得到归一化源数据集以及归一化目标训练集
统计源数据集D中省份Sk的对应的站点业务数量得到业务数量数据集为:
其中,Sk∈[1,SN],为省份Sk的站点数量计;
统计目标训练集中即省份ST的对应的站点业务数量得到目标业务数量训练集为:
其中,为省份Sk的站点数量计;
将业务数量数据集Y和目标业务数量训练集采用min-max标准化的归一化:
其中,min是取集合最小值,max是取集合最大值,y为业务数量数据集Y和目标业务数量训练集中任意省份的站点数量,业务数量数据集Y和目标业务数量训练集采用min-max标准化的归一化后分别得到归一化业务数量数据集和归一化目标业务数量训练集
3.根据权利要求1所述的基于多源迁移学习的数据校验方法,其特征在于:步骤2中所述基于权重的SVR模型为通过步骤1中所述可知归一化源数据集为:
第Sk个归一化源数据即省份Sk包含个样本即个站点:
根据归一化源数据集构建训练数据集为:
其中,SN为省份的数量即样本的数量,为省份Sk站点的数量即训练数据集的大小,为训练数据集中省份Sk站点i的归一化业务数量,为训练数据集中省份Sk站点i的归一化站点属性即归一化特征向量为:
其中, 为省份Sk站点m的站点类型,为省份Sk站点m的站点电压等级,为省份Sk站点m的站点调度等级,为省份Sk站点m的站点建成年限,为省份Sk站点m的站点中光传输设备数量,为省份Sk站点m的站点所属***,为省份Sk站点m的站点中心度;
对第Sk个归一化源数据中的每个样本即每个站点的归一化属性加权,权重为基于权重的w-SVR模型为:
其中,q为模型的权重参数,b为模型的偏差参数;
基于权重的w-SVR模型的参数求解过程为:
定义线性ε不敏感损失函数为:
其中,ε为不敏感损失值,当省份Sk站点i的归一化业务数量和回归估计函数的预测值之间的差别小于ε,损失等于0;
本发明选择径向基核函数将训练数据集非线性变换到另一个特征空间中,并在径向基核函数变换后特征空间中构造回归估计函数,并初始化第Sk个归一化源数据中的权重径向基核函数公式:
其中,σ2为训练数据集的方差;
在SVR模型中引入权重系数来控制异方差的影响,得到优化目标为:
其中,ξi为第一松弛变量参数、ξi'为第二松弛变量参数,ε为不敏感损失值,C是模型参数,q为模型的权重参数,b为模型的偏差参数,根据拉格朗日以及对偶问题转换,将优化问题转化成:
其中,αi为第一拉格朗日算子、α’i为第二拉格朗日算子,求解出αi,α’i的值,同时应该满足KKT条件,因此有:
求出模型权重参数q,偏差参数b:
其中,0<αi,最终得到回归预测模型:
4.根据权利要求1所述的基于多源迁移学习的数据校验方法,其特征在于:
步骤3中所述源数据D中各省份Sk的站点权重初始化为:
其中,为省份Sk的样本数即站点的数量,目标省份ST的站点权重初始化为:
其中,为目标省份站点数量;
省份Sk的站点权重通过归一化得到源数据省份Sk归一化权重向量加权多源TrAdaBoost算法中源数据的站点权重为:
目标省份ST的站点权重通过归一化得到目标省份归一化权重向量加权多源TrAdaBoost算法中目标省份的站点权重为:
合并训练数据集:
其中,为步骤1中所述归一化源数据集中省份Sk的归一化源数据,N为省份的数量,为:
其中,的每个元素为站点的归一化属性,为省份Sk的站点数量,N为省份的数量;
其中,为步骤1中所述归一化业务数量数据集中省份Sk的归一化业务数量,N为省份的数量,为:
其中,的每个元素为站点的归一化业务数量,为省份Sk的站点数量,N为省份的数量;
其中,为步骤1中所述归一化目标训练集:
其中,中每个元素为目标省份ST的归一化属性,为目标省份ST的站点数量
其中,为步骤1中所述目标省份的归一化目标业务数量训练集:
其中,的每个元素为目标省份站点的归一化业务数量,为目标省份的站点数量。
5.根据权利要求1所述的基于多源迁移学习的数据校验方法,其特征在于:步骤4中所述将合并训练数据集Dk,Yk、加权多源TrAdaBoost算法中源数据的站点权重以及目标省份的站点权重通过步骤2构建基于权重的SVR模型集合:
其中,为第t次迭代中省份Sk的第K个基于权重的SVR模型,N是源数据的数量即省份的数量,为第t次迭代中省份Sk站点i的第一拉格朗日算子,为第t次迭代中省份Sk站点i的第二拉格朗日算子,为第t次迭代中省份Sk站点i的偏差参数,为省份Sk站点i的径向基核函数;
计算预测模型在归一化目标训练集以及归一化目标业务数量训练集在第t次迭代中误差:
其中,为第t次迭代中目标省份ST站点i的归一化权重,得到的目标省份ST站点i的业务数量预测值,是目标省份ST站点i的业务数量即真实值,根据误差更新预测模型的权重:
最后,得到第t次迭代的候选预测模型ht:
同时,计算候选预测模型ht在目标测试数据DT,YT上的误差,wt,i为目标省份数据站点的权重:
设置用于更新样本权重的参数φt
其中,εt为第t次迭代时得到的模型的误差,更新目标数据样本的权重:
其中,为第t次迭代中目标省份ST站点i的权重,得到的目标省份ST站点i的业务数量预测值,是目标省份ST站点i的业务数量即真实值,ε为不敏感损失值,为目标省份的站点数量;
更新各个地区源数据样本的权重:
其中,为第t次迭代源数据省份Sk站点i的权重,第t次迭代得到的站点业务数量预测值,是站点业务数量真实值,ε为不敏感损失值,为省份的站点数目,参数为:
其中,M为最大迭代次数,t为当前迭代次数t∈[1,M],根据步骤1中可知源数据中,为各省份站点数的总和。
6.根据权利要求1所述的基于多源迁移学习的数据校验方法,其特征在于:步骤5中所述重复步骤4至到最大迭代次数并计算最终的预测模型为:
如果t=M则计算出最终的预测模型f(x):
其中,φt为每次迭代过程中产生的参数值,ht(x)是每次迭代过程中产生的模型。
7.根据权利要求1所述的基于多源迁移学习的数据校验方法,其特征在于:步骤6中所述对于目标省份ST的站点i的站点属性即特征向量:
模型预测值为预测值执行反归一化操作:
其中,min是取集合最小值,max是取集合最大值,
CN201810320808.6A 2018-04-11 2018-04-11 一种基于多源迁移学习的数据校验方法 Active CN108549907B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810320808.6A CN108549907B (zh) 2018-04-11 2018-04-11 一种基于多源迁移学习的数据校验方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810320808.6A CN108549907B (zh) 2018-04-11 2018-04-11 一种基于多源迁移学习的数据校验方法

Publications (2)

Publication Number Publication Date
CN108549907A true CN108549907A (zh) 2018-09-18
CN108549907B CN108549907B (zh) 2021-11-16

Family

ID=63514421

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810320808.6A Active CN108549907B (zh) 2018-04-11 2018-04-11 一种基于多源迁移学习的数据校验方法

Country Status (1)

Country Link
CN (1) CN108549907B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110398986A (zh) * 2019-04-28 2019-11-01 清华大学 一种多源数据迁移的无人机密集树林感知技术
CN110457646A (zh) * 2019-06-26 2019-11-15 中国政法大学 一种基于参数迁移学习低资源头相关传输函数个性化方法
CN110674648A (zh) * 2019-09-29 2020-01-10 厦门大学 基于迭代式双向迁移的神经网络机器翻译模型
WO2020168676A1 (zh) * 2019-02-21 2020-08-27 烽火通信科技股份有限公司 一种网络故障处理模型的构建方法、故障处理方法及***
CN112651173A (zh) * 2020-12-18 2021-04-13 浙江大学 一种基于跨域光谱信息的农产品品质无损检测方法及可泛化***
CN113379903A (zh) * 2021-06-30 2021-09-10 北京爱奇艺科技有限公司 数据的迁移方法及装置、电子设备、可读存储介质
CN113962477A (zh) * 2021-11-10 2022-01-21 国网浙江省电力有限公司杭州供电公司 一种产业电量关联聚集预测方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100069942A (ko) * 2008-12-17 2010-06-25 한양대학교 산학협력단 무선 멀티홉 네트워크에서의 협업 데이터 전송 방법 및 시스템
CN104199857A (zh) * 2014-08-14 2014-12-10 西安交通大学 一种基于多标签分类的税务文档层次分类方法
CN106296044A (zh) * 2016-10-08 2017-01-04 南方电网科学研究院有限责任公司 电力***风险调度方法和***
CN106651188A (zh) * 2016-12-27 2017-05-10 贵州电网有限责任公司贵阳供电局 一种输变电设备多源状态评估数据处理方法及其应用
CN107818523A (zh) * 2017-11-14 2018-03-20 国网江西省电力公司信息通信分公司 基于非稳定频率分布与频率因子学习的电力通信***数据真值判别与推断方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100069942A (ko) * 2008-12-17 2010-06-25 한양대학교 산학협력단 무선 멀티홉 네트워크에서의 협업 데이터 전송 방법 및 시스템
CN104199857A (zh) * 2014-08-14 2014-12-10 西安交通大学 一种基于多标签分类的税务文档层次分类方法
CN106296044A (zh) * 2016-10-08 2017-01-04 南方电网科学研究院有限责任公司 电力***风险调度方法和***
CN106651188A (zh) * 2016-12-27 2017-05-10 贵州电网有限责任公司贵阳供电局 一种输变电设备多源状态评估数据处理方法及其应用
CN107818523A (zh) * 2017-11-14 2018-03-20 国网江西省电力公司信息通信分公司 基于非稳定频率分布与频率因子学习的电力通信***数据真值判别与推断方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020168676A1 (zh) * 2019-02-21 2020-08-27 烽火通信科技股份有限公司 一种网络故障处理模型的构建方法、故障处理方法及***
CN110398986A (zh) * 2019-04-28 2019-11-01 清华大学 一种多源数据迁移的无人机密集树林感知技术
CN110457646A (zh) * 2019-06-26 2019-11-15 中国政法大学 一种基于参数迁移学习低资源头相关传输函数个性化方法
CN110457646B (zh) * 2019-06-26 2022-12-13 中国政法大学 一种基于参数迁移学习低资源头相关传输函数个性化方法
CN110674648A (zh) * 2019-09-29 2020-01-10 厦门大学 基于迭代式双向迁移的神经网络机器翻译模型
CN110674648B (zh) * 2019-09-29 2021-04-27 厦门大学 基于迭代式双向迁移的神经网络机器翻译模型
CN112651173A (zh) * 2020-12-18 2021-04-13 浙江大学 一种基于跨域光谱信息的农产品品质无损检测方法及可泛化***
CN112651173B (zh) * 2020-12-18 2022-04-29 浙江大学 一种基于跨域光谱信息的农产品品质无损检测方法及可泛化***
CN113379903A (zh) * 2021-06-30 2021-09-10 北京爱奇艺科技有限公司 数据的迁移方法及装置、电子设备、可读存储介质
CN113962477A (zh) * 2021-11-10 2022-01-21 国网浙江省电力有限公司杭州供电公司 一种产业电量关联聚集预测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN108549907B (zh) 2021-11-16

Similar Documents

Publication Publication Date Title
CN108549907A (zh) 一种基于多源迁移学习的数据校验方法
Dong et al. Hourly energy consumption prediction of an office building based on ensemble learning and energy consumption pattern classification
CN105117602B (zh) 一种计量装置运行状态预警方法
CN103295075B (zh) 一种超短期电力负荷预测与预警方法
CN109461025A (zh) 一种基于机器学习的电能替代潜在客户预测方法
Feng et al. [Retracted] Design and Simulation of Human Resource Allocation Model Based on Double‐Cycle Neural Network
CN104835103A (zh) 基于神经网络和模糊综合评价的移动网络健康评价方法
CN108846691A (zh) 区域性粮油市场价格监测分析预测***及监测方法
CN109583635A (zh) 一种面向运行可靠性的短期负荷预测建模方法
Wang et al. Dealing with alarms in optical networks using an intelligent system
CN112418476A (zh) 一种超短期电力负荷预测方法
Sun Predictive analysis and simulation of college sports performance fused with adaptive federated deep learning algorithm
Zhao et al. [Retracted] An Innovation and Entrepreneurship Management System for Universities Based on Cluster Analysis Theory
Wasesa et al. Predicting electricity consumption in microgrid-based educational building using *** trends, *** mobility, and covid-19 data in the context of covid-19 pandemic
Ragapriya et al. Machine Learning Based House Price Prediction Using Modified Extreme Boosting
CN112767126A (zh) 基于大数据的抵押物评级方法和装置
CN109214598A (zh) 基于k-means和arima模型预测住宅小区抵押风险的批量评级方法
Huang et al. A Parameter Assessment of Teaching Quality Indicators Based on Data Class Mining Fuzzy K-Mean Type Clustering
Sun [Retracted] A Spatial Spectrum Estimation Method for Optimization and Improvement of Resource Allocation and Management of Public Sport and Health Facilities
Zhuang et al. DyS-IENN: a novel multiclass imbalanced learning method for early warning of tardiness in rocket final assembly process
Yang et al. ERP and DTW-based Transformer-customer Identification
Wang SVR short-term traffic flow forecasting model based on spatial-temporal feature selection
CN111027845A (zh) 一种适用于电力市场主体客户画像的标签模型
Li Application of Fuzzy K‐Means Clustering Algorithm in the Innovation of English Teaching Evaluation Method
CN109886460A (zh) 基于adaboost的隧道沉降时间序列的预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant