CN108549907B - 一种基于多源迁移学习的数据校验方法 - Google Patents

一种基于多源迁移学习的数据校验方法 Download PDF

Info

Publication number
CN108549907B
CN108549907B CN201810320808.6A CN201810320808A CN108549907B CN 108549907 B CN108549907 B CN 108549907B CN 201810320808 A CN201810320808 A CN 201810320808A CN 108549907 B CN108549907 B CN 108549907B
Authority
CN
China
Prior art keywords
site
target
province
save
normalized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810320808.6A
Other languages
English (en)
Other versions
CN108549907A (zh
Inventor
李石君
刘洋
杨济海
邓永康
余伟
余放
李宇轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201810320808.6A priority Critical patent/CN108549907B/zh
Publication of CN108549907A publication Critical patent/CN108549907A/zh
Application granted granted Critical
Publication of CN108549907B publication Critical patent/CN108549907B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/245Classification techniques relating to the decision surface

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Optimization (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提出了一种基于多源迁移学习的数据校验方法。本发明的方法为提取源数据集以及目标训练集对应的站点业务数量并进行归一化;通过迁移学习模型SVR模型以及径向基函数构建基于权重的SVR模型;初始化源数据以及目标省份的站点权重并进行归一化,通过分别合并归一化源数据集、归一化目标训练数据集、归一化业务数据量训练集以及归一化业务数量得到合并训练集;将合并训练集以及归一化向量建立预测模型并计算模型误差参数;多次迭代并计算最终的预测模型;用最终的预测模型得到目标省份的预测站点业务数量,并对预测站点业务数量进行反归一化;与现有技术相比,本发明提高了数据质量,节约了数据资源。

Description

一种基于多源迁移学习的数据校验方法
技术领域
本发明属于迁移学习的范畴,尤其涉及一种基于多源迁移学习的数据校验方法。
背景技术
国家电网通信管理***(TMS)作为电力公司的第二张实体网络,承载着电网运行和经营管理的核心业务,是电网安全、稳定、经济运行的重要保障。作为电力公司通信专业的核心管理***,TMS***在资源管理、实时监控、运行管理方面发挥了巨大作用,同时也积累了大量数据。TMS***的以数据库的形式进行保存,各单位独立部署数据库服务器。主要包含TMS资源数据、告警数据、工单数据、内部各模块产生的业务数据;国网通信公司和各分部、省公司、直辖市,上下级***之间资源属地化、工单流转、统计数据上报、任务下发、告警数据上报等数据;同级的外部***存在台账数据、工作流等数据流转。但是TMS***数据质量问题严重影响着实际生产中的数据分析与决策,主要表现在静态资源数据与实际不符、动态资源数据关联错误、基础数据保鲜实施不到位三个方面,主要影响了TMS***为电力通信精益化管理提供坚强支撑的现实意义。与此同时,TMS***中不同省份数据大小差异很大。网络规模较小的省公司数据规模在1G~2G,像国网通信等网络规模大的单位,数据规模达到30G~40G,特别的对于一些特殊业务相对偏远地区的数据甚至只有几百kb,这些数据根本不足以训练一个好的传统机器学习模型。
数据的丢失、错误、过期等数据质量问题一直是大数据分析的一个重要课题,每年应为数据质量问题都会给社会带来巨大的损失。根据德国数据分析机构的调查显示:“美国每年因为劣质数据而造成的损失高达6000亿美元”,在美国由于数据错误引起的医疗事故每年使98000名患者丧生。对于TMS***,电力业务管理频度低,业务管理数据多以报表式月度数据为主,没有实现按天(或更高频度)对业务进展和状态的管理。其次,业务过程数据录入维护不及时,数据生成时间滞后于业务过程,从而产生了大量不符合实际的数据,这现象对公司对实际生产中的业务进行判断和决策带来严重的影响,所以我们在进行数据分析之前必须关注数据的本身。本发明通过对站点业务数量的预测来判断站点***中业务数量是否缺失,从而找到异常站点。这方面数据根据地区省份的不同差异很大。对于数据量足够的省份,传统的机器学习方法可以取得不错的效果,例如支持向量回归机、神经网络等算法,但是传统的机器学习要求训练数据和测试数据的分布保持一致,各个省份的数据并不能放在一起训练,所以对于数据量小的地区的训练就会出现问题,如果强行用一个地区的数据进行分析会因为数据不够而得到不好的模型,或者把各个省份的数据放在一起训练会因为各个数据集分布的不一致而导致模型效果变差。本发明基于此提出了利用其它省份的数据通过迁移学习方法训练目标数据,达到异常站点检测的目的。
迁移学习是机器学习新的一个领域,它的目的是利用已存在的知识对不同的但相关领域进行训练学习。迁移学习放宽了传统机器学习的两个基本条件:训练数据和测试数据满足独立同分布,以及拥有足够的数据训练一个好的模型。研究表明,两个不同的领域的相似度越高,迁移学习就越容易,效果越好,否则效果往往不佳,甚至出现“负迁移”得结果。Domain adaptation是迁移学习领域比较热的研究方向,Pan等人提出了域适应的TCA(Transfer Component Analysis)算法,TCA属于基于特征的迁移学习方法,它的思想是当源域和目标域处于不同数据分布时,将两个领域的数据一起映射到一个高维的再生核希尔伯特空间。在此空间中,最小化源和目标的数据距离,同时最大程度地保留它们各自的内部属性。TCA算法只考虑目标领域和源领域数据在另一个空间上的相关性,过于单一,同时TCA算法的时间复杂度比较高。Dai等人提出了基于实例相关性的TrAdaBoost(TransferAdaBoost)算法,该算法的思想是最大利用源数据,找到源数据中与目标数据相关的数据,然后和目标数据一起训练学习。但是TrAdaBoost算法只利用了一个源数据,算法的结果依赖于源数据与目标数据的相关性,算法的正确性与数据相关性成正比,如果相关很弱,容易产生负迁移。Yao等人通过考虑多个源与目标的相关性,提出了两种多源迁移学习算法,分别是MTrA(MultiSource-TrAdaBoost)和TTrA(Task-TrAdaBoost),MTrA算法的思想是源数据是有多个数据源,每次迭代的过程中使用当前迭代与目标数据相关性最强的数据源训练弱分类器,然后得到强分类器;TTrA算法的思想是每次迭代会用所有的源数据分别训练一个弱分类器,然后选择与目标数据误差最小的分类器,迭代完后将这些分类器集成一个强的分类器。这两种多源迁移学习算法每次迭代都会选择与目标数据相关性最强的数据源,这样虽然能保证迁移的源数据与目标最相关,但是它们没有利用其它数据源的信息,在实际生产中每个数据源的成本都是很高的,这种操作浪费了公司大量的资源。TMS***中数据质量的问题严重影响了公司对实际业务的判断和操作,各地区数据的分布差异、数据量的差异也给数据质量问题的发现带了挑战。
发明内容
为了解决上述问题,本发明提出了一种基于多源迁移学习的数据校验方法,本发明所采用的技术方案是:
步骤1:通过***数据表得到站点类型、站点电压等级、站点调度等级、站点建成年限、站点中光传输设备数量、站点所属***以及通过pagerank算法计算得到的站点中心度构建站点属性,通过各省各站点的站点属性进一步构建源数据集并进行归一化,通过预测省份的站点属性进一步构建目标训练集并进行归一化,提取源数据集以及目标训练集对应的站点业务数量并进行归一化;
步骤2:通过迁移学习模型SVR模型以及径向基函数构建基于权重的SVR模型;
步骤3:初始化源数据以及目标省份各站点的权重,归一化初始化源数据以及目标省份各站点的权重,并初始化加权多源TrAdaBoost算法中源数据以及目标省份的站点权重,通过分别合并归一化源数据集以及归一化目标训练数据集、归一化业务数据量训练集以及归一化业务数量得到合并训练集;
步骤4:将合并训练集以及归一化向量通过步骤2建立预测模型并计算模型误差参数;
步骤5:重复步骤4至到最大迭代次数并计算最终的预测模型;
步骤6:用最终的预测模型对目标省份的站点属性进行预测得到目标省份的预测站点业务数量,并对预测站点业务数量进行反归一化。
作为优选,步骤1中所述站点属性即特征向量为:
Figure BDA0001625214430000031
其中,
Figure BDA0001625214430000032
为省份Sk站点m的站点属性,
Figure BDA0001625214430000033
N为省份的数量,
Figure BDA0001625214430000041
为省份Sk站点的数量,
Figure BDA0001625214430000042
为省份Sk站点m的站点类型,
Figure BDA0001625214430000043
为省份Sk站点m的站点电压等级,
Figure BDA0001625214430000044
为省份Sk站点m的站点调度等级,
Figure BDA0001625214430000045
为省份Sk站点m的站点建成年限,
Figure BDA0001625214430000046
为省份Sk站点m的站点中光传输设备数量,
Figure BDA0001625214430000047
为省份Sk站点m的站点所属***,
Figure BDA0001625214430000048
为省份Sk站点m的站点中心度;
从***的数据表中可以得到站点类型、站点电压等级、站点调度等级、站点建成年限、站点中光传输设备数量、站点所属***,省份Sk站点m的站点中心度计算过程首先为根据站点的度以及站点数量进行初始化:
Figure BDA0001625214430000049
其中,
Figure BDA00016252144300000410
为省份Sk站点m的中心度,
Figure BDA00016252144300000411
为省份Sk站点的数量,
Figure BDA00016252144300000412
为省份Sk站点m的度,进一步根据PageRank算法迭代更新中心度,直到趋于平稳,用以下公式更新:
Figure BDA00016252144300000413
其中,iter为PageRank算法迭代的次数,NI=500为PageRank算法迭代的总次数,
Figure BDA00016252144300000414
为第iter迭代中省份Sk站点m的中心度,
Figure BDA00016252144300000415
为省份Sk的所有站点对省份Sk站点m有光缆连接的站点集合,
Figure BDA00016252144300000416
为与站点
Figure BDA00016252144300000417
连接的第j个站点的中心度,
Figure BDA00016252144300000418
为站点
Figure BDA00016252144300000419
的与外连接的光缆数目,α为阻尼系数;
根据数据量较大的各个省份的站点属性构建源数据集:
Figure BDA00016252144300000420
其中,N为数据量较大的省份的数量,
Figure BDA00016252144300000421
为第Sk个源数据,第Sk个源数据即省份Sk包含
Figure BDA00016252144300000422
个样本即
Figure BDA00016252144300000423
个站点:
Figure BDA00016252144300000424
Figure BDA0001625214430000051
其中,
Figure BDA0001625214430000052
为省份Sk站点的数量即样本的数量;
Figure BDA0001625214430000053
为省份Sk站点m的站点属性,
Figure BDA0001625214430000054
SN为省份的数量,
Figure BDA0001625214430000055
为省份Sk站点的数量,
Figure BDA0001625214430000056
为省份Sk站点m的站点类型,
Figure BDA0001625214430000057
为省份Sk站点m的站点电压等级,
Figure BDA0001625214430000058
为省份Sk站点m的站点调度等级,
Figure BDA0001625214430000059
为省份Sk站点m的站点建成年限,
Figure BDA00016252144300000510
为省份Sk站点m的站点中光传输设备数量,
Figure BDA00016252144300000511
为省份Sk站点m的站点所属***,
Figure BDA00016252144300000512
为省份Sk站点m的站点中心度;
通过预测省份ST的站点属性构建目标训练集:
Figure BDA00016252144300000513
其中,nT为目标训练集的样本个数即预测省份ST的站点数量,
Figure BDA00016252144300000514
为预测省份ST站点i(i∈[1,nT])的站点属性即特征向量为:
Figure BDA00016252144300000515
其中,
Figure BDA00016252144300000516
为预测省份ST站点i的站点类型,
Figure BDA00016252144300000517
为预测省份ST站点i的站点电压等级,
Figure BDA00016252144300000518
为预测省份ST站点i的站点调度等级,
Figure BDA00016252144300000519
为预测省份ST站点i的站点建成年限,
Figure BDA00016252144300000520
为预测省份ST站点i的站点中光传输设备数量,
Figure BDA00016252144300000521
为预测省份ST站点i的站点所属***,
Figure BDA00016252144300000522
为预测省份ST站点i的站点中心度;
分别对源数据集D以及目标训练集
Figure BDA00016252144300000523
进行离散化和归一化,得到归一化源数据集
Figure BDA00016252144300000524
以及归一化目标训练集
Figure BDA00016252144300000525
统计源数据集D中省份Sk的对应的站点业务数量得到业务数量数据集为:
Figure BDA00016252144300000526
Figure BDA0001625214430000061
其中,Sk∈[1,SN],
Figure BDA0001625214430000062
为省份Sk的站点数量计;
统计目标训练集
Figure BDA0001625214430000063
中即省份ST的对应的站点业务数量得到目标业务数量训练集为:
Figure BDA0001625214430000064
其中,
Figure BDA0001625214430000065
为省份Sk的站点数量计;
将业务数量数据集Y和目标业务数量训练集
Figure BDA0001625214430000066
采用min-max标准化的归一化:
Figure BDA0001625214430000067
其中,min是取集合最小值,max是取集合最大值,y为业务数量数据集Y和目标业务数量训练集
Figure BDA0001625214430000068
中任意省份的站点数量,业务数量数据集Y和目标业务数量训练集
Figure BDA0001625214430000069
采用min-max标准化的归一化后分别得到归一化业务数量数据集
Figure BDA00016252144300000610
和归一化目标业务数量训练集
Figure BDA00016252144300000611
作为优选,步骤2中所述基于权重的SVR模型为通过步骤1中所述可知归一化源数据集为:
Figure BDA00016252144300000612
第Sk个归一化源数据即省份Sk包含
Figure BDA00016252144300000613
个样本即
Figure BDA00016252144300000614
个站点:
Figure BDA00016252144300000615
根据归一化源数据集构建训练数据集为:
Figure BDA00016252144300000616
其中,SN为省份的数量即样本的数量,
Figure BDA00016252144300000617
为省份Sk站点的数量即训练数据集
Figure BDA00016252144300000618
的大小,
Figure BDA00016252144300000619
为训练数据集
Figure BDA00016252144300000620
中省份Sk站点i的归一化业务数量,
Figure BDA00016252144300000621
为训练数据集
Figure BDA00016252144300000622
中省份Sk站点i的归一化站点属性即归一化特征向量为:
Figure BDA0001625214430000071
其中,
Figure BDA0001625214430000072
为省份Sk站点m的站点类型,
Figure BDA0001625214430000073
为省份Sk站点m的站点电压等级,
Figure BDA0001625214430000074
为省份Sk站点m的站点调度等级,
Figure BDA0001625214430000075
为省份Sk站点m的站点建成年限,
Figure BDA0001625214430000076
为省份Sk站点m的站点中光传输设备数量,
Figure BDA0001625214430000077
为省份Sk站点m的站点所属***,
Figure BDA0001625214430000078
为省份Sk站点m的站点中心度;
对第Sk个归一化源数据
Figure BDA0001625214430000079
中的每个样本即每个站点的归一化属性加权,权重为
Figure BDA00016252144300000710
基于权重的w-SVR模型为:
Figure BDA00016252144300000711
其中,q为模型的权重参数,b为模型的偏差参数;
基于权重的w-SVR模型的参数求解过程为:
定义线性ε不敏感损失函数为:
Figure BDA00016252144300000712
其中,ε为不敏感损失值,当省份Sk站点i的归一化业务数量
Figure BDA00016252144300000713
和回归估计函数的预测值
Figure BDA00016252144300000714
之间的差别小于ε,损失等于0;
本发明选择径向基核函数
Figure BDA00016252144300000715
将训练数据集
Figure BDA00016252144300000716
非线性变换到另一个特征空间中,并在径向基核函数变换后特征空间中构造回归估计函数,并初始化第Sk个归一化源数据
Figure BDA00016252144300000717
中的权重
Figure BDA00016252144300000718
径向基核函数公式:
Figure BDA00016252144300000719
其中,σ2为训练数据集
Figure BDA00016252144300000720
的方差;
在SVR模型中引入权重系数来控制异方差的影响,得到优化目标为:
Figure BDA0001625214430000081
其中,ξi为第一松弛变量参数、ξ'i为第二松弛变量参数,ε为不敏感损失值,C是模型参数,q为模型的权重参数,b为模型的偏差参数,根据拉格朗日以及对偶问题转换,将优化问题转化成:
Figure BDA0001625214430000082
其中,αi为第一拉格朗日算子、α'i为第二拉格朗日算子,求解出αi,α'i的值,同时应该满足KKT条件,因此有:
Figure BDA0001625214430000083
求出模型权重参数q,偏差参数b:
Figure BDA0001625214430000084
其中,
Figure BDA0001625214430000085
最终得到回归预测模型:
Figure BDA0001625214430000086
作为优选,步骤3中所述源数据D中各省份Sk的站点权重初始化为:
Figure BDA0001625214430000087
其中,
Figure BDA0001625214430000088
为省份Sk的样本数即站点的数量,目标省份ST的站点权重初始化为:
Figure BDA0001625214430000089
其中,
Figure BDA00016252144300000810
为目标省份站点数量;
省份Sk的站点权重通过归一化得到源数据省份Sk归一化权重向量
Figure BDA0001625214430000091
加权多源TrAdaBoost算法中源数据的站点权重为:
Figure BDA0001625214430000092
目标省份ST的站点权重通过归一化得到目标省份归一化权重向量
Figure BDA0001625214430000093
加权多源TrAdaBoost算法中目标省份的站点权重为:
Figure BDA0001625214430000094
合并训练数据集:
Figure BDA0001625214430000095
其中,
Figure BDA0001625214430000096
为步骤1中所述归一化源数据集
Figure BDA0001625214430000097
中省份Sk的归一化源数据,N为省份的数量,
Figure BDA0001625214430000098
为:
Figure BDA0001625214430000099
其中,
Figure BDA00016252144300000910
的每个元素为站点的归一化属性,
Figure BDA00016252144300000911
为省份Sk的站点数量,N为省份的数量;
其中,
Figure BDA00016252144300000912
为步骤1中所述归一化业务数量数据集
Figure BDA00016252144300000913
中省份Sk的归一化业务数量,N为省份的数量,
Figure BDA00016252144300000914
为:
Figure BDA00016252144300000915
其中,
Figure BDA00016252144300000916
的每个元素为站点的归一化业务数量,
Figure BDA00016252144300000917
为省份Sk的站点数量,N为省份的数量;
其中,
Figure BDA00016252144300000918
为步骤1中所述归一化目标训练集:
Figure BDA00016252144300000919
其中,
Figure BDA00016252144300000920
中每个元素为目标省份ST的归一化属性,
Figure BDA00016252144300000921
为目标省份ST的站点数量
其中,
Figure BDA00016252144300000922
为步骤1中所述目标省份的归一化目标业务数量训练集:
Figure BDA00016252144300000923
其中,
Figure BDA0001625214430000101
的每个元素为目标省份站点的归一化业务数量,
Figure BDA0001625214430000102
为目标省份的站点数量;
作为优选,步骤4中所述将合并训练数据集Dk,Yk、加权多源TrAdaBoost算法中源数据的站点权重
Figure BDA0001625214430000103
以及目标省份
Figure BDA0001625214430000104
的站点权重通过步骤2构建基于权重的SVR模型集合:
Figure BDA0001625214430000105
其中,
Figure BDA0001625214430000106
为第t次迭代中省份Sk的第K个基于权重的SVR模型,N是源数据的数量即省份的数量,
Figure BDA0001625214430000107
为第t次迭代中省份Sk站点i的第一拉格朗日算子,
Figure BDA0001625214430000108
为第t次迭代中省份Sk站点i的第二拉格朗日算子,
Figure BDA0001625214430000109
为第t次迭代中省份Sk站点i的偏差参数,
Figure BDA00016252144300001010
为省份Sk站点i的径向基核函数;
计算预测模型
Figure BDA00016252144300001011
在归一化目标训练集
Figure BDA00016252144300001012
以及归一化目标业务数量训练集
Figure BDA00016252144300001013
在第t次迭代中误差:
Figure BDA00016252144300001014
其中,
Figure BDA00016252144300001015
为第t次迭代中目标省份ST站点i的归一化权重,
Figure BDA00016252144300001016
得到的目标省份ST站点i的业务数量预测值,
Figure BDA00016252144300001017
是目标省份ST站点i的业务数量即真实值,根据误差
Figure BDA00016252144300001018
更新预测模型
Figure BDA00016252144300001019
的权重:
Figure BDA00016252144300001020
最后,得到第t次迭代的候选预测模型ht:
Figure BDA00016252144300001021
同时,计算候选预测模型ht在目标测试数据DT,YT上的误差,wt,i为目标省份数据站点的权重:
Figure BDA00016252144300001022
设置用于更新样本权重的参数φt
Figure BDA0001625214430000111
其中,εt为第t次迭代时得到的模型的误差,更新目标数据样本的权重:
Figure BDA0001625214430000112
其中,
Figure BDA0001625214430000113
为第t次迭代中目标省份ST站点i的权重,
Figure BDA0001625214430000114
得到的目标省份ST站点i的业务数量预测值,
Figure BDA0001625214430000115
是目标省份ST站点i的业务数量即真实值,ε为不敏感损失值,
Figure BDA0001625214430000116
为目标省份的站点数量;
更新各个地区源数据样本的权重:
Figure BDA0001625214430000117
其中,
Figure BDA0001625214430000118
为第t次迭代源数据省份Sk站点i的权重,
Figure BDA0001625214430000119
第t次迭代得到的站点业务数量预测值,
Figure BDA00016252144300001110
是站点业务数量真实值,ε为不敏感损失值,
Figure BDA00016252144300001111
为省份的站点数目,参数
Figure BDA00016252144300001112
为:
Figure BDA00016252144300001113
其中,M为最大迭代次数,t为当前迭代次数t∈[1,M],根据步骤1中可知源数据
Figure BDA00016252144300001114
中,
Figure BDA00016252144300001115
为各省份站点数的总和;
作为优选,步骤5中所述重复步骤4至到最大迭代次数并计算最终的预测模型为
如果t=M则计算出最终的预测模型f(x):
Figure BDA00016252144300001116
其中,φt为每次迭代过程中产生的参数值,ht(x)是每次迭代过程中产生的模型;
作为优选,步骤6中所述对于目标省份ST的站点i的站点属性即特征向量:
Figure BDA0001625214430000121
模型预测值为
Figure BDA0001625214430000122
预测值执行反归一化操作:
Figure BDA0001625214430000123
其中,min是取集合最小值,max是取集合最大值,
Figure BDA0001625214430000124
Figure BDA0001625214430000125
与现有技术相比,本发明节约了数据资源,提高了数据质量。
附图说明
图1:为本发明的方法流程图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
下面结合图1介绍本发明实施例的具体步骤,本发明提供了一种基于多源迁移学习的数据校验方法,其具体步骤为:
步骤1:通过***数据表得到站点类型、站点电压等级、站点调度等级、站点建成年限、站点中光传输设备数量、站点所属***以及通过pagerank算法计算得到的站点中心度构建站点属性,通过各省各站点的站点属性进一步构建源数据集并进行归一化,通过预测省份的站点属性进一步构建目标训练集并进行归一化,提取源数据集以及目标训练集对应的站点业务数量并进行归一化;
步骤1中所述站点属性即特征向量为:
Figure BDA0001625214430000126
其中,
Figure BDA0001625214430000127
为省份Sk站点m的站点属性,
Figure BDA0001625214430000128
N=10为省份的数量,
Figure BDA0001625214430000129
为省份Sk站点的数量,
Figure BDA00016252144300001210
为省份Sk站点m的站点类型,
Figure BDA00016252144300001211
为省份Sk站点m的站点电压等级,
Figure BDA00016252144300001212
为省份Sk站点m的站点调度等级,
Figure BDA0001625214430000131
为省份Sk站点m的站点建成年限,
Figure BDA0001625214430000132
为省份Sk站点m的站点中光传输设备数量,
Figure BDA0001625214430000133
为省份Sk站点m的站点所属***,
Figure BDA0001625214430000134
为省份Sk站点m的站点中心度;
从***的数据表中可以得到站点类型、站点电压等级、站点调度等级、站点建成年限、站点中光传输设备数量、站点所属***,省份Sk站点m的站点中心度计算过程首先为根据站点的度以及站点数量进行初始化:
Figure BDA0001625214430000135
其中,
Figure BDA0001625214430000136
为省份Sk站点m的中心度,
Figure BDA0001625214430000137
为省份Sk站点的数量,
Figure BDA0001625214430000138
为省份Sk站点m的度,进一步根据PageRank算法迭代更新中心度,直到趋于平稳,用以下公式更新:
Figure BDA0001625214430000139
Figure BDA00016252144300001310
其中,iter为PageRank算法迭代的次数,NI=500为PageRank算法迭代的总次数,
Figure BDA00016252144300001311
为第iter迭代中省份Sk站点m的中心度,
Figure BDA00016252144300001312
为省份Sk的所有站点对省份Sk站点m有光缆连接的站点集合,
Figure BDA00016252144300001313
为与站点
Figure BDA00016252144300001314
连接的第j个站点的中心度,
Figure BDA00016252144300001315
为站点
Figure BDA00016252144300001316
的与外连接的光缆数目,α=0.85为阻尼系数;
根据数据量较大的各个省份的站点属性构建源数据集:
Figure BDA00016252144300001317
其中,N=10为数据量较大的省份的数量,
Figure BDA00016252144300001318
为第Sk个源数据,第Sk个源数据即省份Sk包含
Figure BDA00016252144300001319
个样本即
Figure BDA00016252144300001320
个站点:
Figure BDA00016252144300001321
Figure BDA00016252144300001322
其中,
Figure BDA0001625214430000141
为省份Sk站点的数量即样本的数量;
Figure BDA0001625214430000142
为省份Sk站点m的站点属性,
Figure BDA0001625214430000143
SN为省份的数量,
Figure BDA0001625214430000144
为省份Sk站点的数量,
Figure BDA0001625214430000145
为省份Sk站点m的站点类型,
Figure BDA0001625214430000146
为省份Sk站点m的站点电压等级,
Figure BDA0001625214430000147
为省份Sk站点m的站点调度等级,
Figure BDA0001625214430000148
为省份Sk站点m的站点建成年限,
Figure BDA0001625214430000149
为省份Sk站点m的站点中光传输设备数量,
Figure BDA00016252144300001410
为省份Sk站点m的站点所属***,
Figure BDA00016252144300001411
为省份Sk站点m的站点中心度;
通过预测省份ST的站点属性构建目标训练集:
Figure BDA00016252144300001412
其中,nT为目标训练集的样本个数即预测省份ST的站点数量,
Figure BDA00016252144300001413
为预测省份ST站点i(i∈[1,nT])的站点属性即特征向量为:
Figure BDA00016252144300001414
其中,
Figure BDA00016252144300001415
为预测省份ST站点i的站点类型,
Figure BDA00016252144300001416
为预测省份ST站点i的站点电压等级,
Figure BDA00016252144300001417
为预测省份ST站点i的站点调度等级,
Figure BDA00016252144300001418
为预测省份ST站点i的站点建成年限,
Figure BDA00016252144300001419
为预测省份ST站点i的站点中光传输设备数量,
Figure BDA00016252144300001420
为预测省份ST站点i的站点所属***,
Figure BDA00016252144300001421
为预测省份ST站点i的站点中心度;
分别对源数据集D以及目标训练集
Figure BDA00016252144300001422
进行离散化和归一化,得到归一化源数据集
Figure BDA00016252144300001423
以及归一化目标训练集
Figure BDA00016252144300001424
统计源数据集D中省份Sk的对应的站点业务数量得到业务数量数据集为:
Figure BDA00016252144300001425
Figure BDA00016252144300001426
其中,Sk∈[1,SN],
Figure BDA00016252144300001427
为省份Sk的站点数量计;
统计目标训练集
Figure BDA0001625214430000151
中即省份ST的对应的站点业务数量得到目标业务数量训练集为:
Figure BDA0001625214430000152
其中,
Figure BDA0001625214430000153
为省份Sk的站点数量计;
将业务数量数据集Y和目标业务数量训练集
Figure BDA0001625214430000154
采用min-max标准化的归一化:
Figure BDA0001625214430000155
其中,min是取集合最小值,max是取集合最大值,y为业务数量数据集Y和目标业务数量训练集
Figure BDA0001625214430000156
中任意省份的站点数量,业务数量数据集Y和目标业务数量训练集
Figure BDA0001625214430000157
采用min-max标准化的归一化后分别得到归一化业务数量数据集
Figure BDA0001625214430000158
和归一化目标业务数量训练集
Figure BDA0001625214430000159
步骤2:通过迁移学习模型SVR模型以及径向基函数构建基于权重的SVR模型;
步骤2中所述基于权重的SVR模型为通过步骤1中所述可知归一化源数据集为:
Figure BDA00016252144300001510
第Sk个归一化源数据即省份Sk包含
Figure BDA00016252144300001511
个样本即
Figure BDA00016252144300001512
个站点:
Figure BDA00016252144300001513
根据归一化源数据集构建训练数据集为:
Figure BDA00016252144300001514
其中,SN为省份的数量即样本的数量,
Figure BDA00016252144300001515
为省份Sk站点的数量即训练数据集
Figure BDA00016252144300001516
的大小,
Figure BDA00016252144300001517
为训练数据集
Figure BDA00016252144300001518
中省份Sk站点i的归一化业务数量,
Figure BDA00016252144300001519
为训练数据集
Figure BDA00016252144300001520
中省份Sk站点i的归一化站点属性即归一化特征向量为:
Figure BDA0001625214430000161
其中,
Figure BDA0001625214430000162
为省份Sk站点m的站点类型,
Figure BDA0001625214430000163
为省份Sk站点m的站点电压等级,
Figure BDA0001625214430000164
为省份Sk站点m的站点调度等级,
Figure BDA0001625214430000165
为省份Sk站点m的站点建成年限,
Figure BDA0001625214430000166
为省份Sk站点m的站点中光传输设备数量,
Figure BDA0001625214430000167
为省份Sk站点m的站点所属***,
Figure BDA0001625214430000168
为省份Sk站点m的站点中心度;
对第Sk个归一化源数据
Figure BDA0001625214430000169
中的每个样本即每个站点的归一化属性加权,权重为
Figure BDA00016252144300001610
基于权重的w-SVR模型为:
Figure BDA00016252144300001611
其中,q为模型的权重参数,b为模型的偏差参数;
基于权重的w-SVR模型的参数求解过程为:
定义线性ε不敏感损失函数为:
Figure BDA00016252144300001612
其中,ε=1/e为不敏感损失值,当省份Sk站点i的归一化业务数量
Figure BDA00016252144300001613
和回归估计函数的预测值
Figure BDA00016252144300001614
之间的差别小于ε,损失等于0;
本发明选择径向基核函数
Figure BDA00016252144300001615
将训练数据集
Figure BDA00016252144300001616
非线性变换到另一个特征空间中,并在径向基核函数变换后特征空间中构造回归估计函数,并初始化第Sk个归一化源数据
Figure BDA00016252144300001617
中的权重
Figure BDA00016252144300001618
径向基核函数公式:
Figure BDA00016252144300001619
其中,σ2为训练数据集
Figure BDA00016252144300001620
的方差;
在SVR模型中引入权重系数来控制异方差的影响,得到优化目标为:
Figure BDA0001625214430000171
其中,ξi为第一松弛变量参数、ξ'i为第二松弛变量参数,ε=1/e为不敏感损失值,C是模型参数,q为模型的权重参数,b为模型的偏差参数,根据拉格朗日以及对偶问题转换,将优化问题转化成:
Figure BDA0001625214430000172
其中,αi为第一拉格朗日算子、α'i为第二拉格朗日算子,求解出αi,α'i的值,同时应该满足KKT条件,因此有:
Figure BDA0001625214430000173
求出模型权重参数q,偏差参数b:
Figure BDA0001625214430000174
其中,
Figure BDA0001625214430000175
最终得到回归预测模型:
Figure BDA0001625214430000176
步骤3:初始化源数据以及目标省份各站点的权重,归一化初始化源数据以及目标省份各站点的权重,并初始化加权多源TrAdaBoost算法中源数据以及目标省份的站点权重,通过分别合并归一化源数据集以及归一化目标训练数据集、归一化业务数据量训练集以及归一化业务数量得到合并训练集;
步骤3中所述源数据D中各省份Sk的站点权重初始化为:
Figure BDA0001625214430000177
其中,
Figure BDA0001625214430000181
为省份Sk的样本数即站点的数量,目标省份ST的站点权重初始化为:
Figure BDA0001625214430000182
其中,
Figure BDA0001625214430000183
为目标省份站点数量;
省份Sk的站点权重通过归一化得到源数据省份Sk归一化权重向量
Figure BDA0001625214430000184
加权多源TrAdaBoost算法中源数据的站点权重为:
Figure BDA0001625214430000185
目标省份ST的站点权重通过归一化得到目标省份归一化权重向量
Figure BDA0001625214430000186
加权多源TrAdaBoost算法中目标省份的站点权重为:
Figure BDA0001625214430000187
合并训练数据集:
Figure BDA0001625214430000188
其中,
Figure BDA0001625214430000189
为步骤1中所述归一化源数据集
Figure BDA00016252144300001810
中省份Sk的归一化源数据,N为省份的数量,
Figure BDA00016252144300001811
为:
Figure BDA00016252144300001812
其中,
Figure BDA00016252144300001813
的每个元素为站点的归一化属性,
Figure BDA00016252144300001814
为省份Sk的站点数量,N为省份的数量;
其中,
Figure BDA00016252144300001815
为步骤1中所述归一化业务数量数据集
Figure BDA00016252144300001816
中省份Sk的归一化业务数量,N=10为省份的数量,
Figure BDA00016252144300001817
为:
Figure BDA00016252144300001818
其中,
Figure BDA00016252144300001819
的每个元素为站点的归一化业务数量,
Figure BDA00016252144300001820
为省份Sk的站点数量,N=10为省份的数量;
其中,
Figure BDA00016252144300001821
为步骤1中所述归一化目标训练集:
Figure BDA00016252144300001822
其中,
Figure BDA0001625214430000191
中每个元素为目标省份ST的归一化属性,
Figure BDA0001625214430000192
为目标省份ST的站点数量
其中,
Figure BDA0001625214430000193
为步骤1中所述目标省份的归一化目标业务数量训练集:
Figure BDA0001625214430000194
其中,
Figure BDA0001625214430000195
的每个元素为目标省份站点的归一化业务数量,
Figure BDA0001625214430000196
为目标省份的站点数量;
步骤4:将合并训练集以及归一化向量通过步骤2建立预测模型并计算模型误差参数;
步骤4中所述将合并训练数据集Dk,Yk、加权多源TrAdaBoost算法中源数据的站点权重
Figure BDA0001625214430000197
以及目标省份
Figure BDA0001625214430000198
的站点权重通过步骤2构建基于权重的SVR模型集合:
Figure BDA0001625214430000199
其中,
Figure BDA00016252144300001910
为第t次迭代中省份Sk的第K个基于权重的SVR模型,N是源数据的数量即省份的数量,
Figure BDA00016252144300001911
为第t次迭代中省份Sk站点i的第一拉格朗日算子,
Figure BDA00016252144300001912
为第t次迭代中省份Sk站点i的第二拉格朗日算子,
Figure BDA00016252144300001913
为第t次迭代中省份Sk站点i的偏差参数,
Figure BDA00016252144300001914
为省份Sk站点i的径向基核函数;
计算预测模型
Figure BDA00016252144300001915
在归一化目标训练集
Figure BDA00016252144300001916
以及归一化目标业务数量训练集
Figure BDA00016252144300001917
在第t次迭代中误差:
Figure BDA00016252144300001918
其中,
Figure BDA00016252144300001919
为第t次迭代中目标省份ST站点i的归一化权重,
Figure BDA00016252144300001920
得到的目标省份ST站点i的业务数量预测值,
Figure BDA00016252144300001921
是目标省份ST站点i的业务数量即真实值,根据误差
Figure BDA00016252144300001922
更新预测模型
Figure BDA00016252144300001923
的权重:
Figure BDA00016252144300001924
最后,得到第t次迭代的候选预测模型ht:
Figure BDA0001625214430000201
同时,计算候选预测模型ht在目标测试数据DT,YT上的误差,wt,i为目标省份数据站 点的权重:
Figure BDA0001625214430000202
设置用于更新样本权重的参数φt
Figure BDA0001625214430000203
其中,εt为第t次迭代时得到的模型的误差,更新目标数据样本的权重:
Figure BDA0001625214430000204
其中,
Figure BDA0001625214430000205
为第t次迭代中目标省份ST站点i的权重,
Figure BDA0001625214430000206
得到的目标省份ST站点i的业务数量预测值,
Figure BDA0001625214430000207
是目标省份ST站点i的业务数量即真实值,ε=1/e为不敏感损失值,
Figure BDA0001625214430000208
为目标省份的站点数量;
更新各个地区源数据样本的权重:
Figure BDA0001625214430000209
其中,
Figure BDA00016252144300002010
为第t次迭代源数据省份Sk站点i的权重,
Figure BDA00016252144300002011
第t次迭代得到的站点业务数量预测值,
Figure BDA00016252144300002012
是站点业务数量真实值,ε=1/e为不敏感损失值,
Figure BDA00016252144300002013
为省份的站点数目,参数
Figure BDA00016252144300002014
为:
Figure BDA00016252144300002015
其中,M=200为最大迭代次数,t为当前迭代次数t∈[1,M],根据步骤1中可知源数据
Figure BDA00016252144300002016
中,
Figure BDA00016252144300002017
为各省份站点数的总和;
步骤5:重复步骤4至到最大迭代次数并计算最终的预测模型;
步骤5中所述重复步骤4至到最大迭代次数并计算最终的预测模型为
如果t=M,M=200则计算出最终的预测模型f(x):
Figure BDA0001625214430000211
其中,φt为每次迭代过程中产生的参数值,ht(x)是每次迭代过程中产生的模型;
步骤6:用最终的预测模型对目标省份的站点属性进行预测得到目标省份的预测站点业务数量,并对预测站点业务数量进行反归一化。
步骤6中所述对于目标省份ST的站点i的站点属性即特征向量:
Figure BDA0001625214430000212
模型预测值为
Figure BDA0001625214430000213
预测值执行反归一化操作:
Figure BDA0001625214430000214
其中,min是取集合最小值,max是取集合最大值,
Figure BDA0001625214430000215
Figure BDA0001625214430000216
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (7)

1.一种基于多源迁移学习的数据校验方法,其特征在于,包括以下步骤:
步骤1:通过***数据表得到站点类型、站点电压等级、站点调度等级、站点建成年限、站点中光传输设备数量、站点所属***以及通过pagerank算法计算得到的站点中心度构建站点属性,通过各省各站点的站点属性进一步构建源数据集并进行归一化,通过预测省份的站点属性进一步构建目标训练集并进行归一化,提取源数据集以及目标训练集对应的站点业务数量并进行归一化;
步骤2:通过迁移学习模型SVR模型以及径向基函数构建基于权重的SVR模型;
步骤3:初始化源数据以及目标省份各站点的权重,归一化初始化源数据以及目标省份各站点的权重,并初始化加权多源TrAdaBoost算法中源数据以及目标省份的站点权重,通过分别合并归一化源数据集以及归一化目标训练数据集、归一化业务数据量训练集以及归一化业务数量得到合并训练集;
步骤4:将合并训练集以及归一化向量通过步骤2建立预测模型并计算模型误差参数;
步骤5:重复步骤4至到最大迭代次数并计算最终的预测模型;
步骤6:用最终的预测模型对目标省份的站点属性进行预测得到目标省份的预测站点业务数量,并对预测站点业务数量进行反归一化。
2.根据权利要求1所述的基于多源迁移学习的数据校验方法,其特征在于:步骤1中所述站点属性即特征向量为:
Figure FDA0003292294290000011
其中,
Figure FDA0003292294290000012
为省份Sk站点m的站点属性,Sk∈[1,SN],
Figure FDA0003292294290000013
N为省份的数量,
Figure FDA0003292294290000014
为省份Sk站点的数量,
Figure FDA0003292294290000015
为省份Sk站点m的站点类型,
Figure FDA0003292294290000016
为省份Sk站点m的站点电压等级,
Figure FDA0003292294290000017
为省份Sk站点m的站点调度等级,
Figure FDA0003292294290000018
为省份Sk站点m的站点建成年限,
Figure FDA0003292294290000019
为省份Sk站点m的站点中光传输设备数量,
Figure FDA00032922942900000110
为省份Sk站点m的站点所属***,
Figure FDA00032922942900000111
为省份Sk站点m的站点中心度;
从***的数据表中可以得到站点类型、站点电压等级、站点调度等级、站点建成年限、站点中光传输设备数量、站点所属***,省份Sk站点m的站点中心度计算过程首先为根据站点的度以及站点数量进行初始化:
Figure FDA0003292294290000021
其中,
Figure FDA0003292294290000022
为省份Sk站点m的中心度,
Figure FDA0003292294290000023
为省份Sk站点的数量,
Figure FDA0003292294290000024
为省份Sk站点m的度,进一步根据PageRank算法迭代更新中心度,直到趋于平稳,用以下公式更新:
Figure FDA0003292294290000025
Figure FDA0003292294290000026
其中,iter为PageRank算法迭代的次数,NI=500为PageRank算法迭代的总次数,
Figure FDA0003292294290000027
为第iter迭代中省份Sk站点m的中心度,
Figure FDA0003292294290000028
为省份Sk的所有站点对省份Sk站点m有光缆连接的站点集合,
Figure FDA0003292294290000029
为与站点
Figure FDA00032922942900000210
连接的第j个站点的中心度,
Figure FDA00032922942900000211
为站点
Figure FDA00032922942900000212
的与外连接的光缆数目,α为阻尼系数;
根据数据量较大的各个省份的站点属性构建源数据集:
Figure FDA00032922942900000213
其中,N为数据量较大的省份的数量,
Figure FDA00032922942900000214
为第Sk个源数据,第Sk个源数据即省份Sk包含
Figure FDA00032922942900000215
个样本即
Figure FDA00032922942900000216
个站点:
Figure FDA00032922942900000217
Figure FDA00032922942900000218
其中,
Figure FDA00032922942900000219
为省份Sk站点的数量即样本的数量;
Figure FDA00032922942900000220
为省份Sk站点m的站点属性,Sk∈[1,SN],
Figure FDA00032922942900000221
SN为省份的数量,
Figure FDA00032922942900000222
为省份Sk站点的数量,
Figure FDA00032922942900000223
为省份Sk站点m的站点类型,
Figure FDA00032922942900000224
为省份Sk站点m的站点电压等级,
Figure FDA0003292294290000031
为省份Sk站点m的站点调度等级,
Figure FDA0003292294290000032
为省份Sk站点m的站点建成年限,
Figure FDA0003292294290000033
为省份Sk站点m的站点中光传输设备数量,
Figure FDA0003292294290000034
为省份Sk站点m的站点所属***,
Figure FDA0003292294290000035
为省份Sk站点m的站点中心度;
通过预测省份ST的站点属性构建目标训练集:
Figure FDA0003292294290000036
其中,nT为目标训练集的样本个数即预测省份ST的站点数量,
Figure FDA0003292294290000037
为预测省份ST站点i的站点属性即特征向量为:
Figure FDA0003292294290000038
其中,i∈[1,nT],
Figure FDA0003292294290000039
为预测省份ST站点i的站点类型,
Figure FDA00032922942900000310
为预测省份ST站点i的站点电压等级,
Figure FDA00032922942900000311
为预测省份ST站点i的站点调度等级,
Figure FDA00032922942900000312
为预测省份ST站点i的站点建成年限,
Figure FDA00032922942900000313
为预测省份ST站点i的站点中光传输设备数量,
Figure FDA00032922942900000314
为预测省份ST站点i的站点所属***,
Figure FDA00032922942900000315
为预测省份ST站点i的站点中心度;
分别对源数据集D以及目标训练集
Figure FDA00032922942900000316
进行离散化和归一化,得到归一化源数据集
Figure FDA00032922942900000317
以及归一化目标训练集
Figure FDA00032922942900000318
统计源数据集D中省份Sk的对应的站点业务数量得到业务数量数据集为:
Figure FDA00032922942900000319
Figure FDA00032922942900000320
其中,Sk∈[1,SN],
Figure FDA00032922942900000321
为省份Sk的站点数量计;
统计目标训练集
Figure FDA00032922942900000322
中即省份ST的对应的站点业务数量得到目标业务数量训练集为:
Figure FDA00032922942900000323
其中,
Figure FDA0003292294290000041
为省份Sk的站点数量计;
将业务数量数据集Y和目标业务数量训练集
Figure FDA0003292294290000042
采用min-max标准化的归一化:
Figure FDA0003292294290000043
其中,min是取集合最小值,max是取集合最大值,y为业务数量数据集Y和目标业务数量训练集
Figure FDA0003292294290000044
中任意省份的站点数量,业务数量数据集Y和目标业务数量训练集
Figure FDA0003292294290000045
采用min-max标准化的归一化后分别得到归一化业务数量数据集
Figure FDA0003292294290000046
和归一化目标业务数量训练集
Figure FDA0003292294290000047
3.根据权利要求2所述的基于多源迁移学习的数据校验方法,其特征在于:步骤2中所述构建基于权重的SVR模型,具体方法为:
步骤1中所述的归一化源数据集为:
Figure FDA0003292294290000048
第Sk个归一化源数据即省份Sk包含
Figure FDA0003292294290000049
个样本即
Figure FDA00032922942900000410
个站点:
Figure FDA00032922942900000411
根据归一化源数据集构建训练数据集为:
Figure FDA00032922942900000412
其中,SN为省份的数量即样本的数量,
Figure FDA00032922942900000413
为省份Sk站点的数量即训练数据集
Figure FDA00032922942900000414
的大小,
Figure FDA00032922942900000415
为训练数据集
Figure FDA00032922942900000416
中省份Sk站点i的归一化业务数量,
Figure FDA00032922942900000417
为训练数据集
Figure FDA00032922942900000418
中省份Sk站点i的归一化站点属性即归一化特征向量为:
Figure FDA00032922942900000419
其中,
Figure FDA00032922942900000420
Figure FDA00032922942900000421
为省份Sk站点m的站点类型,
Figure FDA00032922942900000422
为省份Sk站点m的站点电压等级,
Figure FDA00032922942900000423
为省份Sk站点m的站点调度等级,
Figure FDA0003292294290000051
为省份Sk站点m的站点建成年限,
Figure FDA0003292294290000052
为省份Sk站点m的站点中光传输设备数量,
Figure FDA0003292294290000053
为省份Sk站点m的站点所属***,
Figure FDA0003292294290000054
为省份Sk站点m的站点中心度;
对第Sk个归一化源数据
Figure FDA0003292294290000055
中的每个样本即每个站点的归一化属性加权,权重为
Figure FDA0003292294290000056
基于权重的w-SVR模型为:
Figure FDA0003292294290000057
其中,q为模型的权重参数,b为模型的偏差参数;
基于权重的w-SVR模型的参数求解过程为:
定义线性ε不敏感损失函数为:
Figure FDA0003292294290000058
其中,ε为不敏感损失值,当省份Sk站点i的归一化业务数量
Figure FDA0003292294290000059
和回归估计函数的预测值
Figure FDA00032922942900000510
之间的差别小于ε,损失等于0;
选择径向基核函数
Figure FDA00032922942900000511
将训练数据集
Figure FDA00032922942900000512
非线性变换到另一个特征空间中,并在径向基核函数变换后特征空间中构造回归估计函数,并初始化第Sk个归一化源数据
Figure FDA00032922942900000513
中的权重
Figure FDA00032922942900000514
径向基核函数公式:
Figure FDA00032922942900000515
其中,σ2为训练数据集
Figure FDA00032922942900000516
的方差;
在SVR模型中引入权重系数来控制异方差的影响,得到优化目标为:
Figure FDA0003292294290000061
其中,ξi为第一松弛变量参数、ξ′i为第二松弛变量参数,ε为不敏感损失值,C是模型参数,q为模型的权重参数,b为模型的偏差参数,根据拉格朗日以及对偶问题转换,将优化问题转化成:
Figure FDA0003292294290000062
其中,αi为第一拉格朗日算子、α'i为第二拉格朗日算子,求解出αi,α'i的值,同时应该满足KKT条件,因此有:
Figure FDA0003292294290000063
求出模型权重参数q,偏差参数b:
Figure FDA0003292294290000064
其中,0<αi,
Figure FDA0003292294290000065
最终得到回归预测模型:
Figure FDA0003292294290000066
4.根据权利要求1所述的基于多源迁移学习的数据校验方法,其特征在于:步骤3中所述源数据D中各省份Sk的站点权重初始化为:
Figure FDA0003292294290000067
其中,
Figure FDA0003292294290000071
为省份Sk的样本数即站点的数量,目标省份ST的站点权重初始化为:
Figure FDA0003292294290000072
其中,
Figure FDA0003292294290000073
为目标省份站点数量;
省份Sk的站点权重通过归一化得到源数据省份Sk归一化权重向量
Figure FDA0003292294290000074
加权多源TrAdaBoost算法中源数据的站点权重为:
Figure FDA0003292294290000075
目标省份ST的站点权重通过归一化得到目标省份归一化权重向量
Figure FDA0003292294290000076
加权多源TrAdaBoost算法中目标省份的站点权重为:
Figure FDA0003292294290000077
合并训练数据集:
Figure FDA0003292294290000078
其中,
Figure FDA0003292294290000079
为步骤1中所述归一化源数据集
Figure FDA00032922942900000710
中省份Sk的归一化源数据,N为省份的数量,
Figure FDA00032922942900000711
为:
Figure FDA00032922942900000712
其中,
Figure FDA00032922942900000713
的每个元素为站点的归一化属性,
Figure FDA00032922942900000714
为省份Sk的站点数量,N为省份的数量;
其中,
Figure FDA00032922942900000715
为步骤1中所述归一化业务数量数据集
Figure FDA00032922942900000716
中省份Sk的归一化业务数量,N为省份的数量,
Figure FDA00032922942900000717
为:
Figure FDA00032922942900000718
其中,
Figure FDA00032922942900000719
的每个元素为站点的归一化业务数量,
Figure FDA00032922942900000720
为省份Sk的站点数量,N为省份的数量;
其中,
Figure FDA00032922942900000721
为步骤1中所述归一化目标训练集:
Figure FDA0003292294290000081
其中,
Figure FDA0003292294290000082
中每个元素为目标省份ST的归一化属性,
Figure FDA0003292294290000083
为目标省份ST的站点数量
其中,
Figure FDA0003292294290000084
为步骤1中所述目标省份的归一化目标业务数量训练集:
Figure FDA0003292294290000085
其中,
Figure FDA0003292294290000086
的每个元素为目标省份站点的归一化业务数量,
Figure FDA0003292294290000087
为目标省份的站点数量。
5.根据权利要求1所述的基于多源迁移学习的数据校验方法,其特征在于:步骤4中所述将合并训练数据集Dk,Yk、加权多源TrAdaBoost算法中源数据的站点权重
Figure FDA0003292294290000088
以及目标省份
Figure FDA0003292294290000089
的站点权重通过步骤2构建基于权重的SVR模型集合:
Figure FDA00032922942900000810
其中,
Figure FDA00032922942900000811
为第t次迭代中省份Sk的第K个基于权重的SVR模型,N是源数据的数量即省份的数量,
Figure FDA00032922942900000812
为第t次迭代中省份Sk站点i的第一拉格朗日算子,
Figure FDA00032922942900000813
为第t次迭代中省份Sk站点i的第二拉格朗日算子,
Figure FDA00032922942900000814
为第t次迭代中省份Sk站点i的偏差参数,
Figure FDA00032922942900000815
为省份Sk站点i的径向基核函数;
计算预测模型
Figure FDA00032922942900000816
在归一化目标训练集
Figure FDA00032922942900000817
以及归一化目标业务数量训练集
Figure FDA00032922942900000818
在第t次迭代中误差:
Figure FDA00032922942900000819
其中,
Figure FDA00032922942900000820
为第t次迭代中目标省份ST站点i的归一化权重,
Figure FDA00032922942900000821
得到的目标省份ST站点i的业务数量预测值,
Figure FDA00032922942900000822
是目标省份ST站点i的业务数量即真实值,根据误差
Figure FDA00032922942900000823
更新预测模型
Figure FDA00032922942900000824
的权重:
Figure FDA0003292294290000091
最后,得到第t次迭代的候选预测模型ht:
Figure FDA0003292294290000092
同时,计算候选预测模型ht在目标测试数据DT,YT上的误差,wt,i为目标省份数据站点的权重:
Figure FDA0003292294290000093
设置用于更新样本权重的参数φt
Figure FDA0003292294290000094
其中,εt为第t次迭代时得到的模型的误差,更新目标数据样本的权重:
Figure FDA0003292294290000095
其中,
Figure FDA0003292294290000096
为第t次迭代中目标省份ST站点i的权重,
Figure FDA0003292294290000097
得到的目标省份ST站点i的业务数量预测值,
Figure FDA0003292294290000098
是目标省份ST站点i的业务数量即真实值,ε为不敏感损失值,
Figure FDA0003292294290000099
为目标省份的站点数量;
更新各个地区源数据样本的权重:
Figure FDA00032922942900000910
其中,
Figure FDA00032922942900000911
为第t次迭代源数据省份Sk站点i的权重,
Figure FDA00032922942900000912
第t次迭代得到的站点业务数量预测值,
Figure FDA00032922942900000913
是站点业务数量真实值,ε为不敏感损失值,
Figure FDA00032922942900000914
为省份的站点数目,参数
Figure FDA00032922942900000915
为:
Figure FDA0003292294290000101
其中,M为最大迭代次数,t为当前迭代次数t∈[1,M],根据步骤1中可知源数据
Figure FDA0003292294290000102
中,
Figure FDA0003292294290000103
为各省份站点数的总和。
6.根据权利要求1所述的基于多源迁移学习的数据校验方法,其特征在于:步骤5中所述重复步骤4至到最大迭代次数并计算最终的预测模型为:
如果t=M则计算出最终的预测模型f(x):
Figure FDA0003292294290000104
其中,φt为每次迭代过程中产生的参数值,ht(x)是每次迭代过程中产生的模型。
7.根据权利要求1所述的基于多源迁移学习的数据校验方法,其特征在于:步骤6中所述对于目标省份ST的站点i的站点属性即特征向量:
Figure FDA0003292294290000105
模型预测值为
Figure FDA0003292294290000106
预测值执行反归一化操作:
Figure FDA0003292294290000107
其中,min是取集合最小值,max是取集合最大值,
Figure FDA0003292294290000108
Figure FDA0003292294290000109
CN201810320808.6A 2018-04-11 2018-04-11 一种基于多源迁移学习的数据校验方法 Active CN108549907B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810320808.6A CN108549907B (zh) 2018-04-11 2018-04-11 一种基于多源迁移学习的数据校验方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810320808.6A CN108549907B (zh) 2018-04-11 2018-04-11 一种基于多源迁移学习的数据校验方法

Publications (2)

Publication Number Publication Date
CN108549907A CN108549907A (zh) 2018-09-18
CN108549907B true CN108549907B (zh) 2021-11-16

Family

ID=63514421

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810320808.6A Active CN108549907B (zh) 2018-04-11 2018-04-11 一种基于多源迁移学习的数据校验方法

Country Status (1)

Country Link
CN (1) CN108549907B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111600734B (zh) * 2019-02-21 2021-11-02 烽火通信科技股份有限公司 一种网络故障处理模型的构建方法、故障处理方法及***
CN110398986A (zh) * 2019-04-28 2019-11-01 清华大学 一种多源数据迁移的无人机密集树林感知技术
CN110457646B (zh) * 2019-06-26 2022-12-13 中国政法大学 一种基于参数迁移学习低资源头相关传输函数个性化方法
CN110674648B (zh) * 2019-09-29 2021-04-27 厦门大学 基于迭代式双向迁移的神经网络机器翻译模型
CN112651173B (zh) * 2020-12-18 2022-04-29 浙江大学 一种基于跨域光谱信息的农产品品质无损检测方法及可泛化***
CN113379903A (zh) * 2021-06-30 2021-09-10 北京爱奇艺科技有限公司 数据的迁移方法及装置、电子设备、可读存储介质
CN113962477A (zh) * 2021-11-10 2022-01-21 国网浙江省电力有限公司杭州供电公司 一种产业电量关联聚集预测方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100069942A (ko) * 2008-12-17 2010-06-25 한양대학교 산학협력단 무선 멀티홉 네트워크에서의 협업 데이터 전송 방법 및 시스템
CN104199857A (zh) * 2014-08-14 2014-12-10 西安交通大学 一种基于多标签分类的税务文档层次分类方法
CN106296044A (zh) * 2016-10-08 2017-01-04 南方电网科学研究院有限责任公司 电力***风险调度方法和***
CN106651188A (zh) * 2016-12-27 2017-05-10 贵州电网有限责任公司贵阳供电局 一种输变电设备多源状态评估数据处理方法及其应用
CN107818523A (zh) * 2017-11-14 2018-03-20 国网江西省电力公司信息通信分公司 基于非稳定频率分布与频率因子学习的电力通信***数据真值判别与推断方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100069942A (ko) * 2008-12-17 2010-06-25 한양대학교 산학협력단 무선 멀티홉 네트워크에서의 협업 데이터 전송 방법 및 시스템
CN104199857A (zh) * 2014-08-14 2014-12-10 西安交通大学 一种基于多标签分类的税务文档层次分类方法
CN106296044A (zh) * 2016-10-08 2017-01-04 南方电网科学研究院有限责任公司 电力***风险调度方法和***
CN106651188A (zh) * 2016-12-27 2017-05-10 贵州电网有限责任公司贵阳供电局 一种输变电设备多源状态评估数据处理方法及其应用
CN107818523A (zh) * 2017-11-14 2018-03-20 国网江西省电力公司信息通信分公司 基于非稳定频率分布与频率因子学习的电力通信***数据真值判别与推断方法

Also Published As

Publication number Publication date
CN108549907A (zh) 2018-09-18

Similar Documents

Publication Publication Date Title
CN108549907B (zh) 一种基于多源迁移学习的数据校验方法
Dong et al. Hourly energy consumption prediction of an office building based on ensemble learning and energy consumption pattern classification
CN108229754A (zh) 基于相似日分段和lm-bp网络的短期负荷预测方法
Li et al. Federated learning-based short-term building energy consumption prediction method for solving the data silos problem
CN103678004A (zh) 一种基于非监督特征学习的主机负载预测方法
CN111080105A (zh) 基于电压时序数据的台区户变关系识别方法及***
CN105956788A (zh) 一种输变电工程造价的动态管理控制方法
CN106980910B (zh) 中长期电力负荷测算***及方法
CN111724039B (zh) 一种向电力用户推荐客服人员的推荐方法
CN107463993A (zh) 基于互信息‑核主成分分析‑Elman网络的中长期径流预报方法
CN109583635A (zh) 一种面向运行可靠性的短期负荷预测建模方法
Lu et al. Data augmentation strategy for short-term heating load prediction model of residential building
CN111091223B (zh) 一种基于物联网智能感知技术的配变短期负荷预测方法
CN115358437A (zh) 基于卷积神经网络的供电负荷预测方法
Qu et al. Research on short‐term output power forecast model of wind farm based on neural network combination algorithm
Yu et al. Sports event model evaluation and prediction method using principal component analysis
Mulero et al. Data-driven energy resource planning for Smart Cities
CN112348700B (zh) 一种结合som聚类与ifou方程的线路容量预测方法
CN105868435B (zh) 一种基于线性相关性分析实现光网络建设的高效控制方法
CN104360948A (zh) 基于模糊算法的iec 61850配置文件工程化一致性测试方法
CN114205238A (zh) 网络资源优化、模型训练方法、装置、存储介质及设备
Chen et al. Prediction method of intelligent building electricity consumption based on deep learning
Hui et al. Ultra‐Short‐Term Prediction of Wind Power Based on Fuzzy Clustering and RBF Neural Network
CN111260403A (zh) 一种中介市场收房定价的方法及***
Yu et al. Applications of Nondominated Sorting Genetic Algorithm II Combined with WKNN Online Matching Algorithm in Building Indoor Optimization Design

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant