CN108549907B - 一种基于多源迁移学习的数据校验方法 - Google Patents
一种基于多源迁移学习的数据校验方法 Download PDFInfo
- Publication number
- CN108549907B CN108549907B CN201810320808.6A CN201810320808A CN108549907B CN 108549907 B CN108549907 B CN 108549907B CN 201810320808 A CN201810320808 A CN 201810320808A CN 108549907 B CN108549907 B CN 108549907B
- Authority
- CN
- China
- Prior art keywords
- site
- target
- province
- save
- normalized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000013526 transfer learning Methods 0.000 title claims abstract description 22
- 238000013524 data verification Methods 0.000 title claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 93
- 239000013598 vector Substances 0.000 claims abstract description 23
- 230000006870 function Effects 0.000 claims abstract description 19
- 238000010606 normalization Methods 0.000 claims abstract description 17
- 230000003287 optical effect Effects 0.000 claims description 24
- 230000005540 biological transmission Effects 0.000 claims description 18
- 238000010276 construction Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000013016 damping Methods 0.000 claims description 3
- 230000009977 dual effect Effects 0.000 claims description 3
- 238000007726 management method Methods 0.000 description 9
- 230000000875 corresponding effect Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000013508 migration Methods 0.000 description 5
- 230000005012 migration Effects 0.000 description 5
- 238000007405 data analysis Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/245—Classification techniques relating to the decision surface
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Optimization (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Complex Calculations (AREA)
Abstract
本发明提出了一种基于多源迁移学习的数据校验方法。本发明的方法为提取源数据集以及目标训练集对应的站点业务数量并进行归一化;通过迁移学习模型SVR模型以及径向基函数构建基于权重的SVR模型;初始化源数据以及目标省份的站点权重并进行归一化,通过分别合并归一化源数据集、归一化目标训练数据集、归一化业务数据量训练集以及归一化业务数量得到合并训练集;将合并训练集以及归一化向量建立预测模型并计算模型误差参数;多次迭代并计算最终的预测模型;用最终的预测模型得到目标省份的预测站点业务数量,并对预测站点业务数量进行反归一化;与现有技术相比,本发明提高了数据质量,节约了数据资源。
Description
技术领域
本发明属于迁移学习的范畴,尤其涉及一种基于多源迁移学习的数据校验方法。
背景技术
国家电网通信管理***(TMS)作为电力公司的第二张实体网络,承载着电网运行和经营管理的核心业务,是电网安全、稳定、经济运行的重要保障。作为电力公司通信专业的核心管理***,TMS***在资源管理、实时监控、运行管理方面发挥了巨大作用,同时也积累了大量数据。TMS***的以数据库的形式进行保存,各单位独立部署数据库服务器。主要包含TMS资源数据、告警数据、工单数据、内部各模块产生的业务数据;国网通信公司和各分部、省公司、直辖市,上下级***之间资源属地化、工单流转、统计数据上报、任务下发、告警数据上报等数据;同级的外部***存在台账数据、工作流等数据流转。但是TMS***数据质量问题严重影响着实际生产中的数据分析与决策,主要表现在静态资源数据与实际不符、动态资源数据关联错误、基础数据保鲜实施不到位三个方面,主要影响了TMS***为电力通信精益化管理提供坚强支撑的现实意义。与此同时,TMS***中不同省份数据大小差异很大。网络规模较小的省公司数据规模在1G~2G,像国网通信等网络规模大的单位,数据规模达到30G~40G,特别的对于一些特殊业务相对偏远地区的数据甚至只有几百kb,这些数据根本不足以训练一个好的传统机器学习模型。
数据的丢失、错误、过期等数据质量问题一直是大数据分析的一个重要课题,每年应为数据质量问题都会给社会带来巨大的损失。根据德国数据分析机构的调查显示:“美国每年因为劣质数据而造成的损失高达6000亿美元”,在美国由于数据错误引起的医疗事故每年使98000名患者丧生。对于TMS***,电力业务管理频度低,业务管理数据多以报表式月度数据为主,没有实现按天(或更高频度)对业务进展和状态的管理。其次,业务过程数据录入维护不及时,数据生成时间滞后于业务过程,从而产生了大量不符合实际的数据,这现象对公司对实际生产中的业务进行判断和决策带来严重的影响,所以我们在进行数据分析之前必须关注数据的本身。本发明通过对站点业务数量的预测来判断站点***中业务数量是否缺失,从而找到异常站点。这方面数据根据地区省份的不同差异很大。对于数据量足够的省份,传统的机器学习方法可以取得不错的效果,例如支持向量回归机、神经网络等算法,但是传统的机器学习要求训练数据和测试数据的分布保持一致,各个省份的数据并不能放在一起训练,所以对于数据量小的地区的训练就会出现问题,如果强行用一个地区的数据进行分析会因为数据不够而得到不好的模型,或者把各个省份的数据放在一起训练会因为各个数据集分布的不一致而导致模型效果变差。本发明基于此提出了利用其它省份的数据通过迁移学习方法训练目标数据,达到异常站点检测的目的。
迁移学习是机器学习新的一个领域,它的目的是利用已存在的知识对不同的但相关领域进行训练学习。迁移学习放宽了传统机器学习的两个基本条件:训练数据和测试数据满足独立同分布,以及拥有足够的数据训练一个好的模型。研究表明,两个不同的领域的相似度越高,迁移学习就越容易,效果越好,否则效果往往不佳,甚至出现“负迁移”得结果。Domain adaptation是迁移学习领域比较热的研究方向,Pan等人提出了域适应的TCA(Transfer Component Analysis)算法,TCA属于基于特征的迁移学习方法,它的思想是当源域和目标域处于不同数据分布时,将两个领域的数据一起映射到一个高维的再生核希尔伯特空间。在此空间中,最小化源和目标的数据距离,同时最大程度地保留它们各自的内部属性。TCA算法只考虑目标领域和源领域数据在另一个空间上的相关性,过于单一,同时TCA算法的时间复杂度比较高。Dai等人提出了基于实例相关性的TrAdaBoost(TransferAdaBoost)算法,该算法的思想是最大利用源数据,找到源数据中与目标数据相关的数据,然后和目标数据一起训练学习。但是TrAdaBoost算法只利用了一个源数据,算法的结果依赖于源数据与目标数据的相关性,算法的正确性与数据相关性成正比,如果相关很弱,容易产生负迁移。Yao等人通过考虑多个源与目标的相关性,提出了两种多源迁移学习算法,分别是MTrA(MultiSource-TrAdaBoost)和TTrA(Task-TrAdaBoost),MTrA算法的思想是源数据是有多个数据源,每次迭代的过程中使用当前迭代与目标数据相关性最强的数据源训练弱分类器,然后得到强分类器;TTrA算法的思想是每次迭代会用所有的源数据分别训练一个弱分类器,然后选择与目标数据误差最小的分类器,迭代完后将这些分类器集成一个强的分类器。这两种多源迁移学习算法每次迭代都会选择与目标数据相关性最强的数据源,这样虽然能保证迁移的源数据与目标最相关,但是它们没有利用其它数据源的信息,在实际生产中每个数据源的成本都是很高的,这种操作浪费了公司大量的资源。TMS***中数据质量的问题严重影响了公司对实际业务的判断和操作,各地区数据的分布差异、数据量的差异也给数据质量问题的发现带了挑战。
发明内容
为了解决上述问题,本发明提出了一种基于多源迁移学习的数据校验方法,本发明所采用的技术方案是:
步骤1:通过***数据表得到站点类型、站点电压等级、站点调度等级、站点建成年限、站点中光传输设备数量、站点所属***以及通过pagerank算法计算得到的站点中心度构建站点属性,通过各省各站点的站点属性进一步构建源数据集并进行归一化,通过预测省份的站点属性进一步构建目标训练集并进行归一化,提取源数据集以及目标训练集对应的站点业务数量并进行归一化;
步骤2:通过迁移学习模型SVR模型以及径向基函数构建基于权重的SVR模型;
步骤3:初始化源数据以及目标省份各站点的权重,归一化初始化源数据以及目标省份各站点的权重,并初始化加权多源TrAdaBoost算法中源数据以及目标省份的站点权重,通过分别合并归一化源数据集以及归一化目标训练数据集、归一化业务数据量训练集以及归一化业务数量得到合并训练集;
步骤4:将合并训练集以及归一化向量通过步骤2建立预测模型并计算模型误差参数;
步骤5:重复步骤4至到最大迭代次数并计算最终的预测模型;
步骤6:用最终的预测模型对目标省份的站点属性进行预测得到目标省份的预测站点业务数量,并对预测站点业务数量进行反归一化。
作为优选,步骤1中所述站点属性即特征向量为:
其中,为省份Sk站点m的站点属性,N为省份的数量,为省份Sk站点的数量,为省份Sk站点m的站点类型,为省份Sk站点m的站点电压等级,为省份Sk站点m的站点调度等级,为省份Sk站点m的站点建成年限,为省份Sk站点m的站点中光传输设备数量,为省份Sk站点m的站点所属***,为省份Sk站点m的站点中心度;
从***的数据表中可以得到站点类型、站点电压等级、站点调度等级、站点建成年限、站点中光传输设备数量、站点所属***,省份Sk站点m的站点中心度计算过程首先为根据站点的度以及站点数量进行初始化:
其中,iter为PageRank算法迭代的次数,NI=500为PageRank算法迭代的总次数,为第iter迭代中省份Sk站点m的中心度,为省份Sk的所有站点对省份Sk站点m有光缆连接的站点集合,为与站点连接的第j个站点的中心度,为站点的与外连接的光缆数目,α为阻尼系数;
根据数据量较大的各个省份的站点属性构建源数据集:
其中,为省份Sk站点的数量即样本的数量;为省份Sk站点m的站点属性,SN为省份的数量,为省份Sk站点的数量,为省份Sk站点m的站点类型,为省份Sk站点m的站点电压等级,为省份Sk站点m的站点调度等级,为省份Sk站点m的站点建成年限,为省份Sk站点m的站点中光传输设备数量,为省份Sk站点m的站点所属***,为省份Sk站点m的站点中心度;
通过预测省份ST的站点属性构建目标训练集:
其中,为预测省份ST站点i的站点类型,为预测省份ST站点i的站点电压等级,为预测省份ST站点i的站点调度等级,为预测省份ST站点i的站点建成年限,为预测省份ST站点i的站点中光传输设备数量,为预测省份ST站点i的站点所属***,为预测省份ST站点i的站点中心度;
统计源数据集D中省份Sk的对应的站点业务数量得到业务数量数据集为:
其中,min是取集合最小值,max是取集合最大值,y为业务数量数据集Y和目标业务数量训练集中任意省份的站点数量,业务数量数据集Y和目标业务数量训练集采用min-max标准化的归一化后分别得到归一化业务数量数据集和归一化目标业务数量训练集
作为优选,步骤2中所述基于权重的SVR模型为通过步骤1中所述可知归一化源数据集为:
根据归一化源数据集构建训练数据集为:
其中,为省份Sk站点m的站点类型,为省份Sk站点m的站点电压等级,为省份Sk站点m的站点调度等级,为省份Sk站点m的站点建成年限,为省份Sk站点m的站点中光传输设备数量,为省份Sk站点m的站点所属***,为省份Sk站点m的站点中心度;
其中,q为模型的权重参数,b为模型的偏差参数;
基于权重的w-SVR模型的参数求解过程为:
定义线性ε不敏感损失函数为:
在SVR模型中引入权重系数来控制异方差的影响,得到优化目标为:
其中,ξi为第一松弛变量参数、ξ'i为第二松弛变量参数,ε为不敏感损失值,C是模型参数,q为模型的权重参数,b为模型的偏差参数,根据拉格朗日以及对偶问题转换,将优化问题转化成:
其中,αi为第一拉格朗日算子、α'i为第二拉格朗日算子,求解出αi,α'i的值,同时应该满足KKT条件,因此有:
求出模型权重参数q,偏差参数b:
作为优选,步骤3中所述源数据D中各省份Sk的站点权重初始化为:
合并训练数据集:
其中,为第t次迭代中省份Sk的第K个基于权重的SVR模型,N是源数据的数量即省份的数量,为第t次迭代中省份Sk站点i的第一拉格朗日算子,为第t次迭代中省份Sk站点i的第二拉格朗日算子,为第t次迭代中省份Sk站点i的偏差参数,为省份Sk站点i的径向基核函数;
最后,得到第t次迭代的候选预测模型ht:
同时,计算候选预测模型ht在目标测试数据DT,YT上的误差,wt,i为目标省份数据站点的权重:
设置用于更新样本权重的参数φt:
其中,εt为第t次迭代时得到的模型的误差,更新目标数据样本的权重:
更新各个地区源数据样本的权重:
作为优选,步骤5中所述重复步骤4至到最大迭代次数并计算最终的预测模型为
如果t=M则计算出最终的预测模型f(x):
其中,φt为每次迭代过程中产生的参数值,ht(x)是每次迭代过程中产生的模型;
作为优选,步骤6中所述对于目标省份ST的站点i的站点属性即特征向量:
与现有技术相比,本发明节约了数据资源,提高了数据质量。
附图说明
图1:为本发明的方法流程图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
下面结合图1介绍本发明实施例的具体步骤,本发明提供了一种基于多源迁移学习的数据校验方法,其具体步骤为:
步骤1:通过***数据表得到站点类型、站点电压等级、站点调度等级、站点建成年限、站点中光传输设备数量、站点所属***以及通过pagerank算法计算得到的站点中心度构建站点属性,通过各省各站点的站点属性进一步构建源数据集并进行归一化,通过预测省份的站点属性进一步构建目标训练集并进行归一化,提取源数据集以及目标训练集对应的站点业务数量并进行归一化;
步骤1中所述站点属性即特征向量为:
其中,为省份Sk站点m的站点属性,N=10为省份的数量,为省份Sk站点的数量,为省份Sk站点m的站点类型,为省份Sk站点m的站点电压等级,为省份Sk站点m的站点调度等级,为省份Sk站点m的站点建成年限,为省份Sk站点m的站点中光传输设备数量,为省份Sk站点m的站点所属***,为省份Sk站点m的站点中心度;
从***的数据表中可以得到站点类型、站点电压等级、站点调度等级、站点建成年限、站点中光传输设备数量、站点所属***,省份Sk站点m的站点中心度计算过程首先为根据站点的度以及站点数量进行初始化:
其中,iter为PageRank算法迭代的次数,NI=500为PageRank算法迭代的总次数,为第iter迭代中省份Sk站点m的中心度,为省份Sk的所有站点对省份Sk站点m有光缆连接的站点集合,为与站点连接的第j个站点的中心度,为站点的与外连接的光缆数目,α=0.85为阻尼系数;
根据数据量较大的各个省份的站点属性构建源数据集:
其中,为省份Sk站点的数量即样本的数量;为省份Sk站点m的站点属性,SN为省份的数量,为省份Sk站点的数量,为省份Sk站点m的站点类型,为省份Sk站点m的站点电压等级,为省份Sk站点m的站点调度等级,为省份Sk站点m的站点建成年限,为省份Sk站点m的站点中光传输设备数量,为省份Sk站点m的站点所属***,为省份Sk站点m的站点中心度;
通过预测省份ST的站点属性构建目标训练集:
其中,为预测省份ST站点i的站点类型,为预测省份ST站点i的站点电压等级,为预测省份ST站点i的站点调度等级,为预测省份ST站点i的站点建成年限,为预测省份ST站点i的站点中光传输设备数量,为预测省份ST站点i的站点所属***,为预测省份ST站点i的站点中心度;
统计源数据集D中省份Sk的对应的站点业务数量得到业务数量数据集为:
其中,min是取集合最小值,max是取集合最大值,y为业务数量数据集Y和目标业务数量训练集中任意省份的站点数量,业务数量数据集Y和目标业务数量训练集采用min-max标准化的归一化后分别得到归一化业务数量数据集和归一化目标业务数量训练集
步骤2:通过迁移学习模型SVR模型以及径向基函数构建基于权重的SVR模型;
步骤2中所述基于权重的SVR模型为通过步骤1中所述可知归一化源数据集为:
根据归一化源数据集构建训练数据集为:
其中,为省份Sk站点m的站点类型,为省份Sk站点m的站点电压等级,为省份Sk站点m的站点调度等级,为省份Sk站点m的站点建成年限,为省份Sk站点m的站点中光传输设备数量,为省份Sk站点m的站点所属***,为省份Sk站点m的站点中心度;
其中,q为模型的权重参数,b为模型的偏差参数;
基于权重的w-SVR模型的参数求解过程为:
定义线性ε不敏感损失函数为:
在SVR模型中引入权重系数来控制异方差的影响,得到优化目标为:
其中,ξi为第一松弛变量参数、ξ'i为第二松弛变量参数,ε=1/e为不敏感损失值,C是模型参数,q为模型的权重参数,b为模型的偏差参数,根据拉格朗日以及对偶问题转换,将优化问题转化成:
其中,αi为第一拉格朗日算子、α'i为第二拉格朗日算子,求解出αi,α'i的值,同时应该满足KKT条件,因此有:
求出模型权重参数q,偏差参数b:
步骤3:初始化源数据以及目标省份各站点的权重,归一化初始化源数据以及目标省份各站点的权重,并初始化加权多源TrAdaBoost算法中源数据以及目标省份的站点权重,通过分别合并归一化源数据集以及归一化目标训练数据集、归一化业务数据量训练集以及归一化业务数量得到合并训练集;
步骤3中所述源数据D中各省份Sk的站点权重初始化为:
合并训练数据集:
步骤4:将合并训练集以及归一化向量通过步骤2建立预测模型并计算模型误差参数;
其中,为第t次迭代中省份Sk的第K个基于权重的SVR模型,N是源数据的数量即省份的数量,为第t次迭代中省份Sk站点i的第一拉格朗日算子,为第t次迭代中省份Sk站点i的第二拉格朗日算子,为第t次迭代中省份Sk站点i的偏差参数,为省份Sk站点i的径向基核函数;
最后,得到第t次迭代的候选预测模型ht:
设置用于更新样本权重的参数φt:
其中,εt为第t次迭代时得到的模型的误差,更新目标数据样本的权重:
更新各个地区源数据样本的权重:
步骤5:重复步骤4至到最大迭代次数并计算最终的预测模型;
步骤5中所述重复步骤4至到最大迭代次数并计算最终的预测模型为
如果t=M,M=200则计算出最终的预测模型f(x):
其中,φt为每次迭代过程中产生的参数值,ht(x)是每次迭代过程中产生的模型;
步骤6:用最终的预测模型对目标省份的站点属性进行预测得到目标省份的预测站点业务数量,并对预测站点业务数量进行反归一化。
步骤6中所述对于目标省份ST的站点i的站点属性即特征向量:
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (7)
1.一种基于多源迁移学习的数据校验方法,其特征在于,包括以下步骤:
步骤1:通过***数据表得到站点类型、站点电压等级、站点调度等级、站点建成年限、站点中光传输设备数量、站点所属***以及通过pagerank算法计算得到的站点中心度构建站点属性,通过各省各站点的站点属性进一步构建源数据集并进行归一化,通过预测省份的站点属性进一步构建目标训练集并进行归一化,提取源数据集以及目标训练集对应的站点业务数量并进行归一化;
步骤2:通过迁移学习模型SVR模型以及径向基函数构建基于权重的SVR模型;
步骤3:初始化源数据以及目标省份各站点的权重,归一化初始化源数据以及目标省份各站点的权重,并初始化加权多源TrAdaBoost算法中源数据以及目标省份的站点权重,通过分别合并归一化源数据集以及归一化目标训练数据集、归一化业务数据量训练集以及归一化业务数量得到合并训练集;
步骤4:将合并训练集以及归一化向量通过步骤2建立预测模型并计算模型误差参数;
步骤5:重复步骤4至到最大迭代次数并计算最终的预测模型;
步骤6:用最终的预测模型对目标省份的站点属性进行预测得到目标省份的预测站点业务数量,并对预测站点业务数量进行反归一化。
2.根据权利要求1所述的基于多源迁移学习的数据校验方法,其特征在于:步骤1中所述站点属性即特征向量为:
其中,为省份Sk站点m的站点属性,Sk∈[1,SN],N为省份的数量,为省份Sk站点的数量,为省份Sk站点m的站点类型,为省份Sk站点m的站点电压等级,为省份Sk站点m的站点调度等级,为省份Sk站点m的站点建成年限,为省份Sk站点m的站点中光传输设备数量,为省份Sk站点m的站点所属***,为省份Sk站点m的站点中心度;
从***的数据表中可以得到站点类型、站点电压等级、站点调度等级、站点建成年限、站点中光传输设备数量、站点所属***,省份Sk站点m的站点中心度计算过程首先为根据站点的度以及站点数量进行初始化:
其中,iter为PageRank算法迭代的次数,NI=500为PageRank算法迭代的总次数,为第iter迭代中省份Sk站点m的中心度,为省份Sk的所有站点对省份Sk站点m有光缆连接的站点集合,为与站点连接的第j个站点的中心度,为站点的与外连接的光缆数目,α为阻尼系数;
根据数据量较大的各个省份的站点属性构建源数据集:
其中,为省份Sk站点的数量即样本的数量;为省份Sk站点m的站点属性,Sk∈[1,SN],SN为省份的数量,为省份Sk站点的数量,为省份Sk站点m的站点类型,为省份Sk站点m的站点电压等级,为省份Sk站点m的站点调度等级,为省份Sk站点m的站点建成年限,为省份Sk站点m的站点中光传输设备数量,为省份Sk站点m的站点所属***,为省份Sk站点m的站点中心度;
通过预测省份ST的站点属性构建目标训练集:
其中,i∈[1,nT],为预测省份ST站点i的站点类型,为预测省份ST站点i的站点电压等级,为预测省份ST站点i的站点调度等级,为预测省份ST站点i的站点建成年限,为预测省份ST站点i的站点中光传输设备数量,为预测省份ST站点i的站点所属***,为预测省份ST站点i的站点中心度;
统计源数据集D中省份Sk的对应的站点业务数量得到业务数量数据集为:
3.根据权利要求2所述的基于多源迁移学习的数据校验方法,其特征在于:步骤2中所述构建基于权重的SVR模型,具体方法为:
步骤1中所述的归一化源数据集为:
根据归一化源数据集构建训练数据集为:
其中, 为省份Sk站点m的站点类型,为省份Sk站点m的站点电压等级,为省份Sk站点m的站点调度等级,为省份Sk站点m的站点建成年限,为省份Sk站点m的站点中光传输设备数量,为省份Sk站点m的站点所属***,为省份Sk站点m的站点中心度;
其中,q为模型的权重参数,b为模型的偏差参数;
基于权重的w-SVR模型的参数求解过程为:
定义线性ε不敏感损失函数为:
在SVR模型中引入权重系数来控制异方差的影响,得到优化目标为:
其中,ξi为第一松弛变量参数、ξ′i为第二松弛变量参数,ε为不敏感损失值,C是模型参数,q为模型的权重参数,b为模型的偏差参数,根据拉格朗日以及对偶问题转换,将优化问题转化成:
其中,αi为第一拉格朗日算子、α'i为第二拉格朗日算子,求解出αi,α'i的值,同时应该满足KKT条件,因此有:
求出模型权重参数q,偏差参数b:
4.根据权利要求1所述的基于多源迁移学习的数据校验方法,其特征在于:步骤3中所述源数据D中各省份Sk的站点权重初始化为:
合并训练数据集:
5.根据权利要求1所述的基于多源迁移学习的数据校验方法,其特征在于:步骤4中所述将合并训练数据集Dk,Yk、加权多源TrAdaBoost算法中源数据的站点权重以及目标省份的站点权重通过步骤2构建基于权重的SVR模型集合:
其中,为第t次迭代中省份Sk的第K个基于权重的SVR模型,N是源数据的数量即省份的数量,为第t次迭代中省份Sk站点i的第一拉格朗日算子,为第t次迭代中省份Sk站点i的第二拉格朗日算子,为第t次迭代中省份Sk站点i的偏差参数,为省份Sk站点i的径向基核函数;
最后,得到第t次迭代的候选预测模型ht:
同时,计算候选预测模型ht在目标测试数据DT,YT上的误差,wt,i为目标省份数据站点的权重:
设置用于更新样本权重的参数φt:
其中,εt为第t次迭代时得到的模型的误差,更新目标数据样本的权重:
更新各个地区源数据样本的权重:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810320808.6A CN108549907B (zh) | 2018-04-11 | 2018-04-11 | 一种基于多源迁移学习的数据校验方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810320808.6A CN108549907B (zh) | 2018-04-11 | 2018-04-11 | 一种基于多源迁移学习的数据校验方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108549907A CN108549907A (zh) | 2018-09-18 |
CN108549907B true CN108549907B (zh) | 2021-11-16 |
Family
ID=63514421
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810320808.6A Active CN108549907B (zh) | 2018-04-11 | 2018-04-11 | 一种基于多源迁移学习的数据校验方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108549907B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111600734B (zh) * | 2019-02-21 | 2021-11-02 | 烽火通信科技股份有限公司 | 一种网络故障处理模型的构建方法、故障处理方法及*** |
CN110398986A (zh) * | 2019-04-28 | 2019-11-01 | 清华大学 | 一种多源数据迁移的无人机密集树林感知技术 |
CN110457646B (zh) * | 2019-06-26 | 2022-12-13 | 中国政法大学 | 一种基于参数迁移学习低资源头相关传输函数个性化方法 |
CN110674648B (zh) * | 2019-09-29 | 2021-04-27 | 厦门大学 | 基于迭代式双向迁移的神经网络机器翻译模型 |
CN112651173B (zh) * | 2020-12-18 | 2022-04-29 | 浙江大学 | 一种基于跨域光谱信息的农产品品质无损检测方法及可泛化*** |
CN113379903A (zh) * | 2021-06-30 | 2021-09-10 | 北京爱奇艺科技有限公司 | 数据的迁移方法及装置、电子设备、可读存储介质 |
CN113962477A (zh) * | 2021-11-10 | 2022-01-21 | 国网浙江省电力有限公司杭州供电公司 | 一种产业电量关联聚集预测方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100069942A (ko) * | 2008-12-17 | 2010-06-25 | 한양대학교 산학협력단 | 무선 멀티홉 네트워크에서의 협업 데이터 전송 방법 및 시스템 |
CN104199857A (zh) * | 2014-08-14 | 2014-12-10 | 西安交通大学 | 一种基于多标签分类的税务文档层次分类方法 |
CN106296044A (zh) * | 2016-10-08 | 2017-01-04 | 南方电网科学研究院有限责任公司 | 电力***风险调度方法和*** |
CN106651188A (zh) * | 2016-12-27 | 2017-05-10 | 贵州电网有限责任公司贵阳供电局 | 一种输变电设备多源状态评估数据处理方法及其应用 |
CN107818523A (zh) * | 2017-11-14 | 2018-03-20 | 国网江西省电力公司信息通信分公司 | 基于非稳定频率分布与频率因子学习的电力通信***数据真值判别与推断方法 |
-
2018
- 2018-04-11 CN CN201810320808.6A patent/CN108549907B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100069942A (ko) * | 2008-12-17 | 2010-06-25 | 한양대학교 산학협력단 | 무선 멀티홉 네트워크에서의 협업 데이터 전송 방법 및 시스템 |
CN104199857A (zh) * | 2014-08-14 | 2014-12-10 | 西安交通大学 | 一种基于多标签分类的税务文档层次分类方法 |
CN106296044A (zh) * | 2016-10-08 | 2017-01-04 | 南方电网科学研究院有限责任公司 | 电力***风险调度方法和*** |
CN106651188A (zh) * | 2016-12-27 | 2017-05-10 | 贵州电网有限责任公司贵阳供电局 | 一种输变电设备多源状态评估数据处理方法及其应用 |
CN107818523A (zh) * | 2017-11-14 | 2018-03-20 | 国网江西省电力公司信息通信分公司 | 基于非稳定频率分布与频率因子学习的电力通信***数据真值判别与推断方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108549907A (zh) | 2018-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108549907B (zh) | 一种基于多源迁移学习的数据校验方法 | |
Dong et al. | Hourly energy consumption prediction of an office building based on ensemble learning and energy consumption pattern classification | |
CN108229754A (zh) | 基于相似日分段和lm-bp网络的短期负荷预测方法 | |
Li et al. | Federated learning-based short-term building energy consumption prediction method for solving the data silos problem | |
CN103678004A (zh) | 一种基于非监督特征学习的主机负载预测方法 | |
CN111080105A (zh) | 基于电压时序数据的台区户变关系识别方法及*** | |
CN105956788A (zh) | 一种输变电工程造价的动态管理控制方法 | |
CN106980910B (zh) | 中长期电力负荷测算***及方法 | |
CN111724039B (zh) | 一种向电力用户推荐客服人员的推荐方法 | |
CN107463993A (zh) | 基于互信息‑核主成分分析‑Elman网络的中长期径流预报方法 | |
CN109583635A (zh) | 一种面向运行可靠性的短期负荷预测建模方法 | |
Lu et al. | Data augmentation strategy for short-term heating load prediction model of residential building | |
CN111091223B (zh) | 一种基于物联网智能感知技术的配变短期负荷预测方法 | |
CN115358437A (zh) | 基于卷积神经网络的供电负荷预测方法 | |
Qu et al. | Research on short‐term output power forecast model of wind farm based on neural network combination algorithm | |
Yu et al. | Sports event model evaluation and prediction method using principal component analysis | |
Mulero et al. | Data-driven energy resource planning for Smart Cities | |
CN112348700B (zh) | 一种结合som聚类与ifou方程的线路容量预测方法 | |
CN105868435B (zh) | 一种基于线性相关性分析实现光网络建设的高效控制方法 | |
CN104360948A (zh) | 基于模糊算法的iec 61850配置文件工程化一致性测试方法 | |
CN114205238A (zh) | 网络资源优化、模型训练方法、装置、存储介质及设备 | |
Chen et al. | Prediction method of intelligent building electricity consumption based on deep learning | |
Hui et al. | Ultra‐Short‐Term Prediction of Wind Power Based on Fuzzy Clustering and RBF Neural Network | |
CN111260403A (zh) | 一种中介市场收房定价的方法及*** | |
Yu et al. | Applications of Nondominated Sorting Genetic Algorithm II Combined with WKNN Online Matching Algorithm in Building Indoor Optimization Design |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |