CN108664607A - 一种基于迁移学习的电力通信网数据质量提升方法 - Google Patents

一种基于迁移学习的电力通信网数据质量提升方法 Download PDF

Info

Publication number
CN108664607A
CN108664607A CN201810445948.6A CN201810445948A CN108664607A CN 108664607 A CN108664607 A CN 108664607A CN 201810445948 A CN201810445948 A CN 201810445948A CN 108664607 A CN108664607 A CN 108664607A
Authority
CN
China
Prior art keywords
sample
nuclear
space
cluster
target domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810445948.6A
Other languages
English (en)
Inventor
杨济海
李仁华
彭汐单
巢玉坚
邓永康
伍小生
田晖
郑富永
王�华
付萍萍
胡游君
邱玉祥
吕顺利
周鹏
邓伟
刘皓
蔡新忠
查凡
王宏
丁传文
刘洋
李石君
余伟
余放
李宇轩
李敏
彭亮
彭超
陈雪莲
陈艳华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information And Communication Branch Of Jiangxi Electric Power Co Ltd
Wuhan University WHU
NARI Group Corp
Information and Telecommunication Branch of State Grid Jiangxi Electric Power Co Ltd
Original Assignee
Information And Communication Branch Of Jiangxi Electric Power Co Ltd
Wuhan University WHU
NARI Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information And Communication Branch Of Jiangxi Electric Power Co Ltd, Wuhan University WHU, NARI Group Corp filed Critical Information And Communication Branch Of Jiangxi Electric Power Co Ltd
Priority to CN201810445948.6A priority Critical patent/CN108664607A/zh
Publication of CN108664607A publication Critical patent/CN108664607A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及到一种基于迁移学习的电力通信网数据质量提升方法。首先对集合L运用核判别分析,找到一种合适的核映射空间,并将L、U和O中的所有样本映射到核空间中,使得源领域和目标领域样本的边缘分布在核空间中非常接近。然后使用二分k均值算法在源领域中挑选和目标领域拥有相似的条件概率分布的样本。并在步骤1得到的核空间中,用步骤2挑选出的样本和目标领域有标记的样本共同训练一个模型,并为目标领域中没有标签的样本进行预测,最后得到对集合U的N种预测结果,运用多数投票法,确定集合U中样本最终的标签。本发明通过迁移学习有效地解决了训练集和测试集样本分布不一致的问题,解决了有标签样本较少而无法训练的问题,极大地节省了人力和财力。

Description

一种基于迁移学习的电力通信网数据质量提升方法
技术领域
本发明属于电力通信网数据质量提升的技术领域,特别涉及到基于迁移学习的电力通信网数据质量提升方法。
背景技术
随着国家电网公司“三集五大”体系的深入发展,坚强智能电网建设迅猛,企业信息化工作全面推进。作为智能电网重要支撑的电力专用通信网络,通过三年的跑步前进迈入了信息化管理阶段,建成了一套总部和省公司“两级部署”,总部、分部、省公司、市县公司“四级应用”的通信管理***“SG—TMS”。通过标准化规范化的项目建设以及对***实用化的大力推进,“SG—TMS”已经深度融入数万电力通信专业人员的日常工作中,并且全面采集了数万台设备几年来的建设、运行、管理数据,积累下来的海量电力通信数据和众多外部***数据、公共数据一同形成了开展大数据分析的基础。
想要从积累下来的海量数据中,高效、准确地寻找到所需的信息,信息分类是必不可少的第一步。通过分类,信息可以得到有效的组织管理,有利于快速、准确地定位信息。分类学习问题,是机器学习中一种重要的学习方法,目前已经得到广泛的研究与发展。
在传统分类学习中,为了保证训练得到的分类模型具有准确性和高可靠性,都有两个基本的假设:(1)用于学习的训练样本与新的测试样本满足独立同分布的条件;(2)必须有足够可利用的训练样本才能学习得到一个好的分类模型。但是,在实际应用中我们发现,这两个条件往往无法满足。首先,随着时间的推移,原先可利用的有标签的样本数据可能变得无法使用,与新来的测试样本的分布产生语义、分布上的区别。另外,有标签的样本数据往往很匮乏,而且很难获得,并且完全放弃过时的数据,过于浪费。
近年来,随着迁移学习的深入研究,上述问题得到解决。迁移学习是运用源领域中的知识来解决目标领域问题的一种新的机器学习方法,研究领域主要包含文本分类、文本聚类、情感分类、图像分类、协同过滤、基于传感器的定位估计、人工智能规划等。
在文本处理领域,Dai等人提出联合聚类方法,同时对文档以及词特征进行聚类,通过不同领域共享相同的词特征进行知识迁移。他们还提出迁移贝叶斯分类器,首先估计源领域数据的数据分布,然后不断修正使其适应于目标领域数据。Zhuang等人在概念层面上对文本进行处理,提出挖掘文档概念与词特征概念的迁移学习方法。在此基础上Long等人提出了双重迁移模型,进一步对概念进行划分,提高算法分类准确率。Gu等人提出共享子空间的多任务聚类方法,并应用于迁移分类中。
在图像处理方面,Dai等人提出一种翻译迁移学习方法,借助文本数据来辅助图像聚类。Raina等人提出一种新的从无标签数据进行自学习的方法,该方法利用系数编码技术从大量的无标签数据上构造高层特征,以提高图像分类性能。Zhu等人研究了一种异构迁移学习方法,利用图像上的Tag标签信息作为文本与图像之间知识迁移的桥梁,从而提高图像数据上的分类效果。
在协同过滤方面,Wang等人提出特征子空间的迁移学习方法来克服协同过滤中的稀疏问题,即从辅助数据中学习得到的用户特征子空间被迁移到目标领域中。Pan等人研究了协同过滤中带有不确定评分的迁移学习算法,即在优化目标矩阵分解中考虑不确定评分的辅助数据作为限制。Cao等人提出基于项目潜在特征共享策略的链接预测模型,性能上比单个任务的学习有所提升。
发明内容
随着电力通信网信息化程度的不断加深,通信管理、设备运行、网络建设等方面的海量数据已经逐步积累下来,其中蕴藏了巨大的价值亟待发掘。但是,随着时间的推移,原先可利用的有标签的样本数据可能变得无法使用,与新来的测试样本的分布产生语义、分布上的区别。另外,有标签的样本数据往往很匮乏,而且很难获得,并且完全放弃过时的数据,过于浪费。由于数据具有时效性强的特点,在挖掘潜藏的信息时,可能会出现偏差。
本发明在提出解决方案之前,定义了如下相关术语:
过时的数据是源领域,新数据是目标领域。本发明用L={XL,YL}代表目标领域中有标签的样本,其中XL={x1,…,xγ},YL={y1,…,yγ},包含γ个样本;用U={XU}代表目标领域中没有标签的样本,其中XU={xγ+1,…,xγ+u},包含u个样本。同样地,用O={Xo,Yo}代表源领域样本,包含o个样本。
本发明利用迁移学习领域知识,迁移源领域中部分样本,和目标领域样本共同进行训练。迁移基本原则:源领域样本拥有和目标领域相同或者类似的边缘分布和条件分布。
为完成以上目标,本发明提出的方案如下:
一种基于迁移学习的电力通信网数据质量提升方法,其特征在于,基于定义:L={XL,YL}代表目标领域中有标签的样本,其中XL={x1,…,xγ},YL={y1,…,yγ},包含γ个样本;U={XU}代表目标领域中没有标签的样本,其中XU={xγ+1,…,xγ+u},包含u个样本;O={XO,YO}代表源领域样本,包含o个样本,具体包括:
步骤1,对集合L运用核判别分析,找到一种合适的核映射空间,并将L、U和O中的所有样本映射到核空间中,使得源领域样本在核空间的边缘分布接近目标领域样本在核空间的边缘分布;
步骤2,在步骤1得到的核空间中,使用二分k均值算法(Bisecting k-means)在源领域中挑选和目标领域拥有相似的条件概率分布的样本,并且记录下被挑选样本在原始空间中的原始样本集合S;
步骤3,在步骤1得到的核空间中,用步骤2挑选出的样本和目标领域有标记的样本共同训练一个模型,并为目标领域中没有标签的样本进行预测;
步骤4,步骤1-3执行N次,在步骤1中,除首次寻找核映射空间的样本是在集合L中,后续循环执行均是在L和S的并集中寻找核映射空间的样本;最后得到对集合U的N种预测结果,运用多数投票法,确定集合U中样本最终的标签。
在上述的一种基于迁移学习的电力通信网数据质量提升方法,所述步骤1具体包括:
步骤1.1、计算矩阵W;W=(Wi)i=1,…,NC是块对角矩阵,Wi是li×li的矩阵,Wi中的每个元素均是1/li,其中li是第i类样本的数量,NC是样本类别总数的,即:
步骤1.2、计算核矩阵K;核函数κ(xi,xj)定义了在特征空间F中的点积运算,即κ(xi,xj)=φ(xi)·φ(xj),核矩阵K的每一个元素是κij=κ(xi,xj);本发明选择高斯核作为核函数,即:σ>0为高斯核的带宽;
步骤1.3、简化目标函数;对核矩阵K运用特征向量的分解,得到K=PΛPT,其中,Λ是由非零特征值组成的对角矩阵,P的列向量是单位特征向量并且互相正交,特征向量和Λ中的特征值相对应;则目标函数简化为:
λβ=PTWPβ
其中,β=ΛPTα,求出使λ值最大的β,相应的α便可计算出;
步骤1.4、样本映射到核空间;样本z到v的投影为:
在上述的一种基于迁移学习的电力通信网数据质量提升方法,所述步骤2基于定义:
定义2.1:给定一个簇C及其两个子簇C1和C2,C1∪C2=C并且则:
Par(C,C1,C2)--[SSE(C)-SSE(C1)-SSE(C2)]
其中,SSE(C)代表C中非质心点到质心点的距离和,Par(C,C1,C2)代表C是否可以分解为两个子簇C1和C2,取值为1:能,0:不能;
定义2.2:给定一个簇Ci,其中的样本均被标记为“+”和“-”,则簇Ci的纯度为:
Purity(Ci)代表Ci的纯度,即正负两类样本中所占比重的最大值;
具体包括:
步骤2.1、从Ci中随机选择2个样本作为初始均值向量μ1和μ2,分别作为子簇Ci1和Ci2的质心;
步骤2.2、计算簇Ci中每个样本与μ1、μ2的欧氏距离,与μ1最近,则将该样本划入簇Ci1,否则,划入簇Ci2
步骤2.3、为簇Ci1计算新的均值向量:若μ1≠μ′1,更新μ1为μ'1;对簇Ci2做同样操作;
步骤2.4、若当前均值向量均未更新,则簇Ci最终被划分为两个子簇Ci1和Ci2,否则,重复步骤2.2至步骤2.3。
在上述的一种基于迁移学习的电力通信网数据质量提升方法,所述步骤4具体包括:
步骤4.1、给定L、U和O,i=1,迭代次数N;
步骤4.2、LearnKDA=L,如果i>1,则LearnKDA=L∪Si-1
步骤4.3、对集合LearnKDA中的样本运用核判别分析法,找到核映射空间;
步骤4.4、集合L、U和O分别映射到核空间为NLi,NUi和NOi
步骤4.5、运用二分k均值算法聚类方法,在NOi中挑选样本,被挑选的样本集合为SOi,用集合Si表示SOi在原始空间中的样本集合;
步骤4.6、利用SOi和NLi训练出一个模型Ci,对集合NUi中的每一个样本预测标签;
步骤4.7、令i=i+1,重复步骤4.2至步骤4.5,直到i=N;
步骤4.8、最后得到对集合U的N种预测结果,运用多数投票法,确定集合U中样本最终的标签。
因此,本发明具有如下优点:
通过迁移学习有效地解决了训练集和测试集样本分布不一致的问题,解决了有标签样本较少而无法训练的问题,极大地节省了人力和财力。
附图说明
图1a是源领域和目标领域在原始空间和核空间样本分布对比图(目标领域样本分布图)。
图1b是源领域和目标领域在原始空间和核空间样本分布对比图(源领域样本分布图)。
图1c是源领域和目标领域在原始空间和核空间样本分布对比图(目标领域在核空间中样本分布图)。
图1d是源领域和目标领域在原始空间和核空间样本分布对比图(源领域在核空间中样本分布图)。
图2是操作流程图。
具体实施方式
步骤1,基于核函数的特征映射
核判别分析(KDA)使用了类似于SVM和核PCA方法的“核技巧”,即首先把数据非线性地映射到某个特征空间F,然后在这个特征空间中进行线性判别分析(LDA),这样就隐含地实现了原输入空间的非线性判别。
设φ是输入空间到某个特征空间F的非线性映射,要找到F中的线性判别需要最大化
其中,v∈F,是F中相应的矩阵,即:
其中,l是样本的总数量,li是第i类样本的数量,NC是样本类别总数。
根据再生核理论,任何v∈F必位于所有训练样本在F的张集,因此可以找到下列形式的v的一个展开式
再利用核函数代替点积,可以得到KDA的目标函数:
1.1 矩阵W
W=(Wi)i=1,…,NC是块对角矩阵,Wi是li×li的矩阵,其中的每个元素均是1/li,即:
1.2 核矩阵K
核函数κ(xi,xj)定义了在特征空间F中的点积运算,即κ(xi,xj)=φ(xi)φ(xj),核矩阵K的每一个元素是κij=κ(xi,xj)。本发明选择高斯核作为核函数,即:σ>0为高斯核的带宽。
1.3 简化目标函数
对核矩阵K运用特征向量的分解,得到K=PΛPT,其中,Λ是由非零特征值组成的对角矩阵,P的列向量是单位特征向量并且互相正交,特征向量和Λ中的特征值相对应。则目标函数简化为:
λβ=PTWPβ
其中,β=ΛPTα,求出使λ值最大的β,相应的α便可计算出。
1.4 样本映射到核空间
样本z到v的投影为:
步骤2,基于聚类的样本选择
Bisecting k-means聚类算法,即二分k均值算法,它是k-means聚类算法的一个变体,主要是为了改进k-means算法随机选择初始质心的随机性造成聚类结果不确定性的问题,而Bisecting k-means算法受随机选择初始质心的影响比较小。
在欧几里德空间中,衡量一个簇Ci的质量通常使用如下度量:误差平方和(Sum ofthe Squared Error,简称SSE),也就是要计算执行聚类分析后,对每个点都要计算一个误差值,即非质心点到质心点ui的距离,即:
在进行样本选择操作前,先介绍如下两个定义。
定义2.1:给定一个簇C及其两个子簇C1和C2,C1∪C2=C并且则:
Par(C,C1,C2)=[SSE(C)-SSE(C1)-SSE(C2)]
定义2.2:给定一个簇Ci,其中的样本均被标记为“+”和“-”,则簇Ci的纯度为:
使用Bisecting k-means聚类算法,执行样本选择的具体执行过程如下所示:
(1)初始时,将源领域和目标领域有标签样本作为待聚类数据集,并初始化为一个簇C0,即C={C0}
(2)从C中取一个簇Ci进行k-means聚类操作(k=2),得到两个子簇Ci1和Ci2
(3)如果Purity(Ci)≤0.9或者Par(Ci,Ci1,Ci2)=1,在集合C中,用Ci1和Ci2替换Ci
(4)重复步骤(2)(3),直到集合C中的元素均被遍历过。
(5)最终得到C={C1,…,Ck},簇Ci的标签为Ci中目标领域中有标签样本数量最多的标签,即:CLi=arg maxj∈[1,NC]ncij,其中,ncij是簇Ci中第j类目标领域有标签样本数量。在簇Ci中挑选与簇Ci标签一致的源领域样本。
步骤(2)的具体操作如下:
(a)从Ci中随机选择2个样本作为初始均值向量μ1和μ2,分别作为子簇Ci1和Ci2的质心。
(b)计算簇Ci中每个样本与μ1、μ2的欧氏距离,与μ1最近,则将该样本划入簇Ci1,否则,划入簇Ci2
(c)为簇Ci1计算新的均值向量:若μ1≠μ′1,更新μ1为μ′1;对簇Ci2做同样操作。
(d)当前均值向量均未更新,则簇Ci最终被划分为两个子簇Ci1和Ci2,否则,重复步骤(b)、(c)。
步骤3,训练分类器
用步骤2挑选出的样本和目标领域有标记的样本训练一个分类器,并为目标领域中没有标签的样本进行预测。分类器模型可以从支持向量机(SVM)、逻辑回归、决策树、朴素贝叶斯等模型中进行选择,运用交叉验证去度量模型的好坏。
步骤4,步骤1-3重复执行N次
具体操作如下:
(1)给定L、U和O,i=1,迭代次数N。
(2)LearnKDA=L,如果i>1,则LearnKDA=L∪Si-1
(3)对集合LearnKDA中的样本运用步骤1中的KDA方法,找到核映射空间。
(4)集合L、U和O分别映射到核空间为NLi,NUi和NOi
(5)运用步骤2中的聚类方法,在NOi中挑选样本,被挑选的样本集合为SOi,用集合Si表示SOi在原始空间中的样本集合。
(6)利用SOi和NLi训练出一个模型Ci,对集合NUi中的每一个样本预测标签。
(7)i=i+1,重复步骤(2)-(5),直到i=N。
(8)最后得到对集合U的N种预测结果,运用多数投票法,确定集合U中样本最终的标签。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (4)

1.一种基于迁移学习的电力通信网数据质量提升方法,其特征在于,基于定义:L={XL,YL}代表目标领域中有标签的样本,其中XL={x1,…,xγ},YL={y1,…,yγ},包含γ个样本;U={XU}代表目标领域中没有标签的样本,其中XU{xγ+1,…,xγ+u},包含u个样本;O={XO,YO}代表源领域样本,包含o个样本,具体包括:
步骤1,对集合L运用核判别分析,找到一种合适的核映射空间,并将L、U和O中的所有样本映射到核空间中,使得源领域样本在核空间的边缘分布接近目标领域样本在核空间的边缘分布;
步骤2,在步骤1得到的核空间中,使用二分k均值算法(Bisecting k-means)在源领域中挑选和目标领域拥有相似的条件概率分布的样本,并且记录下被挑选样本在原始空间中的原始样本集合S;
步骤3,在步骤1得到的核空间中,用步骤2挑选出的样本和目标领域有标记的样本共同训练一个模型,并为目标领域中没有标签的样本进行预测;
步骤4,步骤1-3执行N次,在步骤1中,除首次寻找核映射空间的样本是在集合L中,后续循环执行均是在L和S的并集中寻找核映射空间的样本;最后得到对集合U的N种预测结果,运用多数投票法,确定集合U中样本最终的标签。
2.根据权利要求1所述的一种基于迁移学习的电力通信网数据质量提升方法,其特征在于,所述步骤1具体包括:
步骤1.1、计算矩阵W;W=(Wi)i=1,…,NC是块对角矩阵,Wi是li×li的矩阵,Wi中的每个元素均是1/li,其中li是第i类样本的数量,NC是样本类别总数的,即:
步骤1.2、计算核矩阵K;核函数κ(xi,xj)定义了在特征空间F中的点积运算,即κ(xi,xj)=φ(xi)·φ(xj),核矩阵K的每一个元素是κij=κ(xi,xj);本发明选择高斯核作为核函数,即:σ>0为高斯核的带宽;
步骤1.3、简化目标函数;对核矩阵K运用特征向量的分解,得到K=PΛPT,其中,Λ是由非零特征值组成的对角矩阵,P的列向量是单位特征向量并且互相正交,特征向量和Λ中的特征值相对应;则目标函数简化为:
λβ=PTWPβ
其中,β=ΛPTα,求出使λ值最大的β,相应的α便可计算出;
步骤1.4、样本映射到核空间;样本z到v的投影为:
3.根据权利要求1所述的一种基于迁移学习的电力通信网数据质量提升方法,其特征在于,所述步骤2基于定义:
定义2.1:给定一个簇C及其两个子簇C1和C2,C1∪C2=C并且则:
Par(C,C1,C2)=[SSE(C)-SSE(C1)-SSE(C2)]
其中,SSE(C)代表C中非质心点到质心点的距离和,Par(C,C1,C2)代表C是否可以分解为两个子簇C1和C2,取值为1:能,0:不能;
定义2.2:给定一个簇Ci,其中的样本均被标记为“+”和“-”,则簇Ci的纯度为:
Purity(Ci)代表Ci的纯度,即正负两类样本中所占比重的最大值;
具体包括:
步骤2.1、从Ci中随机选择2个样本作为初始均值向量μ1和μ2,分别作为子簇Ci1和Ci2的质心;
步骤2.2、计算簇Ci中每个样本与μ1、μ2的欧氏距离,与μ1最近,则将该样本划入簇Ci1,否则,划入簇Ci2
步骤2.3、为簇Ci1计算新的均值向量:若μ1≠μ′1,更新μ1为μ′1;对簇Ci2做同样操作;
步骤2.4、若当前均值向量均未更新,则簇Ci最终被划分为两个子簇Ci1和Ci2,否则,重复步骤2.2至步骤2.3。
4.根据权利要求1所述的一种基于迁移学习的电力通信网数据质量提升方法,其特征在于,所述步骤4具体包括:
步骤4.1、给定L、U和O,i=1,迭代次数N;
步骤4.2、LearnKDA=L,如果i>1,则LearnKDA=L∪Si-1
步骤4.3、对集合LearnKDA中的样本运用核判别分析法,找到核映射空间;
步骤4.4、集合L、U和O分别映射到核空间为NLi,NUi和NOi
步骤4.5、运用二分k均值算法聚类方法,在NOi中挑选样本,被挑选的样本集合为SOi,用集合Si表示SOi在原始空间中的样本集合;
步骤4.6、利用SOi和NLi训练出一个模型Ci,对集合NUi中的每一个样本预测标签;
步骤4.7、令i=i+1,重复步骤4.2至步骤4.5,直到i=N;
步骤4.8、最后得到对集合U的N种预测结果,运用多数投票法,确定集合U中样本最终的标签。
CN201810445948.6A 2018-05-11 2018-05-11 一种基于迁移学习的电力通信网数据质量提升方法 Pending CN108664607A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810445948.6A CN108664607A (zh) 2018-05-11 2018-05-11 一种基于迁移学习的电力通信网数据质量提升方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810445948.6A CN108664607A (zh) 2018-05-11 2018-05-11 一种基于迁移学习的电力通信网数据质量提升方法

Publications (1)

Publication Number Publication Date
CN108664607A true CN108664607A (zh) 2018-10-16

Family

ID=63779040

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810445948.6A Pending CN108664607A (zh) 2018-05-11 2018-05-11 一种基于迁移学习的电力通信网数据质量提升方法

Country Status (1)

Country Link
CN (1) CN108664607A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210018A (zh) * 2019-05-14 2019-09-06 北京百度网讯科技有限公司 挂号科室的匹配方法和装置
CN110490275A (zh) * 2019-06-28 2019-11-22 北京理工大学 一种基于迁移学习的驾驶行为预测方法
CN110766212A (zh) * 2019-10-15 2020-02-07 哈尔滨工程大学 用于历史数据缺失电场的超短期光伏功率预测方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210018A (zh) * 2019-05-14 2019-09-06 北京百度网讯科技有限公司 挂号科室的匹配方法和装置
CN110210018B (zh) * 2019-05-14 2023-07-11 北京百度网讯科技有限公司 挂号科室的匹配方法和装置
CN110490275A (zh) * 2019-06-28 2019-11-22 北京理工大学 一种基于迁移学习的驾驶行为预测方法
CN110490275B (zh) * 2019-06-28 2020-07-07 北京理工大学 一种基于迁移学习的驾驶行为预测方法
CN110766212A (zh) * 2019-10-15 2020-02-07 哈尔滨工程大学 用于历史数据缺失电场的超短期光伏功率预测方法

Similar Documents

Publication Publication Date Title
CN113822494B (zh) 风险预测方法、装置、设备及存储介质
US10599623B2 (en) Matching multidimensional projections of functional space
US9990380B2 (en) Proximity search and navigation for functional information systems
Chong et al. Simultaneous image classification and annotation
CN108875816A (zh) 融合置信度准则和多样性准则的主动学习样本选择策略
Mazzetto et al. Adversarial multi class learning under weak supervision with performance guarantees
CN116644755B (zh) 基于多任务学习的少样本命名实体识别方法、装置及介质
Athani et al. Student academic performance and social behavior predictor using data mining techniques
CN108664607A (zh) 一种基于迁移学习的电力通信网数据质量提升方法
Li et al. Beyond confusion matrix: learning from multiple annotators with awareness of instance features
Sun et al. Hierarchical multilabel classification with optimal path prediction
Huang et al. Learning consistent region features for lifelong person re-identification
CN114093445B (zh) 一种基于偏多标记学习的患者筛选标记方法
CN117171413B (zh) 用于数字藏品管理的数据处理***及其方法
CN109857892A (zh) 基于类标传递的半监督跨模态哈希检索方法
Fadhil Hybrid of K-means clustering and naive Bayes classifier for predicting performance of an employee
Shrivastava et al. Selection of efficient and accurate prediction algorithm for employing real time 5G data load prediction
Chefrour et al. A Novel Incremental Learning Algorithm Based on Incremental Vector Support Machina and Incremental Neural Network Learn++.
Zhou et al. MetaMove: On improving human mobility classification and prediction via metalearning
Wu et al. Multi-graph-view learning for complicated object classification
Lai et al. A new method for stock price prediction based on MRFs and SSVM
Li et al. CRNN: Integrating classification rules into neural network
US11875250B1 (en) Deep neural networks with semantically weighted loss functions
Han et al. BALQUE: Batch active learning by querying unstable examples with calibrated confidence
Rastogi et al. Unsupervised Classification of Mixed Data Type of Attributes Using Genetic Algorithm (Numeric, Categorical, Ordinal, Binary, Ratio-Scaled)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181016

RJ01 Rejection of invention patent application after publication