CN113837394B - 多特征视图数据标签预测方法、***与可读存储介质 - Google Patents

多特征视图数据标签预测方法、***与可读存储介质 Download PDF

Info

Publication number
CN113837394B
CN113837394B CN202111031652.8A CN202111031652A CN113837394B CN 113837394 B CN113837394 B CN 113837394B CN 202111031652 A CN202111031652 A CN 202111031652A CN 113837394 B CN113837394 B CN 113837394B
Authority
CN
China
Prior art keywords
sample
predicted
training
label
sets
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111031652.8A
Other languages
English (en)
Other versions
CN113837394A (zh
Inventor
李泽瑞
袁晨辉
康宇
吕文君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Original Assignee
Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Artificial Intelligence of Hefei Comprehensive National Science Center filed Critical Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority to CN202111031652.8A priority Critical patent/CN113837394B/zh
Publication of CN113837394A publication Critical patent/CN113837394A/zh
Application granted granted Critical
Publication of CN113837394B publication Critical patent/CN113837394B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种多特征视图数据标签预测方法、***与可读存储介质,属于数据处理技术领域,包括:获取多特征视图数据的样本集合,该样本集合包括m个有标签样本集合和一个待预测标签样本集合;对有标签样本集合和一个待预测标签样本集合进行处理,得到m个训练集;利用m个训练集和待预测标签样本集合对神经网络进行训练,得到经网络变换后的m个新训练集和m个新待预测标签样本集合;基于新训练集和新待预测标签样本集合,计算标签矩阵,实现待预测标签样本集合的标签预测。本发明可提高数据标签的准确性。

Description

多特征视图数据标签预测方法、***与可读存储介质
技术领域
本发明涉及数据处理技术领域,特别涉及一种多特征视图数据标签预测方法、***与可读存储介质。
背景技术
如何利用海量的数据是当前机器学习面临的一个重要任务,例如,基于机器学习进行数据标签预测的方法,需要大量有标记的样本进行训练。但在实际应用中,由于能够使用的样本数据大部分是没有标签的,有标签的样本点较少,如果只利用这些较少的有标签的样本,会导致大量未知标签的样本中包含的信息被丢失掉,如果使用其他数据集进行训练,会因为数据分布差异造成预测不准。因此,在对样本数据进行标签预测时,传统的数据标签预测不能多维度考虑数据特征,且无法利用分布差异较大的有标签数据集,因此导致准确度不高。
发明内容
本发明的目的在于克服上述背景技术中的不足,提高数据标签预测准确度。
为实现以上目的,一方面,采用一种多特征视图数据标签预测方法,包括:
获取多特征视图数据的样本集合,包括m个有标签样本集合S1,S2,...,Sm和一个待预测标签样本集合Sm+1
对m个有标签样本集合S1,S2,...,Sm进行处理,得到m个训练集T1,T2,...,Tm
利用m个训练集T1,T2,...,Tm和待预测标签样本集合Sm+1对神经网络进行训练,得到经网络变换后的m个新训练集U1,U2,...,Um和m个新待预测标签样本集合V1,V2,...,Vm
基于新训练集U1,U2,...,Um和新待预测标签样本集合V1,V2,...,Vm,计算标签矩阵,实现待预测标签样本集合的标签预测。
进一步地,所述对m个有标签样本集合S1,S2,...,Sm进行处理,得到m个训练集T1,T2,...,Tm,包括:
对所述有标签样本集合S1,S2,...,Sm和所述待预测标签样本集合Sm+1进行目标规划,目标函数为:
min πkCk
其中,πk为第k组有标签样本集合Sk与待预测标签样本集合Sm+1之间的代价矩阵,代价矩阵πk的第i行第j列元素为Sk的第i个样本和Sm+1的第j个样本的欧式距离,k=1,...,m,i=1,2,...,|Sk|,j=1,2,...,|Sm+1|,|Sk|和|Sm+1|分别表示Sk和Sm+1中的样本总数,Ck为Sk的分配矩阵,矩阵Ck的第i行第j列元素表明Sk的第i个样本被分配到Sm+1的第j个样本
将分配矩阵Ck中等于1的元素对应的Sk中的有标签样本提取出来构成第k个训练集Tk,从而可得到m个训练集T1,T2,...,Tm
进一步地,所述利用m个训练集T1,T2,...,Tm和待预测标签样本集合Sm+1对神经网络进行训练,得到经网络变换后的m个新训练集U1,U2,...,Um和m个新待预测标签样本集合V1,V2,...,Vm,包括:
按特征视图将所述训练集T1,T2,...,Tm和所述待预测标签样本集合Sm+1中的特征分别分成nc组特征,nc为样本的特征视图数量,得到nc组用于训练所述神经网络的训练子集和待预测标签样本集合子集;
利用训练子集和待预测标签样本集合子集对所述神经网络进行训练,得到所述m个新训练集U1,U2,...,Um和m个新待预测标签样本集合V1,V2,...,Vm
进一步地,第k组所述训练集 的神经网络损失为:
其中,为样本标签分类的交叉熵损失,为对i的数学期望,k=1,2,...,m,c为标签类别总数,|Tk|为Tk的样本总数,为Tk的第i个样本,为样本的标签,为第k组训练集Tk的特征变换网络,为Tk在特征变换之后的分类网络,其输入为变换之后的特征,输出为标签向量, 为对j的数学期望,为Sm+1对应的特征变换网络,为Sm+1的第j个样本,j=1,2,...,|Sm+1|,为示性函数;为Tk的分类对抗损失,的分类网络,为各特征视图对应的损失,为Tk经过变换后特征的数学期望与变换后待预测标签样本集合特征的数学期望的欧式距离,为根据经验设置的超参数;
根据所述损失函数进行神经网络训练后,得到特征变换网络Tk经过特征变换网络以后得到了新训练集Uk,|Uk|为对应集合的样本总数,Sm+1分别经过特征变换网络得到m个新待预测标签样本集合Vk,k=1,2,...,m,|Vk|为对应集合的样本总数。
进一步地,所述基于新训练集U1,U2,...,Um和新待预测标签样本集合V1,V2,...,Vm,计算标签矩阵,实现待预测标签样本集合的标签预测,包括:
利用所述m个新训练集和所述m个新待预测标签样本集合,生成m个输出矩阵;
基于所述m个新训练集和所述m个新待预测标签样本集合,计算权重系数;
基于输出矩阵和权重系数,计算标签矩阵,实现所述待预测标签样本集合的标签预测。
进一步地,所述利用所述m个新训练集和所述m个新待预测标签样本集合,生成m个输出矩阵的过程为:
将第k个新训练集和第k个新待预测标签样本集合输入分类器得到Vk对应的输出矩阵okk=1,...,m,|Vk|为样本集合Vk的样本总数,|Uk|为样本集合Uk的样本总数,为Vk第一个样本对应的高维特征,为Vk最后一个样本对应的高维特征,βk为输出权重矩阵。
进一步地,所述权重系数的计算公式为:
其中,为集合里的元素个数,k=1,2,…,m,mk为Uk与Vk的分布差异项,为Vk中所有样本在Uk上的第q近邻的集合,q=1,2,...,l,wk为Uk的权重系数,l为近邻集合的个数,为归一化后的wk,wk为Uk的权重系数,mk为所述第k个新训练集与所述第k个新待预测标签样本集合的分布差异项。
进一步地,所述标签矩阵的计算公式为:
其中,中最大值所在的索引,为标签矩阵的第j行,j=1,2,...,|Sm+1|,Yt为m个输出矩阵的加权和输出矩阵,为Sm+1中第j个待预测样本的预测标签值。
另一方面,采用一种多特征视图数据标签预测***,包括数据获取模块、样本筛选模块、训练模块和标签预测模块,其中:
数据获取模块用于获取多特征视图数据的样本集合,包括m个有标签样本集合S1,S2,...,Sm和一个待预测标签样本集合Sm+1
样本筛选模块用于对m个有标签样本集合S1,S2,...,Sm进行处理,根据所述待预测标签样本集合中的无标签样本与有标签样本集合中的有标签样本的距离筛选出有标签样本集合的部分样本,得到m个训练集T1,T2,...,Tm
训练模块用于利用m个训练集T1,T2,...,Tm和待预测标签样本集合Sm+1对神经网络进行训练,得到经网络变换后的m个新训练集U1,U2,...,Um和m个新待预测标签样本集合V1,V2,...,Vm
标签预测模块用于基于新训练集U1,U2,...,Um和新待预测标签样本集合V1,V2,...,Vm,计算标签矩阵,实现待预测标签样本集合的标签预测。
再一方面,采用一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述多特征视图数据标签预测方法的步骤。
与现有技术相比,本发明存在以下技术效果:本发明通过多视图分组特征变换,减少个别特征差异过大对结果的影响;能够缩小源域和目标域样本集合的分布差异,在样本集合分布差异较大时也适用;能够利用多个分布差异较大的源域样本集合,融合多样本集合包含的信息,对未标记的样本集合的标签进行准确预测。
附图说明
下面结合附图,对本发明的具体实施方式进行详细描述:
图1是一种多特征视图数据标签预测方法的流程图;
图2是一种多特征视图数据标签预测***的结构图。
图3是一种多特征视图数据特征变换网络结构示意图
具体实施方式
为了更进一步说明本发明的特征,请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用,并非用来对本发明的保护范围加以限制。
如图1所示,本实施例公开了一种多特征视图数据标签预测方法,包括如下步骤S1至S4:
S1、获取多特征视图数据的样本集合,该样本集合包括m个有标签样本集合和一个无标签样本集合,m个有标签样本集合记为S1,S2,...,Sm,无标签样本集合记为Sm+1
需要说明的是,本实施例获取多口井的测井数据,多口井每个深度上的所有测井值组成一个特征向量,即样本。所述测井值包括但不限于自然伽马、自然电位、井径、声波时差、密度、补偿中子、深侧向电阻率及浅侧向电阻率。
样本集合中一个样本表达为其中表示实数域,d为样本维度;测井数据构成的样本集合为n为样本总数。本实施例共获取m+1组样本集合记为其中m组样本有岩性标签,标签y∈{1,2,...,c},则这m组样本对应的标签为c为类别总数,则m组有标签的样本集合为记为S1,S2,...,Sm,无标签的样本集合为记为Sm+1,|S1|,...,|Sm+1|表示对应集合样本总数。这里x,y的上标1,…,m+1表明其所属样本集合组号。
S2、对m个有标签样本集合S1,S2,...,Sm进行处理,得到m个训练集T1,T2,...,Tm
S3、利用m个训练集T1,T2,...,Tm和待预测标签样本集合Sm+1对神经网络进行训练,得到经网络变换后的m个新训练集U1,U2,...,Um和m个新待预测标签样本集合V1,V2,...,Vm
S4、基于新训练集U1,U2,...,Um和新待预测标签样本集合V1,V2,...,Vm,计算标签矩阵,实现待预测标签样本集合的标签预测。
作为进一步优选的技术方案,上述步骤S2:对m个有标签样本集合S1,S2,...,Sm进行处理,得到m个训练集T1,T2,...,Tm,包括:
将每一组样本集合归一化到区间[-1,1],对所述有标签样本集合S1,S2,...,Sm和所述待预测标签样本集合Sm+1进行目标规划,目标函数为:
min πkCk
其中,πk为第k组有标签样本集合Sk与待预测标签样本集合Sm+1之间的代价矩阵,代价矩阵πk的第i行第j列元素为Sk的第i个样本和Sm+1的第j个样本的欧式距离,k=1,...,m,i=1,2,...,|Sk|,j=1,2,...,|Sm+1|,|Sk|和|Sm+1|分别表示Sk和Sm+1中的样本总数,Ck为Sk的分配矩阵,矩阵Ck的第i行第j列元素表明Sk的第i个样本被分配到Sm+1的第j个样本则不做分配;
将分配矩阵Ck中等于1的元素对应的Sk中的有标签样本提取出来构成第k个训练集Tk,从而可得到m个训练集T1,T2,...,Tm
具体为:将第k组样本集合Sk的有标签样本提取出来构成第k组训练集即可得到m个训练集记为T1,T2,...,Tm,|T1|,...,|Tm|表示对应集合样本总数,与一个待预测标签样本集合这里的x,y的上标s用于指明该变量属于训练集。
作为进一步优选的技术方案,上述步骤S3:利用m个训练集T1,T2,...,Tm和待预测标签样本集合Sm+1对神经网络进行训练,得到经网络变换后的m个新训练集U1,U2,...,Um和m个新待预测标签样本集合V1,V2,...,Vm,包括:
按声测井、电测井以及核测井将所述新训练集和新待预测标签样本集合中的特征分别分成三组特征,每一次将一个训练集和待预测标签样本集合分别放如图3所示的神经网络中,得到多组用于训练所述神经网络的训练子集和测试子集,即:
按特征视图将所述训练集T1,T2,...,Tm和所述待预测标签样本集合Sm+1中的特征分别分成nc组特征,nc为样本的特征视图数量,得到nc组用于训练所述神经网络的训练子集和待预测标签样本集合子集;
利用训练子集和待预测标签样本集合子集对所述神经网络进行训练,得到所述m个新训练集U1,U2,...,Um和m个新待预测标签样本集合V1,V2,...,Vm
具体地,第k组所述训练集与待预测标签样本集合的神经网络损失为:
其中,为样本岩性分类的交叉熵损失,为对第i个样本的数学期望,为第k组训练集Tk的特征变换网络,k=1,2,...,m,c为标签类别总数,|Tk|为Tk的样本总数,为Tk的第i个样本,为样本的标签,为示性函数;为Tk在特征变换之后的的岩性分类网络,输入为变换之后的特征,输出为岩性标签向量,其中,为对j的数学期望,为Sm+1对应的特征变换网络,为Sm+1的第j个样本,j=1,2,...,|Sm+1|,为Tk的分类对抗损失,为声测井、电测井、核测井三组特征对应的损失,为Tk经过变换后特征的数学期望与变换后待预测标签样本集合特征的数学期望的欧式距离,为根据经验设置的超参数;
在对神经网络参数初始化后,神经网络网络分为两个部分交替进行训练优化:(1)在将Tk,Sm+1中的所有样本分别放入得到Fs(xk,s),Ft(xm+1),计算再将Fs(xk,s)输入到得到预测结果与训练集标签计算以损失之和 优化以及Fs;(2)在将Tk,Sm+1中的所有样本分别放入得到Fs(xk,s),Ft(xm+1),将其输入到计算Ft(xm+1)与xm+1计算以损失之和的形式优化与Ft;两种方式交替直至网络收敛;
根据上述损失函数进行神经网络训练后,得到特征变换网络Tk经过特征变换网络以后得到了新训练集Uk,|Uk|为对应集合的样本总数,Sm+1分别经过特征变换网络得到m个新待预测标签样本集合Vk,k=1,2,...,m,|Vk|为对应集合的样本总数。
具体地,训练m组网络以后,得到m个经由特征变换网络特征变换后的新训练集记为U1,U2,...,Um,|Uk|为集合Uk的样本总数,k=1,...,m,第k组新训练集的矩阵表示为可得m组训练集以矩阵表示为与m个由原来一个待预测标签样本集合特征变换后的新待预测标签样本集合记为V1,V2,...,Vm,|Vk|为集合Vk的样本总数,k=1,...,m,以矩阵表示为
作为进一步优选的技术方案,上述步骤S4:基于新训练集U1,U2,...,Um和新待预测标签样本集合V1,V2,...,Vm,计算标签矩阵,实现待预测标签样本集合的标签预测,包括如下细分步骤S41至S43:
S41、利用所述m个新训练集和所述m个新待预测标签样本集合,生成m个输出矩阵,具体为:
S411、设置Zk=[Zk,s;Zk,t],Zk为矩阵Zk,s与Zk,t的纵向拼接,k=1,...,m,根据经验设置超参数qk,tuak
S412、随机生成权重矩阵随机生成偏置向量然后构造高维特征矩阵Hk的第k列为φ(ZkWk+Bk),φ为激活函数,Nh为设置的高维特征矩阵维度;
S413、计算Yk对应的one-hot编码标签矩阵 为第k组训练集的标签集合,为第i个标签:
S414、计算类别损失权重矩阵 为Uk中属于第j类岩性的样本个数,j∈{1,2,...,c},为维度为|Vk|×1的0向量,diag为对角矩阵;
S415、计算输出权重矩阵:
if
Else:
为Nh×Nh维的单位矩阵,为(|Uk|+|Vk|)×(|Uk|+|Vk|)维的单位矩阵;
S416、将第k个新训练集和第k个新待预测标签样本集合输入分类器得到Vk对应的输出矩阵okk=1,...,m,从而得到到m个输出矩阵o1,o2,…,om|Vk|为样本集合Vk的样本总数,|Uk|为样本集合Uk的样本总数,为Vk第一个样本对应的高维特征,为Vk最后一个样本对应的高维特征,βk为输出权重矩阵。
S42、基于所述新训练集和所述新待预测标签样本集合,计算权重系数,具体为:
S421、计算新训练集与新待预测标签样本集合的分布差异项k=1,2,…,m;
S422、以欧式距离为评价标准,计算新待预测标签样本集合样本在新训练集上的l个近邻,即以欧式距离最小的样本为第1个近邻,次小的为第2个近邻,以此类推,得到新待预测标签样本集合上的每一个样本的第1近邻、第2近邻、…、第1近邻的集合每一个样本在Uk上的第i近邻的集合;
S423、计算权重系数
其中,为集合里的元素个数,k=1,2,…,m,mk为Uk与Vk的分布差异项,为Vk中所有样本在Uk上的第q近邻的集合,q=1,2,...,l,wk为Uk的权重系数,l为近邻集合的个数,为归一化后的wk,wk为Uk的权重系数,mk为所述第k个新训练集与所述第k个新待预测标签样本集合的分布差异项。
S43、基于输出矩阵和权重系数,计算标签矩阵,实现数据标签预测,标签矩阵的计算公式为:
其中,中最大值所在的索引,为标签矩阵的第j行,j=1,2,...,|Sm+1|,Yt为m个输出矩阵的加权和输出矩阵,为预测的岩性标签。
如图2所示,本实施例公开了一种多特征视图数据标签预测***,包括:数据获取模块10、样本筛选模块20、训练模块30和标签预测模块40,其中:
数据获取模块10用于获取多特征视图数据的样本集合,包括m个有标签样本集合S1,S2,...,Sm和一个待预测标签样本集合Sm+1
样本筛选模块20用于对m个有标签样本集合S1,S2,...,Sm进行处理,根据所述待预测标签样本集合中的无标签样本与有标签样本集合中的有标签样本的距离筛选出有标签样本集合的部分样本,得到m个训练集T1,T2,...,Tm
训练模块30用于利用m个训练集T1,T2,...,Tm和待预测标签样本集合Sm+1对神经网络进行训练,得到经网络变换后的m个新训练集U1,U2,...,Um和m个新待预测标签样本集合V1,V2,...,Vm
标签预测模块40用于基于新训练集U1,U2,...,Um和新待预测标签样本集合V1,V2,...,Vm,计算标签矩阵,实现待预测标签样本集合的标签预测。
本发明实施例提供的***是用于执行上述各方法实施例的,具体流程和详细内容请参照上述实施例,此处不再赘述。
本实施例还公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上实施例所述多特征视图数据标签预测方法的步骤。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种多特征视图数据标签预测方法,其特征在于,包括:
S1、获取多特征视图数据的样本集合,包括m个有标签样本集合S1,S2,…,Sm和一个待预测标签样本集合Sm+1;即获取多口井的测井数据,多口井每个深度上的所有测井值组成一个特征向量,即样本;m个样本集合S1,S2,…,Sm有岩性标签,Sm+1没有岩性标签;
S2、对m个有标签样本集合S1,S2,…,Sm进行处理,得到m个训练集T1,T2,…,Tm
S3、利用m个训练集T1,T2,…,Tm和待预测标签样本集合Sm+1对神经网络进行训练,得到经网络变换后的m个新训练集U1,U2,…,Um和m个新待预测标签样本集合V1,V2,…,Vm
S4、基于新训练集U1,U2,…,Um和新待预测标签样本集合V1,V2,…,Vm,计算标签矩阵,实现待预测标签样本集合的标签预测;
上述S2对m个有标签样本集合S1,S2,…,Sm进行处理,得到m个训练集T1,T2,…,Tm的具体步骤为:
对所述有标签样本集合S1,S2,…,Sm和所述待预测标签样本集合Sm+1进行目标规划,目标函数为:
minπkCk
其中,πk为第k组有标签样本集合Sk与待预测标签样本集合Sm+1之间的代价矩阵,代价矩阵πk的第i行第j列元素为Sk的第i个样本和Sm+1的第j个样本的欧式距离,k=1,…,m,i=1,2,...,|Sk|,j=1,2,...,|Sm+1|,|Sk|和|Sm+1|分别表示Sk和Sm+1中的样本总数,Ck为Sk的分配矩阵,矩阵Ck的第i行第j列元素表明Sk的第i个样本被分配到Sm+1的第j个样本
将分配矩阵Ck中等于1的元素对应的Sk中的有标签样本提取出来构成第k个训练集Tk,从而可得到m个训练集T1,T2,…,Tm
上述S3利用m个训练集T1,T2,…,Tm和待预测标签样本集合Sm+1对神经网络进行训练,得到经网络变换后的m个新训练集U1,U2,…,Um和m个新待预测标签样本集合V1,V2,…,Vm,具体步骤包括:
按特征视图将所述训练集T1,T2,…,Tm和所述待预测标签样本集合Sm+1中的特征分别分成nc组特征,nc为样本的特征视图数量,得到nc组用于训练所述神经网络的训练子集和待预测标签样本集合子集;
利用训练子集和待预测标签样本集合子集对所述神经网络进行训练,得到所述m个新训练集U1,U2,…,Um和m个新待预测标签样本集合V1,V2,…,Vm
具体地,第k组所述训练集 的神经网络损失为:
其中,为样本标签分类的交叉熵损失,为对i的数学期望,k=1,2,…,m,c为标签类别总数,|Tk|为Tk的样本总数,为Tk的第i个样本,为样本的标签,为第k组训练集Tk的特征变换网络,为Tk在特征变换之后的分类网络,其输入为变换之后的特征,输出为标签向量, 为对j的数学期望,为Sm+1对应的特征变换网络,为Sm+1的第j个样本,j=1,2,...,|Sm+1|,为示性函数; 为Tk的分类对抗损失,的分类网络,为各特征视图对应的损失,为Tk经过变换后特征的数学期望与变换后待预测标签样本集合特征的数学期望的欧式距离,为根据经验设置的超参数;
根据损失函数进行神经网络训练后,得到特征变换网络Tk经过特征变换网络以后得到了新训练集Uk,|Uk|为对应集合的样本总数,Sm+1分别经过特征变换网络得到m个新待预测标签样本集合Vk,k=1,2,…,m,|Vk|为对应集合的样本总数;
上述S4基于新训练集U1,U2,…,Um和新待预测标签样本集合V1,V2,…,Vm,计算标签矩阵,实现待预测标签样本集合的标签预测,具体步骤包括:
利用所述m个新训练集和所述m个新待预测标签样本集合,生成m个输出矩阵;具体步骤为:
将第k个新训练集和第k个新待预测标签样本集合输入分类器得到Vk对应的输出矩阵ok |Vk|为样本集合Vk的样本总数,|Uk|为样本集合Uk的样本总数,为Vk第一个样本对应的高维特征,为Vk最后一个样本对应的高维特征,βk为输出权重矩阵;
基于所述m个新训练集和所述m个新待预测标签样本集合,计算权重系数;权重系数的计算公式为:
其中,为集合里的元素个数,k=1,2,…,m,mk为Uk与Vk的分布差异项,为Vk中所有样本在Uk上的第q近邻的集合,q=1,2,…,l,wk为Uk的权重系数,l为近邻集合的个数,为归一化后的wk,wk为Uk的权重系数,mk为所述第k个新训练集与所述第k个新待预测标签样本集合的分布差异项;
基于输出矩阵和权重系数,计算标签矩阵,实现所述待预测标签样本集合的标签预测;标签矩阵的计算公式为:
其中,中最大值所在的索引,为标签矩阵的第j行,j=1,2,…,|Sm+1|,Yt为m个输出矩阵的加权和输出矩阵,为Sm+1中第j个待预测样本的预测标签值;
2.一种多特征视图数据标签预测***,其特征在于,包括:数据获取模块、样本筛选模块、训练模块和标签预测模块,其中:
数据获取模块用于获取多特征视图数据的样本集合,包括m个有标签样本集合S1,S2,…,Sm和一个待预测标签样本集合Sm+1,即获取多口井的测井数据,多口井每个深度上的所有测井值组成一个特征向量,即样本;m个样本集合S1,S2,…,Sm有岩性标签,Sm+1没有岩性标签;
样本筛选模块用于对m个有标签样本集合S1,S2,…,Sm进行处理,根据所述待预测标签样本集合中的无标签样本与有标签样本集合中的有标签样本的距离筛选出有标签样本集合的部分样本,得到m个训练集T1,T2,…,Tm
训练模块用于利用m个训练集T1,T2,…,Tm和待预测标签样本集合Sm+1对神经网络进行训练,得到经网络变换后的m个新训练集U1,U2,…,Um和m个新待预测标签样本集合V1,V2,…,Vm
标签预测模块用于基于新训练集U1,U2,…,Um和新待预测标签样本集合V1,V2,…,Vm,计算标签矩阵,实现待预测标签样本集合的标签预测;
样本筛选模块具体用于:
对所述有标签样本集合S1,S2,…,Sm和所述待预测标签样本集合Sm+1进行目标规划,目标函数为:
minπkCk
其中,πk为第k组有标签样本集合Sk与待预测标签样本集合Sm+1之间的代价矩阵,代价矩阵πk的第i行第j列元素为Sk的第i个样本和Sm+1的第j个样本的欧式距离,k=1,…,m,i=1,2,...,|Sk|,j=1,2,...,|Sm+1|,|Sk|和|Sm+1|分别表示Sk和Sm+1中的样本总数,Ck为Sk的分配矩阵,矩阵Ck的第i行第j列元素表明Sk的第i个样本被分配到Sm+1的第j个样本
将分配矩阵Ck中等于1的元素对应的Sk中的有标签样本提取出来构成第k个训练集Tk,从而可得到m个训练集T1,T2,…,Tm
训练模块具体用于:
按特征视图将所述训练集T1,T2,…,Tm和所述待预测标签样本集合Sm+1中的特征分别分成nc组特征,nc为样本的特征视图数量,得到nc组用于训练所述神经网络的训练子集和待预测标签样本集合子集;
利用训练子集和待预测标签样本集合子集对所述神经网络进行训练,得到所述m个新训练集U1,U2,…,Um和m个新待预测标签样本集合V1,V2,…,Vm
具体地,第k组所述训练集 的神经网络损失为:
其中,为样本标签分类的交叉熵损失,为对i的数学期望,k=1,2,…,m,c为标签类别总数,|Tk|为Tk的样本总数,为Tk的第i个样本,为样本的标签,为第k组训练集Tk的特征变换网络,为Tk在特征变换之后的分类网络,其输入为变换之后的特征,输出为标签向量, 为对j的数学期望,为Sm+1对应的特征变换网络,为Sm+1的第j个样本,j=1,2,...,|Sm+1|,为示性函数; 为Tk的分类对抗损失,的分类网络,为各特征视图对应的损失,为Tk经过变换后特征的数学期望与变换后待预测标签样本集合特征的数学期望的欧式距离,为根据经验设置的超参数;
根据损失函数进行神经网络训练后,得到特征变换网络Tk经过特征变换网络以后得到了新训练集Uk,|Uk|为对应集合的样本总数,Sm+1分别经过特征变换网络得到m个新待预测标签样本集合Vk,k=1,2,…,m,|Vk|为对应集合的样本总数;
标签预测模块具体用于:
利用所述m个新训练集和所述m个新待预测标签样本集合,生成m个输出矩阵;具体步骤为:
将第k个新训练集和第k个新待预测标签样本集合输入分类器得到Vk对应的输出矩阵ok |Vk|为样本集合Vk的样本总数,|Uk|为样本集合Uk的样本总数,为Vk第一个样本对应的高维特征,为Vk最后一个样本对应的高维特征,βk为输出权重矩阵;
基于所述m个新训练集和所述m个新待预测标签样本集合,计算权重系数;权重系数的计算公式为:
其中,为集合里的元素个数,k=1,2,…,m,mk为Uk与Vk的分布差异项,为Vk中所有样本在Uk上的第q近邻的集合,q=1,2,…,l,wk为Uk的权重系数,l为近邻集合的个数,为归一化后的wk,wk为Uk的权重系数,mk为所述第k个新训练集与所述第k个新待预测标签样本集合的分布差异项;
基于输出矩阵和权重系数,计算标签矩阵,实现所述待预测标签样本集合的标签预测;标签矩阵的计算公式为:
其中,中最大值所在的索引,为标签矩阵的第j行,j=1,2,…,|Sm+1|,Yt为m个输出矩阵的加权和输出矩阵,为Sm+1中第j个待预测样本的预测标签值。
3.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1所述多特征视图数据标签预测方法的步骤。
CN202111031652.8A 2021-09-03 2021-09-03 多特征视图数据标签预测方法、***与可读存储介质 Active CN113837394B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111031652.8A CN113837394B (zh) 2021-09-03 2021-09-03 多特征视图数据标签预测方法、***与可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111031652.8A CN113837394B (zh) 2021-09-03 2021-09-03 多特征视图数据标签预测方法、***与可读存储介质

Publications (2)

Publication Number Publication Date
CN113837394A CN113837394A (zh) 2021-12-24
CN113837394B true CN113837394B (zh) 2024-07-05

Family

ID=78962116

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111031652.8A Active CN113837394B (zh) 2021-09-03 2021-09-03 多特征视图数据标签预测方法、***与可读存储介质

Country Status (1)

Country Link
CN (1) CN113837394B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447110A (zh) * 2018-09-17 2019-03-08 华中科技大学 综合邻居标签相关性特征和样本特征的多标签分类的方法
CN110688536A (zh) * 2019-09-25 2020-01-14 中国建设银行股份有限公司 一种标签预测方法、装置、设备和存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018150089A1 (en) * 2017-02-17 2018-08-23 Curious Ai Oy Solution for training a neural network system
CN108021931A (zh) * 2017-11-20 2018-05-11 阿里巴巴集团控股有限公司 一种数据样本标签处理方法及装置
CN109840530A (zh) * 2017-11-24 2019-06-04 华为技术有限公司 训练多标签分类模型的方法和装置
CN112232416B (zh) * 2020-10-16 2021-09-14 浙江大学 一种基于伪标签加权的半监督学习方法
CN112836802B (zh) * 2021-02-03 2024-07-12 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种半监督学习方法、岩性预测方法及存储介质
CN112633419B (zh) * 2021-03-09 2021-07-06 浙江宇视科技有限公司 小样本学习方法、装置、电子设备和存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447110A (zh) * 2018-09-17 2019-03-08 华中科技大学 综合邻居标签相关性特征和样本特征的多标签分类的方法
CN110688536A (zh) * 2019-09-25 2020-01-14 中国建设银行股份有限公司 一种标签预测方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN113837394A (zh) 2021-12-24

Similar Documents

Publication Publication Date Title
CN105303198B (zh) 一种自定步长学习的遥感影像半监督分类方法
CN112836802B (zh) 一种半监督学习方法、岩性预测方法及存储介质
CN103942749B (zh) 一种基于修正聚类假设和半监督极速学习机的高光谱地物分类方法
DE112019000739T5 (de) Zeitreihengewinnung zum analysieren und korrigieren eines systemstatus
CN111695611B (zh) 一种蜂群优化核极限学习和稀疏表示机械故障识别方法
Wang et al. Time-weighted kernel-sparse-representation-based real-time nonlinear multimode process monitoring
CN112766400A (zh) 高维数据基于多个数据变换空间的半监督分类集成方法
CN113780346B (zh) 一种先验约束分类器调整方法、***及可读存储介质
CN116643246A (zh) 一种基于内积距离度量的深度聚类雷达脉冲信号分选方法
CN108920900A (zh) 基因表达谱数据的无监督极限学习机特征提取***及方法
CN115271063A (zh) 基于特征原型投影的类间相似性知识蒸馏方法与模型
Rethik et al. Attention Based Mapping for Plants Leaf to Classify Diseases using Vision Transformer
CN113837394B (zh) 多特征视图数据标签预测方法、***与可读存储介质
CN117392450A (zh) 一种基于进化多尺度特征学习的钢铁材料质量解析方法
CN114819191B (zh) 一种高排放道路移动源识别方法、***及存储介质
Packianather et al. Modelling neural network performance through response surface methodology for classifying wood veneer defects
CN114595884A (zh) 一种遗传智能优化的神经网络风力发电设备温度预测方法
Venu et al. Disease Identification in Plant Leaf Using Deep Convolutional Neural Networks
Bond et al. An unsupervised machine learning approach for ground motion clustering and selection
Fong et al. Multi-Level Symbolic Regression: Function Structure Learning for Multi-Level Data
Topolski et al. Modification of the Principal Component Analysis Method Based on Feature Rotation by Class Centroids.
CN113537458B (zh) 一种有理式函数神经网络构建方法、***及可读存储介质
Halder et al. An unsupervised dynamic image segmentation using fuzzy Hopfield neural network based genetic algorithm
CN113035363B (zh) 一种概率密度加权的遗传代谢病筛查数据混合采样方法
CN115506783A (zh) 一种岩性识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant