CN113780346A - 一种先验约束分类器调整方法、***及可读存储介质 - Google Patents

一种先验约束分类器调整方法、***及可读存储介质 Download PDF

Info

Publication number
CN113780346A
CN113780346A CN202110902981.9A CN202110902981A CN113780346A CN 113780346 A CN113780346 A CN 113780346A CN 202110902981 A CN202110902981 A CN 202110902981A CN 113780346 A CN113780346 A CN 113780346A
Authority
CN
China
Prior art keywords
matrix
sample
global
classifier
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110902981.9A
Other languages
English (en)
Other versions
CN113780346B (zh
Inventor
吕文君
张文婷
康宇
昌吉
许婷
李婧
李泽瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202110902981.9A priority Critical patent/CN113780346B/zh
Publication of CN113780346A publication Critical patent/CN113780346A/zh
Application granted granted Critical
Publication of CN113780346B publication Critical patent/CN113780346B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种先验约束分类器调整方法、***及可读存储介质,属于信号处理技术领域,包括获取样本集合;根据样本集合中的数据,计算全局拉普拉斯矩阵、全局样本权重矩阵和全局高维特征输出矩阵;基于全局拉普拉斯矩阵、全局样本权重矩阵、全局高维特征输出矩阵和类别先验数量向量,对分类器进行初步调整,得到初始输出权重;根据初始输出权重,对分类器进行再次调整,得到调整后的分类器。本发明引入了先验约束、信息保留约束、分布差异度量、平滑性度量,使得分类器能够较好地适应到新环境的数据分布,防止分类性能的下降。

Description

一种先验约束分类器调整方法、***及可读存储介质
技术领域
本发明涉及信号处理技术领域,特别涉及一种先验约束分类器调整方法、***及可读存储介质。
背景技术
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度等多门学科知识,使用计算机模拟实现人的学习行为,重新组织已有的知识结构或获取新的知识,来提高学习的效率性能。研究机器学习的方法种类很多,但是实际上很多学习场景下训练样本的概率分布和测试样本的概率分布是不同的,因此需要对分类器进行调整以适应新的环境。
发明内容
本发明的目的在于克服上述背景技术中的不足,以调整得到能够较好适应新环境的数据分布的分类器。
为实现以上目的,一方面,采用一种先验约束分类器调整方法,包括:
获取样本集合;
根据样本集合中的数据,计算全局拉普拉斯矩阵、全局样本权重矩阵和全局高维特征输出矩阵;
基于全局拉普拉斯矩阵、全局样本权重矩阵和全局高维特征输出矩阵以及先验知识,对分类器进行初步调整,得到初始输出权重;
根据初始输出权重,对分类器进行再次调整,得到调整后的分类器。
进一步地,所述根据样本集合中的数据,计算全局拉普拉斯矩阵、全局样本权重矩阵和全局高维特征输出矩阵,包括:
将样本集合划分为有标签样本集合
Figure BDA0003200442770000021
和无标签样本集合
Figure BDA0003200442770000022
Figure BDA0003200442770000023
所对应的标签为集合为
Figure BDA0003200442770000024
ns为有标签样本的数量,nt为无标签样本的数量,n=ns+nt,n为样本总数;
根据无标签样本集合
Figure BDA0003200442770000025
计算全局拉普拉斯矩阵L;
根据有标签样本集合
Figure BDA0003200442770000026
中已标注数据的类别分布,计全局样本权重矩阵W;
随机生成z个输入权重向量和z个输入偏置标量,计算所述样本集合中每个样本数据的高维特征,得到全局高维特征输出矩阵。
进一步地,所述随机生成z个输入权重向量和z个输入偏置标量,计算所述样本集合中每个样本数据的高维特征,得到全局高维特征输出矩阵,包括:
随机生成z个输入权重向量
Figure BDA0003200442770000027
和z个输入偏置标量bj,j=1,2,…,z;
计算所述样本集合中样本xi的高维特征
Figure BDA0003200442770000028
Figure BDA0003200442770000029
其中g(·)为激活函数;
计算所述有标签样本集合
Figure BDA00032004427700000210
的高维特征输出矩阵
Figure BDA00032004427700000211
计算所述无标签样本集合
Figure BDA00032004427700000212
的高维特征输出矩阵
Figure BDA00032004427700000213
计算所述样本集合的全局高维特征输出矩阵
Figure BDA00032004427700000214
进一步地,所述基于全局拉普拉斯矩阵、全局样本权重矩阵、全局高维特征输出矩阵以及先验知识,对分类器进行初步调整,得到初始输出权重,包括:
若z≤n,则所述分类器的初始输出权重ΩM为:
Figure BDA0003200442770000031
若z>n,则所述分类器的初始输出权重ΩM为:
Figure BDA0003200442770000032
其中,I为适维的单位阵,H为全局高维特征输出矩阵,W为全局样本权重矩阵,V为分布差异度量矩阵,L为全局拉普拉斯矩阵,向量
Figure BDA0003200442770000033
Figure BDA0003200442770000034
表示实数域,超参数λ,γ,τ>0,根据所述先验知识确定的类别先验数量向量
Figure BDA0003200442770000035
Figure BDA0003200442770000036
所述有标签样本集合
Figure BDA0003200442770000037
所对应的标签为集合为
Figure BDA0003200442770000038
为维度为nt×c的零矩阵,c为类别总数,z为设定的隐藏层节点数即输入权重向量w的个数或输入偏置标量b的个数,z>0,T表示转置。
进一步地,所述根据初始输出权重,对分类器进行再次调整,得到调整后的分类器,包括:
根据所述初始输出权重,求解所述无标签样本集合
Figure BDA0003200442770000039
的伪标签
Figure BDA00032004427700000310
HT为无标签样本集合的高维特征输出矩阵,ΩM为所述初始输出矩阵;
根据有标签样本集合
Figure BDA00032004427700000311
和无标签样本集合
Figure BDA00032004427700000312
中样本标签的类别,更新矩阵
Figure BDA00032004427700000313
其中:
Figure BDA0003200442770000041
其中,
Figure BDA0003200442770000042
分别表示有标签样本集合
Figure BDA0003200442770000043
和无标签样本集合
Figure BDA0003200442770000044
中样本标签属于第k类的数量,
Figure BDA0003200442770000045
分别表示有标签样本集合
Figure BDA0003200442770000046
中第p个和第q个样本,
Figure BDA0003200442770000047
分别表示无标签样本集合
Figure BDA0003200442770000048
中的第p-ns个和第q-ns个样本,k为样本标签的类别;
根据更新后的矩阵V,计算所述分类器的最终输出矩阵,得到调整后的分类器。
进一步地,所述根据更新后的矩阵V,计算所述分类器的最终输出矩阵,得到调整后的分类器,包括:
若z≤n,计算所述分类器的最终输出权重ΩM为:
Figure BDA0003200442770000049
若z>n,计算所述分类器的最终输出权重ΩM为:
Figure BDA00032004427700000410
得到调整后的分类器为h(x*C,h(x*)表示样本x*的高维特征。
第二方面,采用一种先验约束分类器调整***,包括数据获取模块、数据处理模块、一次调整模块和二次调整模块,其中:
数据获取模块用于获取样本集合;
数据处理模块用于根据样本集合中的数据,计算全局拉普拉斯矩阵、全局样本权重矩阵和全局高维特征输出矩阵;
一次调整模块用于基于全局拉普拉斯矩阵、全局样本权重矩阵和全局高维特征输出矩阵,对分类器进行初步调整,得到初始输出权重;
二次调整模块用于根据初始输出权重,对分类器进行再次调整,得到调整后的分类器。
进一步地,所述数据处理模块包括样本划分单元、全局拉普拉斯矩阵计算单元、全局样本权重矩阵计算单元和全局高维特征输出矩阵单元,其中:
样本划分单元用于将样本集合划分为有标签样本集合
Figure BDA0003200442770000051
Figure BDA0003200442770000052
和无标签样本集合
Figure BDA0003200442770000053
Figure BDA0003200442770000054
所对应的标签为集合为
Figure BDA0003200442770000055
ns为有标签样本的数量,nt为无标签样本的数量,n=ns+nt,n为样本总数;
全局拉普拉斯矩阵计算单元用于根据无标签样本集合
Figure BDA0003200442770000056
计算全局拉普拉斯矩阵L;
全局样本权重矩阵计算单元用于根据有标签样本集合
Figure BDA0003200442770000057
中已标注数据的类别分布,计全局样本权重矩阵W;
全局高维特征输出矩阵单元用于随机生成z个输入权重向量和z个输入偏置标量,计算所述样本集合中每个样本数据的高维特征,得到全局高维特征输出矩阵。
进一步地,所述一次调整模块具体用于:
若z≤n,则所述分类器的初始输出权重ΩM为:
Figure BDA0003200442770000058
若z>n,则所述分类器的初始输出权重ΩM为:
Figure BDA0003200442770000061
其中,I为适维的单位阵,H为全局高维特征输出矩阵,W为全局样本权重矩阵,V为分布差异度量矩阵,L为全局拉普拉斯矩阵,向量
Figure BDA0003200442770000062
Figure BDA0003200442770000063
表示实数域,超参数λ,γ,τ>0,类别先验数量向量
Figure BDA0003200442770000064
Figure BDA0003200442770000065
所述有标签样本集合
Figure BDA0003200442770000066
所对应的标签为集合为
Figure BDA0003200442770000067
为维度为nt×c的零矩阵,c为类别总数,z为设定的隐藏层节点数即输入权重向量w的个数或输入偏置标量b的个数,z>0,
Figure BDA00032004427700000614
表示转置;
所述二次调整模块具体用于:
根据所述初始输出权重,求解所述无标签样本集合
Figure BDA0003200442770000068
的伪标签
Figure BDA0003200442770000069
HT为无标签样本集合
Figure BDA00032004427700000610
的高维特征输出矩阵,ΩM为所述初始输出矩阵;
根据有标签样本集合
Figure BDA00032004427700000611
和无标签样本集合
Figure BDA00032004427700000612
中样本标签的类别,更新矩阵
Figure BDA00032004427700000613
其中:
Figure BDA0003200442770000071
其中,
Figure BDA0003200442770000072
分别表示有标签样本集合
Figure BDA0003200442770000073
和无标签样本集合
Figure BDA0003200442770000074
中样本标签属于第k类的数量,
Figure BDA0003200442770000075
分别表示有标签样本集合
Figure BDA0003200442770000076
中第p个和第q个样本,
Figure BDA0003200442770000077
分别表示无标签样本集合
Figure BDA0003200442770000078
中的第p-ns个和第q-ns个样本,k为样本标签的类别;
根据更新后的矩阵V,计算所述分类器的最终输出矩阵,得到调整后的分类器,为:
若z≤n,计算所述分类器的最终输出权重ΩM为:
Figure BDA0003200442770000079
若z>n,计算所述分类器的最终输出权重ΩM为:
Figure BDA00032004427700000710
得到调整后的分类器为h(x*C,h(x*)表示样本x*的高维特征。
第三方面,采用一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述先验约束分类器调整方法的步骤。
与现有技术相比,本发明存在以下技术效果:本发明通过引入先验约束、信息保留约束、分布差异度量以及平滑性度量,使得分类器能够较好地适应到新环境的数据分布,防止分类性能的下降,有效提升模型的准确性、鲁棒性以及安全性。
附图说明
下面结合附图,对本发明的具体实施方式进行详细描述:
图1是一种先验约束分类器调整方法的流程图;
图2是一种先验约束分类器调整***的结构图。
具体实施方式
为了更进一步说明本发明的特征,请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用,并非用来对本发明的保护范围加以限制。
如图1所示,本实施例公开了一种先验约束分类器调整方法,包括如下步骤S1至S4:
S1、获取样本集合;
S2、根据样本集合中的数据,计算全局拉普拉斯矩阵、全局样本权重矩阵和全局高维特征输出矩阵;
S3、基于全局拉普拉斯矩阵、全局样本权重矩阵、全局高维特征输出矩阵以及先验知识,对分类器进行初步调整,得到初始输出权重;
S4、根据初始输出权重,对分类器进行再次调整,得到调整后的分类器。
作为进一步优选的技术方案,上述步骤S2:根据样本集合中的数据,计算全局拉普拉斯矩阵、全局样本权重矩阵和全局高维特征输出矩阵,包括S21至S24:
S21、将样本集合划分为有标签样本集合和无标签样本集合;
需要说明的是,定义样本
Figure BDA0003200442770000081
d为特征维度,则样本集合为
Figure BDA0003200442770000082
n为样本总数;为部分样本x打上标签
Figure BDA0003200442770000083
c为类别总数,y为独热编码形式,则有标签样本集合为
Figure BDA0003200442770000084
Figure BDA0003200442770000085
所对应的标签为集合为
Figure BDA0003200442770000091
ns为有标签样本的数量;无标签的样本集合为
Figure BDA0003200442770000092
nt为无标签样本的数量,n=ns+nt,n为样本总数,
Figure BDA0003200442770000093
表示实数域。
S22、根据无标签样本集合
Figure BDA0003200442770000094
计算全局拉普拉斯矩阵L,具体包括如下步骤S221至S222:
S221、根据无标签样本集合
Figure BDA0003200442770000095
中的数据,计算未标注数据的拉普拉斯矩阵LT,如下:
LT=D-A
其中,相似度矩阵
Figure BDA0003200442770000096
D是A的度矩阵,D是对角矩阵,其对角元素
Figure BDA0003200442770000097
Figure BDA0003200442770000098
Figure BDA0003200442770000099
为二范数的平方,exp()为次幂指数,高斯带宽σ>0,
Figure BDA00032004427700000910
为无标签样本集合
Figure BDA00032004427700000911
中第i`个样本,
Figure BDA00032004427700000912
为无标签样本集合
Figure BDA00032004427700000913
中第j`个样本。
S222、计算全局拉普拉斯矩阵,如下:
Figure BDA00032004427700000914
其中,O表示零矩阵,其下标表示其维度。
S23、根据有标签样本集合
Figure BDA00032004427700000915
中已标注数据的类别分布,计全局样本权重矩阵W,具体包括如下步骤S231至S233:
S231、根据有标签样本集合
Figure BDA00032004427700000916
中已标注数据的类别分布,计算其权重矩阵,如下:
Figure BDA0003200442770000101
其中,超参数C>0,具体取值可根据经验设定。
S232、计算全局样本权重矩阵,如下:
Figure BDA0003200442770000102
S233、随机生成z个输入权重向量和z个输入偏置标量,计算所述样本集合中每个样本数据的高维特征,得到全局高维特征输出矩阵。
作为进一步优选的技术方案,上述步骤S24:随机生成z个输入权重向量和z个输入偏置标量,计算所述样本集合中每个样本数据的高维特征,得到全局高维特征输出矩阵,具体包括S241至S244:
S241、随机生成z个输入权重向量
Figure BDA0003200442770000103
和z个输入偏置标量bj,j=1,2,…,z,z>0;
S242、计算所述样本集合中样本xi的高维特征
Figure BDA0003200442770000104
Figure BDA0003200442770000105
其中g(·)为激活函数;
S243、计算所述有标签样本集合
Figure BDA0003200442770000106
的高维特征输出矩阵
Figure BDA0003200442770000107
Figure BDA0003200442770000108
计算所述无标签样本集合
Figure BDA0003200442770000109
的高维特征输出矩阵
Figure BDA00032004427700001010
S244、计算所述样本集合的全局高维特征输出矩阵
Figure BDA00032004427700001011
Figure BDA00032004427700001012
作为进一步优选的技术方案,上述步骤S3、基于全局拉普拉斯矩阵、全局样本权重矩阵和全局高维特征输出矩阵,对分类器进行初步调整,得到初始输出权重,包括如下步骤:
若z≤n,则所述分类器的初始输出权重ΩM为:
Figure BDA00032004427700001013
若z>n,则所述分类器的初始输出权重ΩM为:
Figure BDA0003200442770000111
其中,I为适维的单位阵,H为全局高维特征输出矩阵,W为全局样本权重矩阵,V为分布差异度量矩阵,L为全局拉普拉斯矩阵,向量
Figure BDA0003200442770000112
Figure BDA0003200442770000113
表示实数域,超参数λ,γ,τ>0,类别先验数量向量
Figure BDA0003200442770000114
Figure BDA0003200442770000115
所述有标签样本集合
Figure BDA0003200442770000116
所对应的标签为集合为
Figure BDA0003200442770000117
为维度为nt×c的零矩阵,ns为有标签样本的数量,nt为无标签样本的数量,c为类别总数,n为样本总数,n=ns+nt,z为设定的隐藏层节点数即输入权重向量w的个数或输入偏置标量b的个数,z>0,
Figure BDA00032004427700001115
表示转置。
需要说明的是,超参数C,λ,γ,τ可根据经验设置,类别先验数量向量
Figure BDA0003200442770000118
根据先验知识确定。
作为进一步优选的技术方案,分布差异度量矩阵V为:
Figure BDA0003200442770000119
其中,E是元素全为1的矩阵,其下标表示其维度。
作为进一步优选的技术方案,上述步骤S4:根据初始输出权重,对分类器进行再次调整,得到调整后的分类器,包括如下步骤S41至S43:
S41、根据所述初始输出权重,求解所述无标签样本集合
Figure BDA00032004427700001110
的伪标签
Figure BDA00032004427700001111
S42、根据有标签样本集合
Figure BDA00032004427700001112
和无标签样本集合
Figure BDA00032004427700001113
中样本标签的类别,更新矩阵
Figure BDA00032004427700001114
其中:
Figure BDA0003200442770000121
其中,
Figure BDA0003200442770000122
分别表示有标签样本集合
Figure BDA0003200442770000123
和无标签样本集合
Figure BDA0003200442770000124
中样本标签属于第k类的数量,
Figure BDA0003200442770000125
分别表示有标签样本集合
Figure BDA0003200442770000126
中第p个和第q个样本,
Figure BDA0003200442770000127
分别表示无标签样本集合
Figure BDA0003200442770000128
中的第p-ns个和第q-ns个样本,k为样本标签的类别;
S43、根据更新后的矩阵V,计算所述分类器的最终输出矩阵,得到调整后的分类器。
作为进一步优选的技术方案,上述步骤S43:根据更新后的矩阵V,计算所述分类器的最终输出矩阵,得到调整后的分类器,具体为:
若z≤n,计算所述分类器的最终输出权重ΩM为:
Figure BDA0003200442770000129
若z>n,计算所述分类器的最终输出权重ΩM为:
Figure BDA00032004427700001210
得到调整后的分类器为h(x*C,h(x*)表示样本x*的高维特征。
本实施例以地球物理测井解释为例进行说明:例如未标注井的沉积相为深湖相,往往发育大段的泥岩,设分类目标为泥岩和砂岩,步骤如下:
(1)数据收集
采集某一深度的地球物理测井曲线(如声波测井曲线、伽马射线测井曲线和自然电位测井曲线)组成测井数据样本
Figure BDA0003200442770000131
d表示地球物理测井数(即特征维度),如果沿深度有n个深度点的测井曲线,即可得到样本集合
Figure BDA0003200442770000132
n为样本总数;为部分样本x打上标签
Figure BDA0003200442770000133
标签的物理意义可为泥岩和砂岩,c为类别总数,y为独热编码形式,则有标签样本集合为
Figure BDA0003200442770000134
Figure BDA0003200442770000135
所对应的标签为集合为
Figure BDA0003200442770000136
nS为有标签样本的数量,
Figure BDA0003200442770000137
表示转置;无标签的样本集合为
Figure BDA0003200442770000138
nt为无标签样本的数量,n=ns+nt
Figure BDA0003200442770000139
表示实数域。
(2)初始化
2-1)根据先验知识确定类别先验数量向量
Figure BDA00032004427700001310
根据经验设定超参数C,λ,γ,τ>0,设定隐藏层节点数z>0,设置高斯带宽σ>0;
作为进一步优选的技术方案,本实施例给出确定
Figure BDA00032004427700001311
的一种方案,例如未标注井的沉积相为深湖相,往往发育大段的泥岩,设分类目标为泥岩和砂岩,则可设置
Figure BDA00032004427700001312
如果未标注井的沉积相为滨浅湖相,往往发育大段的砂岩或者泥岩砂岩交替出现,则可设置
Figure BDA00032004427700001313
具体设置根据地质学家实际经验为准。
2-2)根据
Figure BDA00032004427700001314
计算未标注数据的拉普拉斯矩阵LT,如下:
LT=D-A
其中,相似度矩阵
Figure BDA00032004427700001315
D是A的度矩阵,D是对角矩阵,其对角元素
Figure BDA00032004427700001316
Figure BDA00032004427700001317
进而计算全局拉普拉斯矩阵,如下:
Figure BDA0003200442770000141
其中,O表示零矩阵,其下标表示其维度。
2-3)根据已标注数据的类别分布计算其权重矩阵,如下:
Figure BDA0003200442770000142
进而计算全局样本权重矩阵,如下:
Figure BDA0003200442770000143
2-4)定义向量
Figure BDA0003200442770000144
2-5)定义分布差异度量矩阵
Figure BDA0003200442770000145
Figure BDA0003200442770000146
其中E是元素全为1的矩阵,其下标表示其维度。
(3)生成高维特征空间
随机生成z个输入权重向量
Figure BDA0003200442770000147
随机生成z个输入偏置标量bj,进而对于样本xi,可以得到其高维特征
Figure BDA0003200442770000148
Figure BDA0003200442770000149
其中g(·)为激活函数;进而得到
Figure BDA00032004427700001410
的高维特征输出矩阵
Figure BDA00032004427700001411
得到
Figure BDA00032004427700001412
的高维特征输出矩阵
Figure BDA00032004427700001413
最终得到全局的高维特征输出矩阵
Figure BDA00032004427700001414
(4)分类器初步调整
计算初始输出权重ΩM,如下:
若z≤n,则有:
Figure BDA00032004427700001415
若z>n,则有:
Figure BDA0003200442770000151
其中,I为适维的单位阵,
Figure BDA0003200442770000152
(5)分类器最终调整
计算最终输出权重ΩC,如下:
5-1)根据输出权重ΩM求解
Figure BDA0003200442770000153
的伪标签
Figure BDA0003200442770000154
然后更新矩阵
Figure BDA0003200442770000155
其中:
Figure BDA0003200442770000156
其中,
Figure BDA0003200442770000157
分别表示有标签样本集合
Figure BDA0003200442770000158
和无标签样本集合
Figure BDA0003200442770000159
中样本标签属于第k类的数量,
Figure BDA00032004427700001510
分别表示有标签样本集合
Figure BDA00032004427700001511
中第p个和第q个样本,
Figure BDA00032004427700001512
分别表示无标签样本集合
Figure BDA00032004427700001513
中的第p-ns个和第q-nS个样本,k为样本标签的类别
其中,
Figure BDA00032004427700001514
表示
Figure BDA00032004427700001515
Figure BDA00032004427700001516
中样本标签属于第k类的数量,有标签样本集合
Figure BDA00032004427700001517
和无标签样本集合
Figure BDA00032004427700001518
中样本标签的类别的判断依据
Figure BDA00032004427700001519
和YS
5-2)求解ΩC,如下:
若z≤n,则有:
Figure BDA00032004427700001520
若z>n,则有:
Figure BDA0003200442770000161
其中,ΩC即为调整后分类器输出权重,对于一个新的样本x*,可以采用h(x*C预测其类别。
本发明通过引入先验约束、信息保留约束、分布差异度量以及平滑性度量,使得分类器能够较好地适应到新环境的数据分布,防止分类性能的下降,有效提升模型的准确性、鲁棒性以及安全性。
如图2所示,本实施例公开了一种先验约束分类器调整***,包括数据获取模块10、数据处理模块20、一次调整模块和二次调整模块,其中:
数据获取模块10用于获取样本集合;
数据处理模块20用于根据样本集合中的数据,计算全局拉普拉斯矩阵、全局样本权重矩阵和全局高维特征输出矩阵;
一次调整模块30用于基于全局拉普拉斯矩阵、全局样本权重矩阵和全局高维特征输出矩阵,对分类器进行初步调整,得到初始输出权重;
二次调整模块40用于根据初始输出权重,对分类器进行再次调整,得到调整后的分类器。
作为进一步优选的技术方案,所述数据处理模块包括样本划分单元、全局拉普拉斯矩阵计算单元、全局样本权重矩阵计算单元和全局高维特征输出矩阵单元,其中:
样本划分单元用于将样本集合划分为有标签样本集合
Figure BDA0003200442770000162
Figure BDA0003200442770000163
和无标签样本集合
Figure BDA0003200442770000164
Figure BDA0003200442770000165
所对应的标签为集合为
Figure BDA0003200442770000171
ns为有标签样本的数量,nt为无标签样本的数量,n=ns+nt
全局拉普拉斯矩阵计算单元用于根据无标签样本集合
Figure BDA0003200442770000172
计算全局拉普拉斯矩阵L,具体为:
根据无标签样本集合
Figure BDA0003200442770000173
中的数据,计算未标注数据的拉普拉斯矩阵LT,如下:
LT=D-A
其中,相似度矩阵
Figure BDA0003200442770000174
D是A的度矩阵,D是对角矩阵,其对角元素
Figure BDA00032004427700001715
Figure BDA0003200442770000175
Figure BDA0003200442770000176
为二范数的平方,exp()为次幂指数,高斯带宽σ>0,
Figure BDA0003200442770000177
为无标签样本集合
Figure BDA0003200442770000178
中的第i`个样本,
Figure BDA0003200442770000179
为无标签样本集合
Figure BDA00032004427700001710
中的第j`个样本。
计算全局拉普拉斯矩阵,如下:
Figure BDA00032004427700001711
其中,O表示零矩阵,其下标表示其维度。
全局样本权重矩阵计算单元用于根据有标签样本集合
Figure BDA00032004427700001712
中已标注数据的类别分布,计全局样本权重矩阵W,具体为:
根据有标签样本集合
Figure BDA00032004427700001713
中已标注数据的类别分布,计算其权重矩阵,如下:
Figure BDA00032004427700001714
其中,超参数C>0,具体取值可根据经验设定。
计算全局样本权重矩阵,如下:
Figure BDA0003200442770000181
全局高维特征输出矩阵单元用于随机生成z个输入权重向量和z个输入偏置标量,计算所述样本集合中每个样本数据的高维特征,得到全局高维特征输出矩阵,具体为:
随机生成z个输入权重向量
Figure BDA0003200442770000182
和z个输入偏置标量bj,j=1,2,…,z,z>0;
计算所述样本集合中样本xi的高维特征
Figure BDA0003200442770000183
Figure BDA0003200442770000184
其中g(·)为激活函数;
计算所述有标签样本集合
Figure BDA0003200442770000185
的高维特征输出矩阵
Figure BDA0003200442770000186
计算所述无标签样本集合
Figure BDA0003200442770000187
的高维特征输出矩阵
Figure BDA0003200442770000188
计算所述样本集合的全局高维特征输出矩阵
Figure BDA0003200442770000189
作为进一步优选的技术方案,所述一次调整模块30具体用于:
若z≤n,则所述分类器的初始输出权重ΩM为:
Figure BDA00032004427700001810
若z>n,则所述分类器的初始输出权重ΩM为:
Figure BDA00032004427700001811
其中,I为适维的单位阵,H为全局高维特征输出矩阵,W为全局样本权重矩阵,V为分布差异度量矩阵,L为全局拉普拉斯矩阵,向量
Figure BDA00032004427700001812
Figure BDA00032004427700001813
表示实数域,超参数λ,γ,τ>0,类别先验数量向量
Figure BDA0003200442770000191
Figure BDA0003200442770000192
所述样本集合中的有标签样本集合
Figure BDA0003200442770000193
所对应的标签为集合为
Figure BDA0003200442770000194
为维度为nt×c的零矩阵,ns为有标签样本的数量,nt为无标签样本的数量,c为类别总数,n为样本总数,n=ns+nt,z为设定的隐藏层节点数(即输入权重向量w的个数或输入偏置标量b的个数),z>0,
Figure BDA00032004427700001915
表示转置;
所述二次调整模块40具体用于:
根据所述初始输出权重,求解所述样本集合中无标签样本集合的伪标签
Figure BDA0003200442770000195
HT为无标签样本集合的高维特征输出矩阵,ΩM为所述初始输出矩阵;
根据xp与xq的类别,更新矩阵
Figure BDA0003200442770000196
其中:
Figure BDA0003200442770000197
其中,
Figure BDA0003200442770000198
分别表示有标签样本集合
Figure BDA0003200442770000199
和无标签样本集合
Figure BDA00032004427700001910
中样本标签属于第k类的数量,
Figure BDA00032004427700001911
分别表示有标签样本集合
Figure BDA00032004427700001912
中第p个和第q个样本,
Figure BDA00032004427700001913
分别表示无标签样本集合
Figure BDA00032004427700001914
中的第p-ns个和第q-nS个样本,k为样本标签的类别;
根据更新后的矩阵V,计算所述分类器的最终输出矩阵,得到调整后的分类器,具体为:
若z≤n,计算所述分类器的最终输出权重ΩM为:
Figure BDA0003200442770000201
若z>n,计算所述分类器的最终输出权重ΩM为:
Figure BDA0003200442770000202
得到调整后的分类器为h(x*C,h(x*)表示样本x*的高维特征。
本实施例还公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述先验约束分类器调整方法的步骤。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种先验约束分类器调整方法,其特征在于,包括:
获取样本集合;
根据样本集合中的数据,计算全局拉普拉斯矩阵、全局样本权重矩阵和全局高维特征输出矩阵;
基于全局拉普拉斯矩阵、全局样本权重矩阵、全局高维特征输出矩阵以及先验知识,对分类器进行初步调整,得到初始输出权重;
根据初始输出权重,对分类器进行再次调整,得到调整后的分类器。
2.如权利要求1所述的先验约束分类器调整方法,其特征在于,所述根据样本集合中的数据,计算全局拉普拉斯矩阵、全局样本权重矩阵和全局高维特征输出矩阵,包括:
将样本集合划分为有标签样本集合
Figure FDA0003200442760000011
和无标签样本集合
Figure FDA0003200442760000012
Figure FDA0003200442760000013
所对应的标签为集合为
Figure FDA0003200442760000014
ns为有标签样本的数量,nt为无标签样本的数量,n=ns+nt,n为样本总数;
根据无标签样本集合
Figure FDA0003200442760000015
计算全局拉普拉斯矩阵L;
根据有标签样本集合
Figure FDA0003200442760000016
中已标注数据的类别分布,计全局样本权重矩阵w;
随机生成z个输入权重向量和z个输入偏置标量,计算所述样本集合中每个样本数据的高维特征,得到全局高维特征输出矩阵。
3.如权利要求2所述的先验约束分类器调整方法,其特征在于,所述随机生成z个输入权重向量和z个输入偏置标量,计算所述样本集合中每个样本数据的高维特征,得到全局高维特征输出矩阵,包括:
随机生成z个输入权重向量
Figure FDA0003200442760000021
和z个输入偏置标量bj,j=1,2,...,z;
计算所述样本集合中样本xi的高维特征
Figure FDA0003200442760000022
Figure FDA0003200442760000023
其中g(·)为激活函数;
计算所述有标签样本集合
Figure FDA0003200442760000024
的高维特征输出矩阵
Figure FDA0003200442760000025
计算所述无标签样本集合
Figure FDA0003200442760000026
的高维特征输出矩阵
Figure FDA0003200442760000027
计算所述样本集合的全局高维特征输出矩阵
Figure FDA0003200442760000028
4.如权利要求2所述的先验约束分类器调整方法,其特征在于,所述基于全局拉普拉斯矩阵、全局样本权重矩阵、全局高维特征输出矩阵以及先验知识,对分类器进行初步调整,得到初始输出权重,包括:
若z≤n,则所述分类器的初始输出权重ΩM为:
Figure FDA0003200442760000029
若z>n,则所述分类器的初始输出权重ΩM为:
Figure FDA00032004427600000210
其中,I为适维的单位阵,H为全局高维特征输出矩阵,W为全局样本权重矩阵,V为分布差异度量矩阵,L为全局拉普拉斯矩阵,向量
Figure FDA00032004427600000211
Figure FDA00032004427600000212
表示实数域,超参数λ,γ,τ>0,根据所述先验知识确定的类别先验数量向量
Figure FDA00032004427600000213
Figure FDA00032004427600000214
Figure FDA00032004427600000215
所述有标签样本集合
Figure FDA00032004427600000216
所对应的标签为集合为
Figure FDA00032004427600000217
Figure FDA00032004427600000218
为维度为nt×c的零矩阵,c为类别总数,z为设定的隐藏层节点数即输入权重向量w的个数或输入偏置标量b的个数,z>0,T表示转置。
5.如权利要求4所述的先验约束分类器调整方法,其特征在于,所述根据初始输出权重,对分类器进行再次调整,得到调整后的分类器,包括:
根据所述初始输出权重,求解所述无标签样本集合
Figure FDA0003200442760000031
的伪标签
Figure FDA0003200442760000032
HT为无标签样本集合的高维特征输出矩阵,ΩM为所述初始输出矩阵;
根据有标签样本集合
Figure FDA0003200442760000033
和无标签样本集合
Figure FDA0003200442760000034
中样本标签的类别,更新矩阵
Figure FDA0003200442760000035
其中:
Figure FDA0003200442760000036
其中,
Figure FDA0003200442760000037
分别表示有标签样本集合
Figure FDA0003200442760000038
和无标签样本集合
Figure FDA0003200442760000039
中样本标签属于第k类的数量,
Figure FDA00032004427600000310
分别表示有标签样本集合
Figure FDA00032004427600000311
中第p个和第q个样本,
Figure FDA00032004427600000312
分别表示无标签样本集合
Figure FDA00032004427600000313
中的第p-ns个和第q-ns个样本,k为样本标签的类别;
根据更新后的矩阵V,计算所述分类器的最终输出矩阵,得到调整后的分类器。
6.如权利要求5所述的先验约束分类器调整方法,其特征在于,所述根据更新后的矩阵V,计算所述分类器的最终输出矩阵,得到调整后的分类器,包括:
若z≤n,计算所述分类器的最终输出权重ΩM为:
Figure FDA0003200442760000046
若z>n,计算所述分类器的最终输出权重ΩM为:
Figure FDA0003200442760000047
得到调整后的分类器为h(x*C,h(x*)表示样本x*的高维特征。
7.一种先验约束分类器调整***,其特征在于,包括数据获取模块、数据处理模块、一次调整模块和二次调整模块,其中:
数据获取模块用于获取样本集合;
数据处理模块用于根据样本集合中的数据,计算全局拉普拉斯矩阵、全局样本权重矩阵和全局高维特征输出矩阵;
一次调整模块用于基于全局拉普拉斯矩阵、全局样本权重矩阵和全局高维特征输出矩阵,对分类器进行初步调整,得到初始输出权重;
二次调整模块用于根据初始输出权重,对分类器进行再次调整,得到调整后的分类器。
8.如权利要求7所述的先验约束分类器调整***,其特征在于,所述数据处理模块包括样本划分单元、全局拉普拉斯矩阵计算单元、全局样本权重矩阵计算单元和全局高维特征输出矩阵单元,其中:
样本划分单元用于将样本集合划分为有标签样本集合
Figure FDA0003200442760000041
Figure FDA0003200442760000042
和无标签样本集合
Figure FDA0003200442760000043
Figure FDA0003200442760000044
所对应的标签为集合为
Figure FDA0003200442760000045
ns为有标签样本的数量,nt为无标签样本的数量,n=ns+nt,n为样本总数;
全局拉普拉斯矩阵计算单元用于根据无标签样本集合
Figure FDA0003200442760000051
计算全局拉普拉斯矩阵L;
全局样本权重矩阵计算单元用于根据有标签样本集合
Figure FDA0003200442760000052
中已标注数据的类别分布,计全局样本权重矩阵w;
全局高维特征输出矩阵单元用于随机生成z个输入权重向量和z个输入偏置标量,计算所述样本集合中每个样本数据的高维特征,得到全局高维特征输出矩阵。
9.如权利要求8所述的先验约束分类器调整***,其特征在于,所述一次调整模块具体用于:
若z≤n,则所述分类器的初始输出权重ΩM为:
Figure FDA0003200442760000053
若z>n,则所述分类器的初始输出权重ΩM为:
Figure FDA0003200442760000054
其中,I为适维的单位阵,H为全局高维特征输出矩阵,W为全局样本权重矩阵,V为分布差异度量矩阵,L为全局拉普拉斯矩阵,向量
Figure FDA0003200442760000055
Figure FDA0003200442760000056
表示实数域,超参数λ,γ,τ>0,类别先验数量向量
Figure FDA0003200442760000057
Figure FDA0003200442760000058
Figure FDA0003200442760000059
所述有标签样本集合
Figure FDA00032004427600000510
所对应的标签为集合为
Figure FDA00032004427600000511
Figure FDA00032004427600000512
为维度为nt×c的零矩阵,c为类别总数,z为设定的隐藏层节点数即输入权重向量w的个数或输入偏置标量b的个数,z>0,T表示转置;
所述二次调整模块具体用于:
根据所述初始输出权重,求解所述无标签样本集合
Figure FDA0003200442760000061
的伪标签
Figure FDA0003200442760000062
HT为无标签样本集合
Figure FDA0003200442760000063
的高维特征输出矩阵,ΩM为所述初始输出矩阵;
根据有标签样本集合
Figure FDA0003200442760000064
和无标签样本集合
Figure FDA0003200442760000065
中样本标签的类别,更新矩阵
Figure FDA0003200442760000066
其中:
Figure FDA0003200442760000067
其中,
Figure FDA0003200442760000068
分别表示有标签样本集合
Figure FDA0003200442760000069
和无标签样本集合
Figure FDA00032004427600000610
中样本标签属于第k类的数量,
Figure FDA00032004427600000611
分别表示有标签样本集合
Figure FDA00032004427600000612
中第p个和第q个样本,
Figure FDA00032004427600000613
分别表示无标签样本集合
Figure FDA00032004427600000614
中的第p-ns个和第q-ns个样本,k为样本标签的类别;
根据更新后的矩阵V,计算所述分类器的最终输出矩阵,得到调整后的分类器,为:
若z≤n,计算所述分类器的最终输出权重ΩM为:
Figure FDA00032004427600000615
若z>n,计算所述分类器的最终输出权重ΩM为:
Figure FDA00032004427600000616
得到调整后的分类器为h(x*C,h(x*)表示样本x*的高维特征。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述先验约束分类器调整方法的步骤。
CN202110902981.9A 2021-08-06 2021-08-06 一种先验约束分类器调整方法、***及可读存储介质 Active CN113780346B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110902981.9A CN113780346B (zh) 2021-08-06 2021-08-06 一种先验约束分类器调整方法、***及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110902981.9A CN113780346B (zh) 2021-08-06 2021-08-06 一种先验约束分类器调整方法、***及可读存储介质

Publications (2)

Publication Number Publication Date
CN113780346A true CN113780346A (zh) 2021-12-10
CN113780346B CN113780346B (zh) 2023-06-16

Family

ID=78837003

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110902981.9A Active CN113780346B (zh) 2021-08-06 2021-08-06 一种先验约束分类器调整方法、***及可读存储介质

Country Status (1)

Country Link
CN (1) CN113780346B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114863209A (zh) * 2022-04-21 2022-08-05 中国科学技术大学 类别比例引导的无监督领域适应建模方法、***、设备及介质
CN114896479A (zh) * 2022-06-09 2022-08-12 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种在线学习方法、***及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516733A (zh) * 2019-08-23 2019-11-29 西南石油大学 一种基于改进多分类孪生支持向量机的测井岩性识别方法
US20200065606A1 (en) * 2018-08-24 2020-02-27 Petrochina Company Limited Method and apparatus for automatically extracting image features of electrical imaging well logging
CN112836802A (zh) * 2021-02-03 2021-05-25 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种半监督学习方法、岩性预测方法及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200065606A1 (en) * 2018-08-24 2020-02-27 Petrochina Company Limited Method and apparatus for automatically extracting image features of electrical imaging well logging
CN110516733A (zh) * 2019-08-23 2019-11-29 西南石油大学 一种基于改进多分类孪生支持向量机的测井岩性识别方法
CN112836802A (zh) * 2021-02-03 2021-05-25 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种半监督学习方法、岩性预测方法及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114863209A (zh) * 2022-04-21 2022-08-05 中国科学技术大学 类别比例引导的无监督领域适应建模方法、***、设备及介质
CN114863209B (zh) * 2022-04-21 2023-10-20 中国科学技术大学 类别比例引导的无监督领域适应建模方法、***、设备及介质
CN114896479A (zh) * 2022-06-09 2022-08-12 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种在线学习方法、***及计算机可读存储介质
CN114896479B (zh) * 2022-06-09 2024-05-07 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种在线学习方法、***及计算机可读存储介质

Also Published As

Publication number Publication date
CN113780346B (zh) 2023-06-16

Similar Documents

Publication Publication Date Title
CN106909924B (zh) 一种基于深度显著性的遥感影像快速检索方法
CN109597043B (zh) 基于量子粒子群卷积神经网络的雷达信号识别方法
CN113052211B9 (zh) 一种基于特征的秩和通道重要性的剪枝方法
Kodi Ramanah et al. Painting halos from cosmic density fields of dark matter with physically motivated neural networks
Bulakh et al. Time series classification based on fractal properties
Kuyuk et al. Application of k-means and Gaussian mixture model for classification of seismic activities in Istanbul
Zhang et al. A GANs-based deep learning framework for automatic subsurface object recognition from ground penetrating radar data
CN113780346A (zh) 一种先验约束分类器调整方法、***及可读存储介质
CN104239901B (zh) 基于模糊粒子群和目标分解的极化sar图像分类方法
CN114595732B (zh) 基于深度聚类的雷达辐射源分选方法
CN112364719A (zh) 一种遥感图像目标快速检测方法
Ruhunusiri et al. An artificial neural network for inferring solar wind proxies at Mars
CN112836802A (zh) 一种半监督学习方法、岩性预测方法及存储介质
CN116206185A (zh) 一种基于改进YOLOv7的轻量级小目标检测方法
CN114863209B (zh) 类别比例引导的无监督领域适应建模方法、***、设备及介质
CN112668613A (zh) 基于气象预报和机器学习的卫星红外成像效果预测方法
CN114973019A (zh) 一种基于深度学习的地理空间信息变化检测分类方法及***
CN115705393A (zh) 一种基于持续学习的雷达辐射源分级识别方法
CN113533511A (zh) 基于深度学习网络模型的钢轨焊缝监测方法
Horvat et al. WIFF1. 0: a hybrid machine-learning-based parameterization of wave-induced sea ice floe fracture
CN117093890A (zh) 一种能源资源开发区域生态环境综合评价方法
Tian et al. Estimation model of global ionospheric irregularities: an artificial intelligence approach
Barkataki et al. Prediction of size of buried objects using ground penetrating radar and machine learning techniques
CN114879263A (zh) 基于卷积神经网络的三维磁张量梯度反演方法及装置
CN112308151A (zh) 基于加权的旋转森林高光谱图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant