CN115205632B - 黎曼空间下的半监督多视图度量学习方法 - Google Patents
黎曼空间下的半监督多视图度量学习方法 Download PDFInfo
- Publication number
- CN115205632B CN115205632B CN202210847014.1A CN202210847014A CN115205632B CN 115205632 B CN115205632 B CN 115205632B CN 202210847014 A CN202210847014 A CN 202210847014A CN 115205632 B CN115205632 B CN 115205632B
- Authority
- CN
- China
- Prior art keywords
- matrix
- view
- semi
- supervised
- learning method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 239000011159 matrix material Substances 0.000 claims abstract description 50
- 238000005259 measurement Methods 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 9
- 230000004927 fusion Effects 0.000 claims abstract description 8
- 238000013507 mapping Methods 0.000 claims abstract description 4
- 238000013508 migration Methods 0.000 claims abstract description 4
- 230000005012 migration Effects 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 15
- 230000002427 irreversible effect Effects 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000003190 augmentative effect Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000002372 labelling Methods 0.000 abstract description 3
- 238000003909 pattern recognition Methods 0.000 abstract description 2
- 238000007418 data mining Methods 0.000 abstract 1
- 238000010801 machine learning Methods 0.000 description 5
- 101100412394 Drosophila melanogaster Reg-2 gene Proteins 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000009795 derivation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种黎曼空间下的半监督多视图度量学习方法,该方法包括以下步骤:从训练集中提取出图像的多视图特征并生成样本对;构造多视图类内、类间散度矩阵,将语义信息嵌入特征子空间,实现数据与知识的迁移和融合;将数据和知识从欧氏空间嵌入到黎曼流形子空间,完成特征映射;进行多视图融合,得到特征的统一表示。通过本发明解决相关技术中对强监督信息和欧氏空间的高度依赖问题,提供了一种新的适用于复杂应用场景和弱监督标注环境的高效度量学习方法,提高了弱监督异质数据挖掘和模式识别相关任务的性能。
Description
技术领域
本发明属于机器学习技术领域,具体涉及黎曼空间下的半监督多视图度量学习方法。
背景技术
距离度量对多数机器学习方法的性能起到了决定性作用。面对复杂多变的应用场景,传统的度量函数已无法捕获真实的数据结构。如何学习得到任务和数据驱动的、灵活的距离度量成为机器学习领域的研究热点。作为当前机器学习领域的主流技术之一,度量学习旨在于从数据中自动学习得到一种合适的度量,在人脸识别、信息检索、网络链接预测等领域得到广泛应用。
在大数据背景下,数据呈现出高维、多源异构和极弱监督的特性,这使得学习快速有效的距离度量变得困难,同时给传统机器学习、模式识别等领域的智能信息处理带来了前所未有的挑战。对强监督信息和欧氏空间的高度依赖是当前度量学习研究存在的普遍问题,这将导致现有的学习模型和算法在实际应用中的适用范围受到很大程度的局限。
发明内容
本发明提供一种黎曼空间下的半监督多视图度量学习方法,旨在克服对强监督信息和欧氏空间的高度依赖。本发明能够准确刻画弱监督标注环境和非欧空间下数据的流形分布,提高弱监督异质数据度量学习的性能。
本发明的技术方案是:一种黎曼空间下的半监督多视图度量学习方法,具体步骤如下:
步骤101:从训练集中提取出图像的多视图特征并生成样本对;
步骤102:构造多视图类内、类间散度矩阵,将语义信息嵌入特征子空间,实现数据与知识的迁移和融合;
步骤103:将数据和知识从欧氏空间嵌入到黎曼流形子空间,完成特征映射;
步骤104:进行多视图融合,得到特征的统一表示。
可选的,所述步骤101,从训练集中提取出图像的多视图特征并组成样本对,进一步包括:
将所述训练集传入局部特征HOG、SIFT特征描述符和深度卷积神经网络,通过词袋模型和特征提取网络的最后全连接层后,分别得到图像的500维词袋表示和1024维的深度特征并且按照样本标签得到所述相似样本对集合S,不相似样本对集合D以及无标记样本集合U。
可选的,损失函数为:
其中,L为度量学***衡参数,Lreg1为半监督图正则损失,Lreg2为度量正则损失,wv为v视图权重,A(v)为v视图度量矩阵,S(v)为v视图类内散度,D(v)为v视图类间散度,X(v)为v视图特征矩阵,L为拉普拉斯矩阵,Dsld(A(v),A0)为对称LogDet散度,A0为先验对称正定矩阵。
可选的,判别损失Ldis,在各视图构造的度量矩阵下,获得判别能力强的距离度量。
可选的,拉普拉斯矩阵L=D-W,其中,为对角阵,邻接矩阵W定义如下
可选的,半监督图正则损失Lreg1和拉普拉斯矩阵L,基于流形假设,位于低维流形局部领域内的样本具有相似的类别。
可选的,度量正则损失Lreg2,使得在矩阵S(v)接近奇异或不可逆的情况下保证A(v)有解。
可选的,目标函数中判别损失项Ldis部分,度量矩阵A(v)的求解通过如下目标函数进行泛化
其中,δR为SPD矩阵的黎曼距离
δR(X,Y):=||log(Y-1/2XY-1/2)||F对于X,Y>0,
可选的,得到各视图的度量矩阵A后进而求解w。
通过本发明提供的度量学习方法,解决相关技术中对强监督信息和欧氏空间的高度依赖问题,提供了一种新的适用于复杂应用场景和弱监督标注环境的高效度量学习方法,提高了弱监督异质数据度量学习的性能。
附图说明
图1为本发明实施例的黎曼空间下的半监督多视图度量学习方法流程图;
图2为本发明实施例的具体技术路线图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的其他所有实施例,都应当属于本发明保护的范围。
假设有来自m个视图的N个样本本发明针对各视图,在各视图构造的度量矩阵下,获得判别能力强的距离度量。发明为了有效利用大量无标记样本,基于流形假设,构造拉普拉斯矩阵和半监督图正则损失引导数据分布。考虑到类内散度矩阵接近奇异或不可逆的情况,发明利用对称LogDet散度构造度量正则损失,以此确保各视图度量矩阵有解。最后,发明将各度量矩阵的求解从欧氏空间泛化到黎曼空间,使得学习得到的距离度量能够更好地满足实际复杂应用场景的需求。求解过程中,发明得到各视图的度量矩阵后计算权重。
下面结合附图1、图2对本发明的步骤作具体的说明:
步骤101:从训练集中提取出图像的多视图特征并生成样本对。
将所述训练集传入局部特征HOG、SIFT特征描述符和深度卷积神经网络,通过词袋模型和特征提取网络的最后全连接层后,分别得到图像的500维词袋表示和1024维的深度特征并且按照样本标签得到所述相似样本对S,不相似样本对D以及无标记样本集合U。
步骤102:构造多视图类内、类间散度矩阵,将语义信息嵌入特征子空间,实现数据与知识的迁移和融合。
借鉴大间隔思想,判别损失Ldis,在各视图构造的度量矩阵下,获得判别能力强的距离度量。
基于流形假设,位于低维流形局部领域内的样本具有相似的类别,构造半监督图正则损失Lreg1和拉普拉斯矩阵L=D-W,其中,为对角阵,邻接矩阵W定义如下
考虑到类内散度矩阵接近奇异或不可逆的情况,利用对称LogDet散度构造度量正则损失Lreg2,以此确保各视图度量矩阵A(v)有解,具体形式为
总损失函数定义如下:
其中,L为度量学***衡参数,Lreg1为半监督图正则损失,Lreg2为度量正则损失,wv为v视图权重,A(v)为v视图度量矩阵,S(v)为v视图类内散度,D(v)为v视图类间散度,X(v)为v视图特征矩阵,L为拉普拉斯矩阵,Dsld(A(v),A0)为对称LogDet散度,A0为先验对称正定矩阵。
步骤103:将数据和知识从欧氏空间嵌入到黎曼流形子空间,完成特征映射。
首先考虑固定w求解A,目标函数中判别损失项Ldis部分,度量矩阵A(v)的求解通过如下目标函数进行泛化
其中,δR为SPD矩阵的黎曼距离
δR(X,Y):=||log(Y-1/2XY-1/2)||F对于X,Y>0,
上述问题在黎曼流形子空间具有闭式解,形式为加权几何平均
A(v)=(S(v))-1#tD(v)
进而对于总目标函数,各视图度量矩阵A(v)的解
步骤104:进行多视图融合,得到特征的统一表示。
利用交替求解策略,得到各视图的度量矩阵A后,将约束条件带入目标函数构造广义拉格朗日函数进行求导,进而求解w
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (9)
1.黎曼空间下的半监督多视图度量学习方法,其特征在于,包括以下步骤:
步骤101:从训练集中提取出图像的多视图特征并生成样本对;
步骤102:构造多视图类内、类间散度矩阵,将语义信息嵌入特征子空间,实现数据与知识的迁移和融合;
步骤103:将数据和知识从欧氏空间嵌入到黎曼流形子空间,完成特征映射;
步骤104:进行多视图融合,得到特征的统一表示。
2.根据权利要求1所述黎曼空间下的半监督多视图度量学习方法,其特征在于,所述步骤101,从训练集中提取出图像的多视图特征并组成样本对,进一步包括:
将所述训练集传入局部特征HOG、SIFT特征描述符和深度卷积神经网络,通过词袋模型和特征提取网络的最后全连接层后,分别得到图像的500维词袋表示和1024维的深度特征并且按照样本标签得到相似样本对集合S,不相似样本对集合D以及无标记样本集合/>
3.根据权利要求1所述黎曼空间下的半监督多视图度量学习方法,其特征在于,损失函数为:
其中,为度量学***衡参数,为半监督图正则损失,/>为度量正则损失,wv为v视图权重,A(v)为v视图度量矩阵,S(v)为v视图类内散度,D(v)为v视图类间散度,X(v)为v视图特征矩阵,L为拉普拉斯矩阵,Dsld(A(v),A0)为对称LogDet散度,A0为先验对称正定矩阵。
4.根据权利要求3所述黎曼空间下的半监督多视图度量学习方法,其特征在于,所述判别损失在各视图构造的度量矩阵下,获得判别能力强的距离度量。
5.根据权利要求3所述黎曼空间下的半监督多视图度量学习方法,其特征在于,所述拉普拉斯矩阵L=D-W,其中,为对角阵,邻接矩阵W定义如下
。
6.根据权利要求3所述黎曼空间下的半监督多视图度量学习方法,其特征在于,所述半监督图正则损失和拉普拉斯矩阵L,根据流形假设,位于低维流形局部领域内的样本具有相似的类别。
7.根据权利要求3所述黎曼空间下的半监督多视图度量学习方法,其特征在于,所述度量正则损失使得在矩阵S(v)接近奇异或不可逆的情况下保证A(v)有解。
8.根据权利要求3所述黎曼空间下的半监督多视图度量学习方法,其特征在于,目标函数中判别损失项部分,度量矩阵A(v)的求解通过如下目标函数进行扩充
其中,δR为SPD矩阵的黎曼距离
δR(X,Y):=||log(Y-1/2XY-1/2)||F对于X,Y>0。
9.根据权利要求3所述黎曼空间下的半监督多视图度量学习方法,其特征在于,得到各视图的度量矩阵A后进而求解w。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210847014.1A CN115205632B (zh) | 2022-07-07 | 2022-07-07 | 黎曼空间下的半监督多视图度量学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210847014.1A CN115205632B (zh) | 2022-07-07 | 2022-07-07 | 黎曼空间下的半监督多视图度量学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115205632A CN115205632A (zh) | 2022-10-18 |
CN115205632B true CN115205632B (zh) | 2023-07-18 |
Family
ID=83581743
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210847014.1A Active CN115205632B (zh) | 2022-07-07 | 2022-07-07 | 黎曼空间下的半监督多视图度量学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115205632B (zh) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110414575A (zh) * | 2019-07-11 | 2019-11-05 | 东南大学 | 一种融合局部度量的半监督多标记距离度量学习方法 |
CN110598733A (zh) * | 2019-08-05 | 2019-12-20 | 南京智谷人工智能研究院有限公司 | 一种基于交互建模的多标记距离度量学习方法 |
CN111488951B (zh) * | 2020-05-22 | 2023-11-28 | 南京大学 | 一种用于rgb-d图像分类的对抗度量学习模型生成方法 |
-
2022
- 2022-07-07 CN CN202210847014.1A patent/CN115205632B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115205632A (zh) | 2022-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Adaptive fusion for RGB-D salient object detection | |
CN109977773B (zh) | 基于多目标检测3d cnn的人体行为识别方法及*** | |
Shankar et al. | Deep-carving: Discovering visual attributes by carving deep neural nets | |
Wang et al. | Robust deep co-saliency detection with group semantic | |
Zheng et al. | Centralized ranking loss with weakly supervised localization for fine-grained object retrieval. | |
CN111553193A (zh) | 一种基于轻量级深层神经网络的视觉slam闭环检测方法 | |
CN111178208A (zh) | 基于深度学习的行人检测方法、装置及介质 | |
CN110472652B (zh) | 基于语义引导的少量样本分类方法 | |
CN110728179A (zh) | 一种采用多路卷积神经网络的猪脸识别方法 | |
CN106228539A (zh) | 一种三维点云中多种几何基元自动识别方法 | |
Zhang et al. | Robust adaptive learning with Siamese network architecture for visual tracking | |
Hu et al. | Semantic SLAM based on improved DeepLabv3⁺ in dynamic scenarios | |
CN105654054A (zh) | 基于半监督近邻传播学习和多视觉词典模型的智能视频分析方法 | |
CN113569657A (zh) | 一种行人重识别方法、装置、设备及存储介质 | |
CN104361135A (zh) | 一种图像检索方法 | |
Chen et al. | Human motion target posture detection algorithm using semi-supervised learning in internet of things | |
CN108763926B (zh) | 一种具有安全免疫能力的工业控制***入侵检测方法 | |
CN115205632B (zh) | 黎曼空间下的半监督多视图度量学习方法 | |
Zhang | [Retracted] Sports Action Recognition Based on Particle Swarm Optimization Neural Networks | |
CN116205905B (zh) | 基于移动端的配电网施工安全及质量图像检测方法及*** | |
Ma et al. | Rethinking safe semi-supervised learning: Transferring the open-set problem to a close-set one | |
Xia et al. | Granular-ball computing: an efficient, robust, and interpretable adaptive multi-granularity representation and computation method | |
Zhu et al. | Deep Neural Network Based Object Detection Algorithm With optimized Detection Head for Small Targets | |
Xiang et al. | Delightlcd: a deep and lightweight network for loop closure detection in lidar slam | |
Goswami et al. | A comprehensive review on real time object detection using deep learing model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231206 Address after: Room 1806, Block B, Huanya Times Square, No. 7 Yari Street, Taiyuan Xuefu Park, Shanxi Comprehensive Reform Demonstration Zone, Taiyuan City, Shanxi Province, 030000 Patentee after: Shanxi Jinxinan Technology Co.,Ltd. Address before: 030006 803, science and technology building, Shanxi University, No. 92, Wucheng Road, Xiaodian District, Taiyuan City, Shanxi Province Patentee before: SHANXI University |