CN115205632B - 黎曼空间下的半监督多视图度量学习方法 - Google Patents

黎曼空间下的半监督多视图度量学习方法 Download PDF

Info

Publication number
CN115205632B
CN115205632B CN202210847014.1A CN202210847014A CN115205632B CN 115205632 B CN115205632 B CN 115205632B CN 202210847014 A CN202210847014 A CN 202210847014A CN 115205632 B CN115205632 B CN 115205632B
Authority
CN
China
Prior art keywords
matrix
view
semi
supervised
learning method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210847014.1A
Other languages
English (en)
Other versions
CN115205632A (zh
Inventor
梁建青
梁吉业
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi Jinxinan Technology Co ltd
Original Assignee
Shanxi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi University filed Critical Shanxi University
Priority to CN202210847014.1A priority Critical patent/CN115205632B/zh
Publication of CN115205632A publication Critical patent/CN115205632A/zh
Application granted granted Critical
Publication of CN115205632B publication Critical patent/CN115205632B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种黎曼空间下的半监督多视图度量学习方法,该方法包括以下步骤:从训练集中提取出图像的多视图特征并生成样本对;构造多视图类内、类间散度矩阵,将语义信息嵌入特征子空间,实现数据与知识的迁移和融合;将数据和知识从欧氏空间嵌入到黎曼流形子空间,完成特征映射;进行多视图融合,得到特征的统一表示。通过本发明解决相关技术中对强监督信息和欧氏空间的高度依赖问题,提供了一种新的适用于复杂应用场景和弱监督标注环境的高效度量学习方法,提高了弱监督异质数据挖掘和模式识别相关任务的性能。

Description

黎曼空间下的半监督多视图度量学习方法
技术领域
本发明属于机器学习技术领域,具体涉及黎曼空间下的半监督多视图度量学习方法。
背景技术
距离度量对多数机器学习方法的性能起到了决定性作用。面对复杂多变的应用场景,传统的度量函数已无法捕获真实的数据结构。如何学习得到任务和数据驱动的、灵活的距离度量成为机器学习领域的研究热点。作为当前机器学习领域的主流技术之一,度量学习旨在于从数据中自动学习得到一种合适的度量,在人脸识别、信息检索、网络链接预测等领域得到广泛应用。
在大数据背景下,数据呈现出高维、多源异构和极弱监督的特性,这使得学习快速有效的距离度量变得困难,同时给传统机器学习、模式识别等领域的智能信息处理带来了前所未有的挑战。对强监督信息和欧氏空间的高度依赖是当前度量学习研究存在的普遍问题,这将导致现有的学习模型和算法在实际应用中的适用范围受到很大程度的局限。
发明内容
本发明提供一种黎曼空间下的半监督多视图度量学习方法,旨在克服对强监督信息和欧氏空间的高度依赖。本发明能够准确刻画弱监督标注环境和非欧空间下数据的流形分布,提高弱监督异质数据度量学习的性能。
本发明的技术方案是:一种黎曼空间下的半监督多视图度量学习方法,具体步骤如下:
步骤101:从训练集中提取出图像的多视图特征并生成样本对;
步骤102:构造多视图类内、类间散度矩阵,将语义信息嵌入特征子空间,实现数据与知识的迁移和融合;
步骤103:将数据和知识从欧氏空间嵌入到黎曼流形子空间,完成特征映射;
步骤104:进行多视图融合,得到特征的统一表示。
可选的,所述步骤101,从训练集中提取出图像的多视图特征并组成样本对,进一步包括:
将所述训练集传入局部特征HOG、SIFT特征描述符和深度卷积神经网络,通过词袋模型和特征提取网络的最后全连接层后,分别得到图像的500维词袋表示和1024维的深度特征并且按照样本标签得到所述相似样本对集合S,不相似样本对集合D以及无标记样本集合U。
可选的,损失函数为:
其中,L为度量学***衡参数,Lreg1为半监督图正则损失,Lreg2为度量正则损失,wv为v视图权重,A(v)为v视图度量矩阵,S(v)为v视图类内散度,D(v)为v视图类间散度,X(v)为v视图特征矩阵,L为拉普拉斯矩阵,Dsld(A(v),A0)为对称LogDet散度,A0为先验对称正定矩阵。
可选的,判别损失Ldis,在各视图构造的度量矩阵下,获得判别能力强的距离度量。
可选的,拉普拉斯矩阵L=D-W,其中,为对角阵,邻接矩阵W定义如下
可选的,半监督图正则损失Lreg1和拉普拉斯矩阵L,基于流形假设,位于低维流形局部领域内的样本具有相似的类别。
可选的,度量正则损失Lreg2,使得在矩阵S(v)接近奇异或不可逆的情况下保证A(v)有解。
可选的,目标函数中判别损失项Ldis部分,度量矩阵A(v)的求解通过如下目标函数进行泛化
其中,δR为SPD矩阵的黎曼距离
δR(X,Y):=||log(Y-1/2XY-1/2)||F对于X,Y>0,
可选的,得到各视图的度量矩阵A后进而求解w。
通过本发明提供的度量学习方法,解决相关技术中对强监督信息和欧氏空间的高度依赖问题,提供了一种新的适用于复杂应用场景和弱监督标注环境的高效度量学习方法,提高了弱监督异质数据度量学习的性能。
附图说明
图1为本发明实施例的黎曼空间下的半监督多视图度量学习方法流程图;
图2为本发明实施例的具体技术路线图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的其他所有实施例,都应当属于本发明保护的范围。
假设有来自m个视图的N个样本本发明针对各视图,在各视图构造的度量矩阵下,获得判别能力强的距离度量。发明为了有效利用大量无标记样本,基于流形假设,构造拉普拉斯矩阵和半监督图正则损失引导数据分布。考虑到类内散度矩阵接近奇异或不可逆的情况,发明利用对称LogDet散度构造度量正则损失,以此确保各视图度量矩阵有解。最后,发明将各度量矩阵的求解从欧氏空间泛化到黎曼空间,使得学习得到的距离度量能够更好地满足实际复杂应用场景的需求。求解过程中,发明得到各视图的度量矩阵后计算权重。
下面结合附图1、图2对本发明的步骤作具体的说明:
步骤101:从训练集中提取出图像的多视图特征并生成样本对。
将所述训练集传入局部特征HOG、SIFT特征描述符和深度卷积神经网络,通过词袋模型和特征提取网络的最后全连接层后,分别得到图像的500维词袋表示和1024维的深度特征并且按照样本标签得到所述相似样本对S,不相似样本对D以及无标记样本集合U。
步骤102:构造多视图类内、类间散度矩阵,将语义信息嵌入特征子空间,实现数据与知识的迁移和融合。
借鉴大间隔思想,判别损失Ldis,在各视图构造的度量矩阵下,获得判别能力强的距离度量。
基于流形假设,位于低维流形局部领域内的样本具有相似的类别,构造半监督图正则损失Lreg1和拉普拉斯矩阵L=D-W,其中,为对角阵,邻接矩阵W定义如下
考虑到类内散度矩阵接近奇异或不可逆的情况,利用对称LogDet散度构造度量正则损失Lreg2,以此确保各视图度量矩阵A(v)有解,具体形式为
总损失函数定义如下:
其中,L为度量学***衡参数,Lreg1为半监督图正则损失,Lreg2为度量正则损失,wv为v视图权重,A(v)为v视图度量矩阵,S(v)为v视图类内散度,D(v)为v视图类间散度,X(v)为v视图特征矩阵,L为拉普拉斯矩阵,Dsld(A(v),A0)为对称LogDet散度,A0为先验对称正定矩阵。
步骤103:将数据和知识从欧氏空间嵌入到黎曼流形子空间,完成特征映射。
首先考虑固定w求解A,目标函数中判别损失项Ldis部分,度量矩阵A(v)的求解通过如下目标函数进行泛化
其中,δR为SPD矩阵的黎曼距离
δR(X,Y):=||log(Y-1/2XY-1/2)||F对于X,Y>0,
上述问题在黎曼流形子空间具有闭式解,形式为加权几何平均
A(v)=(S(v))-1#tD(v)
进而对于总目标函数,各视图度量矩阵A(v)的解
步骤104:进行多视图融合,得到特征的统一表示。
利用交替求解策略,得到各视图的度量矩阵A后,将约束条件带入目标函数构造广义拉格朗日函数进行求导,进而求解w
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (9)

1.黎曼空间下的半监督多视图度量学习方法,其特征在于,包括以下步骤:
步骤101:从训练集中提取出图像的多视图特征并生成样本对;
步骤102:构造多视图类内、类间散度矩阵,将语义信息嵌入特征子空间,实现数据与知识的迁移和融合;
步骤103:将数据和知识从欧氏空间嵌入到黎曼流形子空间,完成特征映射;
步骤104:进行多视图融合,得到特征的统一表示。
2.根据权利要求1所述黎曼空间下的半监督多视图度量学习方法,其特征在于,所述步骤101,从训练集中提取出图像的多视图特征并组成样本对,进一步包括:
将所述训练集传入局部特征HOG、SIFT特征描述符和深度卷积神经网络,通过词袋模型和特征提取网络的最后全连接层后,分别得到图像的500维词袋表示和1024维的深度特征并且按照样本标签得到相似样本对集合S,不相似样本对集合D以及无标记样本集合/>
3.根据权利要求1所述黎曼空间下的半监督多视图度量学习方法,其特征在于,损失函数为:
其中,为度量学***衡参数,为半监督图正则损失,/>为度量正则损失,wv为v视图权重,A(v)为v视图度量矩阵,S(v)为v视图类内散度,D(v)为v视图类间散度,X(v)为v视图特征矩阵,L为拉普拉斯矩阵,Dsld(A(v),A0)为对称LogDet散度,A0为先验对称正定矩阵。
4.根据权利要求3所述黎曼空间下的半监督多视图度量学习方法,其特征在于,所述判别损失在各视图构造的度量矩阵下,获得判别能力强的距离度量。
5.根据权利要求3所述黎曼空间下的半监督多视图度量学习方法,其特征在于,所述拉普拉斯矩阵L=D-W,其中,为对角阵,邻接矩阵W定义如下
6.根据权利要求3所述黎曼空间下的半监督多视图度量学习方法,其特征在于,所述半监督图正则损失和拉普拉斯矩阵L,根据流形假设,位于低维流形局部领域内的样本具有相似的类别。
7.根据权利要求3所述黎曼空间下的半监督多视图度量学习方法,其特征在于,所述度量正则损失使得在矩阵S(v)接近奇异或不可逆的情况下保证A(v)有解。
8.根据权利要求3所述黎曼空间下的半监督多视图度量学习方法,其特征在于,目标函数中判别损失项部分,度量矩阵A(v)的求解通过如下目标函数进行扩充
其中,δR为SPD矩阵的黎曼距离
δR(X,Y):=||log(Y-1/2XY-1/2)||F对于X,Y>0。
9.根据权利要求3所述黎曼空间下的半监督多视图度量学习方法,其特征在于,得到各视图的度量矩阵A后进而求解w。
CN202210847014.1A 2022-07-07 2022-07-07 黎曼空间下的半监督多视图度量学习方法 Active CN115205632B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210847014.1A CN115205632B (zh) 2022-07-07 2022-07-07 黎曼空间下的半监督多视图度量学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210847014.1A CN115205632B (zh) 2022-07-07 2022-07-07 黎曼空间下的半监督多视图度量学习方法

Publications (2)

Publication Number Publication Date
CN115205632A CN115205632A (zh) 2022-10-18
CN115205632B true CN115205632B (zh) 2023-07-18

Family

ID=83581743

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210847014.1A Active CN115205632B (zh) 2022-07-07 2022-07-07 黎曼空间下的半监督多视图度量学习方法

Country Status (1)

Country Link
CN (1) CN115205632B (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110414575A (zh) * 2019-07-11 2019-11-05 东南大学 一种融合局部度量的半监督多标记距离度量学习方法
CN110598733A (zh) * 2019-08-05 2019-12-20 南京智谷人工智能研究院有限公司 一种基于交互建模的多标记距离度量学习方法
CN111488951B (zh) * 2020-05-22 2023-11-28 南京大学 一种用于rgb-d图像分类的对抗度量学习模型生成方法

Also Published As

Publication number Publication date
CN115205632A (zh) 2022-10-18

Similar Documents

Publication Publication Date Title
Wang et al. Adaptive fusion for RGB-D salient object detection
CN109977773B (zh) 基于多目标检测3d cnn的人体行为识别方法及***
Shankar et al. Deep-carving: Discovering visual attributes by carving deep neural nets
Wang et al. Robust deep co-saliency detection with group semantic
Zheng et al. Centralized ranking loss with weakly supervised localization for fine-grained object retrieval.
CN111553193A (zh) 一种基于轻量级深层神经网络的视觉slam闭环检测方法
CN111178208A (zh) 基于深度学习的行人检测方法、装置及介质
CN110472652B (zh) 基于语义引导的少量样本分类方法
CN110728179A (zh) 一种采用多路卷积神经网络的猪脸识别方法
CN106228539A (zh) 一种三维点云中多种几何基元自动识别方法
Zhang et al. Robust adaptive learning with Siamese network architecture for visual tracking
Hu et al. Semantic SLAM based on improved DeepLabv3⁺ in dynamic scenarios
CN105654054A (zh) 基于半监督近邻传播学习和多视觉词典模型的智能视频分析方法
CN113569657A (zh) 一种行人重识别方法、装置、设备及存储介质
CN104361135A (zh) 一种图像检索方法
Chen et al. Human motion target posture detection algorithm using semi-supervised learning in internet of things
CN108763926B (zh) 一种具有安全免疫能力的工业控制***入侵检测方法
CN115205632B (zh) 黎曼空间下的半监督多视图度量学习方法
Zhang [Retracted] Sports Action Recognition Based on Particle Swarm Optimization Neural Networks
CN116205905B (zh) 基于移动端的配电网施工安全及质量图像检测方法及***
Ma et al. Rethinking safe semi-supervised learning: Transferring the open-set problem to a close-set one
Xia et al. Granular-ball computing: an efficient, robust, and interpretable adaptive multi-granularity representation and computation method
Zhu et al. Deep Neural Network Based Object Detection Algorithm With optimized Detection Head for Small Targets
Xiang et al. Delightlcd: a deep and lightweight network for loop closure detection in lidar slam
Goswami et al. A comprehensive review on real time object detection using deep learing model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231206

Address after: Room 1806, Block B, Huanya Times Square, No. 7 Yari Street, Taiyuan Xuefu Park, Shanxi Comprehensive Reform Demonstration Zone, Taiyuan City, Shanxi Province, 030000

Patentee after: Shanxi Jinxinan Technology Co.,Ltd.

Address before: 030006 803, science and technology building, Shanxi University, No. 92, Wucheng Road, Xiaodian District, Taiyuan City, Shanxi Province

Patentee before: SHANXI University