CN117788967A - 特征表示模型的训练方法、装置、存储介质及电子设备 - Google Patents

特征表示模型的训练方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN117788967A
CN117788967A CN202311678962.8A CN202311678962A CN117788967A CN 117788967 A CN117788967 A CN 117788967A CN 202311678962 A CN202311678962 A CN 202311678962A CN 117788967 A CN117788967 A CN 117788967A
Authority
CN
China
Prior art keywords
feature
sample
network
pyramid
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311678962.8A
Other languages
English (en)
Inventor
那琼澜
李信
邢宁哲
王艺霏
陈重韬
温馨
彭柏
邢海瀛
马跃
李环媛
张晓青
张海明
李欣怡
姚艳丽
周子阔
李墨洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Information and Telecommunication Branch of State Grid Jibei Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Information and Telecommunication Branch of State Grid Jibei Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Information and Telecommunication Branch of State Grid Jibei Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202311678962.8A priority Critical patent/CN117788967A/zh
Publication of CN117788967A publication Critical patent/CN117788967A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本申请公开了一种特征表示模型的训练方法、装置、存储介质及电子设备,涉及计算机技术领域。方法包括:获取电网图像;对电网图像进行扩增得到第一样本和第二样本;将第一样本输入第一网络模型得到第一高维特征向量,第一网络模型由深度残差网络、特征金字塔网络、第一特征映射器和特征预测器构成;将第二样本输入第二网络模型得到第二高维特征向量,第二网络模型由深度残差网络、特征金字塔网络和第二特征映射器构成;计算第一高维特征向量和第二高维特征向量之间的对比损失;根据对比损失调整第一网络模型和第二网络模型的参数,得到特征表示模型。在特征表示模型中引入深度残差网络和特征金字塔网络可以进一步增强编码器细粒度特征提取能力。

Description

特征表示模型的训练方法、装置、存储介质及电子设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种特征表示模型的训练方法、装置、存储介质及电子设备。
背景技术
在电网领域中,往往需要用到目标检测模型,目标检测模型中包括特征表示模型,以表示电网领域中各类图像的特征,以便目标检测模型根据图像特征进行目标检测。目前,通常使用公共数据集进行特征表示模型的训练。然而,电网图像与公共用数据集的构成存在一定的差异,电网图像的拍摄质量更高,电网图像的场景更加集中,电网图像中的相当比例的缺陷、隐患相比于正常的设备、部件仅在局部上存在不同。因此,在对电网图像进行特征表示时,应该注重电网图像之间的细粒度差异,以真实有效地反映电网图像的特征。
发明内容
鉴于上述问题,本申请提供一种特征表示模型的训练方法、装置、存储介质及电子设备。
为解决上述技术问题,本申请提出以下方案:
第一方面,本申请提供了一种特征表示模型的训练方法,方法包括:获取电网图像;对电网图像进行扩增处理得到第一样本和第二样本,第一样本区别于第二样本;将第一样本输入第一网络模型得到第一高维特征向量,第一网络模型由深度残差网络、特征金字塔网络、第一特征映射器和特征预测器构成;将第二样本输入第二网络模型得到第二高维特征向量,第二网络模型由深度残差网络、特征金字塔网络和第二特征映射器构成;计算第一高维特征向量和第二高维特征向量之间的对比损失;根据对比损失调整第一网络模型和第二网络模型的参数,直到第一网络模型和第二网络模型均达到收敛,得到特征表示模型。
结合第一方面,在另一种可能的实现方式中,根据第一特征提取模型对第一样本进行特征提取以获得第一样本的第一特征向量,通过第一特征映射器和特征预测器对第一特征向量进行处理,得到第一高维特征向量,第一特征提取模型由深度残差网络和特征金字塔网络构成。
结合第一方面,在另一种可能的实现方式中,根据第二特征提取模型对第二样本进行特征提取以获得第二样本的第二特征向量,通过第二特征映射器对第二特征向量进行处理,得到第二高维特征向量,第二特征提取模型由深度残差网络和特征金字塔网络构成。
结合第一方面,在另一种可能的实现方式中,通过深度残差网络对第一样本进行特征提取,得到第一残差特征图、第二残差特征图、第三残差特征图、第四残差特征图和第五残差特征图;将第五残差特征图进行1*1卷积得到第四金字塔特征图,将经过1*1卷积的第四残差特征图和经过上采样的第四金字塔特征图进行融合得到第三金字塔特征图,将经过1*1卷积的第三残差特征图和经过上采样的第三金字塔特征图进行融合得到第二金字塔特征图,将经过1*1卷积的第二残差特征图和经过上采样的第二金字塔特征图进行融合得到第一金字塔特征图,第一金字塔特征图、第二金字塔特征图、第三金字塔特征图和第四金字塔特征图构成第一特征向量。
结合第一方面,在另一种可能的实现方式中,根据ROI Align将第一特征向量处理成固定尺寸的特征图。
结合第一方面,在另一种可能的实现方式中,根据第一特征向量中的特征图生成多个不同尺寸和长宽比的目标框;采用非极大值抑制算法对目标框进行筛选,得到最终目标框;根据最终目标框从特征图中提取目标区域,使用双线性内插法将目标区域处理成尺寸相等且固定的特征图。
结合第一方面,在另一种可能的实现方式中,第一样本和第二样本之间的重叠面积的交并比大于等于阈值。
第二方面,本申请提供了一种特征表示模型的训练装置,特征表示模型的训练装置包括:获取模块、扩增模块、特征表示模块、计算模块和调整模块。
获取模块,用于获取电网图像。
扩增模块,用于对电网图像进行扩增处理得到第一样本和第二样本,第一样本区别于第二样本。
特征表示模块,用于将第一样本输入第一网络模型得到第一高维特征向量,第一网络模型由深度残差网络、特征金字塔网络、第一特征映射器和特征预测器构成,将第二样本输入第二网络模型得到第二高维特征向量,第二网络模型由深度残差网络、特征金字塔网络和第二特征映射器构成。
计算模块,用于计算第一高维特征向量和第二高维特征向量之间的对比损失。
调整模块,用于根据对比损失调整第一网络模型和第二网络模型的参数,直到第一网络模型和第二网络模型均达到收敛,得到特征表示模型。
结合第二方面,在一种可能的实现方式中,特征表示模块,具体用于:根据第一特征提取模型对第一样本进行特征提取以获得第一样本的第一特征向量,通过第一特征映射器和特征预测器对第一特征向量进行处理,得到第一高维特征向量,第一特征提取模型由深度残差网络和特征金字塔网络构成。
结合第二方面,在另一种可能的实现方式中,特征表示模块,具体用于:根据第二特征提取模型对第二样本进行特征提取以获得第二样本的第二特征向量,通过第二特征映射器对第二特征向量进行处理,得到第二高维特征向量,第二特征提取模型由深度残差网络和特征金字塔网络构成。
结合第二方面,在另一种可能的实现方式中,特征表示模块,具体用于:通过深度残差网络对第一样本进行特征提取,得到第一残差特征图、第二残差特征图、第三残差特征图、第四残差特征图和第五残差特征图;将第五残差特征图进行1*1卷积得到第四金字塔特征图,将经过1*1卷积的第四残差特征图和经过上采样的第四金字塔特征图进行融合得到第三金字塔特征图,将经过1*1卷积的第三残差特征图和经过上采样的第三金字塔特征图进行融合得到第二金字塔特征图,将经过1*1卷积的第二残差特征图和经过上采样的第二金字塔特征图进行融合得到第一金字塔特征图,第一金字塔特征图、第二金字塔特征图、第三金字塔特征图和第四金字塔特征图构成第一特征向量。
结合第二方面,在另一种可能的实现方式中,特征表示模块,还用于:根据ROIAlign将第一特征向量处理成固定尺寸的特征图。
结合第二方面,在另一种可能的实现方式中,特征表示模块,具体用于:根据第一特征向量中的特征图生成多个不同尺寸和长宽比的目标框;采用非极大值抑制算法对目标框进行筛选,得到最终目标框;根据最终目标框从特征图中提取目标区域,使用双线性内插法将目标区域处理成尺寸相等且固定的特征图。
结合第二方面,在另一种可能的实现方式中,第一样本和第二样本之间的重叠面积的交并比大于等于阈值。
为了实现上述目的,根据本申请的第三方面,提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述第一方面的特征表示模型的训练方法。
为了实现上述目的,根据本申请的第四方面,提供了一种电子设备,所述设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线;其中,处理器、存储器通过总线完成相互间的通信;处理器用于调用存储器中的程序指令,以执行上述第一方面的特征表示模型的训练方法。
借由上述技术方案,本申请提供的技术方案至少具有下列优点:
本申请提供的一种特征表示模型的训练方法、装置、存储介质及电子设备,本申请通过将扩增后的电网图像样本输入第一网络模型和第二网络模型得到第一高维特征向量和第二高维特征向量,根据第一高维特征向量和第二高维特征向量之间的对比损失调整第一网络模型和第二网络模型,进而得到特征表示模型。在特征表示模型中引入特征预测器可以最大程度抑制特征表示模型的坍塌。在特征表示模型中引入深度残差网络和特征金字塔网络可以进一步增强编码器细粒度特征提取能力。
除此之外,使用ROI Align可以使模型更加注重于不同尺度上的特征的学习,而不仅仅关注于全局特征。通过不同的扩增方式对电网图像样本进行扩增,可以在多个尺度上对高分辨率的图片进行采样,保证不同尺度上特征的均衡。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本申请实施例提供的一种电子设备的结构示意图;
图2示出了本申请实施例提供的一种特征表示模型的训练方法的流程示意图;
图3示出了本申请实施例提供的一种特征表示模型的训练方法的结构示意图;
图4示出了本申请实施例提供的一种特征表示模型的训练装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
本申请实施例中术语“第一”“第二”等字样不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。还应理解,尽管以下描述使用术语第一、第二等来描述各种元素,但这些元素不应受术语的限制。这些术语只是用于将一元素与另一元素区别分开。
本申请实施例中术语“至少一个”的含义是指一个或多个,本申请实施例中术语“多个”的含义是指两个或两个以上。
还应理解,术语“如果”可被解释为“当……时”(“when”或“upon”)或“响应于确定”或“响应于检测到”。类似地,根据上下文,短语“如果确定...”或“如果检测到[所陈述的条件或事件]”可被解释为“在确定...时”或“响应于确定...”或“在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”。
如背景技术所述,在电网领域中,往往需要用到目标检测模型,目标检测模型中包括特征表示模型,以表示电网领域中各类图像的特征,以便目标检测模型根据图像特征进行目标检测。目前,通常使用公共数据集进行特征表示模型的训练。然而,电网图像与公共用数据集的构成存在一定的差异,电网图像的拍摄质量更高,电网图像的场景更加集中,电网图像中的相当比例的缺陷、隐患相比于正常的设备、部件仅在局部上存在不同。因此,在对电网图像进行特征表示时,应该注重电网图像之间的细粒度差异,以真实有效地反映电网图像的特征。
有鉴于此,本申请实施例提供一种特征表示模型的训练方法,具体方法包括:获取电网图像;对电网图像进行扩增处理得到第一样本和第二样本,第一样本区别于第二样本;将第一样本输入第一网络模型得到第一高维特征向量,第一网络模型由深度残差网络、特征金字塔网络、第一特征映射器和特征预测器构成;将第二样本输入第二网络模型得到第二高维特征向量,第二网络模型由深度残差网络、特征金字塔网络和第二特征映射器构成;计算第一高维特征向量和第二高维特征向量之间的对比损失;根据对比损失调整第一网络模型和第二网络模型的参数,直到第一网络模型和第二网络模型均达到收敛,得到特征表示模型。
本申请通过将扩增后的电网图像样本输入第一网络模型和第二网络模型得到第一高维特征向量和第二高维特征向量,根据第一高维特征向量和第二高维特征向量之间的对比损失调整第一网络模型和第二网络模型,进而得到特征表示模型。在特征表示模型中引入特征预测器可以最大程度抑制特征表示模型的坍塌。在特征表示模型中引入深度残差网络和特征金字塔网络可以进一步增强编码器细粒度特征提取能力。
除此之外,使用ROI Align可以使模型更加注重于不同尺度上的特征的学习,而不仅仅关注于全局特征。通过不同的扩增方式对电网图像样本进行扩增,可以在多个尺度上对高分辨率的图片进行采样,保证不同尺度上特征的均衡。
本申请实施例还提供一种特征表示模型的训练装置,该特征表示模型的训练装置可以用于执行上述特征表示模型的训练方法。可选的,该特征表示模型的训练装置可为具有数据处理能力的电子设备,或者是该电子设备中的功能模块,对此不作限定。
例如,该电子设备可以是服务器,其可以是单独的一个服务器,或者,也可以是由多个服务器构成的服务器集群。又例如,该电子设备可以是手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、超级移动个人计算机(Ultra-mobile Personal Computer,UMPC)、上网本,以及蜂窝电话、个人数字助理(Personal Digital Assistant,PDA)、增强现实(Augmented Reality,AR)、虚拟现实(Virtual Reality,VR)设备等终端设备。又例如,该电子设备还可以为录像设备、视频监控设备等设备。本申请对该电子设备的具体形态不作特殊限制。
下面以特征表示模型的训练装置是电子设备为例,如图1所示,图1为本申请提供的一种电子设备100的硬件结构。
如图1所示,该电子设备100包括处理器110,通信线路120以及通信接口130。
可选的,该电子设备100还可以包括存储器140。其中,处理器110,存储器140以及通信接口130之间可以通过通信线路120连接。
其中,处理器110可以是中央处理器(Central Processing Unit,CPU)、通用处理器网络处理器(Network Processor,NP)、数字信号处理器(Digital Signal Processing,DSP)、微处理器、微控制器、可编程逻辑器件(Programmable Logic Device,PLD)或它们的任意组合。处理器110还可以是其它任意具有处理功能的装置,例如电路、器件或软件模块,不做限制。
在一种示例中,处理器110可以包括一个或多个CPU,例如图1中的CPU0和CPU1。
作为一种可选的实现方式,电子设备100包括多个处理器,例如,除处理器110之外,还可以包括处理器170。通信线路120,用于在电子设备100所包括的各部件之间传送信息。
通信接口130,用于与其他设备或其它通信网络进行通信。该其它通信网络可以为以太网,无线接入网(Radio Access Network,RAN),无线局域网(Wireless Local AreaNetworks,WLAN)等。通信接口130可以是模块、电路、收发器或者任何能够实现通信的装置。
存储器140,用于存储指令。其中,指令可以是计算机程序。
其中,存储器140可以是只读存储器(Read-only Memory,ROM)或可存储静态信息和/或指令的其他类型的静态存储设备,也可以是存取存储器(Random Access Memory,RAM)或者可存储信息和/或指令的其他类型的动态存储设备,还可以是电可擦可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备等,不予限制。
需要指出的是,存储器140可以独立于处理器110存在,也可以和处理器110集成在一起。存储器140可以用于存储指令或者程序代码或者一些数据等。存储器140可以位于电子设备100内,也可以位于电子设备100外,不做限制。
处理器110,用于执行存储器140中存储的指令,以实现本申请下述实施例提供的通信方法。例如,当电子设备100为终端或者终端中的芯片时,处理器110可以执行存储器140中存储的指令,以实现本申请下述实施例中发送端所执行的步骤。
作为一种可选的实现方式,电子设备100还包括输出器件150和输入器件160。其中,输出器件150可以是显示屏、扬声器等能够将电子设备100的数据输出给用户的器件。输入器件160是可以键盘、鼠标、麦克风或操作杆等能够向电子设备100输入数据的器件。
需要指出的是,图1中示出的结构并不构成对该计算装置的限定,除图1所示部件之外,该计算装置可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本申请实施例描述的特征表示模型的训练装置以及应用场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着特征表示模型的训练装置的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
接下来,结合附图对特征表示模型的训练方法进行详细说明。图2为本申请提供的一种特征表示模型的训练方法的流程示意图。图3示出了本申请实施例提供的一种特征表示模型的训练方法的结构示意图。该方法应用于具有图1所示硬件结构的特征表示模型的训练装置,具体包括以下步骤:
步骤210、获取电网图像。
电网图像与公共图像数据集的区别主要体现在以下三点:(1)电网图像的拍摄质量更高。电网图像是为了业务应用而采集的,因此在清晰程度、光照条件上需要满足最低标准。(2)电网图像的场景更加集中,而公共图像数据集的场景更为分散。单一应用中的电网图像往往来自于相似的业务场景,如变电站、输电杆塔、营业厅等。其拍摄设备(如无人机、机器人、摄像头)相对于目标物(如变压器、绝缘子、人员)的位置也相对固定。(3)电网图像中的相当比例的缺陷、隐患相比于正常的设备、部件仅在局部上存在不同,如防振锤锤体脱落、销钉安装不规范、人员未穿戴安全带。换句话说,这些缺陷、隐患类别的主体与正常的设备、部件相一致。
综上所述,在对电网图像进行分析的过程中应注重高分辨率图像的细粒度差异,细粒度是对图像进行更加详细的分析。因为只有这些细粒度差异才能真实有效地反映电网图像的特征。因此,本申请通过下述方法训练得到特征表示模型,该特征表示模型可以用于表示电网图像的特征。
步骤220、对电网图像进行扩增处理得到第一样本和第二样本。
对于一张电网图像,使用两种数据扩增方式对该电网图像进行扩增得到两张扩增后的图像,即第一样本和第二样本。其中,第一样本和第二样本之间的重叠面积的交并比大于等于阈值。
举例来说,可以通过翻转,旋转,裁剪,变形,缩放等各类操作,对电网图像进行处理,还可以通过噪声、模糊、颜色变换、擦除、填充等方式对电网图像进行处理,进而得到扩增图像。
在本申请实施例中,不限定对电网图像进行扩增的具体方式,上述仅为一种示例,进行解释说明。
步骤230、将第一样本输入第一网络模型得到第一高维特征向量。
在得到扩增处理后的第一样本后,根据第一特征提取模型对第一样本进行特征提取以获得第一样本的第一特征向量,第一特征提取模型由深度残差网络和特征金字塔网络构成。
具体的,首先通过深度残差网络对第一样本进行特征提取,得到第一残差特征图、第二残差特征图、第三残差特征图、第四残差特征图和第五残差特征图。其次根据特征金字塔网络对第一残差特征图、第二残差特征图、第三残差特征图、第四残差特征图和第五残差特征图进行处理。
特征金子塔网络可以由3部分组成:自下而上的卷积、自上而下的上采样以及横向的特征融合。
自下而上的卷积就是卷积神经网络的前向过程。在前向过程中,特征图的大小在经过某些层后会改变,而在经过其他一些层的时候不会改变,在本申请实施例中,将不改变特征图大小的层归为一个阶段,因此每次抽取的特征都是每个阶段的最后一个层的输出,这样就能构成特征金字塔。具体来说,对于深度残差网络使用了每个阶段的最后一个残差结构的特征激活输出。将这些残差模块输出表示为(C2,C3,C4,C5),其中,C2表示第二残差特征图、C3表示第三残差特征图、C4表示第四残差特征图、C5表示第五残差特征图。C2,C3,C4,C5是每次池化之后得到的特征图。在深度残差网络中,C2,C3,C4,C5经过的降采样次数分别是2,3,4,5,即分别对应原图中的步长分别是4,8,16,32。这里之所以没有使用C1,是考虑到由于C1的尺寸过大,训练过程中会消耗很多的显存。
通过自下而上的卷积得到了四组特征图。浅层的特征图,例如C2含有更多的底层信息(纹理,颜色等),而深层的特征图如C5含有更多的语义信息。为了将这四组倾向不同特征的特征图组合起来,进行自上而下的上采样以及横向的特征融合。
具体的,将第五残差特征图进行1*1卷积得到第四金字塔特征图,将经过1*1卷积的第四残差特征图和经过上采样的第四金字塔特征图进行融合得到第三金字塔特征图,将经过1*1卷积的第三残差特征图和经过上采样的第三金字塔特征图进行融合得到第二金字塔特征图,将经过1*1卷积的第二残差特征图和经过上采样的第二金字塔特征图进行融合得到第一金字塔特征图,第一金字塔特征图、第二金字塔特征图、第三金字塔特征图和第四金字塔特征图构成第一特征向量。
以ResNet-50为例,C5的尺寸是[H/32,W/32,512],其中512是通道数,32是步长,H和W是图像的宽和高。在本申请实施例中,第一金字塔特征图P1、第二金字塔特征图P2、第三金字塔特征图P3和第四金字塔特征图P4的通道数都是256。其中P4是由C5计算得到,P3是由P4和C4计算得到,P2是由P3和C3计算得到,以此类推。
以P2为例,P2是由P3和C3共同得到,其中P3的通道数已经是256了,但是它的大小只是P2的1/2,因为使用上采样将P3的尺寸增加到C3的大小,在本申请实施例中,使用的上采样策略是最近邻居采样。在本申请中,不对上采样的具体实现方式做具体限定,上述仅作为一种示例进行解释说明。因为C3的通道数是128,而P2的通道数需要是256,所以这里使用1*1卷积将C3的通道数扩充到256。最后P2是P3的上采样的特征图和C3的调整通道数的特征图的单位加。
最后,在第一金字塔特征图、第二金字塔特征图、第三金字塔特征图和第四金字塔特征图之后均接一个3*3卷积操作,经过卷积的第一金字塔特征图、第二金字塔特征图、第三金字塔特征图和第四金字塔特征图构成第一特征向量。3*3卷积操作是为了减轻上采样的混叠效应。
除此之外,根据ROI Align将第一特征向量处理成固定尺寸的特征图。具体来说,根据第一特征向量中的特征图生成多个不同尺寸和长宽比的目标框;采用非极大值抑制算法对目标框进行筛选,得到最终目标框;根据最终目标框从特征图中提取目标区域,使用双线性内插法将目标区域处理成尺寸相等且固定的特征图。
举例来说,对于每个第一特征向量中的特征图保持浮点数边界不对齐,同时平均分网格分为H×W(在本申请实施例中可以是2×2)个子网格区域。对于每个子网格区域选择4个规则采样点(分别对应将区域进一步平均分为四个区域,取每个子区域的中点)。利用双线性插值(双线性插值本质上是目标像素所相邻的四个像素,分别以像素对应的对角像素与目标像素的构成的矩形区域为权重,像素大小为值的加权和)计算得到四个采样点的像素值大小。利用最大池化或平均池化分别对每个子区域执行聚合操作,得到最终的特征图。
进一步的,通过第一特征映射器对第一特征向量进行映射,再将映射后的第一特征向量通过特征预测器进行预测,最终得到第一高维特征向量。
在这样的架构下,通过特征预测器对第一特征向量的进一步特征编码可以在不使用负样本的情况下避免编码器坍塌。
步骤240、将第二样本输入第二网络模型得到第二高维特征向量。
与步骤230中根据第一样本得到第一高维特征向量的不同之处在于,第二网络模型中不包括特征预测器。即根据第二特征提取模型对第二样本进行特征提取以获得第二样本的第二特征向量,第二特征提取模型由深度残差网络和特征金字塔网络构成。在本申请实施例中,第二特征提取模型与第一特征提取模型相同,在此不作赘述。进一步的,通过第二特征映射器对第二特征向量进行处理,得到第二高维特征向量。
步骤250、计算第一高维特征向量和第二高维特征向量之间的对比损失。
在得到第一高维特征向量qθ(z)和第二高维特征向量zξ后,还需要分别对第一高维特征向量和第二高维特征向量进行正则化处理,得到正则化处理后的第一高维特征向量和第二高维特征向量/>其中,/>
进一步的,通过正则化处理后的第一高维特征向量和正则化处理后的第二高维特征向量之间的相似度来确定对比损失Lθ,ξ。其中,
步骤260、根据对比损失调整第一网络模型和第二网络模型的参数,直到第一网络模型和第二网络模型均达到收敛,得到特征表示模型。
在本申请实施例中,第一网络模型和第二网络模型的投影变换结构相同。不同之处在于训练时参数的更新方式不同,第一网络模型通过全局的随机梯度下降的更新方式调整模型参数,第二网络模型通过动量更新的方式来调整模型参数ξ。
在第一网络模型使用梯度下降法更新模型后,第二网络模型的参数更新取决于当前更新后的第一网络模型和当前的第一网络模型参数。即:也被称为EMA权重更新方式,其中τ∈[0,1],是人为设定的超参数。
根据上述方法不断调整第一网络模型和第二网络模型的参数,直到第一网络模型和第二网络模型均达到收敛,得到特征表示模型。
综上,本申请通过将扩增后的电网图像样本输入第一网络模型和第二网络模型得到第一高维特征向量和第二高维特征向量,根据第一高维特征向量和第二高维特征向量之间的对比损失调整第一网络模型和第二网络模型,进而得到特征表示模型。在特征表示模型中引入特征预测器可以最大程度抑制特征表示模型的坍塌。在特征表示模型中引入深度残差网络和特征金字塔网络可以进一步增强编码器细粒度特征提取能力。
除此之外,使用ROI Align可以使模型更加注重于不同尺度上的特征的学习,而不仅仅关注于全局特征。通过不同的扩增方式对电网图像样本进行扩增,可以在多个尺度上对高分辨率的图片进行采样,保证不同尺度上特征的均衡。
可以理解的是,为了实现上述实施例中功能,计算机设备包括了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本申请中所公开的实施例描述的各示例的单元及方法步骤,本申请能够以硬件或硬件和计算机软件相结合的形式来实现。某个功能究竟以件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用场景和设计约束条件。
进一步的,作为对上述图2所示方法实施例的实现,本申请实施例提供了一种特征表示模型的训练装置。该装置的实施例与前述方法实施例对应,为便于阅读,本实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。具体如图4所示,特征表示模型的训练装置400包括:获取模块410、扩增模块420、特征表示模块430、计算模块440和调整模块450。
获取模块410,用于获取电网图像。
扩增模块420,用于对电网图像进行扩增处理得到第一样本和第二样本,第一样本区别于第二样本。
特征表示模块430,用于将第一样本输入第一网络模型得到第一高维特征向量,第一网络模型由深度残差网络、特征金字塔网络、第一特征映射器和特征预测器构成,将第二样本输入第二网络模型得到第二高维特征向量,第二网络模型由深度残差网络、特征金字塔网络和第二特征映射器构成。
计算模块440,用于计算第一高维特征向量和第二高维特征向量之间的对比损失。
调整模块450,用于根据对比损失调整第一网络模型和第二网络模型的参数,直到第一网络模型和第二网络模型均达到收敛,得到特征表示模型。
进一步的,如图4所示,特征表示模块430,具体用于:根据第一特征提取模型对第一样本进行特征提取以获得第一样本的第一特征向量,通过第一特征映射器和特征预测器对第一特征向量进行处理,得到第一高维特征向量,第一特征提取模型由深度残差网络和特征金字塔网络构成。
进一步的,如图4所示,特征表示模块430,具体用于:根据第二特征提取模型对第二样本进行特征提取以获得第二样本的第二特征向量,通过第二特征映射器对第二特征向量进行处理,得到第二高维特征向量,第二特征提取模型由深度残差网络和特征金字塔网络构成。
进一步的,如图4所示,特征表示模块430,具体用于:通过深度残差网络对第一样本进行特征提取,得到第一残差特征图、第二残差特征图、第三残差特征图、第四残差特征图和第五残差特征图;将第五残差特征图进行1*1卷积得到第四金字塔特征图,将经过1*1卷积的第四残差特征图和经过上采样的第四金字塔特征图进行融合得到第三金字塔特征图,将经过1*1卷积的第三残差特征图和经过上采样的第三金字塔特征图进行融合得到第二金字塔特征图,将经过1*1卷积的第二残差特征图和经过上采样的第二金字塔特征图进行融合得到第一金字塔特征图,第一金字塔特征图、第二金字塔特征图、第三金字塔特征图和第四金字塔特征图构成第一特征向量。
进一步的,如图4所示,特征表示模块430,还用于:根据ROI Align将第一特征向量处理成固定尺寸的特征图。
进一步的,如图4所示,特征表示模块430,具体用于:根据第一特征向量中的特征图生成多个不同尺寸和长宽比的目标框;采用非极大值抑制算法对目标框进行筛选,得到最终目标框;根据最终目标框从特征图中提取目标区域,使用双线性内插法将目标区域处理成尺寸相等且固定的特征图。
进一步的,如图4所示,第一样本和第二样本之间的重叠面积的交并比大于等于阈值。
本申请实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述特征表示模型的训练方法。
本申请实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述特征表示模型的训练方法。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取电网图像;对电网图像进行扩增处理得到第一样本和第二样本,第一样本区别于第二样本;将第一样本输入第一网络模型得到第一高维特征向量,第一网络模型由深度残差网络、特征金字塔网络、第一特征映射器和特征预测器构成;将第二样本输入第二网络模型得到第二高维特征向量,第二网络模型由深度残差网络、特征金字塔网络和第二特征映射器构成;计算第一高维特征向量和第二高维特征向量之间的对比损失;根据对比损失调整第一网络模型和第二网络模型的参数,直到第一网络模型和第二网络模型均达到收敛,得到特征表示模型。
进一步的,根据第一特征提取模型对第一样本进行特征提取以获得第一样本的第一特征向量,通过第一特征映射器和特征预测器对第一特征向量进行处理,得到第一高维特征向量,第一特征提取模型由深度残差网络和特征金字塔网络构成。
进一步的,根据第二特征提取模型对第二样本进行特征提取以获得第二样本的第二特征向量,通过第二特征映射器对第二特征向量进行处理,得到第二高维特征向量,第二特征提取模型由深度残差网络和特征金字塔网络构成。
进一步的,通过深度残差网络对第一样本进行特征提取,得到第一残差特征图、第二残差特征图、第三残差特征图、第四残差特征图和第五残差特征图;将第五残差特征图进行1*1卷积得到第四金字塔特征图,将经过1*1卷积的第四残差特征图和经过上采样的第四金字塔特征图进行融合得到第三金字塔特征图,将经过1*1卷积的第三残差特征图和经过上采样的第三金字塔特征图进行融合得到第二金字塔特征图,将经过1*1卷积的第二残差特征图和经过上采样的第二金字塔特征图进行融合得到第一金字塔特征图,第一金字塔特征图、第二金字塔特征图、第三金字塔特征图和第四金字塔特征图构成第一特征向量。
进一步的,根据ROI Align将第一特征向量处理成固定尺寸的特征图。
进一步的,根据第一特征向量中的特征图生成多个不同尺寸和长宽比的目标框;采用非极大值抑制算法对目标框进行筛选,得到最终目标框;根据最终目标框从特征图中提取目标区域,使用双线性内插法将目标区域处理成尺寸相等且固定的特征图。
进一步的,第一样本和第二样本之间的重叠面积的交并比大于等于阈值。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
在一个典型的配置中,设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、***或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种特征表示模型的训练方法,其特征在于,所述方法包括:
获取电网图像;
对所述电网图像进行扩增处理得到第一样本和第二样本,所述第一样本区别于所述第二样本;
将所述第一样本输入第一网络模型得到第一高维特征向量,所述第一网络模型由深度残差网络、特征金字塔网络、第一特征映射器和特征预测器构成;
将所述第二样本输入第二网络模型得到第二高维特征向量,所述第二网络模型由深度残差网络、特征金字塔网络和第二特征映射器构成;
计算所述第一高维特征向量和所述第二高维特征向量之间的对比损失;
根据所述对比损失调整所述第一网络模型和所述第二网络模型的参数,直到所述第一网络模型和所述第二网络模型均达到收敛,得到特征表示模型。
2.根据权利要求1所述的方法,其特征在于,将所述第一样本输入第一网络模型得到第一高维特征向量,包括:
根据第一特征提取模型对所述第一样本进行特征提取以获得所述第一样本的第一特征向量,通过第一特征映射器和特征预测器对所述第一特征向量进行处理,得到第一高维特征向量,所述第一特征提取模型由深度残差网络和特征金字塔网络构成。
3.根据权利要求1所述的方法,其特征在于,将所述第二样本输入第二网络模型得到第二高维特征向量,包括:
根据第二特征提取模型对所述第二样本进行特征提取以获得所述第二样本的第二特征向量,通过第二特征映射器对所述第二特征向量进行处理,得到第二高维特征向量,所述第二特征提取模型由深度残差网络和特征金字塔网络构成。
4.根据权利要求2所述的方法,其特征在于,根据第一特征提取模型对所述第一样本进行特征提取以获得所述第一样本的第一特征向量,包括:
通过所述深度残差网络对所述第一样本进行特征提取,得到第一残差特征图、第二残差特征图、第三残差特征图、第四残差特征图和第五残差特征图;
将所述第五残差特征图进行1*1卷积得到第四金字塔特征图,将经过1*1卷积的所述第四残差特征图和经过上采样的所述第四金字塔特征图进行融合得到第三金字塔特征图,将经过1*1卷积的所述第三残差特征图和经过上采样的所述第三金字塔特征图进行融合得到第二金字塔特征图,将经过1*1卷积的所述第二残差特征图和经过上采样的所述第二金字塔特征图进行融合得到第一金字塔特征图,所述第一金字塔特征图、所述第二金字塔特征图、所述第三金字塔特征图和所述第四金字塔特征图构成所述第一特征向量。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据ROI Align将所述第一特征向量处理成固定尺寸的特征图。
6.根据权利要求5所述的方法,其特征在于,根据ROI Align将所述第一特征向量处理成固定尺寸的特征图,包括:
根据所述第一特征向量中的特征图生成多个不同尺寸和长宽比的目标框;
采用非极大值抑制算法对所述目标框进行筛选,得到最终目标框;
根据所述最终目标框从所述特征图中提取目标区域,使用双线性内插法将所述目标区域处理成尺寸相等且固定的特征图。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
所述第一样本和所述第二样本之间的重叠面积的交并比大于等于阈值。
8.一种特征表示模型的训练装置,其特征在于,所述装置包括:
获取模块,用于获取电网图像;
扩增模块,用于对所述电网图像进行扩增处理得到第一样本和第二样本,所述第一样本区别于所述第二样本;
特征表示模块,用于将所述第一样本输入第一网络模型得到第一高维特征向量,所述第一网络模型由深度残差网络、特征金字塔网络、第一特征映射器和特征预测器构成,将所述第二样本输入第二网络模型得到第二高维特征向量,所述第二网络模型由深度残差网络、特征金字塔网络和第二特征映射器构成;
计算模块,用于计算所述第一高维特征向量和所述第二高维特征向量之间的对比损失;
调整模块,用于根据所述对比损失调整所述第一网络模型的参数,直到所述第一网络模型和所述第二网络模型均达到收敛,得到特征表示模型。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如权利要求1-7中任一项所述的特征表示模型的训练方法。
10.一种电子设备,其特征在于,所述设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行如权利要求1-7中任一项所述的特征表示模型的训练方法。
CN202311678962.8A 2023-12-08 2023-12-08 特征表示模型的训练方法、装置、存储介质及电子设备 Pending CN117788967A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311678962.8A CN117788967A (zh) 2023-12-08 2023-12-08 特征表示模型的训练方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311678962.8A CN117788967A (zh) 2023-12-08 2023-12-08 特征表示模型的训练方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN117788967A true CN117788967A (zh) 2024-03-29

Family

ID=90384293

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311678962.8A Pending CN117788967A (zh) 2023-12-08 2023-12-08 特征表示模型的训练方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN117788967A (zh)

Similar Documents

Publication Publication Date Title
CN108460411B (zh) 实例分割方法和装置、电子设备、程序和介质
CN108335305B (zh) 图像分割方法和装置、电子设备、程序和介质
EP2827297B1 (en) Method and apparatus for processing depth image
US20190156144A1 (en) Method and apparatus for detecting object, method and apparatus for training neural network, and electronic device
US10621764B2 (en) Colorizing vector graphic objects
JP5628306B2 (ja) コントラスト改善
KR20200100558A (ko) 이미지 처리 방법 및 장치, 전자 디바이스 및 컴퓨터 판독 가능 저장 매체
CN113066017B (zh) 一种图像增强方法、模型训练方法及设备
WO2019154201A1 (zh) 实例分割方法和装置、电子设备、程序和介质
Parihar et al. Fusion‐based simultaneous estimation of reflectance and illumination for low‐light image enhancement
CN113610087B (zh) 一种基于先验超分辨率的图像小目标检测方法及存储介质
CN111754404B (zh) 基于多尺度机制和注意力机制的遥感图像时空融合方法
US20230143034A1 (en) Image modification techniques
US20220076119A1 (en) Device and method of training a generative neural network
WO2024001360A1 (zh) 绿幕抠图方法、装置及电子设备
CN114830168B (zh) 图像重建方法、电子设备和计算机可读存储介质
CN111881915B (zh) 一种基于多种先验信息约束的卫星视频目标智能检测方法
CN116645598A (zh) 一种基于通道注意力特征融合的遥感图像语义分割方法
CN115205157B (zh) 图像处理方法和***、电子设备和存储介质
CN112927200B (zh) 本征图像分解方法、装置、可读存储介质及电子设备
Wang et al. Detection of plane in remote sensing images using super-resolution
CN117788967A (zh) 特征表示模型的训练方法、装置、存储介质及电子设备
Ke et al. Scale-aware dimension-wise attention network for small ship instance segmentation in synthetic aperture radar images
CN112052863B (zh) 一种图像检测方法及装置、计算机存储介质、电子设备
Gupta et al. A modified weighed Histogram approach for Image enhancement using Optimized Alpha parameter

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination