CN111738012B - 提取语义对齐特征的方法、装置、计算机设备和存储介质 - Google Patents
提取语义对齐特征的方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN111738012B CN111738012B CN202010409366.XA CN202010409366A CN111738012B CN 111738012 B CN111738012 B CN 111738012B CN 202010409366 A CN202010409366 A CN 202010409366A CN 111738012 B CN111738012 B CN 111738012B
- Authority
- CN
- China
- Prior art keywords
- convolutional neural
- picture
- target
- neural network
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及人工智能中的分类模型技术领域,提供提取语义对齐特征的方法、装置、计算机设备和存储介质,包括:基于预设的卷积神经网络提取目标图片的特征图,并进行全局最大池化处理得到全局特征向量;其中,定位有全局特征向量的每一个分量在特征图中的索引;根据索引,获取全局特征向量每一个分量的构成元;对所有分量的构成元的网络参数进行大小排序,获取前N个目标网络参数对应的输入向量,作为目标输入向量;将各目标输入向量的分量与全局特征向量组合,得到多粒度语义对齐特征向量。本申请多粒度语义对齐特征向量中结合有效分量,具有多粒度特性。另外,本申请可应用于智慧交通领域中,从而推动智慧城市的建设。
Description
技术领域
本申请涉及人工智能技术领域,特别涉及一种提取语义对齐特征的方法、装置、计算机设备和存储介质。
背景技术
基于深度学习算法建模、人脸识别、车辆识别等AI应用已达到了很好的效果,进入了效果提升的瓶颈期。当前的深度学习模型仍然有明显的不足,主要体现在语义对齐的处理和多粒度特性提取上,具体如下:
首先,目前的深度学习模型在特征图上进行区域划分非常刻板,可能将原本属于同一语义的特征图分割开来,从而无法形成有效语义;其次,特征图划分后的子区域经特征提取后,得到的仍然是高级语义,本质上无语义上的多粒度特性;最后,划分后的子区域对齐的特征,在语义上可能存在严重的不一致。
发明内容
本申请的主要目的为提供一种提取语义对齐特征的方法、装置、计算机设备和存储介质,旨在克服目前提取语义特征时无多粒度特性的缺陷。
为实现上述目的,本申请提供了一种提取语义对齐特征的方法,包括以下步骤:
基于预设的卷积神经网络提取目标图片的特征图,并通过所述卷积神经网络的池化层对所述特征图进行全局最大池化处理得到全局特征向量;其中,所述卷积神经网络的池化层在进行全局最大池化处理过程中,定位有所述全局特征向量的每一个分量在所述特征图中的索引;
根据所述全局特征向量的每一个分量在特征图中的索引,获取所述全局特征向量每一个分量的构成元;其中,每一个所述分量的构成元为所述卷积神经网络的池化层输出结果为所述全局特征向量的分量时,所需要对应输入至所述池化层的输入向量,以及所述池化层的网络参数;
对所有所述分量的构成元的网络参数进行由大到小排序,抽取排列在前的N个目标网络参数,并获取各个所述目标网络参数所在构成元中包括的输入向量,作为目标输入向量;
提取各个所述目标输入向量的分量,作为有效分量;
将所述全局特征向量与各个所述有效分量依次进行组合,得到多粒度语义对齐特征向量。
进一步地,所述基于预设的卷积神经网络提取目标图片的特征图,并通过所述卷积神经网络的池化层对所述特征图进行全局最大池化处理得到全局特征向量的步骤之前,包括:
获取图片样本数据,对所述图片样本数据采用放回抽样,得到三组训练样本集;
基于三组所述训练样本集分别对原始卷积神经网络进行训练,得到三个初始卷积神经网络;
随机选择其中两个初始卷积神经网络作为目标神经网络,并分别将无标注的第一图片输入至所述目标神经网络中进行多粒度语义对齐特征的提取,得到第一多粒度特征以及第二多粒度特征;
判断第一多粒度特征以及第二多粒度特征是否相同,若相同,则将其中任意一个多粒度特征标注至所述第一图片,组成第一训练对;
将所述第一训练对输入至未选择的所述初始卷积神经网络中进行迭代训练,得到训练完成的卷积神经网络作为所述预设的卷积神经网络。
进一步地,所述基于预设的卷积神经网络提取目标图片的特征图,并通过所述卷积神经网络的池化层对所述特征图进行全局最大池化处理得到全局特征向量的步骤之前,包括:
采集行人的预选图片;所述预选图片中包括有行人;
判断所述预选图片是否满足预设的清晰度条件;
若满足,则将所述预选图片进行预处理后,作为所述目标图片输入至预设的卷积神经网络中。
进一步地,所述判断所述预选图片是否满足预设的清晰度条件的步骤,包括:
获取所述预选图片的灰度图像,获取所述灰度图像中每个像素点的灰度值,并计算出平均灰度值;
获取所述灰度图像中大于所述平均灰度值的第一灰度值,以及小于所述平均灰度值的第二灰度值;
计算各个所述第一灰度值与所述平均灰度值之间的第一差值,并计算各个所述第一差值的平均值得到第一值;
计算所述平均灰度值与各个所述第二灰度值之间的第二差值,并计算各个所述第二差值的平均值得到第二值;
计算所述第一值与所述第二值的平均值,并判断所述第一值与所述第二值的平均值是否大于预设值;
若大于,则判定所述预选图片满足预设的清晰度条件。
进一步地,所述将所述预选图片进行预处理后,作为所述目标图片输入至预设的卷积神经网络中的步骤,包括:
通过预设的DPM模型提取每个行人在所述预选图片中的坐标信息;
根据每个所述行人在所述预选图片中的坐标信息,从所述预选图片中分割出每个行人的目标图像;
创建一个空白图层,并将每个行人的所述目标图像平铺在所述空白图层中,得到所述目标图片。
本申请还提供了一种提取语义对齐特征的装置,包括:
第一提取单元,用于基于预设的卷积神经网络提取目标图片的特征图,并通过所述卷积神经网络的池化层对所述特征图进行全局最大池化处理得到全局特征向量;其中,所述卷积神经网络的池化层在进行全局最大池化处理过程中,定位有所述全局特征向量的每一个分量在所述特征图中的索引;
第一获取单元,用于根据所述全局特征向量的每一个分量在特征图中的索引,获取所述全局特征向量每一个分量的构成元;其中,每一个所述分量的构成元为所述卷积神经网络的池化层输出结果为所述全局特征向量的分量时,所需要对应输入至所述池化层的输入向量,以及所述池化层的网络参数;
抽取单元,用于对所有所述分量的构成元的网络参数进行由大到小排序,抽取排列在前的N个目标网络参数,并获取各个所述目标网络参数所在构成元中包括的输入向量,作为目标输入向量;
提取单元,用于提取各个所述目标输入向量的分量,作为有效分量;
组合单元,用于将所述全局特征向量与各个所述有效分量依次进行组合,得到多粒度语义对齐特征向量。
进一步地,还包括:
第二获取单元,用于获取图片样本数据,对所述图片样本数据采用放回抽样,得到三组训练样本集;
第一训练单元,用于基于三组所述训练样本集分别对原始卷积神经网络进行训练,得到三个初始卷积神经网络;
选择单元,用于随机选择其中两个初始卷积神经网络作为目标神经网络,并分别将无标注的第一图片输入至所述目标神经网络中进行多粒度语义对齐特征的提取,得到第一多粒度特征以及第二多粒度特征;
第一判断单元,用于判断第一多粒度特征以及第二多粒度特征是否相同,若相同,则将其中任意一个多粒度特征标注至所述第一图片,组成第一训练对;
第二训练单元,用于将所述第一训练对输入至未选择的所述初始卷积神经网络中进行迭代训练,得到训练完成的卷积神经网络作为所述预设的卷积神经网络。
进一步地,还包括:
采集单元,用于采集行人的预选图片;所述预选图片中包括有行人;
第二判断单元,用于判断所述预选图片是否满足预设的清晰度条件;
输入单元,用于若满足,则将所述预选图片进行预处理后,作为所述目标图片输入至预设的卷积神经网络中。
进一步地,所述第二判断单元,包括:
第一获取子单元,用于获取所述预选图片的灰度图像,获取所述灰度图像中每个像素点的灰度值,并计算出平均灰度值;
第二获取子单元,用于获取所述灰度图像中大于所述平均灰度值的第一灰度值,以及小于所述平均灰度值的第二灰度值;
第一计算子单元,用于计算各个所述第一灰度值与所述平均灰度值之间的第一差值,并计算各个所述第一差值的平均值得到第一值;
第二计算子单元,用于计算所述平均灰度值与各个所述第二灰度值之间的第二差值,并计算各个所述第二差值的平均值得到第二值;
第三计算子单元,用于计算所述第一值与所述第二值的平均值,并判断所述第一值与所述第二值的平均值是否大于预设值;
判定子单元,用于若大于,则判定所述预选图片满足预设的清晰度条件。
进一步地,所述输入单元,包括:
提取子单元,用于通过预设的DPM模型提取每个行人在所述预选图片中的坐标信息;
分割子单元,用于根据每个所述行人在所述预选图片中的坐标信息,从所述预选图片中分割出每个行人的目标图像;
平铺子单元,用于创建一个空白图层,并将每个行人的所述目标图像平铺在所述空白图层中,得到所述目标图片。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请提供的提取语义对齐特征的方法、装置、计算机设备和存储介质,包括:基于预设的卷积神经网络提取目标图片的特征图,并通过所述卷积神经网络的池化层对所述特征图进行全局最大池化处理得到全局特征向量;其中,所述卷积神经网络的池化层在进行全局最大池化处理过程中,定位有所述全局特征向量的每一个分量在所述特征图中的索引;根据所述全局特征向量的每一个分量在特征图中的索引,获取所述全局特征向量每一个分量的构成元;其中,每一个所述分量的构成元为所述卷积神经网络的池化层输出结果为所述全局特征向量的分量时,所需要对应输入至所述池化层的输入向量,以及所述池化层的网络参数;对所有所述分量的构成元的网络参数进行由大到小排序,抽取排列在前的N个目标网络参数,并获取各个所述目标网络参数所在构成元中包括的输入向量,作为目标输入向量;提取各个所述目标输入向量的分量,作为有效分量;将所述全局特征向量与各个所述有效分量依次进行组合,得到多粒度语义对齐特征向量。本申请使用的粒度不是来自于对特征图的硬性划分,而是通过卷积神经网络的训练自动形成的划分,具有很好的灵活性;多粒度语义对齐特征向量中结合有有效分量,即细节语义特征,是的提取出的语义特征具有多粒度特性。同时本申请中,有效分量提取过程中基于全局特征向量的每一个分量在所述特征图中的索引,因此,可以保持语义上的一致性。
附图说明
图1是本申请一实施例中提取语义对齐特征的方法步骤示意图;
图2是本申请一实施例中提取语义对齐特征的装置结构框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例中提供了一种提取语义对齐特征的方法,包括以下步骤:
步骤S1,基于预设的卷积神经网络提取目标图片的特征图,并通过所述卷积神经网络的池化层对所述特征图进行全局最大池化处理得到全局特征向量;其中,所述卷积神经网络的池化层在进行全局最大池化处理过程中,定位有所述全局特征向量的每一个分量在所述特征图中的索引;
步骤S2,根据所述全局特征向量的每一个分量在特征图中的索引,获取所述全局特征向量每一个分量的构成元;其中,每一个所述分量的构成元为所述卷积神经网络的池化层输出结果为所述全局特征向量的分量时,所需要对应输入至所述池化层的输入向量,以及所述池化层的网络参数;
步骤S3,对所有所述分量的构成元的网络参数进行由大到小排序,抽取排列在前的N个目标网络参数,并获取各个所述目标网络参数所在构成元中包括的输入向量,作为目标输入向量;
步骤S4,提取各个所述目标输入向量的分量,作为有效分量;
步骤S5,将所述全局特征向量与各个所述有效分量依次进行组合,得到多粒度语义对齐特征向量。
在本实施例中,上述方法应用于图像识别中的多粒度语义对齐的场景中;本申请还可应用于智慧交通领域中,从而推动智慧城市的建设。例如在智慧交通领域中的图像处理场景、行人识别场景中,能有效提升特征提取的效果,从而提升图像处理效果。
目前通常采用的深度学习识别算法中,其需要对特征图进行区域划分(包括宽高以及通道方向的划分),再投入后端网络(通常是约简网络降维或归一化到后继网络所需格式),最后输出特征向量,而上述常规方法中在特征图上进行区域划分非常刻板,容易将某些原本属于同一语义的特征图分割开来,从而无法形成有效语义。因此,在本实施例中,不对上述特征图进行硬性的区域划分,而是通过训练自动形成的划分,具有很好的灵活性。
具体地,如上述步骤S1所述的,上述目标图片通常为行人图片,上述卷积神经网络(CNN)用于对上述目标图片进行特征提取,从而形成特征图;上述卷积神经网络模型的最后一层为池化层,该池化层通过前向传播以对上述特征图进行全局最大池化处理,从而输出全局特征向量。应当理解的是,该全局特征向量为最高级别语义特征,其不具有语义上的多粒度特性。因此,需要融合细节语义特征,以使得其具有语义上的多粒度特性。
在本实施例中,所述卷积神经网络的池化层在进行全局最大池化处理过程中,定位有所述全局特征向量的每一个分量在所述特征图中的索引,即建立好上述特征图中的每一个输入向量经过上述池化层进行全局最大池化处理后输出得到全局特征向量的每一个分量的索引关系。
如上述步骤S2,为了得到上述细节语义特征,需要对上述全局特征向量的分量进行反向传播。在本实施例中,根据上述前向传播中索引的作用,采用反向传播,借助全局最大池化对齐获取上述全局特征向量每一个分量的构成元,该构成元指的是通过上述池化层进行全局最大池化处理,所要得到上述全局特征向量的分量时所应当输入值上述池化层的输入向量x_1,以及所述池化层的网络参数W。应当理解的是,对于全局特征向量的任意分量x_i,其都存在用于构成它的元素,构成元素即称为构成元。
如上述步骤S3-S4所述的,上述网络参数的值越大,其参考价值越高,因此,需要对所有所述分量的构成元中的网络参数W进行由大到小排序,抽取排列在前的N个网络参数作为最终的目标网络参数,根据该目标网络参数,便可以获取到各个所述目标网络参数所在的构成元,从而再获取到构成元中所包括的输入向量x_1作为最终的目标输入向量。由于上述目标输入向量没有经过区域划分以及池化层的处理,其仍然具有多粒度特性,因此,提取出各个所述目标输入向量的分量作为有效分量;其中,该有效分量即为细节语义特征。
最后,如上述步骤S5所述的,将所述全局特征向量与各个所述有效分量进行组合,便可以得到多粒度语义对齐特征向量。该多粒度语义对齐特征向量不仅实现了语义对齐,而且保留了多粒度特性。多粒度特性和语义对齐作为识别问题的本质,其有效性已经在实践中被验证,本实施例中将两者相结合,具有普遍有效性,能够明显提高识别效果,且具有鲁棒性。
在本实施例中,与目前的人脸识别及行人重识别中的对齐方案相比,本实施例中在实现语义对齐时,对数据集无需增加标注要求。且本实施例中使用的粒度不是来自于对特征图的硬性划分,而是通过卷积神经网络的训练自动形成的划分,具有很好的灵活性。上述多粒度语义对齐特征向量中结合有细节语义特征(即有效分量),具有多粒度特性;同时,本实施例中的有效分量提取过程中基于全局特征向量的每一个分量在所述特征图中的索引,因此,可以保持语义上的一致性。
优选地,为了保障上述目标图片、多粒度语义对齐特征向量等数据的私密性和安全性,上述所有数据均可以存储于一区块链的节点中。本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在一实施例中,所述基于预设的卷积神经网络提取目标图片的特征图,并通过所述卷积神经网络的池化层对所述特征图进行全局最大池化处理得到全局特征向量的步骤S1之前,包括:
a、获取图片样本数据,对所述图片样本数据采用放回抽样,得到三组训练样本集;
本实施例中,采用放回抽样的方式,将上述图片样本数据分成三组训练样本集,其中,每一个训练样本集分别用于训练一个原始卷积神经网络。
b、基于三组所述训练样本集分别对原始卷积神经网络进行训练,得到三个初始卷积神经网络;
其中,三组所述训练样本集稍有不同,因此所得到的三个初始卷积神经网络在预测结果上也会稍有不同。
c、随机选择其中两个初始卷积神经网络作为目标神经网络,并分别将无标注的第一图片输入至所述目标神经网络中进行多粒度语义对齐特征的提取,得到第一多粒度特征以及第二多粒度特征;
由于图片的标注工作量较大,目前的图片样本数据的数据量较小,因此为了增加训练卷积神经网络的训练数据,采用了无标注的第一图片进行训练,上述第一图片分别输入至两个目标神经网络中进行特征提取,得到多粒度语义对齐特征。
d、判断第一多粒度特征以及第二多粒度特征是否相同,若相同,则将其中任意一个多粒度特征标注至所述第一图片,组成第一训练对;
若两个目标神经网络提取的多粒度语义对齐特征相同,则表明该两个目标神经网络的置信度高,其相应提取的特征置信度也高,因此,可以将其中任意一个多粒度特征标注至所述第一图片,组成第一训练对,以作为训练上述未选择的初始卷积神经网络的训练样本,显著增加训练样本的数据量。若两个目标神经网络提取的多粒度语义对齐特征不相同,则表明该两个目标神经网络的置信度不高,其相应提取的特征置信度也不高,因此需要对上述目标神经网络重新进行训练,以迭代优化参数。或者也可以是,重新选择一个无标注的图片输入至目标神经网络中进行多粒度语义对齐特征的提取,直至两个目标神经网络提取的多粒度语义对齐特征相同。
e、将所述第一训练对输入至未选择的所述初始卷积神经网络中进行迭代训练,得到训练完成的卷积神经网络作为所述预设的卷积神经网络。本实施例中,提供了上述预设的卷积神经网络的训练过程;该训练过程采用多个模型共同进行训练,基于训练输出结果的一致性来表达模型的置信度,当多个模型输出的结果相同时,才能表明对模型的训练准确,以提高训练模型的准确率。同时,采用无标注的第一图片进行训练,训练样本的数据量得到增加之后,其对应训练得到的卷积神经网络效果也更好。
在一实施例中,所述基于预设的卷积神经网络提取目标图片的特征图,并通过所述卷积神经网络的池化层对所述特征图进行全局最大池化处理得到全局特征向量的步骤S1之前,包括:
步骤S11,采集行人的预选图片;所述预选图片中包括有行人;
步骤S12,判断所述预选图片是否满足预设的清晰度条件;
步骤S13,若满足,则将所述预选图片进行预处理后,作为所述目标图片输入至预设的卷积神经网络中。
上述预设的卷积神经网络在进行多粒度语义对齐特征的提取时,图片越清晰,最后提取出的特征效果更好。因此,需要预先选择出清晰度满足条件的预选图片作为目标图片。
在一实施例中,所述判断所述预选图片是否满足预设的清晰度条件的步骤S12,包括:
S121、获取所述预选图片的灰度图像,获取所述灰度图像中每个像素点的灰度值,并计算出平均灰度值;其中,灰度图像更加容易体现出一张图片的清晰度,因此,本实施例中针对灰度图像进行清晰度的分析处理。
S122、获取所述灰度图像中大于所述平均灰度值的第一灰度值,以及小于所述平均灰度值的第二灰度值;在一张图片中,如果所有的像素点的灰度值都很接近,反而会造成图片不够清晰,而当其灰度值差异较大时,更加容易突显出各像素点的区别,最后的表现形式为图片更加清晰。因此,本实施例中,需要对所有像素点的灰度值与平均值进行比较,以便后续分析出差异性。
S123、计算各个所述第一灰度值与所述平均灰度值之间的第一差值,并计算各个所述第一差值的平均值得到第一值;
S124、计算所述平均灰度值与各个所述第二灰度值之间的第二差值,并计算各个所述第二差值的平均值得到第二值;
S125、计算所述第一值与所述第二值的平均值,并判断所述第一值与所述第二值的平均值是否大于预设值;
S126、若大于,则判定所述预选图片满足预设的清晰度条件。若大于,则表明与平均值差距较大,差异性较大,此时,表现出的图片清晰度越高;若小于,则可以认为该第一缩放图片不够清晰。
在一实施例中,所述将所述预选图片进行预处理后,作为所述目标图片输入至预设的卷积神经网络中的步骤S13,包括:
通过预设的DPM模型提取每个行人在所述预选图片中的坐标信息;其中,DPM模型为一种目标检测算法,为分类器、分割、人体姿态和行为分类的重要部分。
根据每个所述行人在所述预选图片中的坐标信息,从所述预选图片中分割出每个行人的目标图像;
创建一个空白图层,并将每个行人的所述目标图像平铺在所述空白图层中,得到所述目标图片。应当理解的是,本实施例中的平铺指的是,将上述空白图层划分为多个水平且相互平行的平铺层,然后将目标图像在水平方向依次拼接在一个平铺层中,当同一平铺层平铺完成之后,则在下一个平铺层继续平铺其它目标图像。
本实施例中,并不是将上述预选图片中的所有元素输入至预设的卷积神经网络中,而是只提取出预选图片中的行人图像,组合而成所述目标图片,使得所述目标图片的干扰特征较少,且数据量得到减少,便于后续的特征提取,降低数据运算量。
参照图2,本申请一实施例中还提供了一种提取语义对齐特征的装置,包括:
第一提取单元10,用于基于预设的卷积神经网络提取目标图片的特征图,并通过所述卷积神经网络的池化层对所述特征图进行全局最大池化处理得到全局特征向量;其中,所述卷积神经网络的池化层在进行全局最大池化处理过程中,定位有所述全局特征向量的每一个分量在所述特征图中的索引;
第一获取单元20,用于根据所述全局特征向量的每一个分量在特征图中的索引,获取所述全局特征向量每一个分量的构成元;其中,每一个所述分量的构成元为所述卷积神经网络的池化层输出结果为所述全局特征向量的分量时,所需要对应输入至所述池化层的输入向量,以及所述池化层的网络参数;
抽取单元30,用于对所有所述分量的构成元的网络参数进行由大到小排序,抽取排列在前的N个目标网络参数,并获取各个所述目标网络参数所在构成元中包括的输入向量,作为目标输入向量;
提取单元40,用于提取各个所述目标输入向量的分量,作为有效分量;
组合单元50,用于将所述全局特征向量与各个所述有效分量依次进行组合,得到多粒度语义对齐特征向量。
在一实施例中,上述提取语义对齐特征的装置,还包括:
第二获取单元,用于获取图片样本数据,对所述图片样本数据采用放回抽样,得到三组训练样本集;
第一训练单元,用于基于三组所述训练样本集分别对原始卷积神经网络进行训练,得到三个初始卷积神经网络;
选择单元,用于随机选择其中两个初始卷积神经网络作为目标神经网络,并分别将无标注的第一图片输入至所述目标神经网络中进行多粒度语义对齐特征的提取,得到第一多粒度特征以及第二多粒度特征;
第一判断单元,用于判断第一多粒度特征以及第二多粒度特征是否相同,若相同,则将其中任意一个多粒度特征标注至所述第一图片,组成第一训练对;
第二训练单元,用于将所述第一训练对输入至未选择的所述初始卷积神经网络中进行迭代训练,得到训练完成的卷积神经网络作为所述预设的卷积神经网络。
在一实施例中,上述提取语义对齐特征的装置,还包括:
采集单元,用于采集行人的预选图片;所述预选图片中包括有行人;
第二判断单元,用于判断所述预选图片是否满足预设的清晰度条件;
输入单元,用于若满足,则将所述预选图片进行预处理后,作为所述目标图片输入至预设的卷积神经网络中。
在一实施例中,所述第二判断单元,包括:
第一获取子单元,用于获取所述预选图片的灰度图像,获取所述灰度图像中每个像素点的灰度值,并计算出平均灰度值;
第二获取子单元,用于获取所述灰度图像中大于所述平均灰度值的第一灰度值,以及小于所述平均灰度值的第二灰度值;
第一计算子单元,用于计算各个所述第一灰度值与所述平均灰度值之间的第一差值,并计算各个所述第一差值的平均值得到第一值;
第二计算子单元,用于计算所述平均灰度值与各个所述第二灰度值之间的第二差值,并计算各个所述第二差值的平均值得到第二值;
第三计算子单元,用于计算所述第一值与所述第二值的平均值,并判断所述第一值与所述第二值的平均值是否大于预设值;
判定子单元,用于若大于,则判定所述预选图片满足预设的清晰度条件。
在一实施例中,所述输入单元,包括:
提取子单元,用于通过预设的DPM模型提取每个行人在所述预选图片中的坐标信息;
分割子单元,用于根据每个所述行人在所述预选图片中的坐标信息,从所述预选图片中分割出每个行人的目标图像;
平铺子单元,用于创建一个空白图层,并将每个行人的所述目标图像平铺在所述空白图层中,得到所述目标图片。
在本实施例中,上述装置实施例中的各个单元、子单元的具体实现方式,请参照上述方法实施例中所述,在此不再进行赘述。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储图片数据、特征向量数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种提取语义对齐特征的方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种提取语义对齐特征的方法。可以理解的是,本实施例中的计算机可读存储介质可以是易失性可读存储介质,也可以为非易失性可读存储介质。
综上所述,为本申请实施例中提供的提取语义对齐特征的方法、装置、计算机设备和存储介质,包括:基于预设的卷积神经网络提取目标图片的特征图,并通过所述卷积神经网络的池化层对所述特征图进行全局最大池化处理得到全局特征向量;其中,所述卷积神经网络的池化层在进行全局最大池化处理过程中,定位有所述全局特征向量的每一个分量在所述特征图中的索引;根据所述全局特征向量的每一个分量在特征图中的索引,获取所述全局特征向量每一个分量的构成元;其中,每一个所述分量的构成元为所述卷积神经网络的池化层输出结果为所述全局特征向量的分量时,所需要对应输入至所述池化层的输入向量,以及所述池化层的网络参数;对所有所述分量的构成元的网络参数进行由大到小排序,抽取排列在前的N个目标网络参数,并获取各个所述目标网络参数所在构成元中包括的输入向量,作为目标输入向量;提取各个所述目标输入向量的分量,作为有效分量;将所述全局特征向量与各个所述有效分量依次进行组合,得到多粒度语义对齐特征向量。本申请使用的粒度不是来自于对特征图的硬性划分,而是通过卷积神经网络的训练自动形成的划分,具有很好的灵活性;多粒度语义对齐特征向量中结合有有效分量,即细节语义特征,具有多粒度特性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (8)
1.一种提取语义对齐特征的方法,其特征在于,包括以下步骤:
基于预设的卷积神经网络提取目标图片的特征图,并通过所述卷积神经网络的池化层对所述特征图进行全局最大池化处理得到全局特征向量;其中,所述卷积神经网络的池化层在进行全局最大池化处理过程中,定位有所述全局特征向量的每一个分量在所述特征图中的索引;
根据所述全局特征向量的每一个分量在特征图中的索引,获取所述全局特征向量每一个分量的构成元;其中,所述卷积神经网络的池化层输出结果为所述全局特征向量的分量时,每一个所述分量的构成元为所需要对应输入至所述池化层的输入向量,以及所述池化层的网络参数;
对所有所述分量的构成元的网络参数进行由大到小排序,抽取排列在前的N个目标网络参数,并获取各个所述目标网络参数所在构成元中包括的输入向量,作为目标输入向量;
提取各个所述目标输入向量的分量,作为有效分量;
将所述全局特征向量与各个所述有效分量依次进行组合,得到多粒度语义对齐特征向量;
所述基于预设的卷积神经网络提取目标图片的特征图,并通过所述卷积神经网络的池化层对所述特征图进行全局最大池化处理得到全局特征向量的步骤之前,包括:
获取图片样本数据,对所述图片样本数据采用放回抽样,得到三组训练样本集;
基于三组所述训练样本集分别对原始卷积神经网络进行训练,得到三个初始卷积神经网络;
随机选择其中两个初始卷积神经网络作为目标神经网络,并分别将无标注的第一图片输入至所述目标神经网络中进行多粒度语义对齐特征的提取,得到第一多粒度特征以及第二多粒度特征;
判断第一多粒度特征以及第二多粒度特征是否相同,若相同,则将其中任意一个多粒度特征标注至所述第一图片,组成第一训练对;
将所述第一训练对输入至未选择的所述初始卷积神经网络中进行迭代训练,得到训练完成的卷积神经网络作为所述预设的卷积神经网络。
2.根据权利要求1所述的提取语义对齐特征的方法,其特征在于,所述基于预设的卷积神经网络提取目标图片的特征图,并通过所述卷积神经网络的池化层对所述特征图进行全局最大池化处理得到全局特征向量的步骤之前,包括:
采集行人的预选图片;所述预选图片中包括有行人;
判断所述预选图片是否满足预设的清晰度条件;
若满足,则将所述预选图片进行预处理后,作为所述目标图片输入至预设的卷积神经网络中。
3.根据权利要求2所述的提取语义对齐特征的方法,其特征在于,所述判断所述预选图片是否满足预设的清晰度条件的步骤,包括:
获取所述预选图片的灰度图像,获取所述灰度图像中每个像素点的灰度值,并计算出平均灰度值;
获取所述灰度图像中大于所述平均灰度值的第一灰度值,以及小于所述平均灰度值的第二灰度值;
计算各个所述第一灰度值与所述平均灰度值之间的第一差值,并计算各个所述第一差值的平均值得到第一值;
计算所述平均灰度值与各个所述第二灰度值之间的第二差值,并计算各个所述第二差值的平均值得到第二值;
计算所述第一值与所述第二值的平均值,并判断所述第一值与所述第二值的平均值是否大于预设值;
若大于,则判定所述预选图片满足预设的清晰度条件。
4.根据权利要求2所述的提取语义对齐特征的方法,其特征在于,所述将所述预选图片进行预处理后,作为所述目标图片输入至预设的卷积神经网络中的步骤,包括:
通过预设的DPM模型提取每个行人在所述预选图片中的坐标信息;
根据每个所述行人在所述预选图片中的坐标信息,从所述预选图片中分割出每个行人的目标图像;
创建一个空白图层,并将每个行人的所述目标图像平铺在所述空白图层中,得到所述目标图片。
5.一种提取语义对齐特征的装置,其特征在于,包括:
第一提取单元,用于基于预设的卷积神经网络提取目标图片的特征图,并通过所述卷积神经网络的池化层对所述特征图进行全局最大池化处理得到全局特征向量;其中,所述卷积神经网络的池化层在进行全局最大池化处理过程中,定位有所述全局特征向量的每一个分量在所述特征图中的索引;
第一获取单元,用于根据所述全局特征向量的每一个分量在特征图中的索引,获取所述全局特征向量每一个分量的构成元;其中,所述卷积神经网络的池化层输出结果为所述全局特征向量的分量时,每一个所述分量的构成元为所需要对应输入至所述池化层的输入向量,以及所述池化层的网络参数;
抽取单元,用于对所有所述分量的构成元的网络参数进行由大到小排序,抽取排列在前的N个目标网络参数,并获取各个所述目标网络参数所在构成元中包括的输入向量,作为目标输入向量;
提取单元,用于提取各个所述目标输入向量的分量,作为有效分量;
组合单元,用于将所述全局特征向量与各个所述有效分量依次进行组合,得到多粒度语义对齐特征向量;
第二获取单元,用于获取图片样本数据,对所述图片样本数据采用放回抽样,得到三组训练样本集;
第一训练单元,用于基于三组所述训练样本集分别对原始卷积神经网络进行训练,得到三个初始卷积神经网络;
选择单元,用于随机选择其中两个初始卷积神经网络作为目标神经网络,并分别将无标注的第一图片输入至所述目标神经网络中进行多粒度语义对齐特征的提取,得到第一多粒度特征以及第二多粒度特征;
第一判断单元,用于判断第一多粒度特征以及第二多粒度特征是否相同,若相同,则将其中任意一个多粒度特征标注至所述第一图片,组成第一训练对;
第二训练单元,用于将所述第一训练对输入至未选择的所述初始卷积神经网络中进行迭代训练,得到训练完成的卷积神经网络作为所述预设的卷积神经网络。
6.根据权利要求5所述的提取语义对齐特征的装置,其特征在于,还包括:
采集单元,用于采集行人的预选图片;所述预选图片中包括有行人;
第二判断单元,用于判断所述预选图片是否满足预设的清晰度条件;
输入单元,用于若满足,则将所述预选图片进行预处理后,作为所述目标图片输入至预设的卷积神经网络中。
7.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010409366.XA CN111738012B (zh) | 2020-05-14 | 2020-05-14 | 提取语义对齐特征的方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010409366.XA CN111738012B (zh) | 2020-05-14 | 2020-05-14 | 提取语义对齐特征的方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111738012A CN111738012A (zh) | 2020-10-02 |
CN111738012B true CN111738012B (zh) | 2023-08-18 |
Family
ID=72647228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010409366.XA Active CN111738012B (zh) | 2020-05-14 | 2020-05-14 | 提取语义对齐特征的方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111738012B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001195592A (ja) * | 1999-11-16 | 2001-07-19 | Stmicroelectronics Srl | 内容別デジタルイメージ分類方法 |
CN108062756A (zh) * | 2018-01-29 | 2018-05-22 | 重庆理工大学 | 基于深度全卷积网络和条件随机场的图像语义分割方法 |
CN108268643A (zh) * | 2018-01-22 | 2018-07-10 | 北京邮电大学 | 一种基于多粒度lstm网络的深层语义匹配实体链接方法 |
CN108830855A (zh) * | 2018-04-02 | 2018-11-16 | 华南理工大学 | 一种基于多尺度低层特征融合的全卷积网络语义分割方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10628668B2 (en) * | 2017-08-09 | 2020-04-21 | Open Text Sa Ulc | Systems and methods for generating and using semantic images in deep learning for classification and data extraction |
US11593552B2 (en) * | 2018-03-21 | 2023-02-28 | Adobe Inc. | Performing semantic segmentation of form images using deep learning |
-
2020
- 2020-05-14 CN CN202010409366.XA patent/CN111738012B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001195592A (ja) * | 1999-11-16 | 2001-07-19 | Stmicroelectronics Srl | 内容別デジタルイメージ分類方法 |
CN108268643A (zh) * | 2018-01-22 | 2018-07-10 | 北京邮电大学 | 一种基于多粒度lstm网络的深层语义匹配实体链接方法 |
CN108062756A (zh) * | 2018-01-29 | 2018-05-22 | 重庆理工大学 | 基于深度全卷积网络和条件随机场的图像语义分割方法 |
CN108830855A (zh) * | 2018-04-02 | 2018-11-16 | 华南理工大学 | 一种基于多尺度低层特征融合的全卷积网络语义分割方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111738012A (zh) | 2020-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108875676B (zh) | 活体检测方法、装置及*** | |
CN107527007B (zh) | 在车辆图像处理***中检测关注对象的方法 | |
CN109543627B (zh) | 一种判断驾驶行为类别的方法、装置、及计算机设备 | |
CN112132156B (zh) | 多深度特征融合的图像显著性目标检测方法及*** | |
CN110647829A (zh) | 一种票据的文本识别方法及*** | |
CN111814794B (zh) | 文本检测方法、装置、电子设备及存储介质 | |
CN110163188B (zh) | 视频处理以及在视频中嵌入目标对象的方法、装置和设备 | |
CN110516541B (zh) | 文本定位方法、装置、计算机可读存储介质和计算机设备 | |
CN111191695A (zh) | 一种基于深度学习的网站图片篡改检测方法 | |
CN109886330B (zh) | 文本检测方法、装置、计算机可读存储介质和计算机设备 | |
CN113255659B (zh) | 一种基于MSAFF-Yolov3的车牌校正检测识别方法 | |
CN112541448B (zh) | 一种行人重识别方法、装置、电子设备和存储介质 | |
CN112418278A (zh) | 一种多类物体检测方法、终端设备及存储介质 | |
CN111723841A (zh) | 文本检测方法、装置、电子设备及存储介质 | |
CN110956081A (zh) | 车辆与交通标线位置关系的识别方法、装置及存储介质 | |
CN112052845A (zh) | 图像识别方法、装置、设备及存储介质 | |
CN114049512A (zh) | 模型蒸馏方法、目标检测方法、装置及电子设备 | |
CN111325766A (zh) | 三维边缘检测方法、装置、存储介质和计算机设备 | |
CN111178146A (zh) | 基于人脸特征识别主播的方法及装置 | |
CN115620393A (zh) | 一种面向自动驾驶的细粒度行人行为识别方法及*** | |
WO2023279799A1 (zh) | 对象识别方法、装置和电子*** | |
CN116311214A (zh) | 车牌识别方法和装置 | |
Chowdhury et al. | Automated augmentation with reinforcement learning and GANs for robust identification of traffic signs using front camera images | |
CN115240203A (zh) | 业务数据处理方法、装置、设备及存储介质 | |
KR102026280B1 (ko) | 딥 러닝을 이용한 씬 텍스트 검출 방법 및 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |