CN115937537A - 一种目标图像的智能识别方法、装置、设备及存储介质 - Google Patents
一种目标图像的智能识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115937537A CN115937537A CN202211575082.3A CN202211575082A CN115937537A CN 115937537 A CN115937537 A CN 115937537A CN 202211575082 A CN202211575082 A CN 202211575082A CN 115937537 A CN115937537 A CN 115937537A
- Authority
- CN
- China
- Prior art keywords
- image
- sample
- initial
- target
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种目标图像的智能识别方法、装置、设备以及存储介质。该方法包括:将初始图像输入预设特征提取模型的第一子模型中,得到至少三个不同尺度的第一特征图;将第一特征图输入第二子模型中,得到至少三个不同尺度的第二特征图;将第二特征图输入第三子模型中,得到待识别目标的目标信息,并根据目标信息,从初始图像中确定待识别目标的目标图像,其中,目标信息包括位置信息、类别置信度、方向置信度以及偏转角度置信度。本发明实施例的技术方案,在图像识别的速度和精度方面达到了平衡,可以快速且准确的确定各种简单或复杂场景中的待识别目标的图像,解决了在复杂场景中图像识别效果不佳的问题。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种目标图像的智能识别方法、装置、设备及存储介质。
背景技术
随着以人工智能、大数据、云计算为代表的新一代信息技术的飞速发展,影像识别作为企业数字化转型的过程中最为基础的一环。
目前,通常利用基于深度学习的检测算法对目标图像进行目标特征提取,其可以获取不同目标图像间的差异特征,且具有良好的抗干扰能力。当前主流的检测算法有YOLO(You Only Look Once,只看一次)系列检测算法和RCNN(Region Convolutional NeuralNetworks,区域卷积神经网络)检测算法,两种检测算法可适用于不同的检测场景。
然而,常规的目标图像检测方法具有一定的局限性,对于如图像褶皱、图像昏暗和图像形变等复杂场景,并不能取得很好的效果。
发明内容
本发明提供了一种目标图像的智能识别方法、装置、设备及存储介质,以解决在复杂场景中目标图像的识别效果不佳的问题。
第一方面,本发明提供了一种目标图像的智能识别方法,包括:
将初始图像输入预设特征提取模型的第一子模型中,得到至少三个不同尺度的第一特征图,其中,所述预设特征提取模型中至少包含所述第一子模型、第二子模型以及第三子模型;
将所述第一特征图输入所述第二子模型中,得到至少三个不同尺度的第二特征图,其中,所述第二子模型基于特征金字塔网络构建;
将所述第二特征图输入所述第三子模型中,得到待识别目标的目标信息,并根据所述目标信息,从所述初始图像中确定所述待识别目标的目标图像,其中,所述目标信息包括位置信息、类别置信度、方向置信度以及偏转角度置信度。
第二方面,本发明提供了一种目标图像的智能识别装置,包括:
第一特征图确定模块,用于将初始图像输入预设特征提取模型的第一子模型中,得到至少三个不同尺度的第一特征图,其中,所述预设特征提取模型中至少包含所述第一子模型、第二子模型以及第三子模型;
第二特征图确定模块,用于将所述第一特征图输入所述第二子模型中,得到至少三个不同尺度的第二特征图,其中,所述第二子模型基于特征金字塔网络构建;
目标图像确定模块,用于将所述第二特征图输入所述第三子模型中,得到待识别目标的目标信息,并根据所述目标信息,从所述初始图像中确定所述待识别目标的目标图像,其中,所述目标信息包括位置信息、类别置信度、方向置信度以及偏转角度置信度。
第三方面,本发明提供了一种电子设备,该电子设备包括:
至少一个处理器;
以及与至少一个处理器通信连接的存储器;
其中,存储器存储有可被至少一个处理器执行的计算机程序,该计算机程序被至少一个处理器执行,以使至少一个处理器能够执行上述第一方面的目标图像的智能识别方法。
第四方面,本发明提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机指令,计算机指令用于使处理器执行时实现上述第一方面的目标图像的智能识别方法。
本发明提供的目标图像的智能识别方案,将初始图像输入预设特征提取模型的第一子模型中,得到至少三个不同尺度的第一特征图,其中,所述预设特征提取模型中至少包含所述第一子模型、第二子模型以及第三子模型,将所述第一特征图输入所述第二子模型中,得到至少三个不同尺度的第二特征图,其中,所述第二子模型基于特征金字塔网络构建,将所述第二特征图输入所述第三子模型中,得到待识别目标的目标信息,并根据所述目标信息,从所述初始图像中确定所述待识别目标的目标图像,其中,所述目标信息包括位置信息、类别置信度、方向置信度以及偏转角度置信度。通过采用上述技术方案,首先利用预设特征提取模型的第一子模型处理初始图像,可以得到初始图像的不同尺度的特征(第一特征图),然后再利用基于特征金字塔网络构建的第二子模型处理该特征,可以得到初始图像的不同尺度的精细特征(第二特征图),最后将所有的第二特征图输入第三子模型中,即可得到初始图像中待识别目标的目标信息,根据该目标信息即可确定待识别目标的目标图像,与传统的复杂的图像检测算法相比,本方法中使用的轻量级模型(预设特征提取模型)适用于算力有限的电子设备,如手机等,在图像识别的速度和精度方面达到了平衡,利用该预设特征提取模型可以快速且准确的确定各种简单或复杂场景中的待识别目标的图像,解决了在复杂场景中图像识别效果不佳的问题。
应当理解,本部分所描述的内容并非旨在标识本发明的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例一提供的一种目标图像的智能识别方法的流程图;
图2是根据本发明实施例二提供的一种目标图像的智能识别方法的流程图;
图3是根据本发明实施例二提供的一种样本方向的示意图;
图4是根据本发明实施例二提供的一种初始样本图像示意图;
图5是根据本发明实施例二提供的一种样本图像示意图;
图6是根据本发明实施例二提供的一种目标检测框的示意图;
图7是根据本发明实施例三提供的一种目标图像的智能识别装置的结构示意图;
图8是根据本发明实施例四提供的一种电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。在本发明的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
图1为本发明实施例一提供了一种目标图像的智能识别方法的流程图,本实施例可适用于确定目标图像的情况,该方法可以由目标图像的智能识别装置来执行,该目标图像的智能识别装置可以采用硬件和/或软件的形式实现,该目标图像的智能识别装置可配置于电子设备中,如配置于手机中,该电子设备可以是两个或多个物理实体构成,也可以是一个物理实体构成。
如图1所示,该本发明实施例一提供的一种目标图像的智能识别方法,具体包括如下步骤:
S101、将初始图像输入预设特征提取模型的第一子模型中,得到至少三个不同尺度的第一特征图,其中,所述预设特征提取模型中至少包含所述第一子模型、第二子模型以及第三子模型。
在本实施例中,可以利用预设摄像设备,如手机摄像头,获取包含至少一个待识别目标的图像(初始图像),然后将该图像输入预设特征提取模型中,经过预设特征提取模型的第一子模型的处理,可以得到至少三个不同尺度的特征图(第一特征图),如尺度分别为80*80、40*40以及20*20的特征图。其中,待识别目标可以为任意物体,如人物、动物或一切无生命的物体等,尺度可以理解为图片的尺寸,如尺度80*80可以表示长和宽均为80像素的图片。
可选的,所述第一子模型中至少包括卷积层、批量标准化层、激活函数层以及池化层。
具体的,卷积层可以利用多个不同的卷积核对初始图像进行处理,得到不同层次的特征图。批量标准化层可以对卷积层输出的所有的特征图求取像素值均值与方差,然后确定像素值与均值的差值,再求取该差值与该方差的商,从而实现规范化。激活函数层可以为PRelu(Parametric Rectified Linear Unit,参数整流线性单元)层或Relu(RectifiedLinear Unit,整流线性单元)层等,激活函数层可以对批量标准化层输出的特征图进行非线性化处理。池化层可以对激活函数层输出的特征图进行下采样处理,从而得到不同尺度的第一特征图。
S102、将所述第一特征图输入所述第二子模型中,得到至少三个不同尺度的第二特征图,其中,所述第二子模型基于特征金字塔网络构建。
在本实施例中,在得到第一特征图后,可以利用预设特征提取模型的第二子模型,将不同尺度的第一特征图进行融合,从而得到至少三个不同尺度的第二特征图,第二子模型具备特征金字塔网络优越特性,可以提高第一特征图的精度,且处理特征数据的速度较快,第二特征图的尺度通常与第一特征图的尺度一致,但第二特征图中包含了更加细粒度的特征信息。其中,第二子模型中通常包含多个特征提取层。
S103、将所述第二特征图输入所述第三子模型中,得到待识别目标的目标信息,并根据所述目标信息,从所述初始图像中确定所述待识别目标的目标图像,其中,所述目标信息包括位置信息、类别置信度、方向置信度以及偏转角度置信度。
在本实施例中,在得到第二特征图后,可以将所有的第二特征图输入第三子模型中,第三子模型中可以包含多个卷积层,如由多个1*1的卷积核构成的卷积层,该卷积层可以用于从不同尺度的第二特征图中提取目标信息,每个第二特征图中的每个待识别目标都对应可以得到一组包含位置信息、类别置信度、方向置信度以及偏转角度置信度的目标信息。可以从多组目标信息中筛选出满足预设要求的目标信息,如类别置信度、方向置信度以及偏转角度置信度大于对应的预设置信度阈值等预设要求,根据该满足预设要求的目标信息中的位置信息、方向置信度对应的方向以及偏转角度置信度对应的偏转角度,可以将待识别目标的目标图像从初始图像中裁剪出来,从而得到目标图像。
其中,目标信息中的位置信息可以理解为,待识别目标在初始图像的图像坐标系中的位置坐标。类别置信度可以理解为待识别目标属于预设类别的置信度。方向置信度可以理解为待识别目标处于预设方向的置信度。偏转角度置信度可以理解为待识别目标处于预设偏转角度的置信度。待识别目标的预设类别可以为人物、动物或一切无生命的物体等,例如票据等,预设方向可以为待识别目标的朝向,如朝上、朝下、朝左和朝右等预设的方向,待识别目标的朝向和偏转角度可以以待识别目标的设定信息为基准,如若待识别目标为票据,则可以将票据中的字体的方向为基准,即若字体朝上则待识别目标的朝向为朝上,若字体相对于水平线偏转了30度,则待识别目标的偏转角度为30度,若待识别目标为人物、动物或植物等,则可以以待识别目标预设位置的形状信息等设定信息为基准,来判断待识别目标的朝向和偏转角度。预设偏转角度可以为预设范围内的任一角度,如大于等于0度且小于360度的任一角度。
本发明实施例提供的目标图像的智能识别方法,将初始图像输入预设特征提取模型的第一子模型中,得到至少三个不同尺度的第一特征图,其中,所述预设特征提取模型中至少包含所述第一子模型、第二子模型以及第三子模型,将所述第一特征图输入所述第二子模型中,得到至少三个不同尺度的第二特征图,其中,所述第二子模型基于特征金字塔网络构建,将所述第二特征图输入所述第三子模型中,得到待识别目标的目标信息,并根据所述目标信息,从所述初始图像中确定所述待识别目标的目标图像,其中,所述目标信息包括位置信息、类别置信度、方向置信度以及偏转角度置信度。本发明实施例技术方案,首先利用预设特征提取模型的第一子模型处理初始图像,可以得到初始图像的不同尺度的特征(第一特征图),然后再利用基于特征金字塔网络构建的第二子模型处理该特征,可以得到初始图像的不同尺度的精细特征(第二特征图),最后将所有的第二特征图输入第三子模型中,即可得到初始图像中待识别目标的目标信息,根据该目标信息即可确定待识别目标的目标图像,与传统的复杂的图像检测算法相比,本方法中使用的轻量级模型(预设特征提取模型)适用于算力有限的电子设备,如手机等,在图像识别的速度和精度方面达到了平衡,利用该预设特征提取模型可以快速且准确的确定各种简单或复杂场景中的待识别目标的图像,解决了在复杂场景中图像识别效果不佳的问题。
实施例二
图2为本发明实施例二提供的一种目标图像的智能识别方法的流程图,本发明实施例的技术方案在上述各可选技术方案的基础上进一步优化,给出了确定目标图像的具体方式。
可选的,所述将所述第一特征图输入所述第二子模型中,得到至少三个不同尺度的第二特征图,包括:将所述第一特征图输入所述第二子模型中,利用所述第二子模型对所述深层特征图进行第二卷积处理后,对第二卷积处理结果进行第一上采样处理,并拼接第一上采样结果和所述中层特征图,得到第一拼接特征;对所述第一拼接特征进行第三卷积处理后,对第三卷积处理结果进行第二上采样处理,并拼接第二上采样结果和所述浅层特征图,得到第二拼接特征;对所述第二拼接特征进行第四卷积处理后,对第四卷积处理结果进行第五卷积处理,并拼接第五卷积处理结果和所述第三卷积处理结果,得到第三拼接特征;对所述第三拼接特征进行第六卷积处理后,对第六卷积处理结果进行第七卷积处理,拼接第七卷积处理结果和所述第二卷积处理结果,得到第四拼接特征,并对所述第四拼接特征进行第八卷积处理后,得到第八卷积处理结果,其中,第二特征图包括所述第四卷积处理结果、第六卷积处理结果以及第八卷积处理结果。这样设置的好处在于,通过第二子模型对第一特征图的卷积和拼接等处理,达到了利用浅层特征优化深层特征的目的,增强了位置信息在模型中的传递。
可选的,所述将所述第二特征图输入所述第三子模型中,得到待识别目标的目标信息,并根据所述目标信息,从所述初始图像中确定所述待识别目标的目标图像,包括:将所述第二特征图输入所述第三子模型中,针对每个所述第二特征图,利用所述第三子模型,对当前第二特征图进行第九卷积处理,得到待识别目标的检测框的目标信息;利用非极大值抑制算法对所述检测框的目标信息进行筛选,以确定目标检测框的目标位置、目标方向以及目标偏转角度;根据所述目标位置、目标方向以及目标偏转角度,在所述初始图像中裁剪出所述目标检测框对应的图像,以得到所述待识别目标的目标图像。这样设置的好处在于,利用非极大值抑制算法对冗余的检测框进行筛选,增强了目标图像的准确度。
如图2所示,本发明实施例二提供的一种目标图像的智能识别方法,具体包括如下步骤:
S201、将初始图像输入预设特征提取模型的第一子模型中,得到至少三个不同尺度的第一特征图。
可选的,所述将所述初始图像输入预设特征提取模型的第一子模型中,得到至少三个不同尺度的第一特征图,包括:将所述初始图像输入卷积层、批量标准化层以及激活函数层,得到尺度互不相同的浅层特征图、中层特征图和初始深层特征图;对所述初始深层特征图进行第一卷积处理后,再对第一卷积处理结果进行池化处理,得到多个不同尺度的池化处理结果,其中,所述初始深层特征图的尺度小于所述浅层特征图和所述中层特征图;拼接所述多个不同尺度的池化处理结果,得到深层特征图,其中,所述第一特征图包含所述深层特征图、所述浅层特征图和所述中层特征图。这样设置的好处在于,通过第一子模型中卷积层、批量标准化层、激活函数层以及池化层的处理,使得到的第一特征图包含不同层次的特征信息。
具体的,首先将初始图像输入包含卷积层、批量标准化层以及激活函数层的第一子模型中,可以得到三个不同尺度的第一特征图,即浅层特征图、中层特征图和初始深层特征图,浅层特征图的尺度大于中层特征图,中层特征图的尺度大于初始深层特征图。可以使用卷积层对初始深层特征图进行特征提取,然后对提取到的特征进行池化处理,从而得到多个不同尺度的特征(池化处理结果),最后将该不同尺度的特征进行拼接,从而得到深层特征图。其中,池化核的规格至少可以为4种,如1*1、5*5、9*9以及13*13。
可选的,所述预设特征提取模型的确定方式包括:
1)获取含有预设真实框的样本图像,其中,所述样本图像中至少含有一个样本目标图像,所述预设真实框用于框定所述样本目标图像,所述预设真实框配置有样本标签。
具体的,可以预先在样本图像中利用真实框(预设真实框)框定所有的待识别样本目标的图像,即样本目标图像,每个预设真实框都对应配置有样本标签。其中,样本标签可以包括样本位置标签、样本类别标签、样本方向标签以及样本偏转角度标签等,样本位置标签可以为预设真实框在样本图像的图像坐标系中的位置坐标,样本类别标签可以为预设真实框内的物体所属的类别,如票据或身份证等,样本方向标签可以为预设真实框的方向,图3为一种样本方向的示意图,样本方向标签可以包括正方向(图3中左一图像所示的方向)、下方向(图3中左二图像所示的方向)、左方向(图3中左三图像所示的方向)和右方向(图3中左四图像所示的方向)等,样本偏转角度标签可以为预设真实框偏移水平线的角度。
2)将所述样本图像输入预设初始模型的第一初始子模型中,得到至少三个不同尺度的第一样本特征图,其中,所述预设初始模型中至少包含所述第一初始子模型、第二初始子模型以及第三初始子模型。
具体的,可以将样本图像输入到第一初始子模型中,从而可以得到至少三个不同尺度的第一样本特征图。其中,第一初始子模型中可以包含有初始卷积层、初始批量标准化层、初始激活函数层以及初始池化层。
可选的,在样本图像输入第一初始子模型之前,还可以将样本目标图像的样本偏转角度转换为预设角度范围内的角度,如若样本偏转角度的范围为大于-90度且小于等于0度,则可以利用下述转换方式
将样本偏转角度angle转换为,在大于或等于0度,且小于或等于180度的范围内的角度。其中,theta为转换后的角度,width和height分别为样本目标图像的宽与高,可以利用预设方式,如利用OpenCV,确定样本目标图像的样本偏转角度,若样本偏转角度为负数,则表示该样本偏转角度对应的偏转方向为负方向,如若左为正方向,则右为负方向。
3)将所述第一样本特征图输入所述第二初始子模型中,得到至少三个不同尺度的第二样本特征图,其中,所述第二初始子模型基于特征金字塔网络构建。
4)将所述第二样本特征图输入所述第三初始子模型中,得到待识别样本目标的样本检测框的样本目标信息,其中,所述样本目标信息包括样本位置信息、样本类别置信度、样本方向置信度以及样本偏转角度置信度。
具体的,经过第三初始子模型的处理,可以得到待识别样本目标的检测框,即样本检测框,还可以确定该检测框的样本目标信息。
5)根据所述样本目标信息和所述样本标签,确定损失函数,并利用所述损失函数训练所述预设初始模型,以得到预设特征提取模型。
具体的,根据样本目标信息和所述样本标签可以建立损失函数,如根据样本目标信息中的样本位置信息和样本位置标签,可以确定回归损失函数,可以将该损失函数确定为模型的损失函数,利用损失函数可以计算样本检测框与预设真实框之间的差距(损失函数的结果),根据损失函数的结果的大小,来训练预设初始模型,当损失函数的结果小于预设损失函数值时,则表示预设初始模型已经训练完成,训练完成的预设初始模型即为预设特征提取模型。
上述这样设置的好处在于,通过利用含有预设真实框的样本图像,对预设初始模型进行训练,并通过损失函数来确定是否训练完成,保证了预设特征提取模型的精确度。
进一步的,所述损失函数包括:回归损失函数、置信度损失函数、类别损失函数、角度损失函数以及方向损失函数,所述回归损失函数基于所述样本检测框和所述预设真实框的交并比,以及所述样本检测框和所述预设真实框的最小凸闭合框的面积确定。这样设置的好处在于,通过利用五种损失函数,全面的评估对预设初始模型的训练效果,综合的来确定预设初始模型是否训练完成,提高了预设特征提取模型的准确度。
示例性的,损失函数可以用以下方式确定:
Loss=αL1+βL2+θL3+γL4+δL5
其中,α、β、θ、γ以及δ均为损失函数的系数,L1为回归损失函数,L2为置信度损失函数,L3为类别损失函数,L4为角度损失函数,L5为方向损失函数。回归损失函数可以用以下方式确定
其中,A表示预设真实框的面积,B表示样本检测框的面积,||表示取绝对值,IOU表示A与B的交并比,C表示A与B的最小凸闭合框的面积,\表示面积的减运算。置信度损失函数、类别损失函数、角度损失函数以及方向损失函数可以用以下方式确定
其中,y为预设真实框的概率,为样本检测框的置信度,即样本类别置信度、样本方向置信度或样本偏转角度置信度。其中,若预设真实框的样本标签与对应的样本检测框的样本目标信息一致,则y=1,若不一致,则y=0,如预设真实框的样本类别标签为身份证,而样本检测框的样本类别置信度对应的类别为***,则y=0。
可选的,在所述获取含有预设真实框的样本图像之前,还包括:
1)获取含有预设初始真实框的初始样本图像,其中,所述初始样本图像中至少含有一个初始样本目标图像,所述预设初始真实框用于框定所述初始样本目标图像,所述预设初始真实框配置有初始样本标签,所述初始样本标签中包含有初始样本方向标签。
2)对所述初始样本图像进行预设图像处理,得到样本图像,并根据所述预设图像处理的处理过程更新初始样本标签,以确定样本标签。
具体的,预设图像处理可以包括固定图像尺度处理、图像拼接处理、图像平移处理、图像裁剪处理、图像翻转处理以及图像旋转处理等,可以按照相同的概率从上述预设图像处理中,选取一种或多种处理方式处理初始样本图像,处理后的初始样本图像即为样本图像。若预设图像处理后的初始样本图像,与初始样本标签对应的信息不一致,则需要根据预设图像处理的处理过程调整初始样本标签,以得到样本标签,如初始样本标签为正方向,经过图像翻转处理后,初始样本图像的方向翻转了180度,则翻转后的初始样本图像为样本图像,可以将初始样本标签更新为下方向,下方向即为该样本图像的样本标签。
其中,固定图像尺度处理可以为,将所有的初始样本图像统一为特定大小,如640*640,为了不破坏原有的初始样本图像的特征,可以对初始样本图像进行等比例缩放,不满足尺度要求的初始样本图像可以对其进行填充,如以三原色像素值为(114,114,114)进行填充,以达到统一尺度的目的。图像拼接处理可以为,随机选取预设数量的初始样本图像,如四张初始样本图像,对这些初始样本图像进行固定图像尺度处理后进行拼接,再缩放到设定尺度,如640*640。如可以在尺度为1280*1280的预设区域中心区域范围内随机选取一个点,将选取的四张初始样本图像随机的放在选取点的左上、左下、右上和右下四个区域,若有些初始样本图像超出了预设区域的范围,即初始样本图像出现了截断现象,若在预设区域范围内的初始样本图像的面积,占初始样本图像总面积的40%以上,则保留在预设区域范围内的初始样本图像,若占初始样本图像总面积不足40%,则认定该初始样本图像无效,最后将拼接好的初始样本图像缩放到设定尺度,即可完成图像拼接处理。图像平移处理可以为,对初始样本图像进行上下左右平移,平移大小可以预设。图像裁剪处理可以为,对初始样本图像进行随机区域裁剪,在这过程中有些初始样本图像可能会被截断,则可以依据上述处理截断现象的方式确定保留的初始样本图像,再将初始样本图像固定到特定尺度。图像翻转处理可以为,将初始样本图像进行上下左右的随机翻转。图像旋转处理可以为,对输入初始样本图像进行随机旋转,旋转的角度范围可以预设,如预设为顺时针或逆时针旋转,且旋转角度小于44度。图4为一种初始样本图像示意图,图5为一种样本图像示意图,如图4所示的初始样本图像经过固定图像尺度处理、图像拼接处理以及图像旋转处理等处理,可以得到的样本图像如图5所示。
其中,所述对所述初始样本图像进行预设图像处理,得到样本图像,并根据所述预设图像处理过程更新初始样本标签,以确定样本标签包括:
若确定对所述初始样本图像进行图像旋转处理,则在执行所述旋转图像处理前,确定预设角度,其中,所述预设角度为预设角度集合中与所述图像旋转处理对应的旋转角度最接近的角度;将所述初始样本图像旋转至所述预设角度对应的第一位置,并按照预设排序方式确定第一角点坐标的第一顺序,其中,所述第一角点坐标为旋转所述预设角度后的预设初始真实框的角点的坐标,所述预设排序方式包括预设坐标轴的坐标的绝对值的大小排序;将所述初始样本图像恢复到旋转前的初始位置后,再将所述初始样本图像旋转至所述旋转角度对应的第二位置,将处于所述第二位置的初始样本图像确定为样本图像,并按照所述预设排序方式确定第二角点坐标的第二顺序,若所述第二顺序与所述第一顺序相同,则将所述预设角度对应的样本方向,确定为所述样本图像的样本标签中的样本方向标签。
示例性的,若初始样本图像处于正方向,图像旋转处理对应的旋转角度为93度,旋转方向为左方向,预设角度集合中包含90度、180度、270度以及360度,则预设角度为90度,旋转方向也为左方向。可以先将初始样本图像旋转至90度,并按照初始样本图像在预设坐标系中的角点坐标的横坐标的值从小到大排序,若此时初始样本图像在预设坐标系中的角点坐标的排序(第一顺序)为角点1、角点3、角点2以及角点4,则将初始样本图像恢复至原位置后,再将初始样本图像旋转至93度,并按照初始样本图像在预设坐标系中的角点坐标的横坐标的值从小到大排序。若此时初始样本图像在预设坐标系中的角点坐标的排序(第二顺序)仍为角点1、角点3、角点2以及角点4,则可以将旋转至90度对应的样本方向(左方向),确定为样本图像的样本方向标签。若第一顺序和第二顺序不同,且旋转角度大于预设角度,则可将旋转预设角度对应的样本方向的下一方向,确定为样本图像的样本方向标签,如左方向的下一方向为下方向,则下方向为样本方向标签。若第一顺序和第二顺序不同,且旋转角度小于预设角度,则可将旋转预设角度对应的样本方向的上一方向,确定为样本图像的样本方向标签,如左方向的上一方向为正方向,则上方向为样本方向标签。
可选的,也可以不预先设定预设角度集合,而是计算图像旋转处理对应的旋转角度与预设角度,如90度,商值的模值,然后将初始样本图像旋转至预设角度与该模值的乘积对应的设定角度,并按照预设排序方式确定第三角点坐标的第三顺序,将初始样本图像恢复到旋转前的初始位置后,再将初始样本图像旋转至旋转角度对应的位置,以得到样本图像,并按照预设排序方式确定第四角点坐标的第四顺序,若第四顺序与第三顺序相同,则将设定角度对应的样本方向,确定为样本图像的样本标签中的样本方向标签。
上述这样设置的好处在于,通过对初始样本图像的预设图像处理和对样本标签的纠正,既保证了样本图像的多样性,还保证了样本标签的准确性,实现了对预设特征提取模型精度的提升。
S202、将所述第一特征图输入所述第二子模型中,利用所述第二子模型对深层特征图进行第二卷积处理后,对第二卷积处理结果进行第一上采样处理,并拼接第一上采样结果和中层特征图,得到第一拼接特征。
示例性的,若3个第一特征图分别为c3、c4和c5,c3为以8倍的下采样确定的浅层特征图,c4为以16倍的下采样确定的中层特征图,c5为以32倍的下采样确定的深层特征图,则可以利用第二子模型对深层特征图进行第二卷积处理,得到精细的第二卷积处理结果p4,然后对p4进行第一上采样处理,得到的第一上采样结果与中层特征图的尺度相同,可以拼接第一上采样结果和中层特征图,得到第一拼接特征。
S203、对所述第一拼接特征进行第三卷积处理后,对第三卷积处理结果进行第二上采样处理,并拼接第二上采样结果和浅层特征图,得到第二拼接特征。
示例性的,对得到的第一拼接特征进行第三卷积处理后,可以得到第三卷积处理结果p3,然后对p3进行第二上采样处理,得到的第二上采样结果与浅层特征图的尺度相同,可以拼接第二上采样结果和浅层特征图,得到第二拼接特征。
S204、对所述第二拼接特征进行第四卷积处理后,对第四卷积处理结果进行第五卷积处理,并拼接第五卷积处理结果和所述第三卷积处理结果,得到第三拼接特征。
示例性的,对得到的第二拼接特征进行第四卷积处理后,可以得到第四卷积处理结果h3,然后对h3进行第五卷积处理,得到的第五卷积处理结果与p3的尺度相同,可以拼接第五卷积处理结果和p3,得到第三拼接特征。
S205、对所述第三拼接特征进行第六卷积处理后,对第六卷积处理结果进行第七卷积处理,拼接第七卷积处理结果和所述第二卷积处理结果,得到第四拼接特征,并对所述第四拼接特征进行第八卷积处理后,得到第八卷积处理结果。
其中,第二特征图包括所述第四卷积处理结果、第六卷积处理结果以及第八卷积处理结果。
示例性的,对得到的第三拼接特征进行第六卷积处理后,可以得到第六卷积处理结果h4,然后对h3进行第七卷积处理,得到的第七卷积处理结果与p4的尺度相同,可以拼接第七卷积处理结果和p4,得到第四拼接特征,对得到的第四拼接特征进行第八卷积处理后,可以得到第八卷积处理结果h5,从而得到了第二特征图h3、第二特征图h4以及第二特征图h5。
S206、将第二特征图输入所述第三子模型中,针对每个所述第二特征图,利用所述第三子模型,对当前第二特征图进行第九卷积处理,得到待识别目标的检测框的目标信息。
示例性的,如上文所述,将h3、h4以及h5输入第三子模型中,针对每个第二特征图,利用第三子模型,对当前第二特征图进行第九卷积处理,可以得到待识别目标的检测框的目标信息。
S207、利用非极大值抑制算法对所述检测框的目标信息进行筛选,以确定目标检测框的目标位置、目标方向以及目标偏转角度。
具体的,由于第二特征图中可以包含多个待识别目标的多个检测框,故需要对检测框进行筛选,利用非极大值抑制算法,可以将冗余的检测框剔除,如将类别置信度过低的检测框剔除,从而获取到目标检测框,目标检测框的位置信息即为目标位置,目标检测框的类别置信度对应的类别即为目标类别,目标检测框的方向置信度对应的方向即为目标方向,目标检测框的偏转角度置信度对应的偏转角度即为目标偏转角度。
示例性的,非极大值抑制算法对应的筛选步骤可以为:1)使用分类得分阈值过滤掉类别置信度低于该阈值的检测框,2)对保留下来的预测框的类别置信度进行排序,确定出最大类别置信度及其对应的第一检测框,3)遍历除第一检测框外剩余的检测框,如果当前检测框和第一检测框的旋转交并比值大于设定的交并比阈值,则删除该当前检测框,保留第一检测框,4)重复步骤2)过程。
S208、根据所述目标位置、目标方向以及目标偏转角度,在所述初始图像中裁剪出所述目标检测框对应的图像,以得到所述待识别目标的目标图像。
具体的,图6为一种目标检测框的示意图,图6中包含四个图像,每个图像中的矩形框为检测框,左边一列的图像中的检测框为传统的图像检测算法生成的传统检测框,右边一列的图像中的检测框为根据本方法生成的目标检测框,可以明显看出目标检测框框定待识别目标的准确度比传统检测框更高,即本方法对待识别目标的识别效果优于传统方法。可以根据目标位置和目标偏转角度,将目标检测框从初始图像中裁剪出来,并根据目标偏转角度,对目标检测框对应的图像进行方向纠正,将该图像旋转至正方向,从而得到目标图像。
本发明实施例提供的目标图像的智能识别方法,首先利用预设特征提取模型的第一子模型处理初始图像,可以得到不同尺度的第一特征图,然后再利用基于特征金字塔网络构建的第二子模型,对第一特征图进行多次卷积处理,使不同尺度的第一特征图与卷积处理结果尺度对齐,并对它们进行拼接,从而可以得到与第一特征图尺度一致的精细特征(第二特征图),最后将所有的第二特征图输入第三子模型中,即可得到初始图像中待识别目标的目标信息,利用非极大值抑制算法对该目标信息进行筛选,从而确定目标检测框及其对应的目标图像,通过利用本方法中轻量型的特征提取模型对初始图像的处理,能够实现对不同场景下,对任意方向的待识别目标的进行检测和分类,并对待识别目标的图像的方向进行纠偏,极大地提升了图像识别的工作效率。
实施例三
图7为本发明实施例三提供的一种目标图像的智能识别装置的结构示意图。如图7所示,该装置包括:第一特征图确定模块301、第二特征图确定模块302以及目标图像确定模块303,其中:
第一特征图确定模块,用于将初始图像输入预设特征提取模型的第一子模型中,得到至少三个不同尺度的第一特征图,其中,所述预设特征提取模型中至少包含所述第一子模型、第二子模型以及第三子模型;
第二特征图确定模块,用于将所述第一特征图输入所述第二子模型中,得到至少三个不同尺度的第二特征图,其中,所述第二子模型基于特征金字塔网络构建;
目标图像确定模块,用于将所述第二特征图输入所述第三子模型中,得到待识别目标的目标信息,并根据所述目标信息,从所述初始图像中确定所述待识别目标的目标图像,其中,所述目标信息包括位置信息、类别置信度、方向置信度以及偏转角度置信度。
本发明实施例提供的目标图像的智能识别装置,首先利用预设特征提取模型的第一子模型处理初始图像,可以得到初始图像的不同尺度的特征(第一特征图),然后再利用基于特征金字塔网络构建的第二子模型处理该特征,可以得到初始图像的不同尺度的精细特征(第二特征图),最后将所有的第二特征图输入第三子模型中,即可得到初始图像中待识别目标的目标信息,根据该目标信息即可确定待识别目标的目标图像,与传统的复杂的图像检测装置相比,本装置中使用的轻量级模型(预设特征提取模型)适用于算力有限的电子设备,如手机等,在图像识别的速度和精度方面达到了平衡,利用该预设特征提取模型可以快速且准确的确定各种简单或复杂场景中的待识别目标的图像,解决了在复杂场景中图像识别效果不佳的问题。
可选的,所述第一子模型中至少包括卷积层、批量标准化层、激活函数层以及池化层。
可选的,第一特征图确定模块包括:
特征图确定单元,用于将所述初始图像输入卷积层、批量标准化层以及激活函数层,得到尺度互不相同的浅层特征图、中层特征图和初始深层特征图;
池化处理单元,用于对所述初始深层特征图进行第一卷积处理后,再对第一卷积处理结果进行池化处理,得到多个不同尺度的池化处理结果,其中,所述初始深层特征图的尺度小于所述浅层特征图和所述中层特征图;
拼接单元,用于拼接所述多个不同尺度的池化处理结果,得到深层特征图,其中,所述第一特征图包含所述深层特征图、所述浅层特征图和所述中层特征图。
可选的,第二特征图确定模块包括:
第一拼接特征确定单元,用于将所述第一特征图输入所述第二子模型中,利用所述第二子模型对所述深层特征图进行第二卷积处理后,对第二卷积处理结果进行第一上采样处理,并拼接第一上采样结果和所述中层特征图,得到第一拼接特征;
第二拼接特征确定单元,用于对所述第一拼接特征进行第三卷积处理后,对第三卷积处理结果进行第二上采样处理,并拼接第二上采样结果和所述浅层特征图,得到第二拼接特征;
第三拼接特征确定单元,用于对所述第二拼接特征进行第四卷积处理后,对第四卷积处理结果进行第五卷积处理,并拼接第五卷积处理结果和所述第三卷积处理结果,得到第三拼接特征;
第二特征图确定单元,用于对所述第三拼接特征进行第六卷积处理后,对第六卷积处理结果进行第七卷积处理,拼接第七卷积处理结果和所述第二卷积处理结果,得到第四拼接特征,并对所述第四拼接特征进行第八卷积处理后,得到第八卷积处理结果,其中,第二特征图包括所述第四卷积处理结果、第六卷积处理结果以及第八卷积处理结果。
可选的,目标图像确定模块包括:
目标信息确定单元,用于将所述第二特征图输入所述第三子模型中,针对每个所述第二特征图,利用所述第三子模型,对当前第二特征图进行第九卷积处理,得到待识别目标的检测框的目标信息;
筛选单元,用于利用非极大值抑制算法对所述检测框的目标信息进行筛选,以确定目标检测框的目标位置、目标方向以及目标偏转角度;
目标图像确定单元,用于根据所述目标位置、目标方向以及目标偏转角度,在所述初始图像中裁剪出所述目标检测框对应的图像,以得到所述待识别目标的目标图像。
可选的,所述预设特征提取模型的确定方式包括:获取含有预设真实框的样本图像,其中,所述样本图像中至少含有一个样本目标图像,所述预设真实框用于框定所述样本目标图像,所述预设真实框配置有样本标签;将所述样本图像输入预设初始模型的第一初始子模型中,得到至少三个不同尺度的第一样本特征图,其中,所述预设初始模型中至少包含所述第一初始子模型、第二初始子模型以及第三初始子模型;将所述第一样本特征图输入所述第二初始子模型中,得到至少三个不同尺度的第二样本特征图,其中,所述第二初始子模型基于特征金字塔网络构建;将所述第二样本特征图输入所述第三初始子模型中,得到待识别样本目标的样本检测框的样本目标信息,其中,所述样本目标信息包括样本位置信息、样本类别置信度、样本方向置信度以及样本偏转角度置信度;根据所述样本目标信息和所述样本标签,确定损失函数,并利用所述损失函数训练所述预设初始模型,以得到预设特征提取模型。
可选的,在所述获取含有预设真实框的样本图像之前,还包括:获取含有预设初始真实框的初始样本图像,其中,所述初始样本图像中至少含有一个初始样本目标图像,所述预设初始真实框用于框定所述初始样本目标图像,所述预设初始真实框配置有初始样本标签,所述初始样本标签中包含有初始样本方向标签;对所述初始样本图像进行预设图像处理,得到样本图像,并根据所述预设图像处理的处理过程更新初始样本标签,以确定样本标签;其中,所述对所述初始样本图像进行预设图像处理,得到样本图像,并根据所述预设图像处理过程更新初始样本标签,以确定样本标签包括:若确定对所述初始样本图像进行图像旋转处理,则在执行所述旋转图像处理前,确定预设角度,其中,所述预设角度为预设角度集合中与所述图像旋转处理对应的旋转角度最接近的角度;将所述初始样本图像旋转至所述预设角度对应的第一位置,并按照预设排序方式确定第一角点坐标的第一顺序,其中,所述第一角点坐标为旋转所述预设角度后的预设初始真实框的角点的坐标,所述预设排序方式包括预设坐标轴的坐标的绝对值的大小排序;将所述初始样本图像恢复到旋转前的初始位置后,再将所述初始样本图像旋转至所述旋转角度对应的第二位置,将处于所述第二位置的初始样本图像确定为样本图像,并按照所述预设排序方式确定第二角点坐标的第二顺序,若所述第二顺序与所述第一顺序相同,则将所述预设角度对应的样本方向,确定为所述样本图像的样本标签中的样本方向标签。
进一步的,所述损失函数包括:回归损失函数、置信度损失函数、类别损失函数、角度损失函数以及方向损失函数,所述回归损失函数基于所述样本检测框和所述预设真实框的交并比,以及所述样本检测框和所述预设真实框的最小凸闭合框的面积确定。
本发明实施例所提供的目标图像的智能识别装置可执行本发明任意实施例所提供的目标图像的智能识别方法,具备执行方法相应的功能模块和有益效果。
实施例四
图8示出了可以用来实施本发明的实施例的电子设备40的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图8所示,电子设备40包括至少一个处理器41,以及与至少一个处理器41通信连接的存储器,如只读存储器(ROM)42、随机访问存储器(RAM)43等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器41可以根据存储在只读存储器(ROM)42中的计算机程序或者从存储单元48加载到随机访问存储器(RAM)43中的计算机程序,来执行各种适当的动作和处理。在RAM 43中,还可存储电子设备40操作所需的各种程序和数据。处理器41、ROM 42以及RAM 43通过总线44彼此相连。输入/输出(I/O)接口45也连接至总线44。
电子设备40中的多个部件连接至I/O接口45,包括:输入单元46,例如键盘、鼠标等;输出单元47,例如各种类型的显示器、扬声器等;存储单元48,例如磁盘、光盘等;以及通信单元49,例如网卡、调制解调器、无线通信收发机等。通信单元49允许电子设备40通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器41可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器41的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器41执行上文所描述的各个方法和处理,例如目标图像的智能识别方法。
在一些实施例中,目标图像的智能识别方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元48。在一些实施例中,计算机程序的部分或者全部可以经由ROM 42和/或通信单元49而被载入和/或安装到电子设备40上。当计算机程序加载到RAM 43并由处理器41执行时,可以执行上文描述的目标图像的智能识别方法的一个或多个步骤。备选地,在其他实施例中,处理器41可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行目标图像的智能识别方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
上述提供的计算机设备可用于执行上述任意实施例提供的目标图像的智能识别方法,具备相应的功能和有益效果。
实施例五
在本发明的上下文中,计算机可读存储介质可以是有形的介质,所述计算机可执行指令在由计算机处理器执行时用于执行目标图像的智能识别方法,该方法包括:
将初始图像输入预设特征提取模型的第一子模型中,得到至少三个不同尺度的第一特征图,其中,所述预设特征提取模型中至少包含所述第一子模型、第二子模型以及第三子模型;
将所述第一特征图输入所述第二子模型中,得到至少三个不同尺度的第二特征图,其中,所述第二子模型基于特征金字塔网络构建;
将所述第二特征图输入所述第三子模型中,得到待识别目标的目标信息,并根据所述目标信息,从所述初始图像中确定所述待识别目标的目标图像,其中,所述目标信息包括位置信息、类别置信度、方向置信度以及偏转角度置信度。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
上述提供的计算机设备可用于执行上述任意实施例提供的目标图像的智能识别方法,具备相应的功能和有益效果。
值得注意的是,上述目标图像的智能识别装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种目标图像的智能识别方法,其特征在于,包括:
将初始图像输入预设特征提取模型的第一子模型中,得到至少三个不同尺度的第一特征图,其中,所述预设特征提取模型中至少包含所述第一子模型、第二子模型以及第三子模型;
将所述第一特征图输入所述第二子模型中,得到至少三个不同尺度的第二特征图,其中,所述第二子模型基于特征金字塔网络构建;
将所述第二特征图输入所述第三子模型中,得到待识别目标的目标信息,并根据所述目标信息,从所述初始图像中确定所述待识别目标的目标图像,其中,所述目标信息包括位置信息、类别置信度、方向置信度以及偏转角度置信度。
2.根据权利要求1所述的方法,其特征在于,所述第一子模型中至少包括卷积层、批量标准化层、激活函数层以及池化层;其中,所述将所述初始图像输入预设特征提取模型的第一子模型中,得到至少三个不同尺度的第一特征图,包括:
将所述初始图像输入卷积层、批量标准化层以及激活函数层,得到尺度互不相同的浅层特征图、中层特征图和初始深层特征图;
对所述初始深层特征图进行第一卷积处理后,再对第一卷积处理结果进行池化处理,得到多个不同尺度的池化处理结果,其中,所述初始深层特征图的尺度小于所述浅层特征图和所述中层特征图;
拼接所述多个不同尺度的池化处理结果,得到深层特征图,其中,所述第一特征图包含所述深层特征图、所述浅层特征图和所述中层特征图。
3.根据权利要求2所述的方法,其特征在于,所述将所述第一特征图输入所述第二子模型中,得到至少三个不同尺度的第二特征图,包括:
将所述第一特征图输入所述第二子模型中,利用所述第二子模型对所述深层特征图进行第二卷积处理后,对第二卷积处理结果进行第一上采样处理,并拼接第一上采样结果和所述中层特征图,得到第一拼接特征;
对所述第一拼接特征进行第三卷积处理后,对第三卷积处理结果进行第二上采样处理,并拼接第二上采样结果和所述浅层特征图,得到第二拼接特征;
对所述第二拼接特征进行第四卷积处理后,对第四卷积处理结果进行第五卷积处理,并拼接第五卷积处理结果和所述第三卷积处理结果,得到第三拼接特征;
对所述第三拼接特征进行第六卷积处理后,对第六卷积处理结果进行第七卷积处理,拼接第七卷积处理结果和所述第二卷积处理结果,得到第四拼接特征,并对所述第四拼接特征进行第八卷积处理后,得到第八卷积处理结果,其中,第二特征图包括所述第四卷积处理结果、第六卷积处理结果以及第八卷积处理结果。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述将所述第二特征图输入所述第三子模型中,得到待识别目标的目标信息,并根据所述目标信息,从所述初始图像中确定所述待识别目标的目标图像,包括:
将所述第二特征图输入所述第三子模型中,针对每个所述第二特征图,利用所述第三子模型,对当前第二特征图进行第九卷积处理,得到待识别目标的检测框的目标信息;
利用非极大值抑制算法对所述检测框的目标信息进行筛选,以确定目标检测框的目标位置、目标方向以及目标偏转角度;
根据所述目标位置、目标方向以及目标偏转角度,在所述初始图像中裁剪出所述目标检测框对应的图像,以得到所述待识别目标的目标图像。
5.根据权利要求1所述的方法,其特征在于,所述预设特征提取模型的确定方式包括:
获取含有预设真实框的样本图像,其中,所述样本图像中至少含有一个样本目标图像,所述预设真实框用于框定所述样本目标图像,所述预设真实框配置有样本标签;
将所述样本图像输入预设初始模型的第一初始子模型中,得到至少三个不同尺度的第一样本特征图,其中,所述预设初始模型中至少包含所述第一初始子模型、第二初始子模型以及第三初始子模型;
将所述第一样本特征图输入所述第二初始子模型中,得到至少三个不同尺度的第二样本特征图,其中,所述第二初始子模型基于特征金字塔网络构建;
将所述第二样本特征图输入所述第三初始子模型中,得到待识别样本目标的样本检测框的样本目标信息,其中,所述样本目标信息包括样本位置信息、样本类别置信度、样本方向置信度以及样本偏转角度置信度;
根据所述样本目标信息和所述样本标签,确定损失函数,并利用所述损失函数训练所述预设初始模型,以得到预设特征提取模型。
6.根据权利要求5所述的方法,其特征在于,在所述获取含有预设真实框的样本图像之前,还包括:
获取含有预设初始真实框的初始样本图像,其中,所述初始样本图像中至少含有一个初始样本目标图像,所述预设初始真实框用于框定所述初始样本目标图像,所述预设初始真实框配置有初始样本标签,所述初始样本标签中包含有初始样本方向标签;
对所述初始样本图像进行预设图像处理,得到样本图像,并根据所述预设图像处理的处理过程更新初始样本标签,以确定样本标签;
其中,所述对所述初始样本图像进行预设图像处理,得到样本图像,并根据所述预设图像处理过程更新初始样本标签,以确定样本标签包括:
若确定对所述初始样本图像进行图像旋转处理,则在执行所述旋转图像处理前,确定预设角度,其中,所述预设角度为预设角度集合中与所述图像旋转处理对应的旋转角度最接近的角度;
将所述初始样本图像旋转至所述预设角度对应的第一位置,并按照预设排序方式确定第一角点坐标的第一顺序,其中,所述第一角点坐标为旋转所述预设角度后的预设初始真实框的角点的坐标,所述预设排序方式包括预设坐标轴的坐标的绝对值的大小排序;
将所述初始样本图像恢复到旋转前的初始位置后,再将所述初始样本图像旋转至所述旋转角度对应的第二位置,将处于所述第二位置的初始样本图像确定为样本图像,并按照所述预设排序方式确定第二角点坐标的第二顺序,若所述第二顺序与所述第一顺序相同,则将所述预设角度对应的样本方向,确定为所述样本图像的样本标签中的样本方向标签。
7.根据权利要求5所述的方法,其特征在于,所述损失函数包括:回归损失函数、置信度损失函数、类别损失函数、角度损失函数以及方向损失函数,所述回归损失函数基于所述样本检测框和所述预设真实框的交并比,以及所述样本检测框和所述预设真实框的最小凸闭合框的面积确定。
8.一种目标图像的智能识别装置,其特征在于,包括:
第一特征图确定模块,用于将初始图像输入预设特征提取模型的第一子模型中,得到至少三个不同尺度的第一特征图,其中,所述预设特征提取模型中至少包含所述第一子模型、第二子模型以及第三子模型;
第二特征图确定模块,用于将所述第一特征图输入所述第二子模型中,得到至少三个不同尺度的第二特征图,其中,所述第二子模型基于特征金字塔网络构建;
目标图像确定模块,用于将所述第二特征图输入所述第三子模型中,得到待识别目标的目标信息,并根据所述目标信息,从所述初始图像中确定所述待识别目标的目标图像,其中,所述目标信息包括位置信息、类别置信度、方向置信度以及偏转角度置信度。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的目标图像的智能识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的目标图像的智能识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211575082.3A CN115937537A (zh) | 2022-12-08 | 2022-12-08 | 一种目标图像的智能识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211575082.3A CN115937537A (zh) | 2022-12-08 | 2022-12-08 | 一种目标图像的智能识别方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115937537A true CN115937537A (zh) | 2023-04-07 |
Family
ID=86553403
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211575082.3A Pending CN115937537A (zh) | 2022-12-08 | 2022-12-08 | 一种目标图像的智能识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115937537A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116994002A (zh) * | 2023-09-25 | 2023-11-03 | 杭州安脉盛智能技术有限公司 | 一种图像特征提取方法、装置、设备及存储介质 |
-
2022
- 2022-12-08 CN CN202211575082.3A patent/CN115937537A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116994002A (zh) * | 2023-09-25 | 2023-11-03 | 杭州安脉盛智能技术有限公司 | 一种图像特征提取方法、装置、设备及存储介质 |
CN116994002B (zh) * | 2023-09-25 | 2023-12-19 | 杭州安脉盛智能技术有限公司 | 一种图像特征提取方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020221013A1 (zh) | 一种图像处理方法、装置、电子设备以及存储介质 | |
WO2020199468A1 (zh) | 图像分类方法、装置及计算机可读存储介质 | |
CN111583097A (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
CN113139543B (zh) | 目标对象检测模型的训练方法、目标对象检测方法和设备 | |
CN112651438A (zh) | 多类别图像的分类方法、装置、终端设备和存储介质 | |
CN114550177B (zh) | 图像处理的方法、文本识别方法及装置 | |
CN109886159B (zh) | 一种非限定条件下的人脸检测方法 | |
CN110751154B (zh) | 一种基于像素级分割的复杂环境多形状文本检测方法 | |
US20240193923A1 (en) | Method of training target object detection model, method of detecting target object, electronic device and storage medium | |
CN112989995B (zh) | 文本检测方法、装置及电子设备 | |
CN111680690A (zh) | 一种文字识别方法及装置 | |
CN113239807B (zh) | 训练票据识别模型和票据识别的方法和装置 | |
CN111583381A (zh) | 游戏资源图的渲染方法、装置及电子设备 | |
CN115937537A (zh) | 一种目标图像的智能识别方法、装置、设备及存储介质 | |
CN116740355A (zh) | 自动驾驶图像的分割方法、装置、设备及存储介质 | |
CN114283343A (zh) | 基于遥感卫星图像的地图更新方法、训练方法和设备 | |
CN113378837A (zh) | 车牌遮挡识别方法、装置、电子设备和存储介质 | |
CN115620321B (zh) | 表格识别方法及装置、电子设备和存储介质 | |
CN115345895B (zh) | 用于视觉检测的图像分割方法、装置、计算机设备及介质 | |
CN116091709A (zh) | 建筑物的三维重建方法、装置、电子设备和存储介质 | |
CN115761698A (zh) | 一种目标检测方法、装置、设备及存储介质 | |
CN113361535B (zh) | 图像分割模型训练、图像分割方法及相关装置 | |
CN115601616A (zh) | 一种样本数据生成方法、装置、电子设备和存储介质 | |
CN114511862A (zh) | 表格识别方法、装置及电子设备 | |
CN114120305A (zh) | 文本分类模型的训练方法、文本内容的识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |