CN111126258A - 图像识别方法及相关装置 - Google Patents

图像识别方法及相关装置 Download PDF

Info

Publication number
CN111126258A
CN111126258A CN201911337591.0A CN201911337591A CN111126258A CN 111126258 A CN111126258 A CN 111126258A CN 201911337591 A CN201911337591 A CN 201911337591A CN 111126258 A CN111126258 A CN 111126258A
Authority
CN
China
Prior art keywords
feature maps
feature
target
attention
maps
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911337591.0A
Other languages
English (en)
Other versions
CN111126258B (zh
Inventor
贺武
陈微
张鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHENZHEN HARZONE TECHNOLOGY CO LTD
Original Assignee
SHENZHEN HARZONE TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHENZHEN HARZONE TECHNOLOGY CO LTD filed Critical SHENZHEN HARZONE TECHNOLOGY CO LTD
Priority to CN201911337591.0A priority Critical patent/CN111126258B/zh
Publication of CN111126258A publication Critical patent/CN111126258A/zh
Application granted granted Critical
Publication of CN111126258B publication Critical patent/CN111126258B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • G06V20/584Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of vehicle lights or traffic lights
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/625License plates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开了一种图像识别方法及相关装置,方法包括:获取目标图像,将目标图像输入到主干网络进行特征提取,得到不同尺度下的多个第一特征图,通过多个第一特征图进行后处理,得到至少一个目标,确定多个第一特征图对应的空间注意力特征图,得到多个第一空间注意力特征图,依据多个第一空间注意力特征图确定第一感兴趣区域特征图,将第一感兴趣区域特征图输入到主干网络进行特征提取,得到不同尺度下的多个第二特征图,通过多个第二特征图进行目标属性识别确定至少一个目标属性,将至少一个目标和至少一个目标属性作为目标图像识别结果。采用本申请实施例能够提升图像识别精度和速度。

Description

图像识别方法及相关装置
技术领域
本申请涉及图像处理技术领域,具体涉及一种图像识别方法及相关装置。
背景技术
随着社会的发展,城市汽车数量不断攀升,由此带来的交通和环境问题也日渐加剧。为了应对这些问题,智能交通***已成为城市发展的重点研究对象。而在智能交通***中,对于车辆的检索,已经被证明是一项关键技术,在处理包括***、故意遮挡车牌和追踪肇事逃逸等等交通问题上有着得天独厚的优势,对于智能交通***的建设具有重要的意义,因此,如何提升交通场景的图像识别精度和速度的问题亟待解决。
发明内容
本申请实施例提供了一种图像识别方法及相关装置,可以提升交通场景的图像识别精度和速度。
第一方面,本申请实施例提供一种图像识别方法,应用于电子设备,所述方法包括:
获取目标图像;
将所述目标图像输入到主干网络进行特征提取,得到不同尺度下的多个第一特征图,所述主干网络的每一尺度所在层均为通过通道注意力模块进行自注意力蒸馏学习以及所述主干网络的每一尺度所在层均为通过空间注意力模块进行特征融合提取;
通过所述多个第一特征图进行后处理,得到至少一个目标;
确定所述多个第一特征图对应的空间注意力特征图,得到多个第一空间注意力特征图;
依据所述多个第一空间注意力特征图确定第一感兴趣区域特征图;
将所述第一感兴趣区域特征图输入到所述主干网络进行特征提取,得到不同尺度下的多个第二特征图;
通过所述多个第二特征图进行目标属性识别确定至少一个目标属性;
将所述至少一个目标和所述至少一个目标属性作为目标图像识别结果。
第二方面,本申请实施例提供了一种图像识别装置,应用于电子设备,所述装置包括:获取单元、提取单元、处理单元和确定单元,其中,
所述获取单元,用于获取目标图像;
所述提取单元,用于将所述目标图像输入到主干网络进行特征提取,得到不同尺度下的多个第一特征图,所述主干网络的每一尺度所在层均为通过通道注意力模块进行自注意力蒸馏学习以及所述主干网络的每一尺度所在层均为通过空间注意力模块进行特征融合提取;
所述处理单元,用于通过所述多个第一特征图进行后处理,得到至少一个目标;
所述确定单元,用于确定所述多个第一特征图对应的空间注意力特征图,得到多个第一空间注意力特征图;
所述确定单元,还用于依据所述多个第一空间注意力特征图确定第一感兴趣区域特征图;
所述提取单元,还用于将所述第一感兴趣区域特征图输入到所述主干网络进行特征提取,得到不同尺度下的多个第二特征图;
所述确定单元,还用于通过所述多个第二特征图进行目标属性识别确定至少一个目标属性;以及将所述至少一个目标和所述至少一个目标属性作为目标图像识别结果。
第三方面,本申请实施例提供一种电子设备,包括处理器、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,上述程序包括用于执行本申请实施例第一方面中的步骤的指令。
第四方面,本申请实施例提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。
第五方面,本申请实施例提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
实施本申请实施例,具备如下有益效果:
可以看出,本申请实施例中所描述的图像识别方法及相关装置,应用于电子设备,获取目标图像,将目标图像输入到主干网络进行特征提取,得到不同尺度下的多个第一特征图,主干网络的每一尺度所在层均为通过通道注意力模块进行自注意力蒸馏学习以及主干网络的每一尺度所在层均为通过空间注意力模块进行特征融合提取,通过多个第一特征图进行后处理,得到至少一个目标,确定多个第一特征图对应的空间注意力特征图,得到多个第一空间注意力特征图,依据多个第一空间注意力特征图确定第一感兴趣区域特征图,将第一感兴趣区域特征图输入到主干网络进行特征提取,得到不同尺度下的多个第二特征图,通过多个第二特征图进行目标属性识别确定至少一个目标属性,将至少一个目标和至少一个目标属性作为目标图像识别结果,如此,在目标检测过程中,由于主干网络被通道注意力模块自蒸馏学习,进而,可以通过多个特征图,深度提取细节信息,有助于提升目标检测精度,在属性识别过程中,通过提取感兴趣区域特征图,且该感兴趣区域特征图一方面降低了图像识别复杂度,另一方面,其能够提取多个感兴趣区域特征图的多尺度下的特征图,能够快速识别目标属性,能够提升交通场景的图像识别精度和速度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1A是本申请实施例提供的一种图像识别方法的流程示意图;
图1B是本申请实施例提供的通道注意力模块的结构示意图;
图1C是本申请实施例提供的空间注意力模块的结构示意图;
图1D是本申请实施例提供的另一种图像识别方法的流程示意图;
图2是本申请实施例提供的另一种图像识别方法的流程示意图;
图3是本申请实施例提供的另一种电子设备的结构示意图;
图4A是本申请实施例提供的一种图像识别装置的功能单元组成框图;
图4B是本申请实施例提供的另一种图像识别装置的功能单元组成框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请实施例所描述电子设备可以包括智能手机(如Android手机、iOS手机、Windows Phone手机等)、平板电脑、掌上电脑、行车记录仪、交通指挥平台、服务器、笔记本电脑、移动互联网设备(MID,Mobile Internet Devices)或穿戴式设备(如智能手表、蓝牙耳机)等,上述仅是举例,而非穷举,包含但不限于上述电子设备,电子设备还可以为视频矩阵或者监控平台,在此不做限定。
下面对本申请实施例进行详细介绍。
请参阅图1A,图1A是本申请实施例提供的一种图像识别方法的流程示意图,应用于电子设备,如图所示,本图像识别方法包括:
101、获取目标图像。
其中,上述目标图像可以为任一交通场景图像,或者,目标图像可以为仅包括目标的图像,该目标可以为行人或者车辆。例如,目标图像可以为行人图像和车辆图像。
在一个可能的示例中,在所述目标图像为目标车辆图像时,上述步骤101,获取目标图像,包括如下步骤:
11、获取目标环境参数;
12、按照预设的环境参数与拍摄参数之间的映射关系,确定所述目标环境参数对应的目标拍摄参数;
13、依据所述目标拍摄参数对目标车辆进行拍摄,得到第一图像;
14、对所述第一图像进行图像分割,得到所述目标图像。
其中,本申请实施例中,环境参数可以为以下至少一种:环境光亮度、天气、温度、湿度、地理位置和磁场干扰强度等等,在此不做限定,拍摄参数可以为以下至少一种:感光度ISO、曝光时长、白平衡参数、拍摄模式、色温等等,在此不做限定。其中,环境参数可以由环境传感器进行采集,环境传感器可以为以下至少一种:环境光传感器、气象传感器、温度传感器、湿度传感器、定位传感器和磁场检测传感器等等,在此不做限定。电子设备中可以预先存储预设的环境参数与拍摄参数之间的映射关系。
具体实现中,电子设备可以获取目标环境参数,并且按照预设的环境参数与拍摄参数之间的映射关系,确定目标环境参数对应的目标拍摄参数,进而,可以依据目标拍摄参数对目标车辆进行拍摄,得到第一图像,对第一图像进行图像分割,得到目标车辆图像,如此,不仅可以得到与环境相宜的拍摄图像,还能够基于此,提取仅包含目标车辆的图像,得到目标图像。
在上述步骤13-步骤14之间,还可以包括如下步骤:
A1、确定所述第一图像的图像质量评价值;
A2、在所述图像质量评价值低于预设阈值时,对所述第一图像进行图像增强处理;
上述步骤14,对所述第一图像进行图像分割,得到所述目标车辆图像,具体为:
对图像增强处理后的所述第一图像进行图像分割,得到目标车辆区域,将所述目标车辆区域对应的图像作为所述目标图像。
其中,具体实现中,可以采用至少一个图像质量评价指标对图像进行图像质量评价,图像质量评价指标可以为以下至少一种:平均亮度、清晰度、信息熵等等,在此不做限定。图像增强算法可以为以下至少一种:小波变换、图像锐化、灰度拉伸、直方图均衡化等等,在此不做限定。
具体实现中,电子设备可以确定第一图像的图像质量评价值,并且在图像质量评价值低于预设阈值时,对第一图像进行图像增强处理,并对图像增强处理后的所述第一图像进行图像分割,得到所述目标车辆图像,反之,在图像质量评价值大于或等于预设阈值时,则直接对该第一图像进行图像分割,得到目标车辆图像,如此,可以提升图像分割精度,便于后续人脸检测。
进一步地,在一个可能的示例中,上述步骤A2,对所述第一图像进行图像增强处理,可以包括如下步骤:
A21、将所述第一图像划分为多个区域;
A22、确定所述多个区域中每一区域的清晰度值,得到多个清晰度值;
A23、从所述多个清晰度值中选取低于预设清晰度值的清晰度值,并获取其对应的区域,得到至少一个目标区域;
A24、确定所述至少一个目标区域中每一区域对应的特征点分布密度,得到至少一个特征点分布密度;
A25、确定所述至少一个特征点分布密度对应的特征点分布密度等级,得到至少一个特征点密度分布等级;
A26、按照预设的特征点分布密度等级与图像增强算法之间的映射关系,确定所述至少一个特征点密度分布等级对应的目标图像增强算法;
A27、按照所述至少一个特征点密度分布等级对应的目标图像增强算法对相应的目标区域进行图像增强处理,得到图像增强处理后的所述第一图像。
其中,上述预设清晰度值可以由用户自行设置或者***默认。电子设备中可以预先存储预设的特征点分布密度等级与图像增强算法之间的映射关系,图像增强算法可以为以下至少一种:小波变换、图像锐化、灰度拉伸、直方图均衡化等等,在此不做限定。
具体实现中,电子设备可以将第一图像划分为多个区域,每一区域面积相同或者不同,还可以确定多个区域中每一区域的清晰度值,得到多个清晰度值,并从多个清晰度值中选取低于预设清晰度值的清晰度值,并获取其对应的区域,得到至少一个目标区域,进一步地,确定至少一个目标区域中每一区域对应的特征点分布密度,得到至少一个特征点分布密度,每一区域对应一个特征点分布密度,特征点分布密度=一个区域的特征点总数量/区域面积。电子设备中还可以预先存储确定特征点分布密度与特征点分布密度等级之间的映射关系,进而,依据该映射关系可以确定至少一个特征点分布密度中每一特征点分布密度对应的特征点分布密度等级,得到至少一个特征点密度分布等级。
进一步地,电子设备可以按照预设的特征点分布密度等级与图像增强算法之间的映射关系,确定至少一个特征点密度分布等级对应的目标图像增强算法,并且按照至少一个特征点密度分布等级对应的目标图像增强算法对相应的目标区域进行图像增强处理,得到图像增强处理后的第一图像,如此,可以防止图像质量好的区域过增强,并且图像质量不同区域有可能图像质量不一,如此,可以针对性实施图像增强,更加有助于提升图像质量。
102、将所述目标图像输入到主干网络进行特征提取,得到不同尺度下的多个第一特征图,所述主干网络的每一尺度所在层均为通过通道注意力模块进行自注意力蒸馏学习以及所述主干网络的每一尺度所在层均为通过空间注意力模块进行特征融合提取。
其中,本申请实施例中,主干网络可以为resnet、densenet、mobilenet等等,在此不做限定。电子设备可以将目标图像输入到主干网络进行特征提取,得到不同尺度下的多个第一特征图,主干网络的每一尺度所在层均为通过通道注意力模块进行自注意力蒸馏学习以及主干网络的每一尺度所在层均为通过空间注意力模块进行特征融合提取。例如,x2尺度对应的第一特征图、x4尺度对应的第一特征图、x8尺度对应的第一特征图、x16尺度对应的第一特征图,x32尺度对应的第一特征图等等。
本申请实施例中,通道注意力模块(channel attention module,CAM)的具体结构如图1B所示,可见,CAM模块可以主要由1*1卷积、最大响应缩减argmax、双线性上采样upsample和激活函数sigmoid组成,CAM模块借助argmax捕获全局语境并计算注意力向量以指导特征学习。
本申请实施例中,空间注意力模块(spatial attention module,SAM)结构如图1C所示,可见,SAM模块由全局平均池化global average pooling、点乘mul、最大响应缩减argmax和激活函数sigmoid组成,SAM模块保留丰富的空间特征,提取细粒度信息用于后续目标属性识别。
103、通过所述多个第一特征图进行后处理,得到至少一个目标。
其中,电子设备可以对主干网络输出的融合特征做后处理得到的目标坐标,具体地,特征转换成目标坐标的一个过程,类似解码,即类似做一个函数变换,即可以得到至少一个目标。
另外,本申请实施例中,目标可以为车或者行人,在此不做限定。具体实现中,电子设备可以通过多个第一特征图进行目标检测,得到至少一个目标,如此,由于多个第一特征图中包括大量细节信息,可以提升目标检测精度。
在一个可能的示例中,上述步骤103,通过所述多个第一特征图进行后处理,得到至少一个目标,包括:
通过目标神经网络模型将所述多个第一特征图进行后处理,得到所述至少一个目标;
所述目标神经网络模型包括BatchNorm层,且所述BatchNorm层已添加蒙版,实现|对抗稀疏训练,该稀疏训练用于所述目标神经网络模型剪枝压缩。
其中,本申请实施例中,电子设备可以将图像到目标神经网络模型,得到至少一个目标,目标神经网络模型包括BatchNorm层,且BatchNorm层已添加蒙版,蒙版用于实现对抗稀疏训练,该稀疏训练用于目标神经网络模型剪枝压缩。上述目标神经网络模型可以与主干网络的模型类似或者为主干网络。
具体地,电子设备可以对训练好的神经网络模型的BatchNorm层添加蒙版进行通道剪枝压缩,蒙版的作用在于正则化BatchNorm层权重和屏蔽对神经网络结果贡献低的通道,如下公式所示:
Βout=Θ(γΒ+β)
其中,Θ(.)表示蒙版向量,γ和β表示正则化系数。
进一步地,电子设备可以利用BatchNorm层梯度值和Relu层激活值的乘积作为通道重要性度量指标,很直观地,梯度值和激活值存在一种相关性,梯度值越大对权重的影响越大,如果通道的梯度值很小,即使当前激活值比较大,对后续损失函数的影响也不大,重要性相对也会降低。这比单纯对激活值进行重要性排序更加准确。根据重要性指标的排序结果按照一定比例,将蒙版中的值置为0,即裁剪该通道。为了使得裁剪的模型更具鲁棒性,我们使用两个样本作为神经网络的输入,一个正常样本,一个正常样本添加对抗扰动,利用对抗逼近损失使得两个样本的输入尽量逼近,从而达到增强神经网络鲁棒性的作用。这里引入同自蒸馏损失函数
Figure BDA0002331356230000091
类似的用于逼近两个样本的扰动的距离损失函数,如下公式所示:
Figure BDA0002331356230000092
其中,Fgt表示正常样本执行网络的输出特征值,Fgt+δ表示带扰动样本的输出特征值。||.||2表示二范数。
104、确定所述多个第一特征图对应的空间注意力特征图,得到多个第一空间注意力特征图。
其中,电子设备可以将多个第一特征图分别输入到空间注意力模块,得到多个第一空间注意力特征图,当然,在实现步骤104的过程中,可以深层的中间注意力特征图优化浅层中的空间注意力特征图。
具体地,例如,电子设备还可以将除了最后一层的第一特征图之外的图像输入到空间注意力模块,得到多个第一空间注意力模块。
105、依据所述多个第一空间注意力特征图确定第一感兴趣区域特征图。
具体实现中,电子设备可以依据多个第一空间注意力特征图确定第一感兴趣区域特征图,如此,可以快速实现目标属性识别。
在一个可能的示例中,上述步骤104-105,确定所述多个第一特征图对应的空间注意力特征图,得到多个第一空间注意力特征图,依据所述多个第一空间注意力特征图确定第一感兴趣区域特征图,包括:
51、对所述多个第一特征图进行分组操作,得到多组第一特征图;
52、对所述多组第一特征图中每一组第一特征图进行全局平均池化操作,得到多组重要性权重特征,每一组第一特征图对应一组重要性权重特征;
53、将所述多组第一特征图和所述多组重要性权重特征进行点乘mul运算,得到多组特征图;
54、将所述多组特征图进行最大响应缩减,得到多个单通道特征图;
55、将所述多个单通道特征图输入到激活函数,得到多个第一空间注意力特征图;
56、将所述多个第一空间注意力特征图进行concat操作,以融合为目标空间注意力特征图;
57、对所述目标空间注意力特征图进行感兴趣区域提取,得到所述第一感兴趣区域特征图。
具体实现中,电子设备可以对多个第一特征图进行分组操作,得到多组第一特征图,对多组第一特征图中每一组第一特征图进行全局平均池化操作,得到多组重要性权重特征,每一组第一特征图对应一组重要性权重特征,将多组第一特征图和多组重要性权重特征进行点乘mul运算,得到多组特征图,将多组特征图进行最大响应缩减,得到多个单通道特征图,将多个单通道特征图输入到激活函数sigmoid,得到多个第一空间注意力特征图,每一单通道特征图对应一个第一空间注意力特征图,将多个第一空间注意力特征图进行concat操作,以融合为目标空间注意力特征图,对目标空间注意力特征图进行感兴趣区域提取,得到第一感兴趣区域特征图。
具体实现中,可以将一批训练样本作为数据输入,数据由图像和标签组成。目标检测分支的输入由图像和坐标+类别,目标检测分支与常见检测网络的训练测试流程一致。而属性识别分支则不同,它的输入感兴趣区域特征图(ROIFM)和类别组成,ROIFM的获取,分两步,第一,由目标检测分支各级输出特征经过空间注意力通道缩减,由上至下逐级上采样融合特征生成空间融合注意力图;第二,接着对该空间融合注意力图做感兴趣区域提取和宽高缩放,为了保证目标特征的完整性,等比例适当扩大目标坐标,对该空间融合注意力图的目标坐标区域提取ROIFM。此外,ROIFM还经过注意力模块输出用于自蒸馏的注意力图,模拟学习识别网络的深层注意力图,形成相互正激励,获取最适合识别网络的目标特征区域。
进一步地,为了更好保持各级输出特征的空间特性,同时增强感兴趣区域目标的特征,我们对特征图进行分组操作,然后对每一组特征图做全局平均池化操作,输出值为每组的重要性权重,组数即为空间注意力特征图的通道数,然后将每组输入乘以权重还原特征图,再经过最大响应缩减得到单通道特征图,然后sigmoid操作得到概率图,将所有组形成空间注意力图,组数即为通道数。然后对n个(这里为4)注意力图进行融合,深层注意力图缩放为最大的一个特征图进行通道Concat操作。最后在该融合空间注意力特征图上进行ROI提取得到ROIFM。
106、将所述第一感兴趣区域特征图输入到所述主干网络进行特征提取,得到不同尺度下的多个第二特征图。
具体实现中,电子设备可以将第一感兴趣区域特征图输入到主干网络进行特征提取,得到不同尺度下的多个第二特征图,由于第一感兴趣区域特征图相当于添加了通道注意力模块和空间注意力模块的特性,因此,可以实现深度信息提取,第二特征图中可以包括更多的深层信息。例如,x4第二特征图、x8特征图、x16特征图,x32特征图等等。
107、通过所述多个第二特征图进行目标属性识别确定至少一个目标属性。
其中,本申请实施例中,目标属性行人属性,或者,车辆属性。行人属性可以为以下至少一种:行人外貌、行人穿着、行人行为、行人活动轨迹等等,在此不做限定,例如:行人的性别、衣服款式、衣服颜色、衣服纹理、有无背包、头发长短等几十乃至上百项属性。车辆属性可以为以下至少一种:车辆款式、车辆类型、车牌号码、车辆颜色、车架号等等,在此不做限定。具体实现中,电子设备可以将多个第二特征图输入到一个神经网络模型(例如,主干网络),得到至少一个目标属性。
108、将所述至少一个目标和所述至少一个目标属性作为目标图像识别结果。
具体实现中,电子设备可以将至少一个目标和至少一个目标属性作为目标图像识别结果,如此,能够实现车辆以及行人精准检测。
如图1D所示,本申请实施例,电子设备获取目标图像,将目标图像进行特征提取,得到多个特征图,通过多个特征图进行目标检测,得到至少一个目标,确定多个特征图对应的空间注意力特征图,得到多个空间注意力特征图,依据多个空间注意力特征图确定感兴趣区域特征图,对感兴趣区域特征图进行特征提取,得到多个提取后的特征图,依据多个提取后的特征图进行目标属性识别,得到至少一个目标属性,将至少一个目标和至少一个目标属性作为目标图像识别结果,其利用检测网络模型的丰富的共享特征作为识别网络的输入,对该目标共享特征进行分类识别,实现端到端检测识别的神经网络,同时采用注意力自蒸馏方法辅助神经网络更好的学习用于识别网络输入的特征,使得后续识别网络得到更加准确的细粒度识别结果。该端到端模型采用对抗性稀疏蒙版训练策略,实现硬件友好型的通道剪枝,且剪枝模型进行对抗调优训练,增加模型的鲁棒性。
在一个可能的示例中,上述步骤101之前,还可以包括如下步骤:
B1、获取第一训练集,所述第一训练集包括多个样本;
B2、对所述第一训练集的样本进行扰动操作,得到第二训练集;
B3、将所述第一训练集和所述第二训练集输入到预设神经网络模型,得到所述目标神经网络模型。
其中,上述预设神经网络模型可以由用户自行设置或者***默认。电子设备可以获取第一训练集,该第一训练集包括多个样本,对所述第一训练集的样本进行扰动操作,得到第二训练集,上述扰动操作,相当于给样本加噪,将第一训练集和第二训练集输入到预设神经网络模型进行对抗训练,得到目标神经网络模型。本申请实施例中,目标神经网络、预设神经网络均可以理解为主干网络。
进一步地,上述步骤B3,将所述第一训练集和第二训练集输入到预设神经网络进行对抗训练,得到所述目标神经网络模型,可以包括如下步骤:
B31、获取样本k,所述样本k为所述第一训练样本和第二训练样本中的任一样本;
B32、将所述样本k输入到所述主干网络,得到不同尺度下的多个第一尺度特征图;
B33、依据所述多个第一尺度特征图确定多个通道注意力特征图;
B34、依据所述多个通道注意力特征图进行自注意力蒸馏,以学习多尺度下的更加丰富的融合特征,并利用学习之后的所述多个通道注意力特征图优化所述主干网络;
和/或,
B35、确定所述多个第一尺度特征图对应的空间注意力特征图,得到多个第二空间注意力特征图;
B36、依据所述多个空间注意力特征图确定第二感兴趣区域特征图;
B37、将所述第二感兴趣区域特征图输入到所述主干网络进行特征提取,得到不同尺度下的多个第二尺度特征图;
B38、依据所述多个第二尺度特征图确定多个第二空间注意力特征图;
B39、依据所述多个第二空间注意力特征图进行特征融合提取,以学习局部细粒度特征,并利用特征融合提取后的所述多个第二空间注意力特征图优化所述主干网络。
具体实现中,以样本k为例,样本k为第一训练样本和第二训练样本中的任一样本,获取样本k,将样本k输入到主干网络,得到不同尺度下的多个第一尺度特征图,可以将多个第一尺度特征图输入到通道注意力模块,得到多个通道注意力特征图,进而,可以依据多个通道注意力特征图进行自注意力蒸馏,以学习多尺度下的更加丰富的融合特征,并利用学习之后的多个通道注意力特征图优化主干网络,如此,可以提升细节特征显著性,有助于提升后续目标检测精度。
进一步地,电子设备还可以确定多个第一尺度特征图输入到空间注意力模块,得到多个第二空间注意力特征图,依据多个空间注意力特征图确定第二感兴趣区域特征图,并将第二感兴趣区域特征图输入到主干网络进行特征提取,得到不同尺度下的多个第二尺度特征图,依据多个第二尺度特征图确定多个第二空间注意力特征图,依据多个第二空间注意力特征图进行特征融合提取,以学习局部细粒度特征,并利用学习后的多个第二空间注意力特征图优化主干网络,如此,如此,能够通过上一层对下一层网络进行指导,提升了不同层之间的关联性,有助于实现提取更多有价值的细节信息。经过通道注意力模块和空间注意力模块对主干网络进行优化,可以提升细节特征显著性,有助于提升后续目标检测精度。
进一步地,在一个可能的示例中,上述步骤B33,依据所述多个第一尺度特征图确定多个通道注意力特征图,包括:
将所述多个第一尺度特征图中每一第一尺度特征图输入到所述通道注意力模块,得到中间通道注意力特征图,并利用浅层的中间通道注意力特征图优化深层的中间通道注意力特征图,得到所述多个通道注意力特征图。
其中,具体实现中,电子设备可以将多个第一尺度特征图中每一第一尺度特征图输入到通道注意力模块,得到中间通道注意力特征图,并利用上层的中间通道注意力特征图优化下层的中间通道注意力特征图,得到多个通道注意力特征图,如此,能够通过上一层对下一层网络进行指导,提升了不同层之间的关联性,有助于实现提取更多有价值的细节信息。
进一步地,在一个可能的示例中,上述步骤,将所述多个第一尺度特征图中每一第一尺度特征图输入到所述通道注意力模块,得到中间通道注意力特征图,包括:
B331、将第一下尺度特征图a输入到1*1卷积层,得到第一中间结果,所述第一尺度特征图a为所述多个第一尺度特征图中的任一第一尺度特征图;
B332、将所述第一中间结果输入到所述通道注意力模块,得到第二中间结果;
B333、将所述第二中间结果以通道为轴进行最大缩减以及进行双线性上采样插值,得到第三中间结果;
B334、将所述第三中间结果进行sigmoid运算,得到所述第一下采样图像a对应的所述中间通道注意力特征图。
其中,以第一下尺度特征图a为例,第一下尺度特征图a为多个第一下尺度特征图中的任一第一下尺度特征图。本申请实施例中,电子设备可以将第一下尺度特征图a输入到1*1卷积层,得到第一中间结果,将第一中间结果输入到通道注意力模块,得到第二中间结果,再将第二中间结果以通道为轴进行最大缩减以及进行双线性差值,得到第三中间结果,最后,将第三中间结果进行sigmoid运算,得到第一下尺度特征图a对应的中间通道注意力特征图。
本申请实施例中,深度网络可以包括检测分支和识别分支,其检测分支和识别分支在每次下采样时,都额外输出特征到1*1卷积,然后,进入自蒸馏注意力融合模块,该过程包括对1*1卷积特征图以通道为轴进行最大响应缩减,然后,进行双线性插值来统一注意力图尺寸,最后进行sigmoid得到自蒸馏注意力图,具体操作下公式:
F(x)=S(U(gsum(x)))
其中,x表示上一层输出的特征图,gsum(x)表示注意力算子,U(.)表示双线性上采样插值算子,S(.)表示sigmoid算子。
其中,本申请实施例中,将深层自蒸馏注意力图作为教师,浅层自蒸馏注意力图作为学生,通过教师监督引导学生,学生可以密集连接多个教师,实现自蒸馏学习。与传统蒸馏方法不同在于教师网络来自于自身网络的不同层的注意力图,这样能够节省训练时间和显存,而从不同权重的教师那里学习模拟融合丰富的上下文信息,达到集成学习的效果。
进一步地,自蒸馏注意力模块可以只存在训练阶段,推理阶段将其移除,不会增加网络的计算复杂量。训练阶段为了能够学习模拟教师注意力图,本申请实施例,设计自蒸馏损失函数,让学生逼近教师的注意力图。在实践中,只需要将自蒸馏损失函数分别加到检测分支的损失函数和识别分支的损失函数中,跟常见的多任务学习一样,进行梯度下降训练,逐步收敛。
Figure BDA0002331356230000151
其中,Am表示第n次stride对应的特征图,m最大值通常为5,即下采样32倍;αm表示学生注意力图针对不同连接的教师注意力图的权重;
Figure BDA0002331356230000152
表示学生注意力图与教师注意力图的相似度,越相似损失值越小,通常使用2范数。
可以看出,本申请实施例中所描述的图像识别方法,应用于电子设备,获取目标图像,将目标图像输入到主干网络进行特征提取,得到不同尺度下的多个第一特征图,主干网络的每一尺度所在层均为通过通道注意力模块进行自注意力蒸馏学习以及主干网络的每一尺度所在层均为通过空间注意力模块进行特征融合提取,通过多个第一特征图进行后处理,得到至少一个目标,确定多个第一特征图对应的空间注意力特征图,得到多个第一空间注意力特征图,依据多个第一空间注意力特征图确定第一感兴趣区域特征图,将第一感兴趣区域特征图输入到主干网络进行特征提取,得到不同尺度下的多个第二特征图,通过多个第二特征图进行目标属性识别确定至少一个目标属性,将至少一个目标和至少一个目标属性作为目标图像识别结果,如此,在目标检测过程中,由于主干网络被通道注意力模块和空间注意力模块,自蒸馏学习,进而,可以通过多个特征图,深度提取细节信息,有助于提升目标检测精度,在属性识别过程中,通过提取感兴趣区域特征图,且该感兴趣区域特征图一方面降低了图像识别复杂度,另一方面,其能够提取多个感兴趣区域特征图的多尺度下的特征图,能够快速识别目标属性,能够提升交通场景的图像识别精度和速度。
与上述图1A所示的实施例一致地,请参阅图2,图2是本申请实施例提供的一种图像识别方法的流程示意图,应用于电子设备,如图所示,本图像识别方法包括:
201、获取待处理图像。
202、对所述待处理图像进行图像分割,得到目标区域图像,将包括所述目标区域图像的预设尺寸大小的图像作为目标图像。
203、将所述目标图像输入到主干网络进行特征提取,得到不同尺度下的多个第一特征图,所述主干网络的每一尺度所在层均为通过通道注意力模块进行自注意力蒸馏学习以及所述主干网络的每一尺度所在层均为通过空间注意力模块进行特征融合提取。
204、通过所述多个第一特征图进行后处理,得到至少一个目标。
205、确定所述多个第一特征图对应的空间注意力特征图,得到多个第一空间注意力特征图。
206、依据所述多个第一空间注意力特征图确定第一感兴趣区域特征图。
207、将所述第一感兴趣区域特征图输入到所述主干网络进行特征提取,得到不同尺度下的多个第二特征图。
208、通过所述多个第二特征图进行目标属性识别确定至少一个目标属性;
209、将所述至少一个目标和所述至少一个目标属性作为目标图像识别结果。
其中,上述预设尺寸大小可以由用户自行设置或者***默认。
其中,上述步骤201-步骤209的具体描述可以参照上述图1A所描述的图像识别方法的相应步骤,在此不再赘述。
可以看出,本申请实施例中所描述的图像识别方法,应用于电子设备,能够在目标检测过程中,由于主干网络被通道注意力模块和空间注意力模块,自蒸馏学习,进而,可以通过多个特征图,深度提取细节信息,有助于提升目标检测精度,在属性识别过程中,通过提取感兴趣区域特征图,且该感兴趣区域特征图一方面降低了图像识别复杂度,另一方面,其能够提取多个感兴趣区域特征图的多尺度下的特征图,能够快速识别目标属性,能够提升交通场景的图像识别精度和速度。
与上述实施例一致地,请参阅图3,图3是本申请实施例提供的一种电子设备的结构示意图,如图所示,该电子设备包括处理器、存储器、通信接口以及一个或多个程序,应用于电子设备,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,本申请实施例中,上述程序包括用于执行以下步骤的指令:
获取目标图像;
将所述目标图像输入到主干网络进行特征提取,得到不同尺度下的多个第一特征图,所述主干网络的每一尺度所在层均为通过通道注意力模块进行自注意力蒸馏学习以及所述主干网络的每一尺度所在层均为通过空间注意力模块进行特征融合提取;
通过所述多个第一特征图进行后处理,得到至少一个目标;
确定所述多个第一特征图对应的空间注意力特征图,得到多个第一空间注意力特征图;
依据所述多个第一空间注意力特征图确定第一感兴趣区域特征图;
将所述第一感兴趣区域特征图输入到所述主干网络进行特征提取,得到不同尺度下的多个第二特征图;
通过所述多个第二特征图进行目标属性识别确定至少一个目标属性;
将所述至少一个目标和所述至少一个目标属性作为目标图像识别结果。
可以看出,本申请实施例中所描述的电子设备,获取目标图像,将目标图像输入到主干网络进行特征提取,得到不同尺度下的多个第一特征图,主干网络的每一尺度所在层均为通过通道注意力模块进行自注意力蒸馏学习以及主干网络的每一尺度所在层均为通过空间注意力模块进行特征融合提取,通过多个第一特征图进行后处理,得到至少一个目标,确定多个第一特征图对应的空间注意力特征图,得到多个第一空间注意力特征图,依据多个第一空间注意力特征图确定第一感兴趣区域特征图,将第一感兴趣区域特征图输入到主干网络进行特征提取,得到不同尺度下的多个第二特征图,通过多个第二特征图进行目标属性识别确定至少一个目标属性,将至少一个目标和至少一个目标属性作为目标图像识别结果,如此,在目标检测过程中,由于主干网络被通道注意力模块和空间注意力模块,自蒸馏学习,进而,可以通过多个特征图,深度提取细节信息,有助于提升目标检测精度,在属性识别过程中,通过提取感兴趣区域特征图,且该感兴趣区域特征图一方面降低了图像识别复杂度,另一方面,其能够提取多个感兴趣区域特征图的多尺度下的特征图,能够快速识别目标属性,能够提升交通场景的图像识别精度和速度。
在一个可能的示例中,在所述确定所述多个第一特征图对应的空间注意力特征图,得到多个第一空间注意力特征图,依据所述多个第一空间注意力特征图确定第一感兴趣区域特征图方面,上述程序包括用于执行以下步骤的指令:
对所述多个第一特征图进行分组操作,得到多组第一特征图;
对所述多组第一特征图中每一组第一特征图进行全局平均池化操作,得到多组重要性权重特征,每一组第一特征图对应一组重要性权重特征;
将所述多组第一特征图和所述多组重要性权重特征进行点乘mul运算,得到多组特征图;
将所述多组特征图进行最大响应缩减,得到多个单通道特征图;
将所述多个单通道特征图输入到激活函数,得到多个第一空间注意力特征图;
将所述多个第一空间注意力特征图进行concat操作,以融合为目标空间注意力特征图;
对所述目标空间注意力特征图进行感兴趣区域提取,得到所述第一感兴趣区域特征图。
在一个可能的示例中,在所述通过所述多个第一特征图后处理,得到至少一个目标方面,上述程序包括用于执行以下步骤的指令:
通过目标神经网络模型将所述多个第一特征图进行后处理,得到所述至少一个目标;
所述目标神经网络模型包括BatchNorm层,且所述BatchNorm层已添加蒙版,实现对抗稀疏训练,该稀疏训练用于所述目标神经网络模型剪枝压缩。
在一个可能的示例中,上述程序还包括用于执行以下步骤的指令:
获取第一训练集,所述第一训练集包括多个样本;
对所述第一训练集的样本进行扰动操作,得到第二训练集;
将所述第一训练集和所述第二训练集输入到预设神经网络进行对抗训练,得到所述目标神经网络模型。
在一个可能的示例中,在所述将所述第一训练集和第二训练集输入到预设神经网络进行对抗训练,得到所述目标神经网络模型方面,上述程序包括用于执行以下步骤的指令:
获取样本k,所述样本k为所述第一训练样本和所述第二训练样本中的任一样本;
将所述样本k输入到所述主干网络,得到不同尺度下的多个第一尺度特征图;
依据所述多个第一尺度特征图确定多个通道注意力特征图;
依据所述多个通道注意力特征图进行自注意力蒸馏,以学习多尺度下的更加丰富的融合特征,并利用学习之后的所述多个通道注意力特征图优化所述主干网络;
和/或,
确定所述多个第一尺度特征图对应的空间注意力特征图,得到多个第二空间注意力特征图;
依据所述多个空间注意力特征图确定第二感兴趣区域特征图;
将所述第二感兴趣区域特征图输入到所述主干网络进行特征提取,得到不同尺度下的多个第二尺度特征图;
依据所述多个第二尺度特征图确定多个第二空间注意力特征图;
依据所述多个第二空间注意力特征图进行特征融合提取,以学习局部细粒度特征,并利用特征融合提取后的所述多个第二空间注意力特征图优化所述主干网络。
在一个可能的示例中,在所述依据所述多个第一尺度特征图确定多个通道注意力特征图方面,上述程序包括用于执行以下步骤的指令:
将所述多个第一尺度特征图中每一第一尺度特征图输入到所述通道注意力模块,得到中间通道注意力特征图,并利用浅层的中间通道注意力特征图优化深层的中间通道注意力特征图,得到所述多个通道注意力特征图。
在一个可能的示例中,在所述将所述多个第一尺度特征图中每一第一尺度特征图输入到所述通道注意力模块,得到中间通道注意力特征图方面,上述程序包括用于执行以下步骤的指令:
将第一下尺度特征图a输入到1*1卷积层,得到第一中间结果,所述第一尺度特征图a为所述多个第一尺度特征图中的任一第一尺度特征图;
将所述第一中间结果输入到所述通道注意力模块,得到第二中间结果;
将所述第二中间结果以通道为轴进行最大缩减以及进行双线性上采样插值,得到第三中间结果;
将所述第三中间结果进行sigmoid运算,得到所述第一下采样图像a对应的所述中间通道注意力特征图。
上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是,电子设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所提供的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
图4A是本申请实施例中所涉及的图像识别装置400的功能单元组成框图。该图像识别装置400,应用于电子设备,所述装置400包括:获取单元401、提取单元402、处理单元403和确定单元404,其中,
所述获取单元401,用于获取目标图像;
所述提取单元402,用于将所述目标图像输入到主干网络进行特征提取,得到不同尺度下的多个第一特征图,所述主干网络的每一尺度所在层均为通过通道注意力模块进行自注意力蒸馏学习以及所述主干网络的每一尺度所在层均为通过空间注意力模块进行特征融合提取;
所述处理单元403,用于通过所述多个第一特征图进行后处理,得到至少一个目标;
所述确定单元404,用于确定所述多个第一特征图对应的空间注意力特征图,得到多个第一空间注意力特征图;
所述确定单元404,还用于依据所述多个第一空间注意力特征图确定第一感兴趣区域特征图;
所述提取单元402,还用于将所述第一感兴趣区域特征图输入到所述主干网络进行特征提取,得到不同尺度下的多个第二特征图;
所述确定单元404,还用于通过所述多个第二特征图进行目标属性识别确定至少一个目标属性;以及将所述至少一个目标和所述至少一个目标属性作为目标图像识别结果。
可以看出,本申请实施例中所描述的图像识别装置,应用于电子设备,获取目标图像,将目标图像输入到主干网络进行特征提取,得到不同尺度下的多个第一特征图,主干网络的每一尺度所在层均为通过通道注意力模块进行自注意力蒸馏学习以及主干网络的每一尺度所在层均为通过空间注意力模块进行特征融合提取,通过多个第一特征图进行后处理,得到至少一个目标,确定多个第一特征图对应的空间注意力特征图,得到多个第一空间注意力特征图,依据多个第一空间注意力特征图确定第一感兴趣区域特征图,将第一感兴趣区域特征图输入到主干网络进行特征提取,得到不同尺度下的多个第二特征图,通过多个第二特征图进行目标属性识别确定至少一个目标属性,将至少一个目标和至少一个目标属性作为目标图像识别结果,如此,在目标检测过程中,由于主干网络被通道注意力模块,自蒸馏学习,进而,可以通过多个特征图,深度提取细节信息,有助于提升目标检测精度,在属性识别过程中,通过提取感兴趣区域特征图,且该感兴趣区域特征图一方面降低了图像识别复杂度,另一方面,其能够提取多个感兴趣区域特征图的多尺度下的特征图,能够快速识别目标属性,能够提升交通场景的图像识别精度和速度。
在一个可能的示例中,在所述确定所述多个第一特征图对应的空间注意力特征图,得到多个第一空间注意力特征图,依据所述多个第一空间注意力特征图确定第一感兴趣区域特征图方面,所述确定单元404具体用于:
对所述多个第一特征图进行分组操作,得到多组第一特征图;
对所述多组第一特征图中每一组第一特征图进行全局平均池化操作,得到多组重要性权重特征,每一组第一特征图对应一组重要性权重特征;
将所述多组第一特征图和所述多组重要性权重特征进行点乘mul运算,得到多组特征图;
将所述多组特征图进行最大响应缩减,得到多个单通道特征图;
将所述多个单通道特征图输入到激活函数,得到多个第一空间注意力特征图;
将所述多个第一空间注意力特征图进行concat操作,以融合为目标空间注意力特征图;
对所述目标空间注意力特征图进行感兴趣区域提取,得到所述第一感兴趣区域特征图。
在一个可能的示例中,在所述通过所述多个第一特征图后处理,得到至少一个目标方面,所述处理单元403具体用于:
通过目标神经网络模型将所述多个第一特征图进行后处理,得到所述至少一个目标;
所述目标神经网络模型包括BatchNorm层,且所述BatchNorm层已添加蒙版,实现对抗稀疏训练,该稀疏训练用于所述目标神经网络模型剪枝压缩。
在一个可能的示例中,如图4B所示,图4B为图4A所描述的图像识别装置的又一变型结构,其与图4A相比较,还可以包括:训练单元405,具体如下:
获取第一训练集,所述第一训练集包括多个样本;
对所述第一训练集的样本进行扰动操作,得到第二训练集;
将所述第一训练集和所述第二训练集输入到预设神经网络进行对抗训练,得到所述目标神经网络模型。
在一个可能的示例中,在所述将所述第一训练集和第二训练集输入到预设神经网络进行对抗训练,得到所述目标神经网络模型方面,所述训练单元405具体用于:
获取样本k,所述样本k为所述第一训练样本和所述第二训练样本中的任一样本;
将所述样本k输入到所述主干网络,得到不同尺度下的多个第一尺度特征图;
依据所述多个第一尺度特征图确定多个通道注意力特征图;
依据所述多个通道注意力特征图进行自注意力蒸馏,以学习多尺度下的更加丰富的融合特征,并利用学习之后的所述多个通道注意力特征图优化所述主干网络;
和/或,
确定所述多个第一尺度特征图对应的空间注意力特征图,得到多个第二空间注意力特征图;
依据所述多个空间注意力特征图确定第二感兴趣区域特征图;
将所述第二感兴趣区域特征图输入到所述主干网络进行特征提取,得到不同尺度下的多个第二尺度特征图;
依据所述多个第二尺度特征图确定多个第二空间注意力特征图;
依据所述多个第二空间注意力特征图进行特征融合提取,以学习局部细粒度特征,并利用特征融合提取后的所述多个第二空间注意力特征图优化所述主干网络。
在一个可能的示例中,在所述依据所述多个第一尺度特征图确定多个通道注意力特征图方面,所述训练单元405具体用于:
将所述多个第一尺度特征图中每一第一尺度特征图输入到所述通道注意力模块,得到中间通道注意力特征图,并利用浅层的中间通道注意力特征图优化深层的中间通道注意力特征图,得到所述多个通道注意力特征图。
在一个可能的示例中,在所述将所述多个第一尺度特征图中每一第一尺度特征图输入到所述通道注意力模块,得到中间通道注意力特征图方面,所述训练单元405具体用于:
将第一下尺度特征图a输入到1*1卷积层,得到第一中间结果,所述第一尺度特征图a为所述多个第一尺度特征图中的任一第一尺度特征图;
将所述第一中间结果输入到所述通道注意力模块,得到第二中间结果;
将所述第二中间结果以通道为轴进行最大缩减以及进行双线性上采样插值,得到第三中间结果;
将所述第三中间结果进行sigmoid运算,得到所述第一下采样图像a对应的所述中间通道注意力特征图。
可以理解的是,本实施例的图像识别装置的各程序模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤,上述计算机包括电子设备。
本申请实施例还提供一种计算机程序产品,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包,上述计算机包括电子设备。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种图像识别方法,其特征在于,应用于电子设备,所述方法包括:
获取目标图像;
将所述目标图像输入到主干网络进行特征提取,得到不同尺度下的多个第一特征图,所述主干网络的每一尺度所在层均为通过通道注意力模块进行自注意力蒸馏学习以及所述主干网络的每一尺度所在层均为通过空间注意力模块进行特征融合提取;
通过所述多个第一特征图进行后处理,得到至少一个目标;
确定所述多个第一特征图对应的空间注意力特征图,得到多个第一空间注意力特征图,依据所述多个第一空间注意力特征图确定第一感兴趣区域特征图;
将所述第一感兴趣区域特征图输入到所述主干网络进行特征提取,得到不同尺度下的多个第二特征图;
通过所述多个第二特征图进行目标属性识别确定至少一个目标属性;
将所述至少一个目标和所述至少一个目标属性作为目标图像识别结果。
2.根据权利要求1所述的方法,其特征在于,所述确定所述多个第一特征图对应的空间注意力特征图,得到多个第一空间注意力特征图,依据所述多个第一空间注意力特征图确定第一感兴趣区域特征图,包括:
对所述多个第一特征图进行分组操作,得到多组第一特征图;
对所述多组第一特征图中每一组第一特征图进行全局平均池化操作,得到多组重要性权重特征,每一组第一特征图对应一组重要性权重特征;
将所述多组第一特征图和所述多组重要性权重特征进行点乘mul运算,得到多组特征图;
将所述多组特征图进行最大响应缩减,得到多个单通道特征图;
将所述多个单通道特征图输入到激活函数,得到多个第一空间注意力特征图;
将所述多个第一空间注意力特征图进行concat操作,以融合为目标空间注意力特征图;
对所述目标空间注意力特征图进行感兴趣区域提取,得到所述第一感兴趣区域特征图。
3.根据权利要求1或2所述的方法,其特征在于,所述通过所述多个第一特征图后处理,得到至少一个目标,包括:
通过目标神经网络模型将所述多个第一特征图进行后处理,得到所述至少一个目标;
所述目标神经网络模型包括BatchNorm层,且所述BatchNorm层已添加蒙版,实现对抗稀疏训练,该稀疏训练用于所述目标神经网络模型剪枝压缩。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
获取第一训练集,所述第一训练集包括多个样本;
对所述第一训练集的样本进行扰动操作,得到第二训练集;
将所述第一训练集和所述第二训练集输入到预设神经网络进行对抗训练,得到所述目标神经网络模型。
5.根据权利要求4所述的方法,其特征在于,所述将所述第一训练集和第二训练集输入到预设神经网络进行对抗训练,得到所述目标神经网络模型,包括:
获取样本k,所述样本k为所述第一训练样本和所述第二训练样本中的任一样本;
将所述样本k输入到所述主干网络,得到不同尺度下的多个第一尺度特征图;
依据所述多个第一尺度特征图确定多个通道注意力特征图;
依据所述多个通道注意力特征图进行自注意力蒸馏,以学习多尺度下的更加丰富的融合特征,并利用学习之后的所述多个通道注意力特征图优化所述主干网络;
和/或,
确定所述多个第一尺度特征图对应的空间注意力特征图,得到多个第二空间注意力特征图;
依据所述多个空间注意力特征图确定第二感兴趣区域特征图;
将所述第二感兴趣区域特征图输入到所述主干网络进行特征提取,得到不同尺度下的多个第二尺度特征图;
依据所述多个第二尺度特征图确定多个第二空间注意力特征图;
依据所述多个第二空间注意力特征图进行特征融合提取,以学习局部细粒度特征,并利用特征融合提取后的所述多个第二空间注意力特征图优化所述主干网络。
6.根据权利要求5所述的方法,其特征在于,所述依据所述多个第一尺度特征图确定多个通道注意力特征图,包括:
将所述多个第一尺度特征图中每一第一尺度特征图输入到所述通道注意力模块,得到中间通道注意力特征图,并利用浅层的中间通道注意力特征图优化深层的中间通道注意力特征图,得到所述多个通道注意力特征图。
7.根据权利要求6所述的方法,其特征在于,所述将所述多个第一尺度特征图中每一第一尺度特征图输入到所述通道注意力模块,得到中间通道注意力特征图,包括:
将第一下尺度特征图a输入到1*1卷积层,得到第一中间结果,所述第一尺度特征图a为所述多个第一尺度特征图中的任一第一尺度特征图;
将所述第一中间结果输入到所述通道注意力模块,得到第二中间结果;
将所述第二中间结果以通道为轴进行最大缩减以及进行双线性上采样插值,得到第三中间结果;
将所述第三中间结果进行sigmoid运算,得到所述第一下采样图像a对应的所述中间通道注意力特征图。
8.一种图像识别装置,其特征在于,应用于电子设备,所述装置包括:获取单元、提取单元、处理单元和确定单元,其中,
所述获取单元,用于获取目标图像;
所述提取单元,用于将所述目标图像输入到主干网络进行特征提取,得到不同尺度下的多个第一特征图,所述主干网络的每一尺度所在层均为通过通道注意力模块进行自注意力蒸馏学习以及所述主干网络的每一尺度所在层均为通过空间注意力模块进行特征融合提取;
所述处理单元,用于通过所述多个第一特征图进行后处理,得到至少一个目标;
所述确定单元,用于确定所述多个第一特征图对应的空间注意力特征图,得到多个第一空间注意力特征图;
所述确定单元,还用于依据所述多个第一空间注意力特征图确定第一感兴趣区域特征图;
所述提取单元,还用于将所述第一感兴趣区域特征图输入到所述主干网络进行特征提取,得到不同尺度下的多个第二特征图;
所述确定单元,还用于通过所述多个第二特征图进行目标属性识别确定至少一个目标属性;以及将所述至少一个目标和所述至少一个目标属性作为目标图像识别结果。
9.一种电子设备,其特征在于,包括处理器、存储器,所述存储器用于存储一个或多个程序,并且被配置由所述处理器执行,所述程序包括用于执行如权利要求1-7任一项所述的方法中的步骤的指令。
10.一种计算机可读存储介质,其特征在于,存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1-7任一项所述的方法。
CN201911337591.0A 2019-12-23 2019-12-23 图像识别方法及相关装置 Active CN111126258B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911337591.0A CN111126258B (zh) 2019-12-23 2019-12-23 图像识别方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911337591.0A CN111126258B (zh) 2019-12-23 2019-12-23 图像识别方法及相关装置

Publications (2)

Publication Number Publication Date
CN111126258A true CN111126258A (zh) 2020-05-08
CN111126258B CN111126258B (zh) 2023-06-23

Family

ID=70501245

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911337591.0A Active CN111126258B (zh) 2019-12-23 2019-12-23 图像识别方法及相关装置

Country Status (1)

Country Link
CN (1) CN111126258B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368942A (zh) * 2020-05-27 2020-07-03 深圳创新奇智科技有限公司 商品分类识别方法、装置、电子设备及存储介质
CN111815639A (zh) * 2020-07-03 2020-10-23 浙江大华技术股份有限公司 目标分割方法及其相关装置
CN111950635A (zh) * 2020-08-12 2020-11-17 温州大学 一种基于分层特征对齐的鲁棒特征学习方法
CN112036231A (zh) * 2020-07-10 2020-12-04 武汉大学 一种基于车载视频的车道线和路面指示标志检测与识别方法
CN112070019A (zh) * 2020-09-08 2020-12-11 河南威虎智能科技有限公司 一种人脸识别方法、装置、电子设备和存储介质
CN112101248A (zh) * 2020-09-18 2020-12-18 中国海洋大学 一种用于视频时空表征学习的多分组多注意力建模方法
CN112270269A (zh) * 2020-10-30 2021-01-26 湖南快乐阳光互动娱乐传媒有限公司 一种人脸图像质量的评估方法及装置
CN112419292A (zh) * 2020-11-30 2021-02-26 深圳云天励飞技术股份有限公司 病理图像的处理方法、装置、电子设备及存储介质
CN113033566A (zh) * 2021-03-19 2021-06-25 北京百度网讯科技有限公司 模型训练方法、识别方法、设备、存储介质及程序产品
CN113469963A (zh) * 2021-06-24 2021-10-01 推想医疗科技股份有限公司 肺动脉图像分割方法及装置
CN113705279A (zh) * 2020-05-21 2021-11-26 阿波罗智联(北京)科技有限公司 目标对象的位置识别的方法及装置
CN114547017A (zh) * 2022-04-27 2022-05-27 南京信息工程大学 一种基于深度学习的气象大数据融合方法
CN115375978A (zh) * 2022-10-27 2022-11-22 北京闪马智建科技有限公司 行为信息的确定方法、装置、存储介质及电子装置
CN115546236A (zh) * 2022-11-24 2022-12-30 阿里巴巴(中国)有限公司 基于小波变换的图像分割方法及装置
CN115861162A (zh) * 2022-08-26 2023-03-28 宁德时代新能源科技股份有限公司 定位目标区域的方法、装置及计算机可读存储介质
CN116778300A (zh) * 2023-06-25 2023-09-19 北京数美时代科技有限公司 一种基于知识蒸馏的小目标检测方法、***和存储介质
CN117252928A (zh) * 2023-11-20 2023-12-19 南昌工控机器人有限公司 用于电子产品模块化智能组装的视觉图像定位***
CN117853891A (zh) * 2024-02-21 2024-04-09 广东海洋大学 一种可集成于水下机器人平台的水下垃圾目标识别方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170124432A1 (en) * 2015-11-03 2017-05-04 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering
US20170127016A1 (en) * 2015-10-29 2017-05-04 Baidu Usa Llc Systems and methods for video paragraph captioning using hierarchical recurrent neural networks
US20180143966A1 (en) * 2016-11-18 2018-05-24 Salesforce.Com, Inc. Spatial Attention Model for Image Captioning
CN109376757A (zh) * 2018-09-06 2019-02-22 北京飞搜科技有限公司 一种多标签分类方法及***
CN109544524A (zh) * 2018-11-15 2019-03-29 中共中央办公厅电子科技学院 一种基于注意力机制的多属性图像美学评价***
CN109902693A (zh) * 2019-02-16 2019-06-18 太原理工大学 一种基于多注意力空间金字塔特征图像识别方法
CN109948699A (zh) * 2019-03-19 2019-06-28 北京字节跳动网络技术有限公司 用于生成特征图的方法和装置
WO2019153908A1 (zh) * 2018-02-11 2019-08-15 北京达佳互联信息技术有限公司 基于注意力模型的图像识别方法和***
CN110533084A (zh) * 2019-08-12 2019-12-03 长安大学 一种基于自注意力机制的多尺度目标检测方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170127016A1 (en) * 2015-10-29 2017-05-04 Baidu Usa Llc Systems and methods for video paragraph captioning using hierarchical recurrent neural networks
US20170124432A1 (en) * 2015-11-03 2017-05-04 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering
US20180143966A1 (en) * 2016-11-18 2018-05-24 Salesforce.Com, Inc. Spatial Attention Model for Image Captioning
WO2019153908A1 (zh) * 2018-02-11 2019-08-15 北京达佳互联信息技术有限公司 基于注意力模型的图像识别方法和***
CN109376757A (zh) * 2018-09-06 2019-02-22 北京飞搜科技有限公司 一种多标签分类方法及***
CN109544524A (zh) * 2018-11-15 2019-03-29 中共中央办公厅电子科技学院 一种基于注意力机制的多属性图像美学评价***
CN109902693A (zh) * 2019-02-16 2019-06-18 太原理工大学 一种基于多注意力空间金字塔特征图像识别方法
CN109948699A (zh) * 2019-03-19 2019-06-28 北京字节跳动网络技术有限公司 用于生成特征图的方法和装置
CN110533084A (zh) * 2019-08-12 2019-12-03 长安大学 一种基于自注意力机制的多尺度目标检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张杰;魏维;: "基于视觉注意力模型的显著性提取", 计算机技术与发展 *
李宗民;刘秀秀;刘玉杰;李华;: "结合细粒度特征与深度卷积网络的手绘图检索" *
李宗民;刘秀秀;刘玉杰;李华;: "结合细粒度特征与深度卷积网络的手绘图检索", 中国图象图形学报 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113705279A (zh) * 2020-05-21 2021-11-26 阿波罗智联(北京)科技有限公司 目标对象的位置识别的方法及装置
CN111368942A (zh) * 2020-05-27 2020-07-03 深圳创新奇智科技有限公司 商品分类识别方法、装置、电子设备及存储介质
CN111815639A (zh) * 2020-07-03 2020-10-23 浙江大华技术股份有限公司 目标分割方法及其相关装置
CN112036231A (zh) * 2020-07-10 2020-12-04 武汉大学 一种基于车载视频的车道线和路面指示标志检测与识别方法
CN111950635A (zh) * 2020-08-12 2020-11-17 温州大学 一种基于分层特征对齐的鲁棒特征学习方法
CN111950635B (zh) * 2020-08-12 2023-08-25 温州大学 一种基于分层特征对齐的鲁棒特征学习方法
CN112070019A (zh) * 2020-09-08 2020-12-11 河南威虎智能科技有限公司 一种人脸识别方法、装置、电子设备和存储介质
CN112070019B (zh) * 2020-09-08 2024-05-28 河南威虎智能科技有限公司 一种人脸识别方法、装置、电子设备和存储介质
CN112101248A (zh) * 2020-09-18 2020-12-18 中国海洋大学 一种用于视频时空表征学习的多分组多注意力建模方法
CN112101248B (zh) * 2020-09-18 2022-04-22 中国海洋大学 一种用于视频时空表征学习的多分组多注意力建模方法
CN112270269A (zh) * 2020-10-30 2021-01-26 湖南快乐阳光互动娱乐传媒有限公司 一种人脸图像质量的评估方法及装置
CN112419292B (zh) * 2020-11-30 2024-03-26 深圳云天励飞技术股份有限公司 病理图像的处理方法、装置、电子设备及存储介质
CN112419292A (zh) * 2020-11-30 2021-02-26 深圳云天励飞技术股份有限公司 病理图像的处理方法、装置、电子设备及存储介质
CN113033566A (zh) * 2021-03-19 2021-06-25 北京百度网讯科技有限公司 模型训练方法、识别方法、设备、存储介质及程序产品
CN113469963A (zh) * 2021-06-24 2021-10-01 推想医疗科技股份有限公司 肺动脉图像分割方法及装置
CN114547017A (zh) * 2022-04-27 2022-05-27 南京信息工程大学 一种基于深度学习的气象大数据融合方法
CN114547017B (zh) * 2022-04-27 2022-08-05 南京信息工程大学 一种基于深度学习的气象大数据融合方法
CN115861162A (zh) * 2022-08-26 2023-03-28 宁德时代新能源科技股份有限公司 定位目标区域的方法、装置及计算机可读存储介质
CN115375978A (zh) * 2022-10-27 2022-11-22 北京闪马智建科技有限公司 行为信息的确定方法、装置、存储介质及电子装置
CN115546236B (zh) * 2022-11-24 2023-04-07 阿里巴巴(中国)有限公司 基于小波变换的图像分割方法及装置
CN115546236A (zh) * 2022-11-24 2022-12-30 阿里巴巴(中国)有限公司 基于小波变换的图像分割方法及装置
CN116778300B (zh) * 2023-06-25 2023-12-05 北京数美时代科技有限公司 一种基于知识蒸馏的小目标检测方法、***和存储介质
CN116778300A (zh) * 2023-06-25 2023-09-19 北京数美时代科技有限公司 一种基于知识蒸馏的小目标检测方法、***和存储介质
CN117252928A (zh) * 2023-11-20 2023-12-19 南昌工控机器人有限公司 用于电子产品模块化智能组装的视觉图像定位***
CN117252928B (zh) * 2023-11-20 2024-01-26 南昌工控机器人有限公司 用于电子产品模块化智能组装的视觉图像定位***
CN117853891A (zh) * 2024-02-21 2024-04-09 广东海洋大学 一种可集成于水下机器人平台的水下垃圾目标识别方法

Also Published As

Publication number Publication date
CN111126258B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN111126258B (zh) 图像识别方法及相关装置
US20210012198A1 (en) Method for training deep neural network and apparatus
CN110458107B (zh) 用于图像识别的方法和装置
CN108229267B (zh) 对象属性检测、神经网络训练、区域检测方法和装置
CN108564097B (zh) 一种基于深度卷积神经网络的多尺度目标检测方法
CN111178183B (zh) 人脸检测方法及相关装置
Arietta et al. City forensics: Using visual elements to predict non-visual city attributes
CN113780296B (zh) 基于多尺度信息融合的遥感图像语义分割方法及***
CN110458165B (zh) 一种引入注意力机制的自然场景文本检测方法
CN113255915B (zh) 基于结构化实例图的知识蒸馏方法、装置、设备和介质
CN113177559B (zh) 结合广度和密集卷积神经网络的图像识别方法、***、设备及介质
CN113807399A (zh) 一种神经网络训练方法、检测方法以及装置
CN113487610B (zh) 疱疹图像识别方法、装置、计算机设备和存储介质
CN112801236A (zh) 图像识别模型的迁移方法、装置、设备及存储介质
CN113516113A (zh) 一种图像内容识别方法、装置、设备及存储介质
Yadav et al. An improved deep learning-based optimal object detection system from images
CN112668638A (zh) 一种图像美学质量评估和语义识别联合分类方法及***
CN115830449A (zh) 显式轮廓引导和空间变化上下文增强的遥感目标检测方法
CN111428191A (zh) 基于知识蒸馏的天线下倾角计算方法、装置和存储介质
CN112668675B (zh) 一种图像处理方法、装置、计算机设备及存储介质
CN111178370B (zh) 车辆检索方法及相关装置
CN111178181B (zh) 交通场景分割方法及相关装置
CN116798041A (zh) 图像识别方法、装置和电子设备
CN117011566A (zh) 一种目标检测方法、检测模型训练方法、装置及电子设备
CN115424153A (zh) 目标检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant