CN115439700B - 一种图像处理方法、装置和机器可读存储介质 - Google Patents
一种图像处理方法、装置和机器可读存储介质 Download PDFInfo
- Publication number
- CN115439700B CN115439700B CN202211368106.8A CN202211368106A CN115439700B CN 115439700 B CN115439700 B CN 115439700B CN 202211368106 A CN202211368106 A CN 202211368106A CN 115439700 B CN115439700 B CN 115439700B
- Authority
- CN
- China
- Prior art keywords
- classification
- detection
- image
- network
- task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供了一种图像处理方法、装置和机器可读存储介质。其中的方法包括:接收针对待处理图像的图像处理任务,所述图像处理任务包括用于识别所述待处理图像中目标对象所属类别的分类任务,和/或,用于检测所述待处理图像中目标对象的目标检测任务;利用预先训练的检测分类复用模型的检测网络和/或分类网络对所述待处理图像进行图像处理,得到图像处理结果。所述检测分类复用模型包含检测网络和分类网络,所述检测网络和所述分类网络复用所述检测分类复用模型的卷积神经网络、特征提取网络中目标尺度对应的特征提取层和特征预测网络中目标尺度对应的类别预测层。本发明实施例可以提高模型的复用率,节省边缘计算设备的存储资源。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种图像处理方法、装置和机器可读存储介质。
背景技术
在图像处理领域中,一般采用目标检测算法(Object Detection)和分类算法(Classification)对图像中的目标对象进行定位并分类。其中,目标检测算法通过对一系列带有标签的图像进行训练,提取目标特征,并预测新输入的图像中是否包含有该目标特征,以及标示出该目标特征的位置信息。分类算法是对带有标签的图像进行类别判断。
在边缘计算设备中,经常需要对待处理图像执行分类任务或目标检测任务。现有技术中通常采用基于目标检测算法的目标检测模型对待处理图像进行目标检测处理,采用基于分类算法的分类模型对待处理图像进行类别预测。然而,边缘计算设备的资源有限,采用单独的机器学习模型分别执行分类任务和目标检测任务,往往需要占用较多的存储资源。
发明内容
本发明实施例提供一种图像处理方法、装置和机器可读存储介质,可以提高模型的复用率,节省边缘计算设备的存储资源。
第一方面,本发明实施例公开了一种图像处理方法,所述方法包括:
接收针对待处理图像的图像处理任务,所述图像处理任务包括用于识别所述待处理图像中目标对象所属类别的分类任务,和/或,用于检测所述待处理图像中目标对象的目标检测任务;
利用预先训练的检测分类复用模型的检测网络和/或分类网络对所述待处理图像进行图像处理,得到图像处理结果;
其中,所述检测分类复用模型包括卷积神经网络、特征提取网络、特征预测网络和池化网络层;所述特征提取网络包括不同尺度的特征提取层,所述特征预测网络包括不同尺度的预测层,所述预测层包括类别预测层、位置预测层和置信度预测层;
所述检测网络和所述分类网络复用所述检测分类复用模型的卷积神经网络、特征提取网络中目标尺度对应的特征提取层和特征预测网络中目标尺度对应的类别预测层;
所述检测网络还包括特征提取网络中除目标尺度对应的特征提取层之外的其他特征提取层,和特征预测网络中除目标尺度对应的类别预测层之外的其他预测层;
所述分类网络还包括所述池化网络层。
第二方面,本发明实施例公开了一种图像处理装置,所述装置包括:
任务接收模块,用于接收针对待处理图像的图像处理任务,所述图像处理任务包括用于识别所述待处理图像中目标对象所属类别的分类任务,和/或,用于检测所述待处理图像中目标对象的目标检测任务;
图像处理模块,用于利用预先训练的检测分类复用模型的检测网络和/或分类网络对所述待处理图像进行图像处理,得到图像处理结果;
其中,所述检测分类复用模型包括卷积神经网络、特征提取网络、特征预测网络和池化网络层;所述特征提取网络包括不同尺度的特征提取层,所述特征预测网络包括不同尺度的预测层,所述预测层包括类别预测层、位置预测层和置信度预测层;
所述检测网络和所述分类网络复用所述检测分类复用模型的卷积神经网络、特征提取网络中目标尺度对应的特征提取层和特征预测网络中目标尺度对应的类别预测层;
所述检测网络还包括特征提取网络中除目标尺度对应的特征提取层之外的其他特征提取层,和特征预测网络中除目标尺度对应的类别预测层之外的其他预测层;
所述分类网络还包括所述池化网络层。
第三方面,本发明实施例公开了一种机器可读存储介质,其上存储有指令,当所述指令由装置的一个或多个处理器执行时,使得装置执行如第一方面所述的图像处理方法。
本发明实施例包括以下优点:
本发明实施例的图像处理方法,提供了一种检测分类复用模型,所述检测分类复用模型包含检测网络和分类网络,所述检测网络和所述分类网络复用所述检测分类复用模型的卷积神经网络、目标尺度对应的特征提取层和类别预测层。边缘计算设备在接收到针对待处理图像的目标检测任务和/分类任务时,利用该检测分类复用模型的检测网络和/或分类网络对待处理图像进行图像处理,可以提高模型的复用率,节省边缘计算设备的存储资源,同时还能提高图像处理结果的准确度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的一种图像处理方法实施例的步骤流程图;
图2是本发明的一种检测分类复用模型的结构示意图;
图3是本发明的另一种检测分类复用模型的结构示意图;
图4是本发明的一种图像处理装置实施例的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中的术语“和/或”用于描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本发明实施例中术语“多个”是指两个或两个以上,其它量词与之类似。
参照图1,示出了本发明的一种图像处理方法实施例的步骤流程图,所述方法可以包括如下步骤:
步骤101、接收针对待处理图像的图像处理任务,所述图像处理任务包括用于识别所述待处理图像中目标对象所属类别的分类任务,和/或,用于检测所述待处理图像中目标对象的目标检测任务。
步骤102、利用预先训练的检测分类复用模型的检测网络和/或分类网络对所述待处理图像进行图像处理,得到图像处理结果。
其中,所述检测分类复用模型包括卷积神经网络、特征提取网络、特征预测网络和池化网络层;所述特征提取网络包括不同尺度的特征提取层,所述特征预测网络包括不同尺度的预测层,所述预测层包括类别预测层、位置预测层和置信度预测层。
所述检测网络和所述分类网络复用所述检测分类复用模型的卷积神经网络、特征提取网络中目标尺度对应的特征提取层和特征预测网络中目标尺度对应的类别预测层。
所述检测网络还包括特征提取网络中除目标尺度对应的特征提取层之外的其他特征提取层,和特征预测网络中除目标尺度对应的类别预测层之外的其他预测层。
所述分类网络还包括所述池化网络层。
本发明实施例提供的图像处理方法,可以应用于边缘计算设备。需要说明的是,边缘计算是指在靠近物或数据源头的一侧,采用网络、计算、存储及应用等能力,就近提供最近端服务。在某种意义上,边缘计算可以看做云计算的补充或云计算的预处理。所述边缘计算设备用于提供边缘计算服务。在本发明实施例中,所述边缘计算设备可以包括两类,一类需要连接外部摄像头,另一类集成有摄像头,可根据两类边缘计算设备中的至少一类来构建目标检测***。示例性地,所述边缘计算设备可以接收来自一个或多个终端设备的待处理图像;或者,所述边缘计算设备可以通过自身集成的摄像头采集待处理图像。本发明实施例中的边缘计算设备可以是用于实现边缘计算功能的设备,例如可以包括服务器或网元等独立设备,也可以包括多个共同实现边缘计算功能的设备等。
所述边缘计算设备可以被部署在网络的多个位置,例如可以被部署在LTE(LongTerm Evolution,长期演进)网络的宏基站(eNode B)侧、无线网络控制器(Radio NetworkController,RNC)侧、多无线接入技术(multi-radio access technology,multi-RAN)蜂窝汇聚点侧或者核心网边缘等,本发明实施例对边缘计算设备的具体部署不做限定。
可以理解的是,所述边缘计算设备运行于网络边缘,逻辑上并不依赖于网络的其他部分,适用于安全性较高的应用。边缘计算设备通常具有较高的计算能力,因此适用于分析大量数据,例如本发明中的待处理图像,其中,所述待处理图像可以是图片,也可以为视频流中的图像帧。
在本发明实施例中,边缘计算设备接收到针对待处理图像的图像处理任务之后,可以将待处理图像输入至预先训练的检测分类复用模型的检测网络,和/或分类网络中进行图像处理,得到图像处理结果。需要说明的是,所述检测分类复用模型为基于深度学习算法的机器学习模型。深度学习算法的结构一般为骨干网络(Backbone)+头部网络(Head),其中,骨干网络占的容积远大于头部网络,并且不同的深度学习算法可以选取同一个骨干网络,例如目标检测算法和分类算法。
可以理解的是,本发明中检测分类复用模型的检测网络为基于目标检测算法的深度学习网络,分类网络为基于分类算法的深度学习网络。深度学习网络一般都存在一个训练学习的过程,该过程表现为整个深度学习网络内部的参数不断收敛的过程,一般可能持续几个小时甚至几天。而通过对不同的深度学习网络进行Backbone复用,能够使得模型的收敛速度提高10倍以上,近似于少训练一个模型,从而大大缩短了模型训练所需的时间。
参照图2,示出了一种检测分类复用模型的结构示意图。如图2所示,检测分类复用模型20包含检测网络201和分类网络202,其中,检测网络和分类网络复用同一个卷积神经网络(Backbone),该Backbone用于在不同图像细粒度上聚合并形成图像特征。
检测网络还包括特征提取网络,也即图2中的特征提取层1至特征提取层3,每一个特征提取层对应一个尺度参数。特征提取层是用于混合和组合图像特征的网络层,并将图像特征传递到预测层。检测网络还包括特征预测网络,也即图2中的预测层1至预测层3,每一个预测层对应一个尺度参数,用于对图像特征进行预测,生成边界框并预测目标对象的类别。分类网络还包括分类头,用于利用Backbone中生成的图像特征预测目标对象的类别。示例性地,图2中的分类头可以包含卷积层、池化网络层和全连接层。
当图2所示的检测分类复用模型执行目标检测任务时,图2中的分类头不工作,输入图像的大小与检测网络适配,例如,假设检测网络的输入图像的尺寸为640*640或416*416,如果待处理图像的尺寸不是640*640或416*416,则需要对待处理图像进行缩放处理,将其图像尺寸缩放至640*640或416*416再输入至检测网络。可以理解的是,图2所示的检测分类复用模型中还可以包括输入网络,所述输入网络用于对输入图像进行预处理。所述预处理包括但不限于对输入的待处理图像进行缩放处理、平滑处理、图像增强处理等。其中,平滑处理用于消除图像噪声;图像增强处理用于将图像转变为更适合机器处理的形式,以便特征抽取或识别。
当图2所示的检测分类复用模型执行分类任务时,图2中的特征提取层1至特征提取层3,以及预测层1至预测层3不工作,输入图像的大小与分类网络适配,例如,假设分类网络的输入图像的尺寸为224*224,如图待处理图像的尺寸不是224*224,则需要对待处理图像进行缩放处理,将其图像尺寸缩放至224*224再输入分类网络。
在图2所示的检测分类复用模型中,检测网络和分类网络仅复用了Backbone,该检测分类复用模型的模型结构较为复杂,模型参数较多,需要占用较大的存储资源。进一步地,为了提高网络复用率,本发明实施例提供了一种检测分类复用模型。参照图3,示出了本发明实施例提供的一种检测分类复用模型的结构示意图。如图3所示,本发明实施例提供的检测分类复用模型30包含卷积神经网络301(也即Backbone)、特征提取网络302(也即Neck)、特征预测网络303(也即Head)和池化网络层304。其中,特征提取网络包括不同尺度的特征提取层,特征预测网络包括不同尺度的预测层,所述预测层包括类别预测层、位置预测层和置信度预测层。
在本发明实施例提供的检测分类复用模型中,检测网络由卷积神经网络、特征提取网络和特征预测网络组成,分类网络由卷积神经网络、目标尺度对应的特征提取层和类别预测层、池化网络层组成。其中,所述目标尺度可以根据实际需求从特征提取网络对应的各个尺度参数中选择的任一尺度参数。可以理解的是,所述尺度参数用于指示从图像中提取的特征数据的尺寸大小与该图像的尺寸大小之间的比例,尺度参数=特征数据的尺寸/图像的尺寸。尺度参数越大,提取的局部细节特征越多,而在分类任务中,主要关注待处理图像的全局特征,不关注待处理图像的局部细节特征,因此可以从各个尺度参数中选取最小的尺度参数作为目标尺度。
如图3所示,在本发明实施例提供的检测分类复用模型中,检测网络和分类网络复用卷积神经网络,以及目标尺度对应的特征提取层和类别预测层。相比于图2所示的检测分类复用模型,图3所示的检测分类复用模型中网络的复用率更高,且减少了模型中的运算模块,如图2的分类头中的卷积层和全连接层,从而有效减少了模型参数,降低了模型复杂度,有利于节省边缘计算设备的存储资源。
在本发明实施例中,如果边缘计算设备接收到目标检测任务,图3中的池化网络层不工作,且输入图像的大小与检测网络适配。如果边缘计算设备接收到分类任务,则输入图像的大小与分类网络适配,图3中除分类网络之外的其他网络或网络层不工作,例如特征提取网络中除目标尺度之外的其他尺度对应的特征提取层不工作,特征预测网络中除目标尺度之外的其他尺度对应的预测层不工作,且目标尺度对应的预测层中的位置预测层和置信度预测层不工作。
如果边缘计算设备同时接收到针对待处理图像的目标检测任务和分类任务,则可以利用图3所示的检测分类复用模型中的检测网络执行目标检测任务,利用分类网络执行分类任务。
需要说明的是,在利用检测分类复用模型执行图像处理任务之前,需要对检测分类复用模型进行迭代训练,以得到符合模型精度要求的模型。在本发明实施例中,可以对图3所示的检测分类复用模型的检测网络和分类网络进行联合训练,也可以分别对检测网络和分类网络进行训练。
在本发明的一种可选实施例中,所述利用预先训练的检测分类复用模型的检测网络和/或分类网络对所述待处理图像进行图像处理,得到图像处理结果之前,所述方法还包括:
步骤S11、获取检测数据集和分类数据集;
步骤S12、在每一轮训练中,利用所述检测数据集对检测分类复用模型的检测网络进行训练,得到所述检测网络的第一损失值;
步骤S13、利用所述分类数据集对所述检测分类复用模型的分类网络进行训练,得到所述分类网络的第二损失值;
步骤S14、对所述第一损失值和所述第二损失值进行求和,得到所述检测分类复用模型的联合损失值;
步骤S15、根据所述联合损失值对所述检测分类复用模型的模型参数进行调整,并进行下一轮训练,直至所述联合损失值满足预设条件,得到训练完成的检测分类复用模型。
其中,所述检测数据集可以包括样本图像和边界框,所述分类数据集可以包括样本图像和样本图像中目标对象的类别标签。
在本发明实施例中,可以先加载大规模分类训练Backbone参数,例如imagenet1000类分类模型的模型参数,对检测分类复用模型进行预训练,然后再利用检测数据集和分类数据集对检测分类复用模型的检测网络和分类网络进行联合训练。
具体地,在每一轮训练中,利用检测数据集对检测网络进行训练,得到检测网络的第一损失值。其中,该第一损失值可以根据检测网络输出的检测结果与样本图像的边界框计算得到。例如,利用0-损失函数(zero-one loss)、绝对值损失函数、log对数损失函数、指数损失函数、交叉熵损失函数(Cross-entropy loss function)等计算检测网络输出的检测结果与样本图像的边界框之间的第一损失值。
同理,利用分类数据集对分类网络进行训练,得到分类网络的第二损失值。该第二损失值可以根据分类网络输出的分类结果与样本图像的类别标签计算得到。
接下来,对第一损失值和第二损失值进行求和,得到检测分类复用模型的联合损失值。在实际应用中,可以根据图像处理任务对网络性能的要求,对检测网络和分类网络设置相应的权重,然后对第一损失值和第二损失值进行加权求和得到联合损失值。示例性地,联合损失值=W1*第一损失值+W2*第二损失值,其中,W1为检测网络的权重,W2为分类网络的权重。
最后,根据联合损失值对检测分类复用模型的模型参数进行调整。例如,反向传播联合损失值并更新检测分类复用模型的梯度。
如果联合损失值不满足预设条件,例如,联合损失值大于预设的损失值阈值,则进行下一轮训练。如果联合损失值满足预设条件,例如,联合损失值小于或等于预设的损失值阈值,则可以停止训练,得到训练完成的检测分类复用模型。
需要说明的是,利用步骤S11至步骤S15对检测网络和分类网络进行联合训练时,分类网络和检测网络的输入图像的分辨率需要保持一致,也即输入图像的尺寸保持一致,例如,输入图像的尺寸都为416*416,或者输入图像的尺寸都为640*640。
可选地,步骤S11所述获取检测数据集和分类数据集,包括:
子步骤S111、获取初始数据集,所述初始数据集中包含第一样本图像、所述第一样本图像的边界框和类别标签;
子步骤S112、从所述第一样本图像中选取出分辨率大于预设阈值的候选图像,并根据所述候选图像的边界框从所述候选图像中抠取目标图像;
子步骤S113、将所述目标图像缩放至目标尺寸,得到第二样本图像;
子步骤S114、根据所述第一样本图像、所述第二样本图像、所述第一样本图像的边界框和所述第二样本图像的边界框构建检测数据集,所述检测数据集中所述第一样本图像的数目与所述第二样本图像的数目的比值为预设比值;
子步骤S115、根据所述第二样本图像和所述第二样本图像的类别标签构建分类数据集。
其中,所述初始数据集中包含第一样本图像和第一样本图像的边界框和类别标签,所述边界框用于指示所述第一样本图像中目标对象的位置信息和类别得分信息,所述类别得分信息用于指示所述目标对象属于各个类别的概率。可以理解的是,每个边界框在每一个类别上,均存在一个类别得分,目标对象的预测类别可以从类别得分信息对应的各个类别中确定,一般情况下,类别得分最高的类别为目标对象的预测类别。类别得分的个数由检测的类别数目确定,以检测9个类别为例,每个边界框对应 9个类别得分。除了类别得分,每个边界框还对应有位置回归值和目标置信度。一般情况下,每个边界框包含4个位置回归值和一个目标置信度。所述目标置信度用于度量目标对象位于所述边界框内的概率。所述位置回归值用于表示边界框的左上角的坐标相对于待处理图像的特征图上的每个点的网格左上角的位置偏移量,和所述边界框的高度和宽度。根据边界框的位置回归值和位置信息可以确定检测目标在待检测图像中的真实位置。作为一种示例,假设待处理图像的尺寸为416*416,在1/8尺度上,提取的特征图的尺寸为52*52,以特征图中26*26这个位置的点作为参考点,以边界框相对于该参考点的位置回归值来计算目标对象在待处理图像中的真实位置:首先,计算参考点相对于待处理图像的比例坐标:(26/52,26/52)=(0.5,0.5),假设边界框的位置回归值为:0.01(x轴上的偏移量)、0.02(y轴上的偏移量)、0.05(边界框的宽)、0.06(边界框的高),则计算出边界框的左上角的x相对比例为0.5+0.01; 左上角的y相对比例为0.5+0.02。将上述比例坐标乘以图片宽高(可四舍五入),获得目标对象的真实坐标:左上角的x坐标为0.51*416=212, y坐标为0.52*416=216,目标对象的真实大小:宽为0.05*416=21,高为0.06*416=25。
根据第一样本图像的边界框和训练过程中检测网络实际输出的检测结果,可以计算得到检测网络的第一损失值。可以理解的是,检测网络的Head,也即图3中的特征预测网络,针对每个尺度参数上的目标对象,输出如下参数:类别得分信息class-score、位置回归值和目标置信度。具体地,类别预测层根据实际检测的类别数目N,输出N个类别得分;位置预测层输出4个位置回归值;置信度预测层输出1个目标置信度。
第一样本图像的类别标签用于指示第一样本图像中目标对象的真实类别。根据第一样本图像的类别标签和训练过程中分类网络实际输出的分类结果,可以计算得到分类网络的第二损失值。
可以理解的是,本发明实施例中的初始数据集可用于对检测网络和分类网络进行联合训练。
在本发明实施例中,可以先从初始数据集中选取出高分辨率的样本图像。具体地,根据第一样本图像的分辨率从初始数据集中选取出分辨率大于预设阈值的第一样本图像作为候选图像。其中,所述预设阈值可以根据实际需求进行设置,例如,所述预设阈值可以为3840*2160、2560*1440、1920*1080等等。选取出候选图像之后,根据候选图像的边界框从候选图像中抠取出目标图像,该目标图像包含目标对象。示例性地,可以对边界框的尺寸扩大一定比例,然后根据扩大后的比例从候选图像中抠取目标图像。例如,假设边界框的尺寸为m*n,则可以按照(1+a)m*(1+b)n的尺寸从候选图像中抠取目标图像。其中,a、b均大于0且小于1,例如,a=20%、b=30%,等。
为了适配检测网络和分类网络的输入图像的尺寸,本发明实施例在抠取出目标图像之后,将目标图像缩放至目标尺寸,得到第二样本图像。其中,所述目标尺寸为检测网络和分类网络共同支持的输入图像的尺寸。
接下来,对第一样本图像和第二样本图像按照一定比例进行组合,得到检测数据集。其中,检测数据集中第一样本图像的数目和第二样本图像的数目的比值为预设比值,该预设比值可以根据实际需求或实验数据确定。例如,所述预设比值可以为:第一样本图像的数目:第二样本图像的数目=3:1。可以理解的是,所述检测数据集中还包含第一样本图像和第二样本图像的边界框。
分类网络用于识别目标对象的类别,不关注目标对象在待处理图像中的位置信息,无需参考待处理图像中除目标对象之外的其他特征信息来确定目标对象的位置信息,而本发明实施例中的第二样本图像是根据边界框从第一样本图像中抠取得到的,包含特征信息大部分为目标对象的特征信息,除目标对象之外的其他特征信息较少,因此可以直接将第二样本图像作为分类网络的训练样本,可以有效降低其他特征信息对分类网络进行目标对象的类别预测的干扰,有利于提升分类网络的分类结果的准确度。
在本发明实施例中,利用前述子步骤S111和子步骤S115获取到的检测数据集和分类数据集,对检测分类复用模型的检测网络和分类网络按照前述步骤S11至步骤S15的方法进行联合训练得到的检测分类复用模型,可以单独执行目标检测任务或分类任务,也可以同时执行针对相同目标对象的目标检测任务和分类任务。
作为一种示例,所述图像处理任务包括分类任务,步骤102所述利用预先训练的检测分类复用模型的检测网络和/或分类网络对所述待处理图像进行图像处理,得到图像处理结果,包括:
步骤S21、利用所述检测分类复用模型的检测网络对所述待处理图像进行目标检测处理,得到所述目标对象的边界框;
步骤S22、根据所述目标对象的边界框从所述待处理图像中抠取出第一图像,所述第一图像包含所述目标对象;
步骤S23、利用所述检测分类复用模型的分类网络对所述第一图像进行分类处理,得到所述分类任务的分类结果。
边缘计算设备在接收到针对待处理图像的分类任务时,可以先利用前述步骤S11至步骤S15的方案中训练好的检测分类复用模型的检测网络,对待处理图像进行目标检测处理,得到目标对象的边界框。可以理解的是,为了适配检测网络的输入图像的尺寸,可以先对待处理图像进行缩放处理,然后再将符合检测网络的输入图像的尺寸要求的图像输入至检测网络中。
接下来,根据目标对象的边界框从待处理图像中抠取出包含目标对象的第一图像,并利用检测分类复用模型的分类网络对第一图像进行分类处理,得到分类任务的分类结果。同样地,为了适配分类网络的输入图像的尺寸,可以先对待处理图像进行缩放处理,然后再将符合分类网络的输入图像的尺寸要求的图像输入至分类网络中。
本发明实施例在执行分类任务时,通过利用检测网络对待处理图像进行目标检测处理得到的边界框抠取第一图像,得到的第一图像包含的特征信息大部分为目标对象的特征信息,除目标对象之外的其他特征信息较少,然后再利用分类网络对第一图像进行分类处理,可以有效降低其他特征信息对分类网络进行目标对象的类别预测的干扰,有利于提升分类网络的分类结果的准确度。
作为另一种示例,所述图像处理任务还包括目标检测任务,且所述分类任务和所述目标检测任务的目标对象相同;所述方法还包括:
步骤S31、获取所述边界框的边界框信息,所述边界框信息包括边界框位置信息和边界框置信度;
步骤S32、将所述分类任务的分类结果作为所述目标检测任务的类别检测结果;
步骤S33、根据所述边界框位置信息、所述边界框置信度和所述类别检测结果,生成所述目标检测任务的检测结果。
相比于检测网络,分类网络更擅长预测目标对象的类别,换言之,分类网络针对目标对象输出的分类结果比检测网络针对目标对象输出的类别预测结果更加准确,因此在本发明实施例中,如果边缘计算设备还接收到目标检测任务,且目标检测任务和分类任务的目标对象相同,则可以直接将分类网络执行分类任务得到的分类结果作为检测任务的类别检测结果。由前述步骤S21至S23可以看出,利用本发明实施例提供的检测分类复用模型执行分类任务时,分类网络是对基于目标对象的边界框提取出的第一图像进行分类处理得到分类结果,目标图像中没有其他冗余信息。检测网络在执行检测任务时,是对待处理图像整体进行目标检测并预测目标对象的类别,待处理图像中往往包含其他冗余信息,如背景信息、其他对象的特征信息等。假设待处理图像的尺寸为1920*1080,其中的目标对象的大小为256*256,分类网络和检测网络的输入图像的尺寸均为416*416,那么将待处理图像缩放到416*416并输入至检测网络之后,目标对象的尺寸也随之被缩小为55*98,检测网络是对尺寸为55*98的目标对象进行类别预测。基于目标对象的边界框提取出的第一图像,该第一图像的尺寸为256*256,将第一图像放大至416*416,并输入至分类网络中进行处理,分类网络是对尺寸为416*416的目标对象进行类别预测。基于更大尺寸的目标对象进行类别预测,往往会提升预测精度。因此,相比于通过检测网络对待检测图像中的目标对象进行检测得到的类别检测结果,通过分类网络对第一图像进行处理得到的分类结果更加准确,将分类网络执行分类任务得到的分类结果作为检测任务的类别检测结果,有利于提升检测任务的类别预测精度。
目标检测任务的检测结果包括目标对象在待处理图像中的位置信息和所述目标对象的类别检测结果。在本发明实施例中,可以直接将所述分类任务的分类结果作为所述目标检测任务的类别检测结果,因此步骤S33中生成目标检测任务的检测结果的主要任务在于根据所述边界框位置信息和所述边界框置信度确定所述目标对象在待处理图像中的位置信息。具体地,边界框置信度用于度量目标对象位于边界框内的概率,可以先根据边界框置信度确定目标对象所在的目标边界框,再进一步根据目标边界框对应的边界框位置信息,确定目标对象在待处理图像中的位置信息。可选地,所述边界框的位置信息包括边界框的位置回归值,所述位置回归值用于表示边界框的左上角的坐标相对于待处理图像的特征图上的每个点的网格左上角的位置偏移量,和所述边界框的高度和宽度。根据边界框的位置回归值和位置信息可以确定检测目标在待检测图像中的真实位置。作为一种示例,假设待处理图像的尺寸为416*416,在1/8尺度上,提取的特征图的尺寸为52*52,以特征图中26*26这个位置的点作为参考点,以边界框相对于该参考点的位置回归值来计算目标对象在待处理图像中的真实位置:首先,计算参考点相对于待处理图像的比例坐标:(26/52,26/52)=(0.5,0.5),假设边界框的位置回归值为:0.01(x轴上的偏移量)、0.02(y轴上的偏移量)、0.05(边界框的宽)、0.06(边界框的高),则计算出边界框的左上角的x相对比例为0.5+0.01; 左上角的y相对比例为0.5+0.02。将上述比例坐标乘以图片宽高(可四舍五入),获得目标对象的真实坐标:左上角的x坐标为0.51*416=212, y坐标为0.52*416=216,目标对象的真实大小:宽为0.05*416=21,高为0.06*416=25。
可以理解的是,在本发明实施例中,利用前述步骤S11至步骤S15的方案训练检测分类复用模型时,由于检测网络和分类网络是基于联合训练得到的,检测分类复用模型中各个网络或网络层的模型参数在训练完成之后为确定值,因此在利用联合训练得到的检测分类复用模型同时执行针对相同目标对象的目标检测任务和分类任务时,无需对模型参数进行切换,节省了模型参数的上下文切换开销,有利于提升图像处理效率。
在本发明实施例中,除了可以对图3所示的检测分类复用模型的检测网络和分类网络进行联合训练,也可以分别对检测网络和分类网络进行训练。
在本发明的一种可选实施例中,所述利用预先训练的检测分类复用模型的检测网络和/或分类网络对所述待处理图像进行图像处理,得到图像处理结果之前,所述方法还包括:
步骤S41、利用预设的检测数据集对所述检测分类复用模型的检测网络进行迭代训练,直至满足第一训练终止条件,得到模型参数为第一参数的检测分类复用模型;
步骤S42、利用预设的分类数据集对所述检测分类复用模型的分类网络进行迭代训练,直至满足第二训练终止条件,得到模型参数为第二参数的检测分类复用模型。
其中,所述检测数据集和所述分类数据集可以是基于前述子步骤S111至子步骤S115的方法获取到的检测数据集和分类数据集,也可以是通过其他方式标注得到的检测数据集和分类数据集。可以理解的是,所述检测数据集中包含样本图像和样本图像的边界框,所述分类数据集中包含样本图像和样本图像的类别标签。
在本发明实施例中,可以先加载大规模分类训练Backbone参数,例如imagenet1000类分类模型的模型参数,对检测分类复用模型进行预训练,然后再利用检测数据集对检测分类复用模型的检测网络进行迭代训练,直至满足第一训练终止条件,得到模型参数为第一参数的检测分类复用模型;以及,利用分类数据集对检测分类复用模型的分类网络进行迭代训练,直至满足第二训练终止条件,得到模型参数为第二参数的检测分类复用模型。
其中,所述第一训练终止条件和所述第二训练终止条件可以根据实际需求进行设置,例如,所述第一训练终止条件可以是检测网络的第一损失值小于预设阈值,或者,所述第一训练终止条件可以是检测网络的训练次数大于预设次数阈值,等等。第二训练终止条件可以参照第一训练终止条件,本发明实施例在此不再赘述。
基于前述步骤S41至S42训练得到的检测分类复用模型,需要分别存储检测网络对应的第一参数和分类网络对应的第二参数,从而在执行目标检测任务或分类任务时,将模型参数切换为相应的参数,再利用检测网络或分类网络进行图像处理。
作为一种示例,所述图像处理任务包括分类任务,步骤102所述利用预先训练的检测分类复用模型的检测网络和/或分类网络对所述待处理图像进行图像处理,得到图像处理结果,包括:
步骤S51、将所述待处理图像缩放至第一尺寸,得到第二图像;
步骤S52、利用模型参数为第一参数的检测分类复用模型的检测网络对所述第二图像进行目标检测处理,得到目标对象的边界框;
步骤S53、根据所述目标对象的边界框从所述待处理图像中抠取出第三图像,所述第三图像包含所述目标对象;
步骤S54、将所述第三图像缩放至第二尺寸,得到第四图像;
步骤S55、利用模型参数为第二参数的检测分类复用模型的分类网络对所述第四图像进行分类处理,得到分类任务的分类结果。
在本发明实施例中,由于检测网络和分类网络是分开训练的,检测网络和分类网络对输入图像的尺寸要求可能不同,因此需要对输入检测网络和分类网络的图像分别进行缩放处理,使之适配待输入的检测网络或分类网络的尺寸要求。
同样地,边缘计算设备在接收到针对待处理图像的分类任务时,可以先利用第一参数对应的检测分类复用模型的检测网络,对缩放后的第二图像进行目标检测处理,得到目标对象的边界框。其中,所述第二图像的尺寸为第一尺寸,所述第一尺寸为检测网络的输入图像的尺寸,例如,所述第一尺寸可以为640*640。
接下来,再利用第二参数对应的检测分类复用模型的分类网络执行分类任务。具体地,根据目标对象的边界框从待处理图像中抠取出包含目标对象的第三图像,为了适配分类网络的输入图像的第二尺寸,先对第三图像进行缩放处理,得到第四图像,然后再将第四图像输入至分类网络中进行分类处理,得到分类结果。
可以理解的是,相比于前述步骤S31至步骤S33中利用对检测网络和分类网络进行联合训练得到的检测分类复用模型执行图像处理任务,本发明实施例中利用前述步骤S41至S42中对检测网络和分类网络分别进行独立训练得到的检测分类复用模型执行图像处理任务时,需要进行模型参数的上下文切换。
在本发明实施例中,如果边缘计算设备还接收到目标检测任务,且目标检测任务和分类任务的目标对象相同,则可以直接将分类网络执行分类任务得到的分类结果作为检测任务的类别检测结果,有利于提升检测任务的类别预测精度。
综上,本发明实施例的图像处理方法,提供了一种检测分类复用模型,所述检测分类复用模型包含检测网络和分类网络,所述检测网络和所述分类网络复用所述检测分类复用模型的卷积神经网络、目标尺度对应的特征提取层和类别预测层。边缘计算设备在接收到针对待处理图像的目标检测任务和/分类任务时,利用该检测分类复用模型的检测网络和/或分类网络对待处理图像进行图像处理,可以提高模型的复用率,节省边缘计算设备的存储资源,同时还能提高图像处理结果的准确度。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图4,示出了本发明的一种图像处理装置实施例的结构框图,具体可以包括:
任务接收模块401,用于接收针对待处理图像的图像处理任务,所述图像处理任务包括用于识别所述待处理图像中目标对象所属类别的分类任务,和/或,用于检测所述待处理图像中目标对象的目标检测任务;
图像处理模块402,用于利用预先训练的检测分类复用模型的检测网络和/或分类网络对所述待处理图像进行图像处理,得到图像处理结果;
其中,所述检测分类复用模型包括卷积神经网络、特征提取网络、特征预测网络和池化网络层;所述特征提取网络包括不同尺度的特征提取层,所述特征预测网络包括不同尺度的预测层,所述预测层包括类别预测层、位置预测层和置信度预测层;
所述检测网络和所述分类网络复用所述检测分类复用模型的卷积神经网络、特征提取网络中目标尺度对应的特征提取层和特征预测网络中目标尺度对应的类别预测层;
所述检测网络还包括特征提取网络中除目标尺度对应的特征提取层之外的其他特征提取层,和特征预测网络中除目标尺度对应的类别预测层之外的其他预测层;
所述分类网络还包括所述池化网络层。
可选地,所述装置还包括:
数据集获取模块,用于获取检测数据集和分类数据集;
第一训练模块,用于在每一轮训练中,利用所述检测数据集对检测分类复用模型的检测网络进行训练,得到所述检测网络的第一损失值;
第二训练模块,用于利用所述分类数据集对所述检测分类复用模型的分类网络进行训练,得到所述分类网络的第二损失值;
损失值计算模块,用于对所述第一损失值和所述第二损失值进行求和,得到所述检测分类复用模型的联合损失值;
参数调整模块,用于根据所述联合损失值对所述检测分类复用模型的模型参数进行调整,并进行下一轮训练,直至所述联合损失值满足预设条件,得到训练完成的检测分类复用模型。
可选地,所述数据集获取模块,包括:
数据集获取子模块,用于获取初始数据集,所述初始数据集中包含第一样本图像、所述第一样本图像的边界框和类别标签;
图像选取子模块,用于从所述第一样本图像中选取出分辨率大于预设阈值的候选图像,并根据所述候选图像的边界框从所述候选图像中抠取目标图像;
图像缩放子模块,用于将所述目标图像缩放至目标尺寸,得到第二样本图像;
第一构建子模块,用于根据所述第一样本图像、所述第二样本图像、所述第一样本图像的边界框和所述第二样本图像的边界框构建检测数据集,所述检测数据集中所述第一样本图像的数目与所述第二样本图像的数目的比值为预设比值;
第二构建子模块,用于根据所述第二样本图像和所述第二样本图像的类别标签构建分类数据集。
可选地,所述图像处理任务包括分类任务,所述图像处理模块,包括:
第一检测子模块,用于利用所述检测分类复用模型的检测网络对所述待处理图像进行目标检测处理,得到所述目标对象的边界框;
第一抠取子模块,用于根据所述目标对象的边界框从所述待处理图像中抠取出第一图像,所述第一图像包含所述目标对象;
第一分类子模块,用于利用所述检测分类复用模型的分类网络对所述第一图像进行分类处理,得到所述分类任务的分类结果。
可选地,所述装置还包括:
第一训练模块,用于利用预设的检测数据集对所述检测分类复用模型的检测网络进行迭代训练,直至满足第一训练终止条件,得到模型参数为第一参数的检测分类复用模型;
第二训练模块,用于利用预设的分类数据集对所述检测分类复用模型的分类网络进行迭代训练,直至满足第二训练终止条件,得到模型参数为第二参数的检测分类复用模型。
可选地,所述图像处理任务包括分类任务,所述图像处理模块,包括:
第一缩放子模块,用于将所述待处理图像缩放至第一尺寸,得到第二图像;
第二检测子模块,用于利用模型参数为第一参数的检测分类复用模型的检测网络对所述第二图像进行目标检测处理,得到目标对象的边界框;
第二抠取子模块,用于根据所述目标对象的边界框从所述待处理图像中抠取出第三图像,所述第三图像包含所述目标对象;
第二缩放子模块,用于将所述第三图像缩放至第二尺寸,得到第四图像;
第二分类子模块,用于利用模型参数为第二参数的检测分类复用模型的分类网络对所述第四图像进行分类处理,得到分类任务的分类结果。
可选地,所述图像处理任务还包括目标检测任务,且所述分类任务和所述目标检测任务的目标对象相同;所述图像处理模块还包括:
边界框信息获取子模块,用于获取所述边界框的边界框信息,所述边界框信息包括边界框位置信息和边界框置信度;
类别检测结果确定子模块,用于将所述分类任务的分类结果作为所述目标检测任务的类别检测结果;
检测结果生成子模块,用于根据所述边界框位置信息、所述边界框置信度和所述类别检测结果,生成所述目标检测任务的检测结果。
综上,本发明提供了一种检测分类复用模型,所述检测分类复用模型包含检测网络和分类网络,所述检测网络和所述分类网络复用所述检测分类复用模型的卷积神经网络、目标尺度对应的特征提取层和类别预测层。本发明实施例提供的图像处理装置在接收到针对待处理图像的目标检测任务和/分类任务时,利用该检测分类复用模型的检测网络和/或分类网络对待处理图像进行图像处理,可以提高模型的复用率,节省边缘计算设备的存储资源,同时还能提高图像处理结果的准确度。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本发明实施例还提供一种机器可读存储介质,当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时,使得装置能够执行前文图1所对应实施例中图像处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节,请参照本申请方法实施例的描述。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
以上对本发明所提供的一种图像处理方法、装置和机器可读存储介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (13)
1.一种图像处理方法,其特征在于,所述方法包括:
接收针对待处理图像的图像处理任务,所述图像处理任务包括用于识别所述待处理图像中目标对象所属类别的分类任务,和/或,用于检测所述待处理图像中目标对象的目标检测任务;
利用预先训练的检测分类复用模型的检测网络和/或分类网络对所述待处理图像进行图像处理,得到图像处理结果;
其中,所述检测分类复用模型包括卷积神经网络、特征提取网络、特征预测网络和池化网络层;所述特征提取网络包括不同尺度的特征提取层,所述特征预测网络包括不同尺度的预测层,所述预测层包括类别预测层、位置预测层和置信度预测层;所述池化网络层串联在特征预测网络中目标尺度对应的类别预测层之后;
所述检测网络和所述分类网络复用所述检测分类复用模型的卷积神经网络、特征提取网络中目标尺度对应的特征提取层和特征预测网络中目标尺度对应的类别预测层;
所述检测网络还包括特征提取网络中除目标尺度对应的特征提取层之外的其他特征提取层,和特征预测网络中除目标尺度对应的类别预测层之外的其他预测层;
所述分类网络还包括所述池化网络层;
所述利用预先训练的检测分类复用模型的检测网络和/或分类网络对所述待处理图像进行图像处理,得到图像处理结果之前,所述方法还包括:
获取检测数据集和分类数据集;
在每一轮训练中,利用所述检测数据集对检测分类复用模型的检测网络进行训练,得到所述检测网络的第一损失值;
利用所述分类数据集对所述检测分类复用模型的分类网络进行训练,得到所述分类网络的第二损失值;
对所述第一损失值和所述第二损失值进行求和,得到所述检测分类复用模型的联合损失值;
根据所述联合损失值对所述检测分类复用模型的模型参数进行调整,并进行下一轮训练,直至所述联合损失值满足预设条件,得到训练完成的检测分类复用模型。
2.根据权利要求1所述的方法,其特征在于,所述获取检测数据集和分类数据集,包括:
获取初始数据集,所述初始数据集中包含第一样本图像、所述第一样本图像的边界框和类别标签;
从所述第一样本图像中选取出分辨率大于预设阈值的候选图像,并根据所述候选图像的边界框从所述候选图像中抠取目标图像;
将所述目标图像缩放至目标尺寸,得到第二样本图像;
根据所述第一样本图像、所述第二样本图像、所述第一样本图像的边界框和所述第二样本图像的边界框构建检测数据集,所述检测数据集中所述第一样本图像的数目与所述第二样本图像的数目的比值为预设比值;
根据所述第二样本图像和所述第二样本图像的类别标签构建分类数据集。
3.根据权利要求1所述的方法,其特征在于,所述图像处理任务包括分类任务,所述利用预先训练的检测分类复用模型的检测网络和/或分类网络对所述待处理图像进行图像处理,得到图像处理结果,包括:
利用所述检测分类复用模型的检测网络对所述待处理图像进行目标检测处理,得到所述目标对象的边界框;
根据所述目标对象的边界框从所述待处理图像中抠取出第一图像,所述第一图像包含所述目标对象;
利用所述检测分类复用模型的分类网络对所述第一图像进行分类处理,得到所述分类任务的分类结果。
4.根据权利要求1所述的方法,其特征在于,所述利用预先训练的检测分类复用模型的检测网络和/或分类网络对所述待处理图像进行图像处理,得到图像处理结果之前,所述方法还包括:
利用预设的检测数据集对所述检测分类复用模型的检测网络进行迭代训练,直至满足第一训练终止条件,得到模型参数为第一参数的检测分类复用模型;
利用预设的分类数据集对所述检测分类复用模型的分类网络进行迭代训练,直至满足第二训练终止条件,得到模型参数为第二参数的检测分类复用模型。
5.根据权利要求4所述的方法,其特征在于,所述图像处理任务包括分类任务,所述利用预先训练的检测分类复用模型的检测网络和/或分类网络对所述待处理图像进行图像处理,得到图像处理结果,包括:
将所述待处理图像缩放至第一尺寸,得到第二图像;
利用模型参数为第一参数的检测分类复用模型的检测网络对所述第二图像进行目标检测处理,得到目标对象的边界框;
根据所述目标对象的边界框从所述待处理图像中抠取出第三图像,所述第三图像包含所述目标对象;
将所述第三图像缩放至第二尺寸,得到第四图像;
利用模型参数为第二参数的检测分类复用模型的分类网络对所述第四图像进行分类处理,得到分类任务的分类结果。
6.根据权利要求3或5所述的方法,其特征在于,所述图像处理任务还包括目标检测任务,且所述分类任务和所述目标检测任务的目标对象相同;所述方法还包括:
获取所述边界框的边界框信息,所述边界框信息包括边界框位置信息和边界框置信度;
将所述分类任务的分类结果作为所述目标检测任务的类别检测结果;
根据所述边界框位置信息、所述边界框置信度和所述类别检测结果,生成所述目标检测任务的检测结果。
7.一种图像处理装置,其特征在于,所述装置包括:
任务接收模块,用于接收针对待处理图像的图像处理任务,所述图像处理任务包括用于识别所述待处理图像中目标对象所属类别的分类任务,和/或,用于检测所述待处理图像中目标对象的目标检测任务;
图像处理模块,用于利用预先训练的检测分类复用模型的检测网络和/或分类网络对所述待处理图像进行图像处理,得到图像处理结果;
其中,所述检测分类复用模型包括卷积神经网络、特征提取网络、特征预测网络和池化网络层;所述特征提取网络包括不同尺度的特征提取层,所述特征预测网络包括不同尺度的预测层,所述预测层包括类别预测层、位置预测层和置信度预测层;所述池化网络层串联在特征预测网络中目标尺度对应的类别预测层之后;
所述检测网络和所述分类网络复用所述检测分类复用模型的卷积神经网络、特征提取网络中目标尺度对应的特征提取层和特征预测网络中目标尺度对应的类别预测层;
所述检测网络还包括特征提取网络中除目标尺度对应的特征提取层之外的其他特征提取层,和特征预测网络中除目标尺度对应的类别预测层之外的其他预测层;
所述分类网络还包括所述池化网络层;
所述装置还包括:
数据集获取模块,用于获取检测数据集和分类数据集;
第一训练模块,用于在每一轮训练中,利用所述检测数据集对检测分类复用模型的检测网络进行训练,得到所述检测网络的第一损失值;
第二训练模块,用于利用所述分类数据集对所述检测分类复用模型的分类网络进行训练,得到所述分类网络的第二损失值;
损失值计算模块,用于对所述第一损失值和所述第二损失值进行求和,得到所述检测分类复用模型的联合损失值;
参数调整模块,用于根据所述联合损失值对所述检测分类复用模型的模型参数进行调整,并进行下一轮训练,直至所述联合损失值满足预设条件,得到训练完成的检测分类复用模型。
8.根据权利要求7所述的装置,其特征在于,所述数据集获取模块,包括:
数据集获取子模块,用于获取初始数据集,所述初始数据集中包含第一样本图像、所述第一样本图像的边界框和类别标签;
图像选取子模块,用于从所述第一样本图像中选取出分辨率大于预设阈值的候选图像,并根据所述候选图像的边界框从所述候选图像中抠取目标图像;
图像缩放子模块,用于将所述目标图像缩放至目标尺寸,得到第二样本图像;
第一构建子模块,用于根据所述第一样本图像、所述第二样本图像、所述第一样本图像的边界框和所述第二样本图像的边界框构建检测数据集,所述检测数据集中所述第一样本图像的数目与所述第二样本图像的数目的比值为预设比值;
第二构建子模块,用于根据所述第二样本图像和所述第二样本图像的类别标签构建分类数据集。
9.根据权利要求7所述的装置,其特征在于,所述图像处理任务包括分类任务,所述图像处理模块,包括:
第一检测子模块,用于利用所述检测分类复用模型的检测网络对所述待处理图像进行目标检测处理,得到所述目标对象的边界框;
第一抠取子模块,用于根据所述目标对象的边界框从所述待处理图像中抠取出第一图像,所述第一图像包含所述目标对象;
第一分类子模块,用于利用所述检测分类复用模型的分类网络对所述第一图像进行分类处理,得到所述分类任务的分类结果。
10.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第一训练模块,用于利用预设的检测数据集对所述检测分类复用模型的检测网络进行迭代训练,直至满足第一训练终止条件,得到模型参数为第一参数的检测分类复用模型;
第二训练模块,用于利用预设的分类数据集对所述检测分类复用模型的分类网络进行迭代训练,直至满足第二训练终止条件,得到模型参数为第二参数的检测分类复用模型。
11.根据权利要求10所述的装置,其特征在于,所述图像处理任务包括分类任务,所述图像处理模块,包括:
第一缩放子模块,用于将所述待处理图像缩放至第一尺寸,得到第二图像;
第二检测子模块,用于利用模型参数为第一参数的检测分类复用模型的检测网络对所述第二图像进行目标检测处理,得到目标对象的边界框;
第二抠取子模块,用于根据所述目标对象的边界框从所述待处理图像中抠取出第三图像,所述第三图像包含所述目标对象;
第二缩放子模块,用于将所述第三图像缩放至第二尺寸,得到第四图像;
第二分类子模块,用于利用模型参数为第二参数的检测分类复用模型的分类网络对所述第四图像进行分类处理,得到分类任务的分类结果。
12.根据权利要求9或11所述的装置,其特征在于,所述图像处理任务还包括目标检测任务,且所述分类任务和所述目标检测任务的目标对象相同;所述图像处理模块还包括:
边界框信息获取子模块,用于获取所述边界框的边界框信息,所述边界框信息包括边界框位置信息和边界框置信度;
类别检测结果确定子模块,用于将所述分类任务的分类结果作为所述目标检测任务的类别检测结果;
检测结果生成子模块,用于根据所述边界框位置信息、所述边界框置信度和所述类别检测结果,生成所述目标检测任务的检测结果。
13.一种机器可读存储介质,其上存储有指令,当所述指令由装置的一个或多个处理器执行时,使得装置执行如权利要求1至6中任一所述的图像处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211368106.8A CN115439700B (zh) | 2022-11-03 | 2022-11-03 | 一种图像处理方法、装置和机器可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211368106.8A CN115439700B (zh) | 2022-11-03 | 2022-11-03 | 一种图像处理方法、装置和机器可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115439700A CN115439700A (zh) | 2022-12-06 |
CN115439700B true CN115439700B (zh) | 2023-03-14 |
Family
ID=84252110
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211368106.8A Active CN115439700B (zh) | 2022-11-03 | 2022-11-03 | 一种图像处理方法、装置和机器可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115439700B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117351440B (zh) * | 2023-12-06 | 2024-02-20 | 浙江华是科技股份有限公司 | 基于开放式文本检测的半监督船舶检测方法及*** |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210362A (zh) * | 2019-05-27 | 2019-09-06 | 中国科学技术大学 | 一种基于卷积神经网络的交通标志检测方法 |
CN111242129A (zh) * | 2020-01-03 | 2020-06-05 | 创新工场(广州)人工智能研究有限公司 | 一种用于端到端的文字检测与识别的方法和装置 |
CN113392887A (zh) * | 2021-05-31 | 2021-09-14 | 北京达佳互联信息技术有限公司 | 图片识别方法、装置、电子设备及存储介质 |
CN114267049A (zh) * | 2021-11-30 | 2022-04-01 | 武汉兴图新科电子股份有限公司 | 基于yolov5的多任务目标检测识别方法和网络结构 |
WO2022213307A1 (en) * | 2021-04-07 | 2022-10-13 | Nokia Shanghai Bell Co., Ltd. | Adaptive convolutional neural network for object detection |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9965719B2 (en) * | 2015-11-04 | 2018-05-08 | Nec Corporation | Subcategory-aware convolutional neural networks for object detection |
US9858496B2 (en) * | 2016-01-20 | 2018-01-02 | Microsoft Technology Licensing, Llc | Object detection and classification in images |
CN114170642A (zh) * | 2020-09-09 | 2022-03-11 | 成都鼎桥通信技术有限公司 | 图像检测的处理方法、装置、设备及存储介质 |
-
2022
- 2022-11-03 CN CN202211368106.8A patent/CN115439700B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210362A (zh) * | 2019-05-27 | 2019-09-06 | 中国科学技术大学 | 一种基于卷积神经网络的交通标志检测方法 |
CN111242129A (zh) * | 2020-01-03 | 2020-06-05 | 创新工场(广州)人工智能研究有限公司 | 一种用于端到端的文字检测与识别的方法和装置 |
WO2022213307A1 (en) * | 2021-04-07 | 2022-10-13 | Nokia Shanghai Bell Co., Ltd. | Adaptive convolutional neural network for object detection |
CN113392887A (zh) * | 2021-05-31 | 2021-09-14 | 北京达佳互联信息技术有限公司 | 图片识别方法、装置、电子设备及存储介质 |
CN114267049A (zh) * | 2021-11-30 | 2022-04-01 | 武汉兴图新科电子股份有限公司 | 基于yolov5的多任务目标检测识别方法和网络结构 |
Also Published As
Publication number | Publication date |
---|---|
CN115439700A (zh) | 2022-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10885397B2 (en) | Computer-executed method and apparatus for assessing vehicle damage | |
US10769496B2 (en) | Logo detection | |
CN110610166B (zh) | 文本区域检测模型训练方法、装置、电子设备和存储介质 | |
CN109711228B (zh) | 一种实现图像识别的图像处理方法及装置、电子设备 | |
CN111160469B (zh) | 一种目标检测***的主动学习方法 | |
CN111144215B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN110135514B (zh) | 一种工件分类方法、装置、设备及介质 | |
CN110135505B (zh) | 图像分类方法、装置、计算机设备及计算机可读存储介质 | |
CN111461101B (zh) | 工服标志的识别方法、装置、设备及存储介质 | |
CN113128478B (zh) | 模型训练方法、行人分析方法、装置、设备及存储介质 | |
TWI701608B (zh) | 用於圖片匹配定位的神經網路系統、方法及裝置 | |
CN111310746B (zh) | 文本行检测方法、模型训练方法、装置、服务器及介质 | |
JP2020053073A (ja) | 学習方法、学習システム、および学習プログラム | |
CN115439700B (zh) | 一种图像处理方法、装置和机器可读存储介质 | |
CN113989721A (zh) | 目标检测方法和目标检测模型的训练方法、装置 | |
CN114998438B (zh) | 一种目标检测方法、装置和机器可读存储介质 | |
CN112614108A (zh) | 基于深度学习检测甲状腺超声图像中结节的方法和装置 | |
CN116681961A (zh) | 基于半监督方法和噪声处理的弱监督目标检测方法 | |
CN116894005A (zh) | 文件处理方法、装置、电子设备和存储介质 | |
CN116678888A (zh) | 一种构件缺陷检测方法和装置 | |
CN116363641A (zh) | 一种图像处理方法、装置及电子设备 | |
CN115311680A (zh) | 人体图像质量检测方法、装置、电子设备及存储介质 | |
CN114170625A (zh) | 一种上下文感知、噪声鲁棒的行人搜索方法 | |
US20240161303A1 (en) | Methods and apparatuses for auto segmentation using bounding box | |
CN112949730B (zh) | 少样本的目标检测方法、装置、存储介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |