CN115035347A - 图片识别方法、装置及电子设备 - Google Patents
图片识别方法、装置及电子设备 Download PDFInfo
- Publication number
- CN115035347A CN115035347A CN202210725302.XA CN202210725302A CN115035347A CN 115035347 A CN115035347 A CN 115035347A CN 202210725302 A CN202210725302 A CN 202210725302A CN 115035347 A CN115035347 A CN 115035347A
- Authority
- CN
- China
- Prior art keywords
- picture
- target
- classification
- recognition
- target object
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供了一种图片识别方法、装置及电子设备,包括:获取待识别的目标图片;将所述目标图片输入至预先训练的图片识别模型中进行分类识别处理,输出所述目标图片的分类识别结果,所述图片识别模型用于对所述目标图片中的目标对象所属类别进行第一分类识别和对所述目标图片所属风格进行第二分类识别,并对所述第一分类识别的第一子分类识别结果和所述第二分类识别的第二子分类识别结果进行融合处理,得到所述分类识别结果;根据所述分类识别结果确定所述目标图片及其目标对象共同所属的目标类别。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种图片识别方法、装置及电子设备。
背景技术
随着互联网行业的快速发展,互联网中往往存在恶意用户故意发布敏感图片以煽动舆论谋取不法利润,为了保护用户的权益,需要对互联网中的敏感图片进行识别,并由审核人员对该敏感图片进行审核以确定是否将该敏感图片发布到互联网。
在一些场景下,识别敏感图片的检测算法是采用检测框的方式对待识别的图片进行识别,而每个检测框都只包含待识别的图片的局部信息,由于其仅能实现对待识别的图片的局部信息进行识别,图片识别的局限性较大,图片的识别精度较低,导致图片识别存在大量的误召。
发明内容
本申请实施例的目的是提供一种图片识别方法、装置及电子设备,提高了图片的识别精度。
为了解决上述技术问题,本申请实施例是这样实现的:
第一方面,本申请实施例提供了一种图片识别方法,包括:获取待识别的目标图片;将所述目标图片输入至预先训练的图片识别模型中进行分类识别处理,输出所述目标图片的分类识别结果,所述图片识别模型用于对所述目标图片中的目标对象所属类别进行第一分类识别和对所述目标图片所属风格进行第二分类识别,并对所述第一分类识别的第一子分类识别结果和所述第二分类识别的第二子分类识别结果进行融合处理,得到所述分类识别结果;根据所述分类识别结果确定所述目标图片及其目标对象共同所属的目标类别。
第二方面,本申请实施例提供了一种图片识别模型的训练方法,包括获取多个样本图片;根据所述多个样本图片生成训练样本集,其中,所述训练样本集中的每个训练样本标注有标签,所述标签包括所述训练样本中的目标对象所属类别的第一类别标签和所述训练样本所属风格的第二类别标签,所述第一类别标签和所述第二类别标签具有对应关系;将所述训练样本集输入到待训练的图片识别模型进行迭代训练,直至所述图片识别模型对应的损失函数收敛的情况下,得到训练后的图片识别模型,所述损失函数表示所述图片识别模型输出的所述样本图片及其目标对象共同所属目标类别的预测值与真实值之间的误差,所述真实值根据所述第一类别标签和所述第二类别标签确定的。
第三方面,本申请实施例提供了一种图片识别装置,包括:获取模块,用于获取待识别的目标图片;识别模块,用于将所述目标图片输入至预先训练的图片识别模型中进行分类识别处理,输出所述目标图片的分类识别结果,所述图片识别模型用于对所述目标图片中的目标对象所属类别进行第一分类识别和对所述目标图片所属风格进行第二分类识别,并对所述第一分类识别的第一子分类识别结果和所述第二分类识别的第二子分类识别结果进行融合处理,得到所述分类识别结果;
确定模块,用于根据所述分类识别结果确定所述目标图片及其目标对象共同所属的目标类别。
第四方面,本申请实施例提供了一种图片识别模型的训练装置,包括:获取模块,用于获取多个样本图片;生成模块,用于根据所述多个样本图片生成训练样本集,其中,所述训练样本集中的每个训练样本标注有标签,所述标签包括所述训练样本中的目标对象所属类别的第一类别标签和所述训练样本所属风格的第二类别标签,所述第一类别标签和所述第二类别标签具有对应关系;训练模块,用于将所述训练样本集输入到待训练的图片识别模型进行迭代训练,直至所述图片识别模型对应的损失函数收敛的情况下,得到训练后的图片识别模型,所述损失函数表示所述图片识别模型输出的所述样本图片及其目标对象共同所属目标类别的预测值与真实值之间的误差,所述真实值根据所述第一类别标签和所述第二类别标签确定的。
第五方面,本申请实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线;其中,所述处理器、所述通信接口以及所述存储器通过总线完成相互间的通信;所述存储器,用于存放计算机程序;所述处理器,用于执行所述存储器上所存放的程序,实现如第一方面所述的图片识别方法或第二方面所述的图片识别模型的训练方法步骤。
第六方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现如第一方面所述的图片识别方法或第二方面所述的图片识别模型的训练方法步骤。
第七方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的图片识别方法或第二方面所述的图片识别模型的训练方法步骤。
由以上本申请实施例提供的技术方案可见,通过获取待识别的目标图片;将所述目标图片输入至图片识别模型中进行分类识别处理,得到所述图片识别模型输出的目标图片的分类识别结果,所述图片识别模型用于对所述目标图片中的目标对象所属类别进行第一分类识别和对所述目标图片所属风格进行第二分类识别,并对所述第一分类识别的第一子分类识别结果和所述第二分类识别的第二子分类结果进行融合处理;根据所述分类识别结果确定所述目标图片及其目标对象共同所属的目标类别,如此,图片识别模型同时兼顾了目标图片的全局特征和局部的目标对象的特征,减小了图片识别的局限性,提高了图片的识别精度,降低了图片识别的误召率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的图片识别方法的第一种流程示意图;
图2为本申请实施例提供的图片识别模型的训练方法的流程示意图;
图3为本申请实施例提供一种聚类结果的示意图;
图4为本申请实施例提供一种模型训练过程的示意图;
图5为本申请实施例提供一种模型输出的概率图的示意图;
图6为本申请实施例提供一种图片识别装置的功能模块示意图;
图7为本申请实施例提供一种图片识别模型的训练装置的功能模块示意图;
图8为本申请实施例提供的电子设备的结构示意图。
具体实施方式
本申请实施例的目的是提供一种图片识别方法、装置及电子设备,提高了图片的识别精度。
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
如上的,识别敏感图片的检测算法是采用检测框的方式对待识别的图片进行识别,而每个检测框都只包含待识别的图片的局部信息,由于其仅能实现对待识别的图片的局部信息进行识别,会缺乏对整张图片全局特征的考量,虽然图片的一些局部特征符合找寻的目标,但是整张图来看该局部特征并不符合找寻的目标,图片识别的局限性较大,图片的识别精度较低,进而导致图片识别存在大量的误召。
为了解决以上技术问题,本申请实施例提供了一种图片识别方法、装置及电子设备,下面结合附图对本申请实施例提供的一种图片识别方法、装置及电子设备进行详细说明。
如图1所示,本申请实施例提供一种图片识别方法,该方法的执行主体可以为服务器,其中,该服务器可以是独立的服务器,也可以是由多个服务器组成的服务器集群。该图片识别方法具体可以包括以下步骤S101-S105:
在步骤S101中,获取待识别的目标图片。
具体来讲,待识别的目标图片可以是图片中带有需要检测的目标对象的图片,对目标图片进行识别具体是识别图片中目标对象的类别和目标图片所属风格的类别。其中,目标图片可以是带有敏感信息的敏感图片,对于该敏感图片而言,本申请实施例需要对图片中的敏感信息进行识别以及对该敏感图片的类别进行识别。例如,目标图片为带有恶搞人物的漫画风格的图片,在识别该图片时,需要对该图片所属的图片风格和图片中恶搞人物所属的类别进行识别。
在步骤S103中,将目标图片输入至图片识别模型中进行分类识别处理,输出目标图片的分类识别结果。
其中,图片识别模型用于对目标图片中的目标对象所属类别进行第一分类识别和对目标图片所属风格进行第二分类识别,并对第一分类识别的第一子分类识别结果和第二分类识别的第二子分类结果进行融合处理,得到分类识别结果。
具体来讲,目标图片中的目标对象可以是图片中需要被检测的物体,如人物、风景、敏感标志(如恶搞文字、恶搞插画等),目标图片所属风格的类别包括但不限于漫画类别、风景类别、人物类别、文字类别等。对于图片识别模型而言,其可以对目标图片中的目标对象所属的类别进行分类识别,也可以对目标图片的整体图片所属的风格进行分类识别,使得图片识别模型兼顾图片的全局特征和局部的目标对象的特征,有效解决了减小了图片识别的局限性,提高了图片的识别精度,进而降低了图片识别误召率。
在一种可能的实现方式中,图片识别模型包括主干特征提取层、目标对象检测层、整图特征分类层和特征融合层;在分类识别处理中,主干特征提取层用于对目标图片的主干图像特征进行提取,得到目标图片的主干图像特征;目标对象检测层用于对主干图像特征中的目标对象所属类别进行第一分类识别,得到目标图片中目标对象的第一子分类识别结果,第一子分类识别结果指示目标图片中目标对象所属各类别的概率;整图特征分类层用于根据主干图像特征对目标图片所属风格进行第二分类识别,得到目标图片的第二子分类识别结果,第二子分类识别结果指示目标图片所属各风格的概率;特征融合层用于对第一子分类识别结果和第二子分类识别结果进行融合处理,得到目标图片的分类识别结果,分类识别结果指示目标图片及其目标对象共同所属的目标类别。
具体来讲,主干特征提取层是由卷积(Convolution)、批标准化(BatchNormalization)、激活函数(Activate Function)以及残差结构(Res unit)等结构堆叠构建主干特征提取网络,首先将目标图片预处理后送入主干特征提取层进行正向传播获得目标图片的主干特征图,然后将主干特征图分别送入目标对象检测层和整图特征分类层。其中,整图特征分类层由一层卷积、批标准化、池化(Pooling)、线性分类(LinearLayer)以及Softmax函数构建的整图特征分类器,在整图特征分类器中需要额外设置一类用于不属于被分类或被识别的图片的类别,将主干特征图送入整图特征分类层进行正向传播,可以得到含有目标图片整图所属风格的分类信息的概率图(第二子分类结果);目标对象检测层由卷积、批标准化、激活函数、上采样(Upsampling)、拼接(Concat)等构成,其中,可以根据上采样的倍率不同构成三种尺度不一的目标对象特征检测图,将主干特征图送入目标对象检测层后进行正向传播,得到含有目标图片的局部的目标对象所在的位置信息和目标图片所属风格的分类信息的概率图(第一子分类结果)。特征融合层用于将第一子分类结果和第二子分类结果进行融合,按照对应的规则进行融合运算,得到含有目标对象的局部信息以及图片整体特征的概率图(分类识别结果)。
在一种可能的实现方式中,特征融合层还用于从第一子分类识别结果中筛选出概率大于设定阈值的目标图片中目标对象所属的各目标类别,按照预设的对象所属类别与图片所属风格之间的对应关系,确定目标图片中目标对象所属的各目标类别与目标图片所属的各风格之间的目标对应关系,根据目标对应关系将第一目标子分类识别结果和第二子分类识别结果进行融合处理。
具体来讲,特征融合层用于将目标图片的局部的目标对象的分类信息的概率图进行初步过滤得到较高概率含有目标对象的概率图,将过滤后的概率图和上述含有整图的分类信息的概率图进行融合,具体是按照预设的对象的类别和图片所属风格的第二类别的对应关系,确定出目标对象所属的目标类别与目标图片所属的各风格之间目标对应关系,将目标图片所属类别的概率图与目标图片中目标对象的概率图按照该目标对象关系将概率对应相乘,得到融合后的概率图。
在步骤S105中,根据分类识别结果确定目标图片及其目标对象共同所属的目标类别。
具体来讲,按照分类识别结果对应的概率图,对该概率图进行NMS运算后,确定目标图片的风格的类别和目标图片中目标对象的类别。
由以上本申请实施例提供的技术方案可见,通过获取待识别的目标图片;将目标图片输入至图片识别模型中进行分类识别处理,得到图片识别模型输出的目标图片的分类识别结果,图片识别模型用于对目标图片中的目标对象所属类别进行第一分类识别和对目标图片所属风格进行第二分类识别,并对第一分类识别的第一子分类识别结果和第二分类识别的第二子分类结果进行融合处理;根据分类识别结果确定目标图片及其目标对象共同所属的目标类别,如此,图片识别模型同时兼顾了目标图片的全局特征和局部的目标对象的特征,减小了图片识别的局限性,提高了图片的识别精度,降低了图片识别的误召率。
如图2所示,本申请实施例提供一种图片识别模型的训练方法,该方法的执行主体可以为服务器,其中,该服务器可以是独立的服务器,也可以是由多个服务器组成的服务器集群。该图片识别方法具体可以包括以下步骤S201-S205:
在步骤S201中,获取多个样本图片。
具体来讲,对于需要识别的图片数据进行收集作为样本图片,将这些样本图片构建成数据集D。对于数据集中的样本图片而言,总共有N种类别的目标物体(目标对象)需要被识别,每个需要被识别的物体记为Ni,而整个样本图片的类别可以分为C个类别,每种类别分别记为Ci,其中,i=1,2,3…n。本申请实施例中,为了方便说明,对于数据集D中的任意一张样本图片记为d,假设数据集D中有7个需要检测的物体,数据集中的样本图片的类别可以被分为5类,此外,根据实际需求可以添加一个额外类别需要识别,数据集中的样本图片的类别可以总共分为6类。其中,对于数据集D中样本图片的类别和图片中物体的类别的确定可以采用三种方式,分别为聚类的方式、图片检测类别投票的方式以及专家先验分类的方式,其中为了提升图片识别模型的训练效率和效果可以采用聚类的方式、图片检测类别投票的方式这两种机器自动类别选取方法进行分类。
在步骤S203中,根据多个样本图片生成训练样本集。
其中,训练样本集中的每个训练样本标注有标签,标签包括训练样本中的目标对象所属类别的第一类别标签和训练样本所属风格的第二类别标签,第一类别标签和第二类别标签具有对应关系。
具体的,根据多个样本图片生成训练样本集包括:对多个样本图片进行标记处理,通过聚类算法将经过标记处理的样本图片进行聚类,得到样本图片所属风格的第二类别标签和训练样本中目标对象所属类别的第一类别标签;建立第一类别标签和第二类别标签之间的对应关系,生成训练样本集。
具体来讲,参考上述实施例中的记载,首先对于数据集D中的样本图片进行标记,具体是将样本图片所属风格的类别、样本图片中目标对象的类别、中心点、宽度信息和高度信息作为标签。然后使用聚类算法将上述经过标记处理的样本图片进行聚类,具体是采用k-means算法对上述经过标记处理的样本图片进行聚类,示例性的,如图3所示的,对采用k-means算法对样本图片进行聚类后,样本图片所属风格被分为5个类别,分别为类别C1至类别C5,样本图片中的目标对象被分为7个类别,分别为,目标N1(类别N1)至目标N7(类别N7),按照类别C1至类别C5、类别N1至类别N7对数据集中的每个样本图片进行分类打标,每一个样本图片具有其所属的第二类别标签,每一个样本图片中的目标对象具有其所属的第一类别标签,并建立第一类别标签和第二类别标签之间的对应关系,并将各个样本图片的第二类别标签、第一类别标签以及上述对应关系进行存储。示例性的,如图4所示的,为建立的第一类别标签和第二类别标签之间的对应关系的示意图。此外,为了满足后续需求中需要被识别额外的样本图片的类别,如果数据集D中不属于被分类或被识别的图片,可以在样本图片的类别中额外人为标记一个分类任务类别,即如图3中所示的类别C6,从而使得训练后的图片识别模型的伸缩性更好,进一步减小图片识别模型的局限性。
在步骤S205中,将训练样本集输入到待训练的图片识别模型进行迭代训练,直至图片识别模型对应的损失函数收敛的情况下,得到训练后的图片识别模型。
其中,损失函数表示图片识别模型输出的样本图片及其目标对象共同所属目标类别的预测值与真实值之间的误差,真实值根据第一类别标签和第二类别标签确定的。
下面结合图4对本申请实施例的图片识别模型的训练过程进行详细说明,如图4所示的,在经过上述的构建训练样本集(图像标签构建)的步骤之后,将训练样本集输入到待训练的图片识别模型。待训练的图片识别模型包括:主干特征提取层、目标对象检测层、整图特征分类层和特征融合层。
其中,主干特征提取层是由卷积(Convolution)、批标准化(BatchNormalization)、激活函数(Activate Function)以及残差结构(Res unit)等结构堆叠构建的特征提取网络,首先将训练样本集中的每个训练样本预处理后送入主干特征提取层进行正向传播获得图片的主干特征图,然后将主干特征图分别送入目标对象检测层和整图特征分类层。其中,整图特征分类层由一层卷积、批标准化、池化(Pooling)、线性分类(LinearLayer)以及Softmax函数构建的整图特征分类器,在整图特征分类器中需要额外设置一类用于不属于被分类或被识别的图片的类别,将主干特征图送入整图特征分类层进行正向传播,可以得到含有整图所属风格的分类信息的概率图;目标对象检测层由卷积、批标准化、激活函数、上采样(Upsampling)、拼接(Concat)等构成,其中,可以根据上采样的倍率不同构成三种尺度不一的目标对象特征检测图,将主干特征图送入目标对象检测层后进行正向传播,得到含有图片的局部的目标对象所在的位置信息和整图图片所属风格的分类信息的概率图。特征融合层用于将图片的局部的目标对象的分类信息的概率图进行初步过滤得到较高概率含有目标对象的概率图,将过滤后的概率图和上述含有整图的分类信息的概率图进行融合,按照对应的规则进行融合运算,得到含有目标对象的局部信息以及图片整体特征的概率图。如图5所示的,图片d通过整图特征分类层进行正向传播后,得到含有整图的分类信息的概率图分别如图5中C1至C6所示的,将主干特征图送入目标对象检测层后进行正向传播,得到含有图片的局部的目标对象所在的位置信息和图片所属风格的分类信息的概率图如图5中N1至N7所示的,通过特征融合层将图5中C1至C6与图5中N1至N7进行融合处理后,得到的融合概率图如图5中n1至n7所示的。
在图片识别模型训练完成后,根据图像数据对图片识别模型进行推理,具体是对于图片的分类结果判断人为标记的类别C6是否命中,如果命中则召回该类别。如此,由于局部检测无法捕捉图片的全局信息,比如需求将漫画风格或风景图片召回,局部检测的标签就有不足,通过本申请可以将这样的需求放在人为标记的分类模块C6中进行识别,进一步提高了图片识别模型的识别可靠性、伸缩性和识别精度。
通过本申请实施例公开的技术方案,训练样本集中训练样本和训练样本的目标对象具有对应关系,根据该训练样本得到的图片识别模型,同时兼顾了目标图片的全局特征和局部的目标对象的特征,减小了图片识别的局限性,提高了图片的识别精度,降低了图片识别的误召率。
在一种可能的实现方式中,如图5所示的,所述图片识别模型每次迭代训练的具体步骤包括:对样本图片的主干图像特征进行提取,得到样本图片的主干图像特征,确定样本图片的目标对象所属类别的第一概率图;根据主干图像特征确定样本图片所属风格的第二概率图;对第一概率图和第二概率图进行融合处理,得到样本图片及其目标对象共同所属目标类别的第三概率图;根据第三概率图对应的目标类别、第一类别标签、第二类别标签、以及图片识别模型对应的损失函数,调整图片识别模型的模型参数。
具体来讲,按照上述实施例中的描述,通过特征融合层将样本图片的目标对象所属的类别的第一概率图和根据主干图像特征确定样本图片所属风格的第二概率图进行融合后,得到了第三概率图,将特征融合层得到的第三概率图结合目标对象在图片中的位置信息进行融合特征检测,具体是对通过主干特征提取层、目标对象检测层、整图特征分类层和特征融合层所得到的样本图片所属风格的类别和样本图片中目标对象所属的类别进行检测,将检测结果与上述实施例中预先构建的训练样本集中的每个训练样本标注的第一类别标签和第二类别标签进行比对,按照检测结果与预先建立的样本图片的第一类别标签和第二类别标签的相似度构建损失函数。如此,损失函数是按照第三概率图对应的类别与第一类别标签和第二类别标签之间的相似度构建的,能够进一步提高图片识别模型的训练精度,在将训练好的图片识别模型应用到图片识别的场景中,能够提高图片识别模型识别图片的识别精度。
其中,在一种可能的实现方式中,图片识别模型对应的损失函数包括目标对象检测损失函数和整图特征分类损失函数,其中,所述目标对象检测损失函数表示所述训练样本中的所述目标对象所属类别的预测值与第一类别标签之间的误差,所述整图特征分类损失函数表示所述训练样本所属风格的预测值与第二类别标签之间的误差。在将训练样本集输入到待训练的图片识别模型进行迭代训练之前,方法还包括:确定目标对象检测损失函数对应的第一权重,整图特征分类损失函数对应的第二权重;根据第一权重、目标对象检测损失函数、第二权重和整图特征分类损失函数构建损失函数。
具体来讲,可以将目标对象检测损失函数和整图特征分类损失函数按照对应的权重系数相加,构建损失函数。其中,第一权重和第二权重可以按照图片识别的侧重点设定,如果着重识别整体图片所属风格的类别,则将第二权重设置的比第一权重高,如果着重识别图片中目标对象的类别,则将第二权重设置的比第一权重低,具体可以按照实际情况设定,本申请实施例在此并不作限定。
进一步,目标对象检测损失函数包括目标检测分类损失函数、目标检测前景分类损失函数和目标检测框回归损失函数。
对于整图特征分类损失函数、目标检测分类损失函数、目标检测前景分类损失函数和目标检测框回归损失函数可以设置对应的权重参数,从而尽可能利用多种损失函数提高图片识别模型的训练精度,在将训练好的图片识别模型应用到图片识别的场景中,能够提高图片识别模型识别图片的识别精度。例如,将整图特征分类损失函数、目标检测分类损失函数、目标检测前景分类损失函数和目标检测框回归损失函数的权重值分别设置为0.3,0.7,0.3,0.05,将整图特征分类损失函数、目标检测分类损失函数、目标检测前景分类损失函数和目标检测框回归损失函数与各自的权重值对应相乘后再相加,使用梯度下降算法对待训练的图片识别模型进行训练。
对应上述实施例提供的图片识别方法,基于相同的技术构思,本申请实施例还提供了图片识别装置,图6为本申请实施例提供的图片识别装置的模块组成示意图,该图片识别装置用于执行上述实施例描述的图片识别方法,如图6所示,该图片识别装置600包括:获取模块601,用于获取待识别的目标图片;识别模块602,用于将目标图片输入至预先训练的图片识别模型中进行分类识别处理,输出目标图片的分类识别结果,图片识别模型用于对目标图片中的目标对象所属类别进行第一分类识别和对目标图片所属风格进行第二分类识别,并对第一分类识别的第一子分类识别结果和第二分类识别的第二子分类识别结果进行融合处理,得到分类识别结果;确定模块603,用于根据分类识别结果确定目标图片及其目标对象共同所属的目标类别。
通过本申请实施例公开的技术方案,图片识别模型,同时兼顾了目标图片的全局特征和局部的目标对象的特征,减小了图片识别的局限性,提高了图片的识别精度,降低了图片识别的误召率。
在一种可能的实现方式中,图片识别模型包括:主干特征提取层、目标对象检测层、整图特征分类层和特征融合层;在分类识别处理中,主干特征提取层用于对目标图片的主干图像特征进行提取,得到目标图片的主干图像特征;目标对象检测层用于对主干图像特征中的目标对象所属类别进行第一分类识别,得到目标图片中目标对象的第一子分类识别结果,第一子分类识别结果指示目标图片中目标对象所属各类别的概率;整图特征分类层用于根据主干图像特征对目标图片所属风格进行第二分类识别,得到目标图片的第二子分类识别结果,第二子分类识别结果指示目标图片所属各风格的概率;特征融合层用于对第一子分类识别结果和第二子分类识别结果进行融合处理,得到目标图片的分类识别结果,分类识别结果指示目标图片及其目标对象共同所属的目标类别。
在一种可能的实现方式中,特征融合层还用于从第一子分类识别结果中筛选出概率大于设定阈值的目标图片中目标对象所属的各目标类别,按照预设的对象所属类别与图片所属风格之间的对应关系,确定目标图片中目标对象所属的各目标类别与目标图片所属的各风格之间的目标对应关系,根据目标对应关系将第一目标子分类识别结果和第二子分类识别结果进行融合处理。
本申请实施例提供的图片识别装置能够实现上述图片识别方法对应的实施例中的各个过程,为避免重复,这里不再赘述。
需要说明的是,本申请实施例提供的图片识别装置与本申请实施例提供的图片识别方法基于同一发明构思,且具有相同的技术效果,因此该实施例的具体实施可以参见前述图片识别方法的实施,重复之处不再赘述。
对应上述实施例提供的图片识别模型的训练方法,基于相同的技术构思,本申请实施例还提供了图片识别模型的训练装置,图7为本申请实施例提供的图片识别模型的训练装置的模块组成示意图,该图片识别模型的训练装置用于执行上述实施例描述的图片识别模型的训练方法,如图7所示,该图片识别模型的训练装置700包括:获取模块701,用于获取多个样本图片;生成模块702,用于根据多个样本图片生成训练样本集,其中,训练样本集中的每个训练样本标注有标签,标签包括训练样本中的目标对象所属类别的第一类别标签和训练样本所属风格的第二类别标签,第一类别标签和第二类别标签具有对应关系;训练模块703,用于将训练样本集输入到待训练的图片识别模型进行迭代训练,直至图片识别模型对应的损失函数收敛的情况下,得到训练后的图片识别模型,损失函数表示图片识别模型输出的样本图片及其目标对象共同所属目标类别的预测值与真实值之间的误差,真实值根据第一类别标签和第二类别标签确定的。
在一种可能的实现方式中,生成模块702,,还用于对多个样本图片进行标记处理,通过聚类算法将经过标记处理的样本图片进行聚类,得到样本图片所属风格的第二类别标签和训练样本中目标对象所属类别的第一类别标签;建立第一类别标签和第二类别标签之间的对应关系,生成训练样本集。
在一种可能的实现方式中,还包括:提取模块,用于对样本图片的主干图像特征进行提取,得到样本图片的主干图像特征,确定样本图片的目标对象所属类别的第一概率图;确定模块,用于根据主干图像特征确定样本图片所属风格的第二概率图;融合模块,用于对第一概率图和第二概率图进行融合处理,得到样本图片及其目标对象共同所属目标类别的第三概率图;构建模块,用于根据第三概率图对应的目标类别、第一类别标签、第二类别标签以及损失函数,调整所述图片识别模型的模型参数。
在一种可能的实现方式中,所述损失函数包括目标对象检测损失函数和整图特征分类损失函数确定模块,还用于其所述目标对象检测损失函数表示所述训练样本中的所述目标对象所属类别的预测值与第一类别标签之间的误差,所述整图特征分类损失函数表示所述训练样本所属风格的预测值与第二类别标签之间的误差。
本申请实施例提供的图片识别模型的训练装置能够实现上述图片识别模型的训练方法对应的实施例中的各个过程,为避免重复,这里不再赘述。
需要说明的是,本申请实施例提供的图片识别模型的训练装置与本申请实施例提供的图片识别模型的训练方法基于同一发明构思,且具有相同的技术效果,因此该实施例的具体实施可以参见前述图片识别模型的训练方法的实施,重复之处不再赘述。
对应上述实施例提供的方法实施例,基于相同的技术构思,本申请实施例还提供了一种电子设备,该电子设备用于执行上述的方法实施例,图8为实现本发明各个实施例的一种电子设备的结构示意图,如图8所示。电子设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器801和存储器802,存储器802中可以存储有一个或一个以上存储应用程序或数据。其中,存储器802可以是短暂存储或持久存储。存储在存储器802的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对电子设备中的一系列计算机可执行指令。更进一步地,处理器801可以设置为与存储器802通信,在电子设备上执行存储器802中的一系列计算机可执行指令。电子设备还可以包括一个或一个以上电源803,一个或一个以上有线或无线网络接口804,一个或一个以上输入输出接口805,一个或一个以上键盘806。
在本实施例中,电子设备包括有处理器、通信接口、存储器和通信总线;其中,处理器、通信接口以及存储器通过总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序,实现上述方法实施例中描述的步骤。
需要说明的是,本申请实施例提供的电子设备与本申请实施例提供的方法实施例基于同一发明构思,且具有相同的技术效果,因此该实施例的具体实施可以参见前述方法实施例的实施,重复之处不再赘述。
本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,实现如上述方法实施例中描述的步骤。
需要说明的是,本申请实施例提供的计算机可读存储介质与上述方法实施例提供的方法基于同一发明构思,且具有相同的技术效果,因此该实施例的具体实施可以参见前述方法实施例的实施,重复之处不再赘述。
具体实施例中,本申请实施例提供了一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现上述方法实施例中描述的步骤。
需要说明的是,本申请实施例提供的芯片与本申请实施例提供的方法实施例基于同一发明构思,且具有相同的技术效果,因此该实施例的具体实施可以参见前述方法实施例的实施,重复之处不再赘述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,电子设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、装置或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种图片识别方法,其特征在于,所述图片识别方法包括:
获取待识别的目标图片;
将所述目标图片输入至预先训练的图片识别模型中进行分类识别处理,输出所述目标图片的分类识别结果,所述图片识别模型用于对所述目标图片中的目标对象所属类别进行第一分类识别和对所述目标图片所属风格进行第二分类识别,并对所述第一分类识别的第一子分类识别结果和所述第二分类识别的第二子分类识别结果进行融合处理,得到所述分类识别结果;
根据所述分类识别结果确定所述目标图片及其目标对象共同所属的目标类别。
2.根据权利要求1所述的图片识别方法,其特征在于,所述图片识别模型包括:主干特征提取层、目标对象检测层、整图特征分类层和特征融合层;
在所述分类识别处理中,所述主干特征提取层用于对所述目标图片的主干图像特征进行提取,得到所述目标图片的主干图像特征;
所述目标对象检测层用于对所述主干图像特征中的目标对象所属类别进行第一分类识别,得到所述目标图片中目标对象的第一子分类识别结果,所述第一子分类识别结果指示所述目标图片中目标对象所属各类别的概率;
所述整图特征分类层用于根据所述主干图像特征对所述目标图片所属风格进行第二分类识别,得到所述目标图片的第二子分类识别结果,所述第二子分类识别结果指示所述目标图片所属各风格的概率;
所述特征融合层用于对所述第一子分类识别结果和所述第二子分类识别结果进行融合处理,得到所述目标图片的分类识别结果,所述分类识别结果指示所述目标图片及其目标对象共同所属的目标类别。
3.根据权利要求2所述的图片识别方法,其特征在于,所述特征融合层还用于从所述第一子分类识别结果中筛选出概率大于设定阈值的所述目标图片中目标对象所属的各目标类别,按照预设的对象所属类别与图片所属风格之间的对应关系,确定所述目标图片中目标对象所属的各目标类别与所述目标图片所属的各风格之间的目标对应关系,根据所述目标对应关系将所述第一子分类识别结果和所述第二子分类识别结果进行融合处理。
4.一种图片识别模型的训练方法,其特征在于,包括:
获取多个样本图片;
根据所述多个样本图片生成训练样本集,其中,所述训练样本集中的每个训练样本标注有标签,所述标签包括所述训练样本中的目标对象所属类别的第一类别标签和所述训练样本所属风格的第二类别标签,所述第一类别标签和所述第二类别标签具有对应关系;
将所述训练样本集输入到待训练的图片识别模型进行迭代训练,直至所述图片识别模型对应的损失函数收敛的情况下,得到训练后的图片识别模型,所述损失函数表示所述图片识别模型输出的所述样本图片及其目标对象共同所属目标类别的预测值与真实值之间的误差,所述真实值根据所述第一类别标签和所述第二类别标签确定。
5.根据权利要求4所述的图片识别模型的训练方法,其特征在于,所述根据所述多个样本图片生成训练样本集包括:
对所述多个样本图片进行标记处理,通过聚类算法将经过标记处理的样本图片进行聚类,得到所述样本图片所属风格的第二类别标签和所述训练样本中目标对象所属类别的第一类别标签;
建立所述第一类别标签和所述第二类别标签之间的对应关系,生成所述训练样本集。
6.根据权利要求4所述的图片识别模型的训练方法,其特征在于,所述图片识别模型每次迭代训练的具体步骤包括:
对所述样本图片的主干图像特征进行提取,得到所述样本图片的主干图像特征,确定所述样本图片的目标对象所属类别的第一概率图;
根据所述主干图像特征确定所述样本图片所属风格的第二概率图;
对所述第一概率图和所述第二概率图进行融合处理,得到所述样本图片及其目标对象共同所属目标类别的第三概率图;
根据所述第三概率图对应的目标类别、所述第一类别标签、所述第二类别标签、以及所述损失函数,调整所述图片识别模型的模型参数。
7.根据权利要求4所述的图片识别模型的训练方法,其特征在于,所述损失函数包括目标对象检测损失函数和整图特征分类损失函数;其中,所述目标对象检测损失函数表示所述训练样本中的所述目标对象所属类别的预测值与第一类别标签之间的误差,所述整图特征分类损失函数表示所述训练样本所属风格的预测值与第二类别标签之间的误差。
8.一种图片识别装置,其特征在于,所述图片识别包括:
获取模块,用于获取待识别的目标图片;
识别模块,用于将所述目标图片输入至预先训练的图片识别模型中进行分类识别处理,输出所述目标图片的分类识别结果,所述图片识别模型用于对所述目标图片中的目标对象所属类别进行第一分类识别和对所述目标图片所属风格进行第二分类识别,并对所述第一分类识别的第一子分类识别结果和所述第二分类识别的第二子分类识别结果进行融合处理,得到所述分类识别结果;
确定模块,用于根据所述分类识别结果确定所述目标图片及其目标对象共同所属的目标类别。
9.一种电子设备,包括处理器、通信接口、存储器和通信总线;其中,所述处理器、所述通信接口以及所述存储器通过总线完成相互间的通信;所述存储器,用于存放计算机程序;所述处理器,用于执行所述存储器上所存放的程序,实现如权利要求1-3任意一项所述的图片识别方法或4-7任意一项所述的图片识别模型的训练方法步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1-3任意一项所述的图片识别方法或4-7任意一项所述的图片识别模型的训练方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210725302.XA CN115035347A (zh) | 2022-06-24 | 2022-06-24 | 图片识别方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210725302.XA CN115035347A (zh) | 2022-06-24 | 2022-06-24 | 图片识别方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115035347A true CN115035347A (zh) | 2022-09-09 |
Family
ID=83127681
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210725302.XA Pending CN115035347A (zh) | 2022-06-24 | 2022-06-24 | 图片识别方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115035347A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117218433A (zh) * | 2023-09-13 | 2023-12-12 | 珠海圣美生物诊断技术有限公司 | 居家多癌种检测装置和多模态融合模型构建方法及装置 |
CN117558000A (zh) * | 2023-06-14 | 2024-02-13 | 北京数美时代科技有限公司 | 一种敏感标志的检测方法、***、介质及设备 |
-
2022
- 2022-06-24 CN CN202210725302.XA patent/CN115035347A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117558000A (zh) * | 2023-06-14 | 2024-02-13 | 北京数美时代科技有限公司 | 一种敏感标志的检测方法、***、介质及设备 |
CN117218433A (zh) * | 2023-09-13 | 2023-12-12 | 珠海圣美生物诊断技术有限公司 | 居家多癌种检测装置和多模态融合模型构建方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108418825B (zh) | 风险模型训练、垃圾账号检测方法、装置以及设备 | |
CN115035347A (zh) | 图片识别方法、装置及电子设备 | |
CN110188829B (zh) | 神经网络的训练方法、目标识别的方法及相关产品 | |
CN111080304A (zh) | 一种可信关系识别方法、装置及设备 | |
CN114419570B (zh) | 一种点云数据识别方法、装置、电子设备及存储介质 | |
CN112711578B (zh) | 用于云计算业务的大数据去噪方法及云计算金融服务器 | |
CN114943307A (zh) | 一种模型训练的方法、装置、存储介质以及电子设备 | |
CN115828242A (zh) | 基于大型异构图表示学习的安卓恶意软件检测方法 | |
CN113674374B (zh) | 基于生成式对抗网络的中文文本生成图像方法及装置 | |
CN114091551A (zh) | 色情图像识别方法、装置、电子设备及存储介质 | |
CN117313141A (zh) | 一种异常检测方法、装置、设备及可读存储介质 | |
CN117475253A (zh) | 一种模型训练方法、装置、电子设备及存储介质 | |
CN115223022B (zh) | 一种图像处理方法、装置、存储介质及设备 | |
CN113569873B (zh) | 一种图像的处理方法、装置及设备 | |
CN117523218A (zh) | 标签生成、图像分类模型的训练、图像分类方法及装置 | |
CN112183622B (zh) | 一种移动应用bots安装作弊检测方法、装置、设备及介质 | |
CN111984714B (zh) | 基于智能在线通信和大数据的信息生成方法及云服务平台 | |
CN112825145B (zh) | 人体朝向检测方法、装置、电子设备和计算机存储介质 | |
CN111078877B (zh) | 数据处理、文本分类模型的训练、文本分类方法和装置 | |
CN114638304A (zh) | 图像识别模型的训练方法、图像识别方法及装置 | |
CN112733134A (zh) | 基于大数据和区块链的信息安全防护方法及数字金融平台 | |
CN113837863B (zh) | 一种业务预测模型创建方法、装置及计算机可读存储介质 | |
CN115908998B (zh) | 水深数据识别模型的训练方法、水深数据识别方法及装置 | |
CN115563289B (zh) | 行业分类标签生成方法、装置、电子设备和可读介质 | |
CN117914561A (zh) | 网络流量过滤方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |