发明内容
本发明实施例提供一种图像数据的处理方法、装置及电子设备,用于解决现有技术中图像识别模型稳定性较差的技术问题,提高图像识别模型的精确度。
第一方面,本发明实施例提供一种图像数据的处理方法,包括:
获取图像训练样本集,所述图像训练样本集中包含第一类图像和第二类图像,所述第一类图像中包含图像识别模型使用时需要输出的目标物,所述第二类图像中不包含所述目标物;
将所述图像训练样本集中的原始图像进行角度旋转,获得旋转后的图像,其中,所述原始图像为所述第一类图像和/或所述第二类图像;
将所述原始图像和所述旋转后的图像作为训练样本,对图像识别模型进行训练,获得训练后的图像识别模型。
可选的,所述获取图像训练样本集,包括:
从第一数据集中获取所述第一类图像,从第二数据集中获取所述第二类图像,其中,第一数据集来源于所述图像识别模型的应用领域,所述第二数据集来源于与所述图像识别模型的应用领域不同的领域。
可选的,所述第一数据集为服饰公开数据集,所述第二数据集为图像识别数据集。
可选的,当所述第二数据集为图像识别数据集时,所述从第二数据集中获取所述第二类图像,包括:
获取所述图像识别数据集中的数据类别;
剔除所述图像识别数据集中包含所述目标物的数据类别,获得所述图像识别数据集中剩余数据类别对应的图像作为所述第二类图像。
可选的,所述将所述原始图像和所述旋转后的图像作为训练样本,对图像识别模型进行训练,获得训练后的图像识别模型,包括:
针对所述训练样本中的第一类图像进行所述目标物标记;
针对所述训练样本中的第二类图像进行参考物标记,其中,所述目标物与所述参考物的类型不同;
将所述目标物和所述参考物作为检测对象、将所述目标物作为输出对象,对所述图像识别模型进行训练,获得训练后的图像识别模型。
可选的,所述对图像识别模型进行训练,获得训练后的图像识别模型,包括:
对所述图像识别模型的模型损失函数进行调整,增大所述模型损失函数中背景区域的权重,所述背景区域包括参考物所在的区域;
基于调整后的模型损失函数对所述图像识别模型进行训练,获得训练后的图像识别模型。
第二方面,本发明实施例提供一种图像数据的处理方法,所述方法包括:
获取待检测图像;
将所述待检测图像输入图像识别模型进行图像识别,获得识别结果,其中,所述图像识别模型通过如第一方面所述的方法训练获得。
第三方面,本发明实施例提供一种图像数据的处理装置,包括:
获取单元,用于获取图像训练样本集,所述图像训练样本集中包含第一类图像和第二类图像,所述第一类图像中包含图像识别模型使用时需要输出的目标物,所述第二类图像中不包含所述目标物;
调整单元,用于将所述图像训练样本集中的原始图像进行角度旋转,获得旋转后的图像,其中,所述原始图像为所述第一类图像和/或所述第二类图像;
训练单元,用于将所述原始图像和所述旋转后的图像作为训练样本,对图像识别模型进行训练,获得训练后的图像识别模型。
可选的,所述获取单元用于包括:
从第一数据集中获取所述第一类图像,从第二数据集中获取所述第二类图像,其中,第一数据集来源于所述图像识别模型的应用领域,所述第二数据集来源于与所述图像识别模型的应用领域不同的领域。
可选的,所述第一数据集为服饰公开数据集,所述第二数据集为图像识别数据集。
可选的,当所述第二数据集为图像识别数据集时,所述获取单元还用于:
获取所述图像识别数据集中的数据类别;
剔除所述图像识别数据集中包含所述目标物的数据类别,获得所述图像识别数据集中剩余数据类别对应的图像作为所述第二类图像。
可选的,所述训练单元用于:
针对所述训练样本中的第一类图像进行所述目标物标记;
针对所述训练样本中的第二类图像进行参考物标记,其中,所述目标物与所述参考物的类型不同;
将所述目标物和所述参考物作为检测对象、将所述目标物作为输出对象,对所述图像识别模型进行训练,获得训练后的图像识别模型。
可选的,所述训练单元还用于:
对所述图像识别模型的模型损失函数进行调整,增大所述模型损失函数中背景区域的权重,所述背景区域包括参考物所在的区域;
基于调整后的模型损失函数对所述图像识别模型进行训练,获得训练后的图像识别模型。
第四方面,本发明实施例提供一种图像数据的处理装置,包括:
获取单元,用于获取待检测图像;
单元,用于将所述待检测图像输入图像识别模型进行图像识别,获得识别结果,其中,所述图像识别模型通过如第一方面所述的方法训练获得。
第五方面,本发明实施例提供一种电子设备,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上的程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上的程序所包含的用于进行如第一方面所述方法对应的操作指令。
第六方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,可选的,该程序被处理器执行时实现如第一方面所述方法的步骤。
本申请实施例中的上述一个或多个技术方案,至少具有如下技术效果:
本申请实施例提供一种图像数据的处理方法,该方法包括:获取两类图像作为图像训练样本集,第一类图像中包含图像识别模型使用时需要输出的目标物,第二类图像中不包含目标物,从训练样本的类型上扩充训练数据;进一步的,将图像训练样本集中的原始图像进行角度旋转获得旋转后的图像,通过图像旋转改变目标物的形态,从目标物形态上扩充训练数据;将所述原始图像和所述旋转后的图像作为训练样本对图像识别模型进行训练,获得训练后的图像识别模型,由于训练样本从类型和形态上进行了扩充,使得训练获得的图像识别模型不仅能够排除非目标物的干扰还能排除目标物的形态干扰,从而精确的进行图像识别,提高了图像识别的精确度和模型的稳定性。
具体实施方式
在本申请实施例提供的技术方案中,提供一种图像数据的处理方法,通过扩充图像训练样本的类型和目标物形态,使得训练后的图像识别模型不仅能够排除非目标物的干扰还能排除目标物的形态干扰,从而精确的进行图像识别,提高图像识别的精确度和模型的稳定性。
下面结合附图对本申请实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细的阐述。
实施例
请参考图1,本申请实施例提供一种图像数据的处理方法,该方法包括:
S101:获取图像训练样本集,所述图像训练样本集中包含第一类图像和第二类图像,所述第一类图像中包含图像识别模型使用时需要输出的目标物,所述第二类图像中不包含所述目标物;
S102:将所述图像训练样本集中的原始图像进行角度旋转,获得旋转后的图像,其中,所述原始图像为所述第一类图像和/或所述第二类图像;
S103:将所述原始图像和所述旋转后的图像作为训练样本,对图像识别模型进行训练,获得训练后的图像识别模型。
该图像数据的处理方法适用于各种图像识别模型的模型训练,尤其适用于服饰类图像识别模型,下面以服饰类图像识别模型为例,进行举例说明。
具体实施过程中,为了避免图像识别模型的图像训练样本单一,S101获取图像训练样本集时获取第一类图像和第二类图像,第一类图像中包括目标物,而第二类图像不包括目标物,通过将第二类图像纳入训练样本能够帮助模型识别非目标物,减少模型将非目标物识别为目标物的概率,提高模型检测的准确性。例如:对于服饰类图像识别模型,其需要检测输出的目标物为服饰,获取含有服饰类的图像作为训练样本,同时也获取不含服饰类的图像作为训练样本。
进一步的,为了有效的扩充训练样本,S101可以从第一数据集中获取第一类图像,从第二数据集中获取第二类图像,其中,第一数据集来源于图像识别模型的应用领域,第二数据集来源于与图像识别模型的应用领域不同的领域。例如:假设图像识别模型应用于公安***的身份人脸识别,相应的第一数据集可以是公民的身份证图像集,第二类数据集可以为普通人物图像集。再例如,针对服饰类图像识别模型,获取第一类图像的第一数据集可以为服饰公开数据集,获取第二类图像的第二数据集可以为图像识别数据集,如COCO(Common Objects in Context,Context中的常见对象)数据集,剔除COCO数据集中包含服饰类的图像,将剩余图像作为第二类图像加入图像训练样本集。图像识别数据集对其包含的图像进行了分类,包含person类、sport类、animal类等,在获取第二类图像时,可以先获取图像识别数据集中的数据类别;然后,剔除图像识别数据集中可能包含目标物的数据类别,如从图像识别数据集中剔除可能包含服饰类的person类,获得图像识别数据集中剩余数据类别对应的图像作为第二类图像。由于第一数据集与第二数据集应用领域不同,其图像构造及物体形态就会有很大的差距,如身份证图像集中人脸均为正脸、背景多为白色,而普通人物图像集中可能就没有正脸、背景多样,从而能够为目标物的识别提供大量的干扰项,进而提高模型的稳定性。
针对获得的图像样本集,继续执行S102对图像样本集中的原始图像进行旋转获得旋转后的图像。一般样本中的目标物都是以其常态存在,例如,对于人脸样本其人脸往往是正向的,对于服饰样本其服饰是竖向的,由于大量的目标物形态单一容易导致对非常规形态的目标物无判,因此,本实施例对原始图像进行随机旋转,获得旋转后的图像也作为训练样本,对于原始图像为第一类图像的旋转获得的训练样本可以增加目标物的形态,对于原始图像为第二类图像的旋转获得的训练样本可以增加背景的形态,由此进行模型训练可以提高模型对目标物的识别能力和对背景的识别能力,进而提高模型识别的精准度,降低模型的误判率。
在S101和S102的基础上,执行S103图像训练样本集中的原始图像和旋转后的图像作为训练样本对图像识别模型进行训练,获得训练后的图像识别模型。其中,图像识别模型可以是YOLOv3(You Only Look Once v3,你只看一次第三版),有效提高模型识别的准确率和识别速率。
具体识别过程中,S103采用多对象识别的方式来进行模型训练,不同与一般模型训练的地方在于:不仅识别目标对象,也识别背景中其它对象。具体的在进行模型训练时,针对训练样本中的第一类图像进行目标物标记;针对训练样本中的第二类图像进行参考物标记,其中,目标物与参考物的类型不同;将目标物和参考物作为检测对象、将目标物作为输出对象,对图像识别模型进行训练获得训练后的图像识别模型,使得图像识别模型不仅检测目标物,还检测非目标物,而非简单的将目标物以外的其他对象均定义为背景,简化背景特征,简化模型对背景学习的难度。例如,在服饰检测任务中,若除服饰之外均定义为背景,则此时的背景特征相当复杂,模型要学习到这样的背景特征难度很大,为此,本实施例进一步对背景进行分类,对背景中的参考物进行标记,将背景特征拆分成多个需要学习的类别,这样能很大程度上提高模型对背景中非服饰的识别,从而提高模型对服饰识别的准确性。
在具体实施过程中,为了使图像识别模型对背景有更强大的识别能力,降低模型的误召回情况,即将非目标物识别为目标物,本实施例S103在进行模型训练时,进一步对图像识别模型的模型损失函数进行调整,增大模型损失函数中背景区域的权重,所述背景区域包括参考物所在的区域;基于调整后的模型损失函数对图像识别模型进行训练,获得训练后的图像识别模型。通过增大背景权重来提高模型对背景的识别能力,背景权重越大对背景的识别能力越大。
例如,YOLOv3图像识别模型中关于背景损失函数如下:
其中,S2表示模型将输入图像分成了S*S个小块,对于每一个小块,模型会预测出B个预测框,i表示第几个小块,j表示第几个预测框,C表示第i个小块里包含的是哪一类;“1”是一个试性函数,第i个小块预测的第j个框中是否包含背景,是的话,这个试性函数的值就是1,否则就是0,λnoobj即为背景权重。
需要特别说明的是,单纯的提高或降低模型预测函数中背景权重,对模型的识别能力提高作用并不大。本实施例是结合增加训练样本数据类型和增加检测物的基础上,基于第一类图像与第二类图像的比例,以及目标物与参考图的比例,对背景权重进行调整,增大到原来的1.2~2.0倍。例如,针对服饰类图像识别模型YOLOv3可以将λnoobj由增大0.5增大到1.0。
在上述实施例中,通过获取第一类图像和第二类图像作为图像训练样,从训练样本的类型上扩充训练数据;以及,通过图像旋转改变目标物的形态,从目标物形态上扩充训练数据;将所述原始图像和所述旋转后的图像作为训练样本对图像识别模型进行训练,获得训练后的图像识别模型,由于训练样本从类型和形态上进行了扩充,使得训练获得的图像识别模型不仅能够排除非目标物的干扰还能排除目标物的形态干扰,从而准确的进行图像识别,提高了图像识别的准确性和模型的稳定性。
基于上述训练好的图像识别模型,在使用时获取待检测图像;将获得的待检测图像输入图像识别模型进行图像识别,即可获得识别结果,识别出待检测图像中是否包含目标物,简单便捷,对目标物的识别精确度也大大提高,使用时的误召回率也大大降低。
针对上述实施例提供一种图像数据的处理方法,本申请实施例还对应提供一种图像数据的处理装置,请参考图2,该装置包括:
获取单元21,用于获取图像训练样本集,所述图像训练样本集中包含第一类图像和第二类图像,所述第一类图像中包含图像识别模型使用时需要输出的目标物,所述第二类图像中不包含所述目标物;
调整单元22,用于将所述图像训练样本集中的原始图像进行角度旋转,获得旋转后的图像,其中,所述原始图像为所述第一类图像和/或所述第二类图像;
训练单元23,用于将所述原始图像和所述旋转后的图像作为训练样本,对图像识别模型进行训练,获得训练后的图像识别模型。
在具体实施过程中,所述获取单元21在获取图像训练样本时,可以从第一数据集中获取所述第一类图像,从第二数据集中获取所述第二类图像,其中,第一数据集来源于所述图像识别模型的应用领域,所述第二数据集来源于与所述图像识别模型的应用领域不同的领域。其中,所述第一数据集为服饰公开数据集,所述第二数据集为图像识别数据集。
作为一种可选的实施方式,当所述第二数据集为图像识别数据集时,所述获取单元21还可以通过如下方式获得第二类图像:获取所述图像识别数据集中的数据类别;剔除所述图像识别数据集中包含所述目标物的数据类别,获得所述图像识别数据集中剩余数据类别对应的图像作为所述第二类图像。
作为一种可选的实施方式,所述训练单元23在训练时,针对所述训练样本中的第一类图像进行所述目标物标记;针对所述训练样本中的第二类图像进行参考物标记,其中,所述目标物与所述参考物的类型不同;将所述目标物和所述参考物作为检测对象、将所述目标物作为输出对象,对所述图像识别模型进行训练,获得训练后的图像识别模型。
作为一种可选的实施方式,所述训练单元23在进行模型训练之前,还可以对所述图像识别模型的模型损失函数进行调整,增大所述模型损失函数中背景区域的权重,所述背景区域包括参考物所在的区域;基于调整后的模型损失函数对所述图像识别模型进行训练,获得训练后的图像识别模型。
具体实施过程中,本实施例提供的一种图像数据的处理装置,还包括识别单元24进行图像识别。在进行图像识别时,可以通过获取单元21获取待检测图像;通过识别单元24将所述待检测图像输入图像识别模型进行图像识别,获得识别结果。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图3是根据一示例性实施例示出的一种用于实现图像数据的处理方法的电子设备800的框图。例如,电子设备800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图3,电子设备800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/展现(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制电子设备800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理部件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理***,一个或多个电源,及其他与为电子设备800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述电子设备800和用户之间的提供一个展现接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件810被配置为展现和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当电子设备800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于展现音频信号。
I/O接口812为处理组件802和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为电子设备800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为电子设备800的显示器和小键盘,传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变,用户与电子设备800接触的存在或不存在,电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件816经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由电子设备800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种图像数据的处理方法,所述方法包括:获取图像训练样本集,所述图像训练样本集中包含第一类图像和第二类图像,所述第一类图像中包含图像识别模型使用时需要输出的目标物,所述第二类图像中不包含所述目标物;将所述图像训练样本集中的原始图像进行角度旋转,获得旋转后的图像,其中,所述原始图像为所述第一类图像和/或所述第二类图像;将所述原始图像和所述旋转后的图像作为训练样本,对图像识别模型进行训练,获得训练后的图像识别模型。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。