WO2019233394A1

WO2019233394A1 - 图像处理方法和装置、存储介质、电子设备

Info

Publication number: WO2019233394A1
Application number: PCT/CN2019/089914
Authority: WO
Inventors: 陈岩
Original assignee: Oppo广东移动通信有限公司
Priority date: 2018-06-08
Filing date: 2019-06-04
Publication date: 2019-12-12
Also published as: CN108764208B; CN108764208A

Abstract

本申请涉及一种图像处理方法和装置、电子设备、计算机可读存储介质，获取待检测图像，根据多标签分类模型对待检测图像进行场景识别，得到待检测图像对应的标签，多标签分类模型为根据包含多种场景要素的多标签图像得到的。将待检测图像对应的标签作为场景识别的结果进行输出。

Description

图像处理方法和装置、存储介质、电子设备

相关申请的交叉引用

本申请要求于2018年06月08日提交中国专利局，申请号为201810585679.3，发明名称为“图像处理方法和装置、存储介质、电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，特别是涉及一种图像处理方法和装置、存储介质、电子设备。

背景技术

随着移动终端的普及和移动互联网的迅速发展，移动终端的用户使用量越来越大。移动终端中的拍照功能已经成为用户常用功能之一。在拍照的过程中或在拍照之后，移动终端都可能会对图像进行场景识别，以给用户提供智能化的体验。

发明内容

本申请实施例提供一种图像处理方法和装置、存储介质、电子设备，可以提高对图像进行场景识别的准确性。

一种图像处理方法，包括：

获取待检测图像；

根据多标签分类模型对所述待检测图像进行场景识别，得到所述待检测图像对应的标签，所述多标签分类模型为根据包含多种场景要素的多标签图像得到的；

将所述待检测图像对应的标签作为场景识别的结果进行输出。

一种图像处理装置，所述装置包括：

图像获取模块，用于获取待检测图像；

场景识别模块，用于根据多标签分类模型对所述待检测图像进行场景识别，得到所述待检测图像对应的标签，所述多标签分类模型为根据包含多种场景要素的多标签图像得到的；

输出模块，用于将所述待检测图像对应的标签作为场景识别的结果进行输出。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的图像处理方法的操作。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时执行如上所述的图像处理方法的操作。

上述场景识别方法和装置、存储介质、电子设备，获取待检测图像，根据多标签分类模型对待检测图像进行场景识别，得到待检测图像对应的标签，多标签分类模型为根据包含多种场景要素的多标签图像得到的。将待检测图像对应的标签作为场景识别的结果进行输出。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中电子设备的内部结构图；

图2为一个实施例中图像处理方法的流程图；

图3A为又一个实施例中图像处理方法的流程图；

图3B为一个实施例中神经网络的架构示意图；

图4为图2中根据多标签分类模型对图像进行场景识别得到图像对应的标签方法的流程图；

图5为再一个实施例中图像处理方法的流程图；

图6为一个实施例中图像处理装置的结构示意图；

图7为又一个实施例中图像处理装置的结构示意图；

图8为图6中场景识别模块的结构示意图；

图9为一个实施例中提供的电子设备相关的手机的部分结构的框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中电子设备的内部结构示意图。如图1所示，该电子设备包括通过***总线连接的处理器、存储器和网络接口。其中，该处理器用于提供计算和控制能力，支撑整个电子设备的运行。存储器用于存储数据、程序等，存储器上存储至少一个计算机程序，该计算机程序可被处理器执行，以实现本申请实施例中提供的适用于电子设备的图像处理方法。存储器可包括磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random-Access-Memory，RAM)等。例如，在一个实施例中，存储器包括非易失性存储介质及内存储器。非易失性存储介质存储有操作***和计算机程序。该计算机程序可被处理器所执行，以用于实现以下各个实施例所提供的一种图像处理方法。内存储器为非易失性存储介质中的操作***计算机程序提供高速缓存的运行环境。网络接口可以是以太网卡或无线网卡等，用于与外部的电子设备进行通信。该电子设备可以是手机、平板电脑或者个人数字助理或穿戴式设备等。

在一个实施例中，如图2所示，提供了一种图像处理方法，以该方法应用于图1中的电子设备为例进行说明，包括：

操作220，获取待检测图像。

用户使用电子设备(具有拍照功能)进行拍照，获取待检测图像。待检测图像可以是拍照预览画面，也可以是拍照后保存到电子设备中的照片。待检测图像指的是需要进行场景识别的图像，既包括仅包含单一场景要素的图像，也包括包含多个场景要素(两个或两个以上)的图像。一般情况下图像中的场景要素包括风景、海滩、蓝天、绿草、雪景、夜景、黑暗、背光、日出/日落、烟火、聚光灯、室内、微距、文本文档、人像、婴儿、猫、狗、美食等。当然，以上并不是穷举，还包含很多其他类别的场景要素。

操作240，根据多标签分类模型对待检测图像进行场景识别，得到待检测图像对应的标签，多标签分类模型为根据包含多种场景要素的多标签图像得到的。

在获取了待检测图像之后，对待检测图像进行场景识别。具体地，采用预先训练好的多标签分类模型对图像进行场景识别，得到图像所包含的场景对应的标签。其中，多标签分类模型为根据包含多种场景要素的多标签图像得到的。即多标签分类模型是使用包含多种场景要素的图像进行场景识别训练之后得到的场景识别模型。经过多标签分类模型对待检测图像进行场景识别，得到待检测图像所包含的场景对应的标签。例如，通过多标签分类模型对一张同时包含海滩、蓝天、人像这样多个场景要素的待检测图像进行场景识别，就可以直接输出待检测图像的标签为海滩、蓝天及人像。海滩、蓝天及人像即为待检测图像中的场景所对应的标签。

操作260，将待检测图像对应的标签作为场景识别的结果进行输出。

在通过多标签分类模型对待检测图像进行场景识别，得到待检测图像所包含的场景对应的标签之后，待检测图像对应的标签即为场景识别的结果。将场景识别的结果进行输出。

本申请实施例中，获取需要进行场景识别的图像，根据多标签分类模型对待检测图像进行场景识别，得到待检测图像对应的标签，多标签分类模型为根据包含多种场景要素的多标签图像得到的。将待检测图像对应的标签作为场景识别的结果进行输出。因为多标签分类模型为根据包含多种场景要素的多标签图像所得到的场景识别模型，所以可以对包含不同场景要素的图像，进行场景识别之后直接较为准确地输出这个图像中多个场景分别对应的标签。因此提高了对包含不同场景要素的图像进行场景识别的准确性，且同时提高了场景识别的效率。

在一个实施例中，如图3A所示，在获取待检测图像之前，包括：

操作320，获取包含多种场景要素的多标签图像。

获取包含多种场景要素的图像，在本实施例中称为多标签图像，因为包含多种场景的图像在进行场景识别之后，每个场景都会对应一个标签，所有的标签构成图像的标签，即多标签图像。

操作340，使用包含多种场景要素的多标签图像训练多标签分类模型。

获取一些多标签图像样本，预先可以通过人工对上述多标签图像样本进行场景识别，获取每个多标签图像样本所对应的标签，称为标准标签。然后采用上述多标签图像样本中的图像一一进行场景识别训练，直到训练出来的场景识别结果与标准标签之间的误差越来越小。此时经过训练之后获得的即为可以实现对多标签图像进行场景识别的多标签分类模型。

本申请实施例中，因为多标签分类模型为使用包含多种场景要素的多标签图像进行训练所得到的场景识别模型，所以可以对包含不同场景要素的图像，进行场景识别之后直接较为准确地输出这个图像中多个场景分别对应的标签。提高了对多标签图像识别的准确性、同时也提高了多标签图像识别的效率。

在一个实施例中，多标签分类模型基于神经网络模型构建。

多标签分类模型的具体的训练方法为：将包含有背景训练目标和前景训练目标的训练图像输入到神经网络，得到反映训练图像中背景区域各像素点的第一预测置信度与第一真实置信度之间的差异的第一损失函数，以及反映训练图像中前景区域各像素点的第二预测置信度与第二真实置信度之间的差异的第二损失函数；第一预测置信度为采用神经网络预测出的训练图像中背景区域某一像素点属于背景训练目标的置信度，第一真实置信度表示在训练图像中预先标注的像素点属于背景训练目标的置信度；第二预测置信度为采用神经网络预测出的训练图像中前景区域某一像素点属于前景训练目标的置信度，第二真实置信度表示在训练图像中预先标注的像素点属于前景训练目标的置信度；

将第一损失函数和第二损失函数进行加权求和得到目标损失函数；

根据目标损失函数调整神经网络的参数，对神经网络进行训练进而最终得到多标签分类模型。其中，训练图像的背景训练目标有对应的标签，前景训练目标中也有标签。

图3B为一个实施例中神经网络模型的架构示意图。如图3B所示，神经网络的输入层接收带有图像类别标签的训练图像，通过基础网络(如CNN网络)进行特征提取，并将提取的图像特征输出给特征层，由该特征层对背景训练目标进行类别检测得到第一损失函数，对前景训练目标根据图像特征进行类别检测得到第二损失函数，对前景训练目标根据前景区域进行位置检测得到位置损失函数，将第一损失函数、第二损失函数和位置损失函数进行加权求和得到目标损失函数。该神经网络可为卷积神经网络。卷积神经网络包括数据输入层、卷积计算层、激活层、池化层和全连接层。数据输入层用于对原始图像数据进行预处理。该预处理可包括去均值、归一化、降维和白化处理。去均值是指将输入数据各个维度都中心化为0，目的是将样本的中心拉回到坐标系原点上。归一化是将幅度归一化到同样的范围。白化是指对数据各个特征轴上的幅度归一化。卷积计算层用于局部关联和窗口滑动。卷积计算层中每个滤波器连接数据窗的权重是固定的，每个滤波器关注一个图像特征，如垂直边缘、水平边缘、颜色、纹理等，将这些滤波器合在一起得到整张图像的特征提取器集合。一个滤波器是一个权重矩阵。通过一个权重矩阵可与不同窗口内数据做卷积。激活层用于将卷积层输出结果做非线性映射。激活层采用的激活函数可为ReLU(The Rectified Linear Unit，修正线性单元)。池化层可夹在连续的卷积层中间，用于压缩数据和参数的量，减小过拟合。池化层可采用最大值法或平均值法对数据降维。全连接层位于卷积神经网络的尾部，两层之间所有神经元都有权重连接。卷积神经网络的一部分卷积层级联到第一置信度输出节点，一部分卷积层级联到第二置信度输出节点，一部分卷积层级联到位置输出节点，根据第一置信度输出节点可以检测到图像的背景分类，根据第二置信度输出节点可以检测到图像的前景目标的类别，根据位置输出节点可以检测到前景目标所对应的位置。

具体地，人工神经网络(Artificial Neural Networks，简写为ANNs)，也简称为神经网络(NNs)或称作连接模型(Connection Model)。它从信息处理角度对人脑神经元网络进行抽象，建立某种简单模型，按不同的连接方式组成不同的网络。在工程与学术界也常直接简称为神经网络或类神经网络。可以理解为，人工神经网络就是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。

神经网络常用于分类，例如，对垃圾邮件的识别分类、对图像中猫狗的识别分类等。这种能自动对输入的变量进行分类的机器，就叫做分类器。分类器的输入是一个数值向量，叫做特征(向量)。在使用分类器之前，需要对分类器进行训练，即需要先对神经网络进行训练。

人工神经网络的训练依靠反向传播算法。最开始在输入层输入特征向量，经过网络计算获得输出，输出层发现输出和正确的类号不一致，这时它就让最后一层神经元进行参数调整，最后一层神经元不仅调整自身的参数，还会勒令连接它的倒数第二层神经元进行调整自身参数，如此层层往回退着调整。经过调整的网络将会在样本上继续测试，如果输出依然出错，继续下一轮回退调整，直到经过神经网络输出的结果与正确的结果尽可能的一致为止。

本申请实施例中，神经网络模型包括输入层、隐层和输出层。从包含多种场景要素的多标签图像中提取特征向量，然后将特征向量输入至隐层中进行计算损失函数的大小，再根据损失函数来调整神经网络模型的参数，使得损失函数不断收敛，进而实现对神经网络模型进行训练得到多标签分类模型。该多标签分类模型可以实现对输入的图像进行场景识别得到图像中所包含的每个场景的标签，并将这些标签作为场景识别的结果进行输出。通过对背景训练目标所对应的第一损失函数和前景训练目标所对应的第二损失函数的加权求和得到目标损失函数，根据目标损失函数调整神经网络的参数，使得训练得到的多标签分类模型后续可以同时识别出背景类别和前景目标的标签，获取更多的信息，且提高了识别效率。

在一个实施例中，如图4所示，操作240，根据多标签分类模型对待检测图像进行场景识别，得到待检测图像对应的标签，包括：

操作242，根据多标签分类模型对待检测图像进行场景识别，得到待检测图像的初始标签及初始标签对应的置信度；

操作244，判断初始标签的置信度是否大于预设阈值；

操作246，当判断结果为是，则将置信度大于预设阈值的初始标签作为待检测图像对应的标签。

采用经过训练所得到的多标签分类模型，在实际中进行图像场景识别时的输出还是可能存在一定的误差，因此，需要进一步减小误差。一般情况下，如果是采用上述训练所得的多标签分类模型对一张包含多种场景要素的待检测图像进行场景识别，那么会得到待检测图像的多个初始标签及初始标签对应的置信度。例如，对于一张包含海滩、蓝天、人像的待检测图像来进行场景识别，识别出待检测图像的初始标签为海滩的置信度为0.6，识别出待检测图像的初始标签为蓝天的置信度为0.7，识别出待检测图像的初始标签为人像的置信度为0.8，识别出待检测图像的初始标签为狗的置信度为0.4，识别出待检测图像的初始标签为雪景的置信度为0.3。

然后再对识别结果的初始标签进行筛选，具体的，判断初始标签的置信度是否大于预设阈值。其中，预设阈值可以是在前期训练出这个多标签分类模型的时候，根据大量的训练样本，当损失函数比较小，所得出的结果比较接近实际的结果的的时候，所得出的一个置信度阈值。例如，根据大量的训练样本所得出的置信度阈值为0.5，则在上述例子中，判断初始标签的置信度是否大于预设阈值，将置信度大于预设阈值的初始标签作为图像对应的标签。所得出的待检测图像对应的标签为海滩、蓝天、人像，舍弃了置信度低于阈值的狗和雪景这两个干扰项。

本申请实施例中，根据多标签分类模型对待检测图像进行场景识别，得到待检测图像的初始标签及初始标签对应的置信度。因为进行场景识别所得的初始标签不一定是待检测图像对应的真实的标签，因此，采用每个初始标签的置信度对初始标签进行筛选，筛选出大于置信度阈值的初始标签作为待检测图像对应的场景识别结果。这样在一定程度上提高了场景识别结果的准确性。

在一个实施例中，每个初始标签对应的置信度的范围为[0,1]。

具体地，因为多标签分类模型为根据包含多种场景要素的多标签图像进行训练所得到的场景识别模型，所以可以对包含不同场景要素的待检测图像，进行场景识别之后直接较为准确地输出这个待检测图像中多个场景分别对应的标签。该多标签分类模型中对每一个标签的识别过程都是独立的，所以每一个识别出来的标签的概率都可以是在[0,1]之间。在本申请实施例中，不同标签的识别过程是互不影响的，所以就能够全面地识别出待检测图像中包含的所有场景，避免遗漏。

在一个实施例中，如图5所示，在将待检测图像对应的标签作为场景识别的结果进行输出之后，包括：

操作520，获取待检测图像拍摄时的位置信息；

操作540，根据位置信息对场景识别的结果进行校正，得到校正之后的场景识别的最终结果。

具体地，一般情况下，电子设备会对每次拍照的地点进行记录，一般采用GPS(Global Positioning System，全球定位***)来进行记录地址信息。获取电子设备所记录的地址信息。在获取电子设备所记录的地址信息之后，根据地址信息获取待检测图像的位置信息。预先为不同的地址信息匹配对应的场景类别及场景类别对应的权值。具体地，可以是根据对大量的图像素材进行统计学分析后得出的结果，根据结果相应地为不同的地址信息匹配对应的场景类别及场景类别对应的权值。例如，根据对大量的图像素材进行统计学分析后得出，当地址信息显示为“XXX草原”时，则与地址为“草原”对应的场景为“绿草”的权值为9，“雪景”的权值为7，“风景”的权值为4，“蓝天”的权值为6，“海滩”的权值为-8，权值的取值范围为[-10,10]。权值越大说明在该图像中出现该场景的概率就越大，权值越小说明在该图像中出现该场景的概率就越小。这样就可以根据图像拍摄时的地址信息及与该地址信息对应的场景的概率大小，对场景识别的结果进行校正，得到校正之后的场景识别的最终结果。例如，如果图片的地址信息为“XXX草原”，那么与该“XXX草原”对应的场景为“绿草”、“雪景”、“蓝天”的权值较高，则这些场景出现的概率较大。因此，对场景识别的结果进行校正，如果场景识别的结果中出现上述“绿草”、“雪景”、“蓝天”，那么就可以作为场景识别的最终结果。如果场景识别的结果中出现“海滩”这个场景，那么就应该根据图像拍摄时的地址信息对“海滩”场景进行过滤，去除“海滩”场景，避免得到不正确、不符合实际的场景类别。

本申请实施例中，获取待检测图像拍摄时的位置信息，根据位置信息对场景识别的结果进行校正，得到校正之后的场景识别的最终结果。可以实现用通过待检测图像的拍摄地址信息获取到的待检测图像的场景类别，来对场景识别的结果进行校准，从而最终提高了场景检测的准确度。

在一个实施例中，在将待检测图像对应的标签作为场景识别的结果进行输出之后，还包括：

根据场景识别的结果对待检测图像进行与场景识别结果相对应的图像处理。

本申请实施例中，在对待检测图像经过多标签分类模型进行场景识别之后，得到了待检测图像对应的标签，并将待检测图像对应的标签作为场景识别的结果进行输出之后。场景识别的结果可以用来作为图像后期处理的依据，可以根据场景识别的结果来对待检测图像进行针对性地图像处理，从而大大提高图像的质量。例如，如果识别出待检测图像的场景类别为夜景，则就可以采用夜景所适合的处理方式对该图像进行处理，例如增加亮度等。如果识别出待检测图像的场景类别为逆光，则就可以采用逆光所合适的处理方式对该图像进行处理。当然，如果识别出待检测图像的场景类别为多标签，例如包含海滩、绿草、蓝天，而可以分别对海滩区域采用适合海滩的处理方式，对绿草区域采用绿草所适合的处理方式，而对蓝天则采用适合蓝天的处理方式分别进行图像处理，从而使得整个图像的效果都非常好。

在一个具体的实施例中，提供了一种图像处理方法，以该方法应用于图1中的电子设备为例进行说明，包括：

操作一，获取包含多种场景要素的多标签图像，使用包含多种场景要素的多标签图像，对神经网络模型进行训练以得到多标签分类模型，即多标签分类模型基于神经网络架构；

操作二，根据多标签分类模型对待检测图像进行场景识别，得到待检测图像的初始标签及初始标签对应的置信度；

操作三，判断初始标签的置信度是否大于预设阈值，当判断结果为是，则将置信度大于预设阈值的初始标签作为待检测图像对应的标签，将待检测图像对应的标签作为场景识别的结果进行输出；

操作四，获取待检测图像拍摄时的位置信息，根据位置信息对场景识别的结果进行校正，得到校正之后的场景识别的最终结果；

操作五，根据场景识别的结果对待检测图像进行与场景识别结果相对应的图像处理，得到处理之后的图像。

在本申请实施例中，因为多标签分类模型为根据包含多种场景要素的多标签图像所得到的场景识别模型，所以可以对包含不同场景要素的待检测图像，进行场景识别之后直接较为准确地输出这个图像中多个场景分别对应的标签。因此提高了对包含不同场景要素的待检测图像进行场景识别的准确性，且同时提高了场景识别的效率。根据待检测图像拍摄时的位置信息对场景识别的结果进行校正，得到校正之后的场景识别的最终结果。可以实现用通过待检测图像的拍摄地址信息获取到的待检测图像的场景类别，来对场景识别的结果进行校准，从而最终提高了场景检测的准确度。且场景识别的结果可以用来作为图像后期处理的依据，可以根据场景识别的结果来对图像进行针对性地图像处理，从而大大提高图像的质量。

应该理解的是，虽然上述流程图中的各个操作按照箭头的指示依次显示，但是这些操作并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些操作的执行并没有严格的顺序限制，这些操作可以以其它的顺序执行。而且，上述图中的至少一部分操作可以包括多个子操作或者多个阶段，这些子操作或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子操作或者阶段的执行顺序也不必然是依次进行，而是可以与其它操作或者其它操作的子操作或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图6所示，提供了一种图像处理装置600，装置包括：图像获取模块610、场景识别模块620及输出模块630。其中，

图像获取模块610，用于获取待检测图像；

场景识别模块620，用于根据多标签分类模型对待检测图像进行场景识别，得到待检测图像对应的标签，多标签分类模型为根据包含多种场景要素的多标签图像得到的；

输出模块630，用于将待检测图像对应的标签作为场景识别的结果进行输出。

在一个实施例中，如图7所示，提供了一种图像处理装置600，装置还包括：

多标签图像获取模块640，用于获取包含多种场景要素的多标签图像；

多标签分类模型训练模块650，用于使用包含多种场景要素的多标签图像训练多标签分类模型。

在一个实施例中，如图8所示，场景识别模块620包括：

初始标签获取模块622，用于根据多标签分类模型对待检测图像进行场景识别，得到待检测图像的初始标签及初始标签对应的置信度；

判断模块624，用于判断初始标签的置信度是否大于预设阈值；

图像标签生成模块626，用于当判断结果为是，则将置信度大于预设阈值的初始标签作为待检测图像对应的标签。

在一个实施例中，提供了一种图像处理装置600，还用于获取待检测图像拍摄时的位置信息；根据位置信息对场景识别的结果进行校正，得到校正之后的场景识别的最终结果。

在一个实施例中，提供了一种图像处理装置600，还用于根据场景识别的结果对待检测图像进行与场景识别结果相对应的图像处理。

上述图像处理装置中各个模块的划分仅用于举例说明，在其他实施例中，可将图像处理装置按照需要划分为不同的模块，以完成上述图像处理装置的全部或部分功能。

上述图像处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。其中，网络接口可以是以太网卡或无线网卡等，上述各模块可以以硬件形式内嵌于或独立于服务器中的处理器中，也可以以软件形式存储于服务器中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各实施例所提供的图像处理方法的操作。

在一个实施例中，提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述各实施例所提供的图像处理方法的操作。

本申请实施例还提供了一种计算机程序产品，当其在计算机上运行时，使得计算机执行上述各实施例所提供的图像处理方法的操作。

本申请实施例还提供一种电子设备。上述电子设备中包括图像处理电路，图像处理电路可以利用硬件和/或软件组件实现，可包括定义ISP(Image Signal Processing，图像信号处理)管线的各种处理单元。图9为一个实施例中图像处理电路的示意图。如图9所示，为便于说明，仅示出与本申请实施例相关的图像处理技术的各个方面。

如图9所示，图像处理电路包括ISP处理器940和控制逻辑器950。成像设备910捕捉的图像数据首先由ISP处理器940处理，ISP处理器940对图像数据进行分析以捕捉可用于确定和/或成像设备910的一个或多个控制参数的图像统计信息。成像设备910可包括具有一个或多个透镜912和图像传感器914的照相机。图像传感器914可包括色彩滤镜阵列(如Bayer滤镜)，图像传感器914可获取用图像传感器914的每个成像像素捕捉的光强度和波长信息，并提供可由ISP处理器940处理的一组原始图像数据。传感器920(如陀螺仪)可基于传感器920接口类型把采集的图像处理的参数(如防抖参数)提供给ISP处理器940。传感器920接口可以利用SMIA(Standard Mobile Imaging Architecture，标准移动成像架构)接口、其它串行或并行照相机接口或上述接口的组合。

此外，图像传感器914也可将原始图像数据发送给传感器920，传感器920可基于传感器920接口类型把原始图像数据提供给ISP处理器940，或者传感器920将原始图像数据存储到图像存储器930中。

ISP处理器940按多种格式逐个像素地处理原始图像数据。例如，每个图像像素可具有8、10、12或14比特的位深度，ISP处理器940可对原始图像数据进行一个或多个图像处理操作、收集关于图像数据的统计信息。其中，图像处理操作可按相同或不同的位深度精度进行。

ISP处理器940还可从图像存储器930接收图像数据。例如，传感器920接口将原始图像数据发送给图像存储器930，图像存储器930中的原始图像数据再提供给ISP处理器940以供处理。图像存储器930可为存储器装置的一部分、存储设备、或电子设备内的独立的专用存储器，并可包括DMA(Direct Memory Access，直接直接存储器存取)特征。

当接收到来自图像传感器914接口或来自传感器920接口或来自图像存储器930的原始图像数据时，ISP处理器940可进行一个或多个图像处理操作，如时域滤波。处理后的图像数据可发送给图像存储器930，以便在被显示之前进行另外的处理。ISP处理器940从图像存储器930接收处理数据，并对处理数据进行原始域中以及RGB和YCbCr颜色空间中的图像数据处理。ISP处理器940处理后的图像数据可输出给显示器970，以供用户观看和/或由图形引擎或GPU(Graphics Processing Unit，图形处理器)进一步处理。此外，ISP处理器940的输出还可发送给图像存储器930，且显示器970可从图像存储器930读取图像数据。在一个实施例中，图像存储器930可被配置为实现一个或多个帧缓冲器。此外，ISP处理器940的输出可发送给编码器/解码器960，以便编码/解码图像数据。编码的图像数据可被保存，并在显示于显示器970设备上之前解压缩。编码器/解码器960可由CPU或GPU或协处理器实现。

ISP处理器940确定的统计数据可发送给控制逻辑器950单元。例如，统计数据可包括自动曝光、自动白平衡、自动聚焦、闪烁检测、黑电平补偿、透镜912阴影校正等图像传感器914统计信息。控制逻辑器950可包括执行一个或多个例程(如固件)的处理器和/或微控制器，一个或多个例程可根据接收的统计数据，确定成像设备910的控制参数及ISP处理器940的控制参数。例如，成像设备910的控制参数可包括传感器920控制参数(例如增益、曝光控制的积分时间、防抖参数等)、照相机闪光控制参数、透镜912控制参数(例如聚焦或变焦用焦距)、或这些参数的组合。ISP控制参数可包括用于自动白平衡和颜色调整(例如，在RGB处理期间)的增益水平和色彩校正矩阵，以及透镜912阴影校正参数。

本申请所使用的对存储器、存储、数据库或其它介质的任何引用可包括非易失性和/或易失性存储器。合适的非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)，它用作外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，该存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种图像处理方法，其特征在于，包括：

获取待检测图像；

根据多标签分类模型对所述待检测图像进行场景识别，得到所述待检测图像对应的标签，所述多标签分类模型为根据包含多种场景要素的多标签图像得到的；及

将所述待检测图像对应的标签作为场景识别的结果进行输出。
根据权利要求1所述的方法，其特征在于，在所述获取待检测图像之前，包括：

获取包含多种场景要素的多标签图像；及

使用所述包含多种场景要素的多标签图像训练所述多标签分类模型。
根据权利要求2所述的方法，其特征在于，所述多标签分类模型基于神经网络模型构建。
根据权利要求1所述的方法，其特征在于，所述根据多标签分类模型对所述待检测图像进行场景识别，得到所述待检测图像对应的标签，包括：

根据多标签分类模型对所述待检测图像进行场景识别，得到所述待检测图像的初始标签及所述初始标签对应的置信度；

判断所述初始标签的置信度是否大于预设阈值；及

当判断结果为是，则将置信度大于预设阈值的所述初始标签作为所述待检测图像对应的标签。
根据权利要求4所述的方法，其特征在于，所述每个初始标签对应的置信度的范围为[0,1]。
根据权利要求1所述的方法，其特征在于，在将所述待检测图像对应的标签作为场景识别的结果进行输出之后，包括：

获取所述待检测图像拍摄时的位置信息；及

根据所述位置信息对所述场景识别的结果进行校正，得到校正之后的场景识别的最终结果。
根据权利要求1所述的方法，其特征在于，在将所述待检测图像对应的标签作为场景识别的结果进行输出之后，还包括：

根据场景识别的结果对所述待检测图像进行与所述场景识别结果相对应的图像处理。
一种图像处理装置，其特征在于，所述装置包括：

图像获取模块，用于获取待检测图像；

场景识别模块，用于根据多标签分类模型对所述待检测图像进行场景识别，得到所述待检测图像对应的标签，所述多标签分类模型为根据包含多种场景要素的多标签图像得到的；及

输出模块，用于将所述待检测图像对应的标签作为场景识别的结果进行输出。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的图像处理方法的操作。
一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现以下操作：

获取待检测图像；

根据多标签分类模型对所述待检测图像进行场景识别，得到所述待检测图像对应的标签，所述多标签分类模型为根据包含多种场景要素的多标签图像得到的；及

将所述待检测图像对应的标签作为场景识别的结果进行输出。
根据权利要求10所述的电子设备，其特征在于，在所述获取待检测图像之前，包括：

获取包含多种场景要素的多标签图像；及

使用所述包含多种场景要素的多标签图像训练所述多标签分类模型。
根据权利要求11所述的电子设备，其特征在于，所述多标签分类模型基于神经网络模型构建。
根据权利要求10所述的电子设备，其特征在于，所述根据多标签分类模型对所述待检测图像进行场景识别，得到所述待检测图像对应的标签，包括：

根据多标签分类模型对所述待检测图像进行场景识别，得到所述待检测图像的初始标签及所述初始标签对应的置信度；

判断所述初始标签的置信度是否大于预设阈值；及

当判断结果为是，则将置信度大于预设阈值的所述初始标签作为所述待检测图像对应的标签。
根据权利要求13所述的电子设备，其特征在于，所述每个初始标签对应的置信度的范围为[0,1]。
根据权利要求10所述的电子设备，其特征在于，在将所述待检测图像对应的标签作为场景识别的结果进行输出之后，包括：

获取所述待检测图像拍摄时的位置信息；及

根据所述位置信息对所述场景识别的结果进行校正，得到校正之后的场景识别的最终结果。
根据权利要求10所述的电子设备，其特征在于，在将所述待检测图像对应的标签作为场景识别的结果进行输出之后，还包括：

根据场景识别的结果对所述待检测图像进行与所述场景识别结果相对应的图像处理。