CN110532971B

CN110532971B - 图像处理及装置、训练方法以及计算机可读存储介质

Info

Publication number: CN110532971B
Application number: CN201910823693.7A
Authority: CN
Inventors: 陈冠男
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2019-09-02
Filing date: 2019-09-02
Publication date: 2023-04-28
Anticipated expiration: 2039-09-02
Also published as: US11961327B2; CN110532971A; WO2021043023A1; US20220019775A1

Abstract

一种图像处理方法、图像处理装置、训练方法及计算机可读存储介质。该图像处理方法，包括：提取待识别图像中的特征向量；基于待识别图像的特征向量获取待识别图像的预测分值；基于预测分值确定待识别图像的图像信息的类别；待识别图像为面部图像，图像信息为表情。该图像处理方法可以实时进行高准确率的表情识别，而且算法复杂度较低，提高了算法的鲁棒性。

Description

图像处理及装置、训练方法以及计算机可读存储介质

技术领域

本公开的实施例涉及一种图像处理方法、图像处理装置、随机森林分类器的训练方法以及计算机可读存储介质。

背景技术

人脸特征识别技术是近年来生物模式识别中的热点技术。该人脸特征识别技术要求对人脸的面部特征点进行检测定位，并根据这些特征点进行人脸匹配、表情分析等应用。近些年来，很多研究机构和企业都在目标识别领域进行了大量的资源投入，并且获得了一系列的成果，这些成果在安防、金融以及生活娱乐等行业也得到了广泛地应用。

发明内容

本公开至少一实施例提供一种图像处理方法，包括：提取待识别图像中的特征向量；基于所述待识别图像的特征向量获取所述待识别图像的预测分值；基于所述预测分值确定所述待识别图像的图像信息的类别；所述待识别图像为面部图像，所述图像信息为表情。

例如，在本公开至少一实施例提供的图像处理方法中，提取所述待识别图像中的特征向量，包括：通过Garbor滤波器获取所述待识别图像的图像特征响应图；在所述图像特征响应图中提取所述待识别图像中的特征向量；所述Garbor滤波器包括第一数量的尺度和第二数量的方向；所述图像特征响应图包括所述待识别图像中的图像信息的特征；所述第一数量的尺度小于4个尺度。

例如，在本公开至少一实施例提供的图像处理方法中，根据所述Garbor滤波器在第三数量的尺度和第四数量的方向下的图像信息识别的准确率，选择所述Garbor滤波器的第一数量的尺度和第二数量的方向，所述第一数量的尺度为2个尺度，所述第二数量的方向为3个方向。

例如，在本公开至少一实施例提供的图像处理方法中，基于所述待识别图像的特征向量获取所述待识别图像的预测分值，包括：通过随机森林分类器基于所述待识别图像的特征向量获取所述待识别图像的预测分值。

例如，本公开至少一实施例提供的图像处理方法还包括：基于数据集包括的训练集中的各个图像数据的特征向量和评分值训练所述随机森林分类器，所述数据集包括多个图像数据，并且每个图像数据被标注有评分值，每个图像数据的评分值是根据图像数据中包括的图像信息的类别确定的，并且不同的图像信息的类别对应不同的评分值，所述图像数据为面部图像，所述图像信息为表情；所述训练集包括所述数据集中第五数量的图像数据。

例如，在本公开至少一实施例提供的图像处理方法中，基于训练集中各个图像数据的特征向量和评分值训练所述随机森林分类器，包括：采用K折交叉验证模式训练所述随机森林分类器；其中，K为大于0的整数。

例如，本公开至少一实施例提供的图像处理方法，还包括：基于所述数据集包括的测试集中各个图像数据的特征向量和评分值对训练后的所述随机森林分类器进行校验，所述测试集包括第六数量的图像数据，所述第五数量大于所述第六数量。

例如，在本公开至少一实施例提供的图像处理方法中，所述图像信息的类别包括厌恶、生气、平静、高兴和惊讶；所述厌恶对应的评分值为10-19，所述生气对应的评分值为20-29，所述平静对应的评分值为30-39，所述高兴对应的评分值为40-49，所述惊讶对应的评分值为50-59。

例如，在本公开至少一实施例提供的图像处理方法中，基于所述预测分值确定所述待识别图像的图像信息的类别，包括：判断所述待识别图像的预测分值所属于的阈值区间；根据所述待识别图像的预测分值所属于的阈值区间确定所述待识别图像的图像信息的类别。

本公开至少一实施例还提供一种图像处理装置，包括：特征提取单元、预测单元和识别单元。特征提取单元，配置为提取待识别图像中的特征向量；预测单元，配置为基于所述待识别图像的特征向量获取所述待识别图像的预测分值；识别单元，配置为基于所述预测分值确定所述待识别图像的图像信息的类别；所述待识别图像为面部图像，所述图像信息为表情。

本公开至少一实施例还提供一种图像处理装置，包括：处理器；存储器；一个或多个计算机程序模块，所述一个或多个计算机程序模块被存储在所述存储器中并被配置为由所述处理器执行，所述一个或多个计算机程序模块包括用于执行实现本公开任一实施例提供的图像处理方法的指令。

本公开至少一实施例还提供一种随机森林分类器的训练方法，包括：基于数据集包括的训练集中的各个图像数据的特征向量和评分值训练所述随机森林分类器，所述数据集包括多个图像数据，并且每个图像数据被标注有评分值，每个图像数据的评分值是根据图像数据中包括的图像信息的类别确定的，并且不同的图像信息的类别对应不同的评分值；所述各个图像数据为面部图像，所述图像信息为表情，所述训练集包括所述数据集中第五数量的图像数据。

例如，在本公开至少一实施例提供的训练方法中，基于训练集中各个图像数据的特征向量和评分值训练所述随机森林分类器，包括：采用K折交叉验证模式训练所述随机森林分类器；K表示将所述训练集中的图像数据分成的K份，且K为大于0的整数。

例如，本公开至少一实施例提供的训练方法，还包括：基于所述数据集包括的测试集中的各个图像数据的特征向量和评分值对训练后的所述随机森林分类器进行校验，所述测试集包括所述数据集中的第六数量的图像数据，所述第五数量大于所述第六数量。

例如，在本公开至少一实施例提供的训练方法中，所述图像信息的类别包括厌恶、生气、平静、高兴和惊讶；其中，所述厌恶对应的评分值为10-19，所述生气对应的评分值为20-29，所述平静对应的评分值为30-39，所述高兴对应的评分值为40-49，所述惊讶对应的评分值为50-59。

本公开至少一实施例还提供一种计算机可读存储介质，非暂时性地存储计算机可读指令，当所述计算机可读指令由计算机执行时可以执行本公开任一实施例提供的图像处理方法。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例的附图作简单地介绍，显而易见地，下面描述中的附图仅仅涉及本公开的一些实施例，而非对本公开的限制。

图1为本公开至少一实施例提供的一种图像处理方法的一个示例的流程图；

图2为本公开至少一实施例提供的一种表情标注评分值的示意图；

图3为本公开至少一实施例提供的一种特征向量的提取过程的流程图；

图4示出了包括5个尺度8个方向共40个滤波器的滤波器组的特征响应图的示意图；

图5为一种人脸图像的示意图；

图6为本公开至少一实施例提供的一种人脸特征响应图的示意图；

图7为本公开至少一实施例提供的一种随机森林分类器的训练过程的流程图；

图8为本公开至少一实施例提供的一种确定图像信息的类别的流程图；

图9为本公开至少一实施例提供一种图像处理方法的流程图；

图10A为本公开至少一实施例提供的一种图像处理装置的示意框图；

图10B为本公开至少一实施例提供的另一种图像处理装置的示意框图；

图11为本公开至少一实施例提供的另一种图像处理装置的示意框图；以及

图12为本公开至少一实施例提供的一种计算机可读存储介质的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例的附图，对本公开实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外定义，本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“一个”、“一”或者“该”等类似词语也不表示数量限制，而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

表情识别是人脸特征识别技术领域的延伸，也是该领域的一个难点。目前，基于机器学习和深度学习的表情识别算法有很多种类，但大多数算法为了保证测试数据的准确度，导致算法结构复杂，运算时间较长，尚无法在终端产品设备，尤其是基于ARM开发板的产品设备上进行实时的表情识别。在一些应用中，例如，在采用主动形状模型提取人脸特征，并用随机森林分类器进行表情分类时，由于主动形状模型是基于几何特征的分析方法，在人脸尺度和角度变化情况下，会产生明显的特征误差，导致表情分类结果准确性较低；在采用单分支结构的深度卷积网络在实时表情识别场景中进行表情识别时，表情识别结果的准确性也较低；在深度卷积网络的基础上，增加了面部运动单元编码检测层和效价唤醒(valence-arousal)估计层时，虽然该网络的表情识别准确率较高，但由于网络庞大，不能实时对视频表情进行识别。

针对上述问题，本公开至少一实施例提供一种图像处理方法，该图像处理方法包括提取待识别图像中的特征向量；基于待识别图像的特征向量获取待识别图像的预测分值；基于预测分值确定待识别图像的图像信息的类别；待识别图像为面部图像，图像信息为表情。

本公开一些实施例还提供对应于上述图像处理方法的图像处理装置、训练方法和计算机可读存储介质。

本公开上述实施例提供的图像处理方法可以实时进行高准确率的表情识别，而且算法复杂度较低，提高算法的鲁棒性。

下面结合附图对本公开的实施例及其示例进行详细说明。

本公开至少一实施例提供一种图像处理方法，图1为该图像处理方法的一个示例的流程图。该图像处理方法可以以软件、硬件、固件或其任意组合的方式实现，由例如手机、笔记本电脑、桌面电脑、网络服务器、数码相机等设备中的处理器加载并执行，以实现对面部图像的表情识别。下面，参考图1对本公开至少一实施例提供的图像处理方法进行说明。如图1所示，该图像处理方法包括步骤S110至步骤S130。

步骤S110：提取待识别图像中的特征向量。

步骤S120：基于待识别图像的特征向量获取待识别图像的预测分值。

步骤S130：基于预测分值确定待识别图像的图像信息的类别。

例如，待识别图像为面部图像，例如，该面部图像可以为图2所示的人脸图像或其他未示出的例如动物的面部图像等，且下面以该面部图像为人脸图像为例进行说明，本公开的实施例对此不作限制。

例如，待识别图像的图像信息为表情。例如，如图2所示，表情的类别可以包括厌恶、生气、平静、高兴和惊讶等，本公开的实施例对此不作限制。

对于步骤S110，例如，在一些示例中，可以利用Garbor滤波器和本领域内的特征提取方法进行特征向量的提取。

例如，二维Gabor基函数能够很好地描述哺乳动物初级视觉***中一对简单视觉神经元的感受野特性。随着小波变换和神经生理学的发展，Gabor变换逐渐演变成二维Gabor小波的形式。Gabor滤波器对于图像的亮度和对比度变化以及人脸姿态变化具有较强的健壮性，并且它表达的是对人脸识别最为有用的局部特征，故在计算机视觉及纹理分析中得到广泛的应用。因此，在该示例中，在提取特征向量之前，先通过Garbor滤波器获取待识别图像的图像特征响应图，然后再在该图像特征响应图中提取待识别图像中的特征向量，从而可以提高表情识别的准确性。

例如，在一些示例中，Garbor滤波器的函数可以表示为：

其中，x表示待识别图像的像素在Garbor滤波器中的横坐标，y表示待识别图像的像素在Garbor滤波器中的纵坐标；λ表示Garbor滤波器的波长，大于等于2且小于等于待识别图像的的五分之一；θ表示Garbor滤波器的方向，取值为0到2π；φ表示相位偏移，取值范围为-π到π；γ表示长宽比，决定了Gabor滤波器的函数形状的椭圆率，当γ＝1时，Gabor滤波器的函数形状是圆形，当γ<1时，Gabor滤波器的函数形状随着平行条纹方向而拉长，例如，γ取值可以为0.5；σ表示Garbor滤波器的函数的高斯因子的标准差。

图3为本公开至少一实施例提供的一种特征向量的提取过程的流程图。也就是说，图3为图1中所示的步骤S110的至少一个示例的流程图。例如，在图3所示的示例中，该特征向量的提取过程包括步骤S111至步骤S112。下面，结合步骤S111至步骤S112对特征向量的提取过程进行详细地介绍。

步骤S111：通过Garbor滤波器获取待识别图像的图像特征响应图。

例如，该Garbor滤波器包括第一数量的尺度和第二数量的方向。例如，在一些示例中，该第一数量的尺度为小于4个尺度，例如为2个尺度，第二数量的方向为3个方向。

例如，图像特征响应图包括待识别图像中的图像信息的特征。

例如，可以根据Garbor滤波器在第三数量的尺度和第四数量的方向下的图像信息识别的准确率，选择Garbor滤波器的第一数量的尺度和第二数量的方向。例如，在一些示例中，第三数量的尺度为5个尺度，第四数量的方向为8个方向。

需要注意的是，第一数量、第二数量、第三数量和第四数量可以根据实际情况而定，本公开的实施例对此不作限制。

图4示出了包括5个尺度8个方向共40个滤波器的滤波器组的特征响应图。例如，通过图4所示的滤波器组对图5所示的人脸图像进行描述，可以得到图6所示的人脸特征响应图。例如，当滤波器组包括5个尺度8个方向共40个滤波器时，由于Garbor滤波器组对一帧图像的输出有40帧，导致特征数据量较大，因此需要对特征数据进行优选简化，例如，简化至仅输出2个尺度3个方向共6个滤波器获取的人脸特征响应图。

下面基于图4至图6对如何根据Garbor滤波器在第三数量的尺度和第四数量的方向下的图像信息识别的准确率，选择Garbor滤波器的第一数量的尺度和第二数量的方向做详细地介绍，且下面以第一数量的尺度为2个尺度，第二数量的方向为3个方向，第三数量的尺度为5个尺度，第四数量的方向为8个方向为例进行说明，本公开的实施例对此不作限制。

在本公开的实施例中，例如，在一些示例中，可以采用Garbor滤波器结合支持向量机(SVM)算法或其他本领域内的机器学习算法，对人脸表情数据(jaffe数据库)进行分析，以获取不同尺度或方向的滤波器对于表情分析结果的贡献。需要注意的是，支持向量机的设计和原理可以参考本领域的相关介绍，在此不再赘述。

例如，不同尺度与不同方向的滤波器对于表情分析的结果的贡献如表1和表2所示：

表1不同尺度滤波器下的表情分析准确率

尺度	24x24	33x33	48x48	67x67	96x96
						准确率	86％	87％	91％	95％	87％

表2不同方向滤波器下的表情分析准确率

根据以上分析结果可以看出，尺度为48x48、67x67，方向为0、π/8和2π/8的Garbor滤波器对于表情识别准确率的贡献较大。因此，可在5个尺度8个方向共40个滤波器的滤波器组中选出对应的2个尺度(48x48、67x67)3个方向(0、π/8和2π/8)，共6个滤波器(如图6中所示的滤波器组L)的输出作为人脸特征响应图输入到后续的算法中。因此，可以在保证准确率的情况下减少数据处理量，提高图像处理效率。

步骤S112：在图像特征响应图中提取待识别图像中的特征向量。

例如，可以采用HOG特征提取、Harr小波变换、神经网络等本领域的特征提取方法提取待识别图像中的特征向量，在此不做赘述，本公开的实施例对此不作限制。

例如，可以提供特征提取单元，并通过该特征提取单元提取待识别图像中的特征向量；例如，也可以通过中央处理单元(CPU)、图像处理器(GPU)、张量处理器(TPU)、现场可编程逻辑门阵列(FPGA)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元以及相应计算机指令来实现该特征提取单元。例如，该处理单元可以为通用处理器或专用处理器，可以是基于X86或ARM架构的处理器等。

对于步骤S120，例如，可以通过随机森林分类器基于待识别图像的特征向量获取待识别图像的预测分值。

图7为本公开至少一实施例提供的一种随机森林分类器的训练过程的流程图。如图7所示，在一些示例中，该训练过程包括步骤S121；在另一些示例中，该训练过程还包括步骤S122。下面，参考图7对随机森林分类器的训练过程进行简要的描述。

步骤S121：基于训练集中各个图像数据的特征向量和评分值训练随机森林分类器。

例如，用于训练随机森林分类器的数据集包括训练集和测试集。例如，数据集包括多个图像数据，并且每个图像数据被标注有评分值，每个图像数据的评分值是根据图像数据中包括的图像信息的类别确定的，并且不同的图像信息的类别对应不同的评分值。

例如，训练集包括数据集中第五数量的图像数据，例如，包括数据集中70％的图像数据。

例如，如图2所示，图像信息(即表情)的类别包括厌恶、生气、平静、高兴和惊讶等。例如，在一些示例中，厌恶对应的评分值为10-19，生气对应的评分值为20-29，平静对应的评分值为30-39，高兴对应的评分值为40-49，惊讶对应的评分值为50-59。需要注意的是，该评分值仅是示意性的，本公开的实施例对此不作限制。例如，以厌恶的表情为例进行说明，在此区间10-19中，最厌恶的表情的评分值为10，可根据厌恶的程度的减小，依次递增评分值至19，其余的表情的评分与此类似，不再赘述。

例如，人脸表情从负向往正向的变化过程中，对表情影响最大的眼睛和嘴巴的空间特征变化具有一定的连续性。例如，在一些示例中，可以根据眼睛或嘴巴等部位的位置坐标判断表情的类别。例如，以嘴巴为例，当嘴角的坐标低于中间位置的坐标时，人脸图像的表情为负向表情(例如，厌恶、生气等)，例如，当嘴角的坐标最低时，其表情为厌恶，评分值为10，随着嘴角的变缓，评分值依次升高；当嘴角的坐标高于中间位置的坐标时，人脸图像的表情为正向表情(例如，高兴和惊讶等)，具体分值可根据嘴角变化的程度确定，在此不再赘述。

例如，在一些示例中，对每个图像数据标注评分值可以通过例如图2中所示的以评分值命名的方式实现，本公开的实施例对此不作限制。

例如，在训练过程中，将在训练集中各个图像数据分别对应的上述2个尺度(48x48、67x67)3个方向(0、π/8和2π/8)，共6个滤波器(如图6中所示的滤波器组L)的输出中提取的特征向量作为输入，将与各个图像数据对应的表情的评分值作为真值输入，对随机森林分类器进行训练。

例如，在训练过程中，采用K(K为大于0的整数)折交叉验证模式训练随机森林分类器。K折交叉验证是指在训练过程中，将训练集中的图像数据随机分为K份其中一份用作测试，其他K-1份用作训练，用于评估模型训练的准确性。例如，在一些示例中，可以采用5折交叉验证模式训练随机森林分类器。需要注意的是，具体的训练过程可参考本领域中随机森林分类器的训练过程，在此不再赘述。

在该实施例中，通过眼睛和嘴巴的空间变化与评分值进行关联，使不同的人脸表情空间变化与评分值一一对应，这样就将传统的表情分类问题变成了一种表情空间变化分布函数的回归问题。在该回归问题中，表情变化特征为定义域变量，评分值为值域变量，对这样一系列的特征进行函数拟合，就可以利用拟合出的函数对未知表情进行预测评分。这样在一定程度上能够克服由于个人主观认知而导致的表情类别标注混乱的问题，有助于提高算法的鲁棒性。

步骤S122：基于测试集中各个图像数据的特征向量和评分值对训练后的随机森林分类器进行校验。

例如，当通过步骤S121训练得到随机森林分类器的数学模型时，可以基于测试集校验其预测的准确性，并进行修正其数学模型中的参数矩阵，以提高预测的准确性。具体校验方法可参考本领域内的常规方法，在此不再赘述。例如，测试集包括第六数量的图像数据，并且每个图像数据被标注有评分值，每个图像数据的评分值是根据图像数据中包括的图像信息的类别确定的，并且不同的图像信息的类别对应不同的评分值。需要注意的是，测试集中的第六数量的图像数据中每个图像数据及其评分值的确定方法训练集类似，在此不再赘述。

例如，从数据集(包括训练集和测试集)中抽取30％的图像数据(例如，第六数量的图像数据)作为测试集使用，以防止训练集中的图像数据过多会导致模型过拟合，训练集中的图像数据过少会导致模型欠拟合。

例如，可以提供预测单元，并通过该预测单元基于待识别图像的特征向量获取待识别图像的预测分值；例如，也可以通过中央处理单元(CPU)、图像处理器(GPU)、张量处理器(TPU)、现场可编程逻辑门阵列(FPGA)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元以及相应计算机指令来实现该预测单元。

对于步骤S130，输入待识别图像经过特征提取，并将提取的特征向量输入随机森林分类器进行预测，会得到预测分值y。为得到实际的表情分类预测，可以根据实际经验设置各个类别的表情所对应的阈值区间，以作为表情分类的评判依据。

例如，在一些示例中，阈值区间的设置如下：

当预测分值小于26时，该表情的类别为厌恶；当预测分值小于等于32以及大于26时，该表情的类别为生气；当预测分值小于等于36以及预测分值大于32时，该表情的类别为平静；当预测分值小于等于47以及预测分值大于36时，该表情的类别为高兴；当预测分值大于47时，该表情的类别为惊讶。

需要注意的是，该阈值区间的设置值可以根据实际情况进行调节，本公开的实施例对此不作限制。

图8为本公开至少一实施例提供的一种确定图像信息的类别的流程图。也就是说，图8为图1中所示的步骤S130的一个示例的流程图。如图8所示，该图像信息的类别的确定过程包括步骤S131和步骤S132。下面，结合步骤S131至步骤S132对图像信息的类别的确定过程进行详细地介绍。

步骤S131：判断待识别图像的预测分值所属于的阈值区间。

例如，随机森林分类器输出的预测分值为30，则属于上述阈值区间中的阈值区间26-32。需要注意的是，可根据不同的预测分值确定不同的阈值区间，本公开的实施例对此不作限制。

步骤S132：根据待识别图像的预测分值所属于的阈值区间确定待识别图像的图像信息的类别。

例如，根据步骤S131确定的阈值区间26-32，可以确定待识别图像的图像信息的类别为生气。需要注意的是，可根据不同的阈值区间确定不同的图像信息的类别，本公开的实施例对此不作限制。

例如，可以提供识别单元，并通过该识别单元基于预测分值确定待识别图像的图像信息的类别；例如，也可以通过中央处理单元(CPU)、图像处理器(GPU)、张量处理器(TPU)、现场可编程逻辑门阵列(FPGA)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元以及相应计算机指令来实现该识别单元。

需要说明的是，在本公开的实施例中，该图像处理方法的流程可以包括更多或更少的操作，这些操作可以顺序执行或并行执行。虽然上文描述的图像处理方法的流程包括特定顺序出现的多个操作，但是应该清楚地了解，多个操作的顺序并不受限制。上文描述的图像处理方法可以执行一次，也可以按照预定条件执行多次。

在本公开的实施例提供的图像处理方法中，通过结合Garbor滤波器和随机森林分类器，可以使得图像处理速度快，准确率高，可以实时对面部图像进行表情识别；而且，该算法复杂度较低，在实际环境中具有较好的鲁棒性；同时该算法可以由例如C++编写，执行速度快，易于移植，在ARM开发板(例如，RK3399)上处理一帧150x150的面部图像只需要15ms，能实现视频条件下的多人脸实时表情分析。

图9为本公开至少一实施例提供一种图像处理方法的流程图。如图9所示，该图像处理方法包括步骤S210至步骤S260。下面基于步骤S210至步骤S260对本公开至少一实施例提供的图像处理方法进行介绍。

步骤S210：输入待识别图像。

例如，该待识别图像为面部图像。

步骤S220：通过Garbor滤波器获取待识别图像的图像特征响应图。

例如，在一些示例中，为了减少数据处理量，在5个尺度8个方向共40个滤波器输出的人脸特征响应图中仅选用其中例如2个尺度(48x48、67x67)3个方向(0、π/8和2π/8)共6个滤波器(如图6中所示的滤波器组L)的人脸特征响应图作为输出。具体介绍可参考上述步骤S111的相关描述，在此不再赘述。

步骤S230：提取待识别图像的特征向量。

例如，可以采用HOG特征提取、Harr小波变换、神经网络等本领域的特征提取方法提取步骤S220中获得的人脸特征响应图中的待识别图像中的特征向量，并作为随机森林分类器的输入，在此不做赘述，本公开的实施例对此不作限制。

步骤S240：通过随机森林分类器获取待识别图像的预测分值。

例如，根据训练得到的随机森林分类器的数学模型，获取待识别图像的预测分值。

需要注意的是，该随机森林分类器的具体训练过程可参考上述步骤S122和步骤S122的相关描述，在此不再赘述。

步骤S250：根据阈值区间确定待识别图像的图像信息的类别。

例如，在一些示例中，阈值区间的设置如下：

例如，判断待识别图像的预测分值所属于的阈值区间，并根据待识别图像的预测分值所属于的阈值区间确定待识别图像的图像信息的类别。

步骤S260：输出表情识别结果。

例如，将表情识别结果输出到相应的装置中，以供使用、参考。

在本公开的实施例提供的图像处理方法中，通过结合Garbor滤波器和随机森林分类器，可以使得图像处理方法运行速度快、准确率高，可以实时对面部图像进行表情识别；而且，该算法复杂度较低，在实际应用中具有较好的鲁棒性。

图10A为本公开至少一实施例提供的一种图像处理装置的示意框图。例如，在图10A所示的示例中，该图像处理装置100包括特征提取单元110、预测单元120和识别单元130。例如，这些单元可以通过硬件(例如电路)模块或软件模块等实现。例如，可以通过中央处理单元(CPU)、图像处理器(GPU)、张量处理器(TPU)、现场可编程逻辑门阵列(FPGA)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元以及相应计算机指令来实现这些单元。

该特征提取单元110配置为提取待识别图像中的特征向量。例如，待识别图像为面部图像。例如，该特征提取单元110可以实现步骤S110，其具体实现方法可以参考步骤S110的相关描述，在此不再赘述。

预测单元120配置为基于待识别图像的特征向量获取待识别图像的预测分值。例如，该预测单元120可以实现步骤S120，其具体实现方法可以参考步骤S120的相关描述，在此不再赘述。

识别单元130配置为基于预测分值确定待识别图像的图像信息的类别。例如，该图像信息为表情。例如，该识别单元130可以实现步骤S130，其具体实现方法可以参考步骤S130的相关描述，在此不再赘述。

图10B为本公开至少一实施例提供的另一种图像处理装置的示意框图。例如，如图10B所示，在一些示例中，该特征提取单元110还包括Garbor滤波器111和特征提取子单元112。

例如，该Garbor滤波器111配置为获取待识别图像的图像特征响应图。例如，该Garbor滤波器包括2个尺度和3个方向，即该Garbor滤波器仅输出2个尺度和3个方向的滤波器获取的图像特征响应图，该图像特征响应图包括所述待识别图像中的图像信息的特征。例如，该Garbor滤波器111可以实现步骤S111，其具体实现方法可以参考步骤S111的相关描述，在此不再赘述。

例如，该特征提取子单元112配置为在图像特征响应图中提取待识别图像中的特征向量。例如，该特征提取子单元112可以实现步骤S112，其具体实现方法可以参考步骤S112的相关描述，在此不再赘述。

例如，如图10B所示，在一些示例中，该识别单元130包括随机森林分类器131。例如，随机森林分类器131配置为基于待识别图像的特征向量获取待识别图像的预测分值。其具体实现方法可以参考步骤S130的相关描述，在此不再赘述。

例如，如图10B所示，在一些示例中，该图像处理装置100还包括训练装置140，该训练装置140配置为基于训练集中各个图像数据的特征向量和评分值训练随机森林分类器131。例如，训练集包括第五数量的图像数据，并且每个图像数据被标注有评分值，每个图像数据的评分值是根据图像数据中包括的图像信息的类别确定的，并且不同的图像信息的类别对应不同的评分值。例如，该训练装置140可以实现步骤S121，其具体实现方法可以参考步骤S121的相关描述，在此不再赘述。

需要注意的是，在本公开的实施例中，可以包括更多或更少的电路或单元，并且各个电路或单元之间的连接关系不受限制，可以根据实际需求而定。各个电路的具体构成方式不受限制，可以根据电路原理由模拟器件构成，也可以由数字芯片构成，或者以其他适用的方式构成。

图11为本公开至少一实施例提供的另一种图像处理装置的示意框图。如图11所示，该图像处理装置200包括处理器210、存储器220以及一个或多个计算机程序模块221。

例如，处理器210与存储器220通过总线***230连接。例如，一个或多个计算机程序模块221被存储在存储器220中。例如，一个或多个计算机程序模块221包括用于执行本公开任一实施例提供的图像处理方法的指令。例如，一个或多个计算机程序模块221中的指令可以由处理器210执行。例如，总线***230可以是常用的串行、并行通信总线等，本公开的实施例对此不作限制。

例如，该处理器210可以是中央处理单元(CPU)、图像处理器(GPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，可以为通用处理器或专用处理器，并且可以控制图像处理装置200中的其它组件以执行期望的功能。

存储器220可以包括一个或多个计算机程序产品，该计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。该易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。该非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器210可以运行该程序指令，以实现本公开实施例中(由处理器210实现)的功能以及/或者其它期望的功能，例如图像处理方法等。在该计算机可读存储介质中还可以存储各种应用程序和各种数据，例如特征向量以及应用程序使用和/或产生的各种数据等。

需要说明的是，为表示清楚、简洁，本公开实施例并没有给出该图像处理装置200的全部组成单元。为实现图像处理装置200的必要功能，本领域技术人员可以根据具体需要提供、设置其他未示出的组成单元，本公开的实施例对此不作限制。

关于不同实施例中的图像处理装置100和图像处理装置200的技术效果可以参考本公开的实施例中提供的图像处理方法的技术效果，这里不再赘述。

图像处理装置100和图像处理装置200可以用于各种适当的电子设备，例如，该电子设备还可以进一步包括图像采集装置、输入/输出(I/O)装置、外设接口或通信装置等。例如，图像采集装置100/200可以包括成像传感器以及镜头，该图像传感器可以为CMOS型或CCD型，镜头包括一个或多个透镜(凸透镜或凹透镜等)。该输入/输出装置例如为显示器、触摸板、触摸屏、键盘、鼠标等。该外设接口可以为各种类型的接口，例如为USB接口、闪电(lighting)接口等。该通信装置可以通过无线通信来与网络和其他设备进行通信，该网络例如为因特网、内部网和/或诸如蜂窝电话网络之类的无线网络、无线局域网(LAN)和/或城域网(MAN)。无线通信可以使用多种通信标准、协议和技术中的任何一种，包括但不局限于全球移动通信***(GSM)、增强型数据GSM环境(EDGE)、宽带码分多址(W-CDMA)、码分多址(CDMA)、时分多址(TDMA)、蓝牙、Wi-Fi(例如基于IEEE 802.11a、IEEE 802.11b、IEEE802.11g和/或IEEE 802.11n标准)、基于因特网协议的语音传输(VoIP)、Wi-MAX，用于电子邮件、即时消息传递和/或短消息服务(SMS)的协议，或任何其他合适的通信协议。

例如，电子设备可以为手机、平板电脑、笔记本电脑、电子书、游戏机、电视机、数码相框、导航仪等任何设备，也可以为任意的电子设备及硬件的组合，本公开的实施例对此不作限制。

本公开至少一实施例还提供一种随机分类器的训练方法。该训练方法包括：基于训练集中各个图像数据的特征向量和评分值训练随机森林分类器。例如，训练集包括第五数量的图像数据，并且每个图像数据被标注有评分值，每个图像数据的评分值是根据图像数据中包括的图像信息的类别确定的，并且不同的图像信息的类别对应不同的评分值。例如，各个图像数据为面部图像，图像信息为表情。例如，图像信息的类别包括厌恶、生气、平静、高兴和惊讶；其中，所述厌恶对应的评分值为10-19，所述生气对应的评分值为20-29，所述平静对应的评分值为30-39，所述高兴对应的评分值为40-49，所述惊讶对应的评分值为50-59。关于该训练方法的具体介绍可参考上述步骤S121和步骤S122中的相关描述，在此不再赘述。

本公开至少一实施例还提供一种计算机可读存储介质。图12为本公开至少一实施例提供的一种计算机可读存储介质的示意图。例如，如图12所示，该计算机可读存储介质300非暂时性地存储计算机可读指令301，当非暂时性计算机可读指令由计算机(包括处理器)执行时可以执行本公开任一实施例提供的图像处理方法或本公开任一实施例提供的训练方法。

例如，该计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合，例如一个计算机可读存储介质包含提取待识别图像中的特征向量的计算机可读的程序代码，另一个计算机可读存储介质包含基于待识别图像的特征向量获取待识别图像的预测分值的计算机可读的程序代码。例如，当该程序代码由计算机读取时，计算机可以执行该计算机存储介质中存储的程序代码，执行例如本公开任一实施例提供的图像处理方法或训练方法。

例如，计算机可读存储介质可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、闪存、或者上述计算机可读存储介质的任意组合，也可以为其他适用的计算机可读存储介质。

有以下几点需要说明：

(1)本公开实施例附图只涉及到与本公开实施例涉及到的结构，其他结构可参考通常设计。

(2)在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合以得到新的实施例。

以上所述仅是本公开的示范性实施方式，而非用于限制本公开的保护范围，本公开的保护范围由所附的权利要求确定。

Claims

1.一种图像处理方法，包括：

提取待识别图像中的特征向量；

基于所述待识别图像的特征向量获取所述待识别图像的预测分值；

基于所述预测分值确定所述待识别图像的图像信息的类别；

其中，所述待识别图像为面部图像，所述图像信息为表情；

其中，提取所述待识别图像中的特征向量，包括：

通过Garbor滤波器获取所述待识别图像的图像特征响应图；

在所述图像特征响应图中提取所述待识别图像中的特征向量；

其中，所述Garbor滤波器包括第一数量的尺度和第二数量的方向；

所述图像特征响应图包括所述待识别图像中的图像信息的特征；

其中，所述第一数量的尺度小于4个尺度；

其中，在所述图像特征响应图中提取所述待识别图像中的特征向量，包括：利用HOG特征提取、Harr小波变换或神经网络在所述图像特征响应图中提取所述待识别图像中的特征向量；

基于所述待识别图像的特征向量获取所述待识别图像的预测分值，包括：

通过随机森林分类器基于所述待识别图像的特征向量获取所述待识别图像的预测分值，其中，所述随机森林分类器配置为接收所述待识别图像的特征向量并输出所述待识别图像的预测分值；

基于所述预测分值确定所述待识别图像的图像信息的类别，包括：

判断所述待识别图像的预测分值所属于的阈值区间；

根据所述待识别图像的预测分值所属于的阈值区间确定所述待识别图像的图像信息的类别，其中，所述图像信息的类别包括厌恶、生气、平静、高兴和惊讶。

2.根据权利要求1所述的图像处理方法，其中，根据所述Garbor滤波器在第三数量的尺度和第四数量的方向下的图像信息识别的准确率，选择所述Garbor滤波器的第一数量的尺度和第二数量的方向，

其中，所述第一数量的尺度为2个尺度，所述第二数量的方向为3个方向。

3.根据权利要求1所述的图像处理方法，还包括：

基于数据集包括的训练集中的各个图像数据的特征向量和评分值训练所述随机森林分类器，

其中，所述数据集包括多个图像数据，并且每个图像数据被标注有评分值，

其中，每个图像数据的评分值是根据图像数据中包括的图像信息的类别确定的，并且不同的图像信息的类别对应不同的评分值，

其中，所述图像数据为面部图像，所述图像信息为表情；

其中，所述训练集包括所述数据集中第五数量的图像数据。

4.根据权利要求3所述的图像处理方法，其中，基于训练集中各个图像数据的特征向量和评分值训练所述随机森林分类器，包括：

采用K折交叉验证模式训练所述随机森林分类器；

其中，K表示将所述训练集中的图像数据分成的K份，且K为大于0的整数。

5.根据权利要求3所述的图像处理方法，还包括：

基于所述数据集包括的测试集中各个图像数据的特征向量和评分值对训练后的所述随机森林分类器进行校验，

其中，所述测试集包括第六数量的图像数据，

其中，所述第五数量大于所述第六数量。

6.根据权利要求3所述的图像处理方法，其中，所述厌恶对应的评分值为10-19，所述生气对应的评分值为20-29，所述平静对应的评分值为30-39，所述高兴对应的评分值为40-49，所述惊讶对应的评分值为50-59。

7.一种图像处理装置，包括：

特征提取单元，配置为提取待识别图像中的特征向量；

预测单元，配置为基于所述待识别图像的特征向量获取所述待识别图像的预测分值；

识别单元，配置为基于所述预测分值确定所述待识别图像的图像信息的类别；

其中，所述待识别图像为面部图像，所述图像信息为表情；

其中，所述特征提取单元执行提取所述待识别图像中的特征向量时，包括执行以下操作：

通过Garbor滤波器获取所述待识别图像的图像特征响应图；

其中，所述第一数量的尺度小于4个尺度，

判断所述待识别图像的预测分值所属于的阈值区间；

8.一种图像处理装置，包括：

处理器；

存储器；一个或多个计算机程序模块，所述一个或多个计算机程序模块被存储在所述存储器中并被配置为由所述处理器执行，所述一个或多个计算机程序模块包括用于执行实现权利要求1-6任一所述的图像处理方法的指令。

9.一种随机森林分类器的训练方法，包括：

其中，所述数据集包括多个图像数据，并且所述多个图像数据中的每个图像数据被标注有评分值，

其中，每个图像数据的评分值是根据图像数据中包括的图像信息的类别确定的，并且不同的图像信息的类别对应不同的评分值；

其中，所述各个图像数据为面部图像，所述图像信息为表情，

其中，所述训练集包括所述数据集中第五数量的图像数据；

其中，所述各个图像数据的特征向量的提取方式包括：

通过Garbor滤波器获取所述图像数据的图像特征响应图；

在所述图像特征响应图中提取所述图像数据的特征向量；

所述图像特征响应图包括待识别图像中的图像信息的特征；

其中，所述第一数量的尺度小于4个尺度，

其中，所述图像信息的类别根据眼睛或嘴巴的位置坐标判断得到，所述眼睛和嘴巴的空间变化与评分值一一对应，以将每个图像数据的评分值与眼睛或嘴巴的空间变化进行关联。

10.根据权利要求9所述的训练方法，其中，基于训练集中各个图像数据的特征向量和评分值训练所述随机森林分类器，包括：

采用K折交叉验证模式训练所述随机森林分类器；

11.根据权利要求10所述的训练方法，还包括：

基于所述数据集包括的测试集中的各个图像数据的特征向量和评分值对训练后的所述随机森林分类器进行校验，

其中，所述测试集包括所述数据集中的第六数量的图像数据，

其中，所述第五数量大于所述第六数量。

12.根据权利要求9所述的训练方法，其中，所述图像信息的类别包括厌恶、生气、平静、高兴和惊讶；

其中，所述厌恶对应的评分值为10-19，所述生气对应的评分值为20-29，所述平静对应的评分值为30-39，所述高兴对应的评分值为40-49，所述惊讶对应的评分值为50-59。

13.一种计算机可读存储介质，非暂时性地存储计算机可读指令，当所述非暂时性计算机可读指令由计算机执行时可以执行根据权利要求1-6任一所述的图像处理方法。