CN111325107A

CN111325107A - 检测模型训练方法、装置、电子设备和可读存储介质

Info

Publication number: CN111325107A
Application number: CN202010074476.5A
Authority: CN
Inventors: 奉万森
Original assignee: Guangzhou Huya Technology Co Ltd
Current assignee: Guangzhou Huya Technology Co Ltd
Priority date: 2020-01-22
Filing date: 2020-01-22
Publication date: 2020-06-23
Anticipated expiration: 2040-01-22
Also published as: CN111325107B

Abstract

本申请实施例提供一种检测模型训练方法、装置、电子设备和可读存储介质，通过将获得的样本图像集中的多个样本图像划分为多个图像子集，并对多个图像子集中的样本图像的数量进行平衡处理，以改善获得的样本图像集中样本分布不均的问题，并且，对各个样本图像按预设变换策略进行优化处理，得到目标图像集。再利用目标图像集对预先构建的神经网络模型进行训练，得到检测模型。该训练方案通过对样本图像集进行样本分布平衡处理以及对各样本图像进行优化处理，使得到的目标图像集在样本分布和单个样本图像上均得到优化，进而提升训练得到的检测模型的检测准确性。

Description

检测模型训练方法、装置、电子设备和可读存储介质

技术领域

本申请涉及人工智能技术领域，具体而言，涉及一种检测模型训练方法、装置、电子设备和可读存储介质。

背景技术

在人脸图像处理过程中，对于人脸关键点的确定十分重要。目前，一般是采用人工智能算法的方式进行关键点检测，包括首先利用样本图像集对模型进行训练，得到检测模型，再利用得到的检测模型对待处理的图像进行识别检测，从而确定出人脸关键点。其中，样本图像集中的样本对最终得到的检测模型的识别准确性十分重要，但是，目前的检测方式中，往往忽略对样本图像集的处理，导致样本图像集中的样本往往为随机获得，存在样本分布不均、样本不优化的问题，进而导致得到的检测模型检测准确率不佳。

发明内容

本申请的目的包括，例如，提供了一种检测模型训练方法、装置、电子设备和可读存储介质，其能够对样本图像集进行优化，进而提升训练得到的检测模型的检测准确性。

本申请的实施例可以这样实现：

第一方面，实施例提供一种检测模型训练方法，所述方法包括：

获取样本图像集，所述样本图像集包含多个样本图像，所述多个样本图像划分为多个图像子集；

对所述多个图像子集中的样本图像的数量进行平衡处理；

对各所述样本图像按预设变换策略进行优化处理，得到目标图像集；

利用所述目标图像集对预先构建的神经网络模型进行训练，得到检测模型。

在可选的实施方式中，所述对所述多个图像子集中的样本图像的数量进行平衡处理的步骤，包括：

获得各所述样本图像中的人脸图像在水平面上的转动角度；

将所述样本图像集中所述转动角度所属目标预设范围的样本图像划分至第一图像集，将所述样本图像集中的其他样本图像划分至第二图像集；

增加所述第二图像集中的样本图像，以使所述第二图像集中样本图像的数量为所述第一图像集中样本图像的数量的预设倍数。

在可选的实施方式中，所述第二图像集包括第一子集和第二子集，所述第一子集中的样本图像的人脸图像在水平面上的转动角度属于第一预设范围，所述第二子集中的样本图像的人脸图像在水平面上的转动角度属于第二预设范围；

所述增加所述第二图像集中的样本图像，以使所述第二图像集中样本图像的数量为所述第一图像集中样本图像的数量的预设倍数的步骤，包括：

增加所述第一子集中的样本图像，以使所述第一子集中的样本图像的数量为所述第一图像集中样本图像的数量的第一预设倍数；

增加所述第二子集中的样本图像，以使所述第二子集中的样本图像的数量为所述第一图像集中样本图像的数量的第二预设倍数。

在可选的实施方式中，所述对各所述样本图像按预设变换策略进行优化处理，得到目标图像集的步骤，包括：

将各所述样本图像的尺寸调整为预设尺寸；

针对尺寸调整后的各所述样本图像，将所述样本图像中的人脸图像在竖直方向上转动预设角度；

利用遮挡像素块对各所述样本图像进行随机遮挡处理，得到目标图像集。

在可选的实施方式中，所述利用遮挡像素块对各所述样本图像进行随机遮挡处理的步骤，包括：

根据获得的设置参数生成遮挡像素块；

针对各所述样本图像，根据生成的随机数确定所述遮挡像素块在所述样本图像中的叠加区域；

将所述遮挡像素块叠加至所述样本图像中的所述叠加区域。

在可选的实施方式中，所述预先构建的神经网络模型包括输入层、融合层、输出层以及连接在所述输入层和融合层之间的多个网络层，各所述样本图像包含多个标注关键点，所述利用所述目标图像集对预先构建的神经网络模型进行训练，得到检测模型的步骤，包括：

将所述样本图像集中的每个样本图像输入到所述输入层进行预处理，得到预处理图像；

针对每个所述网络层，通过该网络层对输入的图像进行卷积处理以及特征提取处理，输出特征图像；

将各个网络层输出的特征图像，在所述融合层中进行融合处理得到融合特征图，将所述融合特征图输入至所述输出层进行关键点分类，得到所述样本图像的预测关键点；

计算所述样本图像的预测关键点与所述标注关键点的损失函数值，根据所述损失函数值进行反向传播训练，更新所述神经网络模型的网络参数后继续训练，直至满足预设终止条件时，得到所述检测模型。

在可选的实施方式中，各所述网络层包含第一网络模块和第二网络模块，所述针对每个所述网络层，通过该网络层对输入的图像进行卷积处理以及特征提取处理，输出特征图像的步骤，包括：

针对每个所述网络层，通过该网络层的第一网络模块对输入的图像进行卷积处理以及特征提取处理，得到第一特征图；

利用所述网络层的第二网络模块对输入的图像进行卷积处理以及特征提取处理，得到第二特征图；

将所述第一特征图和所述第二特征图进行融合处理，输出所述网络层的特征图像。

在可选的实施方式中，所述通过该网络层的第一网络模块对输入的图像进行卷积处理以及特征提取处理，得到第一特征图的步骤，包括：

利用第一卷积处理策略对所述第一网络模块输入的图像进行卷积处理以及特征提取处理，并利用第二卷积处理策略对所述第一网络模块输入的图像的进行卷积处理以及特征提取处理；

对所述第一卷积处理策略处理得到的输出图像以及第二卷积处理策略处理得到的输出图像进行融合处理；

对融合处理后的图像进行通道随机混合处理，输出第一特征图。

在可选的实施方式中，所述利用所述网络层的第二网络模块对输入的图像进行卷积处理以及特征提取处理，得到第二特征图的步骤，包括：

利用所述网络层的第二网络模块对输入的图像进行通道分离处理，得到多个单通道图像；

对各所述单通道图像进行卷积处理以及特征提取处理；

将各所述单通道图像以及该单通道图像经卷积处理以及特征提取处理后的图像进行融合处理；

将融合处理后的多个单通道图像进行通道随机混合处理，输出第二特征图。

第二方面，实施例提供一种检测模型训练装置，所述装置包括：

获取模块，用于获取样本图像集，所述样本图像集包含多个样本图像，所述多个样本图像划分为多个图像子集；

平衡处理模块，用于对所述多个图像子集中的样本图像的数量进行平衡处理；

优化处理模块，用于对各所述样本图像按预设变换策略进行优化处理，得到目标图像集；

训练模块，用于利用所述目标图像集对预先构建的神经网络模型进行训练，得到检测模型。

第三方面，实施例提供一种电子设备，包括一个或多个存储介质和一个或多个与存储介质通信的处理器，一个或多个存储介质存储有处理器可执行的机器可执行指令，当电子设备运行时，处理器执行所述机器可执行指令，以执行前述实施方式中任意一项所述的检测模型训练方法。

第四方面，实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有机器可执行指令，所述机器可执行指令被执行时实现前述实施方式中任意一项所述的检测模型训练方法。

本申请实施例的有益效果包括，例如：

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的检测模型训练方法的应用场景示意图；

图2为本申请实施例提供的检测模型训练方法的流程图；

图3为图2中步骤S220的子步骤的流程图；

图4为图2中步骤S230的子步骤的流程图；

图5为图2中步骤S240的子步骤的流程图；

图6为本申请实施例提供的神经网络模型的网络结构示意图；

图7为本申请实施例提供的神经网络模型中的第一网络模块的结构示意图；

图8为本申请实施例提供的神经网络模型中的第二网络模块的结构示意图；

图9为本申请实施例提供的电子设备的结构示意图；

图10为本申请实施例提供的检测模型训练装置的功能模块框图。

图标：100-直播提供终端；200-直播服务器；300-直播接收终端；110-存储介质；120-处理器；130-检测模型训练装置；131-获取模块；132-平衡处理模块；133-优化处理模块；134-训练模块；140-通信接口。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本申请的描述中，需要说明的是，若出现术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。需要说明的是，在不冲突的情况下，本申请的实施例中的特征可以相互结合。

本申请实施例提供的检测模型训练方法可以应用于多种应用场景，例如图像处理应用中、直播应用中、门禁应用中等等，在这类应用中，需要对人脸图像进行处理，以跟踪定位出人脸图像的关键点，从而基于定位出的关键点进行后续的处理。例如，图像处理应用中，可以定位出人脸图像中的关键点后，对关键点进行优化处理，例如放大眼睛区域、缩小脸部轮廓等。在直播应用中，可以对主播的人脸图像进行关键点定位，从而基于关键点进行人脸图像处理。本申请中，后续将以直播应用的应用场景为例进行说明。

请参阅图1，为本申请实施例提供的检测模型训练方法的一种可能的应用场景示意图，该场景中包括直播提供终端100、直播服务器200、直播接收终端300。直播服务器200分别与直播提供终端100和直播接收终端300通信连接，用于为直播提供终端100以及直播接收终端300提供直播服务。例如，直播提供终端100可以将直播视频流发送给直播服务器200，观众可以通过直播接收终端300访问直播服务器200以观看直播视频。其中，直播服务器200推送的直播视频流可以是当前正在直播平台中直播的视频流或者直播完成后形成的完整视频流。可以理解，图1所示的场景仅为一种可行的示例，在其它可行的实施例中，该场景也可以仅包括图1所示组成部分的其中一部分或者还可以包括其它的组成部分。

本实施例中，直播提供终端100和直播接收终端300可以是，但不限于，智能手机、个人数字助理、平板电脑、个人计算机、笔记本电脑、虚拟现实终端设备、增强现实终端设备等。其中，直播提供终端100和直播接收终端300中可以安装用于提供互联网直播服务的互联网产品，例如，互联网产品可以是计算机或智能手机中使用的与互联网直播服务相关的应用程序APP、Web网页、小程序等。

本实施例中，在该场景中还可以包括用于采集主播视频帧的视频采集设备，视频采集设备可以是，但不限于摄像头、数码照相机的镜头、监控摄像头或者网络摄像头等。视频采集设备可以直接安装或集成于直播提供终端100。例如，视频采集设备可以是配置在直播提供终端100上的摄像头，直播提供终端100中的其他模块或组件可以经由内部总线接收从视频采集设备处发送的视频、图像。或者，视频采集设备也可以独立于直播提供终端100，两者之间通过有线或无线的方式进行通信。

图2示出了本申请实施例提供的检测模型训练方法的流程示意图，该检测模型训练方法可由图1中所示的直播提供终端100或直播接收终端300或直播服务器200执行。应当理解，在其它实施例中，本实施例的检测模型训练方法其中部分步骤的顺序可以根据实际需要相互交换，或者其中的部分步骤也可以省略或删除。该检测模型训练方法的详细步骤介绍如下。

步骤S210，获取样本图像集，所述样本图像集包含多个样本图像，所述多个样本图像划分为多个图像子集。

步骤S220，对所述多个图像子集中的样本图像的数量进行平衡处理。

步骤S230，对各所述样本图像按预设变换策略进行优化处理，得到目标图像集。

步骤S240，利用所述目标图像集对预先构建的神经网络模型进行训练，得到检测模型。

本实施例中，获得的样本图像集中的样本图像为预先采集的图像，且各样本图像中包含多个标注关键点，即样本图像中的关键点已进行标注，关键点可以包含人脸图像中的眉毛、眼睛、鼻子、嘴巴、脸部轮廓等。

本实施例中，可将多个样本图像划分为多个图像子集，例如可以是根据样本图像中的人脸图像中的人物的性别进行划分，也可以是根据人脸图像的转动角度进行划分，或者也可以根据人脸图像在样本图像的面积占比进行划分，当然也可以根据样本图像的其他信息进行划分，本实施例不作具体限制。

对于划分得到的各个图像子集，各个图像子集中包含的样本图像的数量一般是不一致的，考虑到有些图像子集中的样本图像在实际应用中较常出现，但是样本图像集中，该图像子集中的样本图像的数量却相对较少，因此，在这种情况下，对各个图像子集中的样本图像的数量进行的平衡处理，可以是增加该图像子集中的样本图像的数量。或者，考虑到有些图像子集中的样本图像，在实际检测识别时，由于样本图像中的人脸图像存在例如遮挡、转动等情况，而较难检测定位出关键点。因此，在这种情况下，可以增加该类图像子集中的样本图像的数量，以使模型能够更多地学习到该类图像子集中的样本图像的特征，增强模型后续对具有该类图像子集中样本图像的相同特征的图像的检测定位。

本实施例中对多个图像子集的样本图像的数量进行的平衡处理，主要是基于使模型能够更多地学习到一些在实际应用中较常出现的图像类型的特征，或者是能够更多地学习到一些较难识别的图像类型的特征的思路出发进行的处理。主要的方式可以是增加某些包含的样本图像为实际应用中较常出现的图像类型的图像子集中的图像的数量，或者是增加某些包含的样本图像为较难识别检测的图像类型的图像子集中的图像的数量。

当然，也可以是基于用户的需求进行的平衡处理，例如，用户需要对某一类特殊的图像类型进行重点识别检测时，例如人脸侧面正对摄像头所采集的图像，或者采集到的人脸图像只包含一半人脸区域等。在划分图像子集时，可将该类图像类型的图像划分至同一图像子集，并对该图像子集中的图像数量进行扩充。从而使模型能够更多地学习到该类特殊的图像类型的图像特征。

对于平衡处理后的样本图像集中的各个样本图像，再采用预设变换策略进行优化处理，从而得到目标图像集。最后，利用目标图像集对神经网络模型进行训练，得到检测模型。其中，该预设变换策略可以包括，如角度变换、尺寸变换、检测人脸区域范围变换等等。其目的主要是为了使得到的样本图像能够模拟不同情形下的人脸特征，使最终得到的模型能够适应于具有不同情形特征的图像的检测，提高模型的鲁棒性。

本实施例中，通过对样本图像集进行样本分布平衡处理以及对各样本图像进行优化处理，使得到的目标图像集在样本分布和单个样本图像上均得到优化，进而提升训练得到的检测模型的检测准确性。

在本实施例中，考虑到在进行人脸关键点检测时，人脸在转动的情况下，容易造成关键点的移位，导致检测不准确。因此，在对样本图像集进行样本分布平衡处理时，可以着重基于人脸图像的转动情况进行平衡处理。请参阅图3，在本实施例中，可通过以下方式对多个图像子集中的样本图像的数量进行平衡处理：

步骤S221，获得各所述样本图像中的人脸图像在水平面上的转动角度。

步骤S222，将所述样本图像集中所述转动角度所属目标预设范围的样本图像划分至第一图像集，将所述样本图像集中的其他样本图像划分至第二图像集。

步骤S223，增加所述第二图像集中的样本图像，以使所述第二图像集中样本图像的数量为所述第一图像集中样本图像的数量的预设倍数。

摄像设备在采集人脸图像时，若人脸正对于摄像设备，则采集到的人脸图像中的关键点较容易检测识别，而若人脸侧面对着摄像设备或者转动一定角度对着摄像设备，则采集到的人脸图像中可能识别不到某些关键点，或者关键点在人脸图像中将出现移位。因此，人脸图像的转动角度对于关键点的检测影响较大。

对于各个样本图像，可获得该样本图像中的人脸图像在水平面的转动角度。获得转动角度的方式可以是，预先获得人脸图像在转动不同角度时，人脸图像上的几个关键点之间的间距，例如双眼之间的间距、嘴角两端之间的间距等。建立不同转动角度以及不同间距之间的关联关系。如此，在对样本图像中的人脸图像进行转动角度确认时，则可根据人脸图像中的关键点的间距，以确定人脸图像的转动角度。

考虑到由于正对于摄像设备或者是稍微转动较小角度时拍摄到的人脸图像中的关键点较易识别，因此，本实施例中，可将样本图像集中人脸图像的转动角度所属目标预设范围的样本图像划分至第一图像集中，而其余的样本图像划分至第二图像集中。其中，该目标预设范围可以是0度到30度，当然，也可以是其他数值范围，具体本实施例不作限制。

上述划分至第二图像集的样本图像中的人脸图像转动角度较大，在实际的检测识别过程中存在检测较难的问题，因此，本实施例中，可以通过增大该类图像的样本数的方式，以使模型能够更多地学习到该类图像的特征信息，后续实现针对该类图像的更为准确地检测识别。本实施例中，可以将第二图像集中的样本图像的数量增加至第一图像集中样本图像的数量的两倍、三倍等不限。

本实施例中，考虑到随着转动角度的增加，对人脸图像中的关键点的识别难度也随之增加，在转动角度非常大的情况下，尤为难以检测识别。因此，在本实施例中，进一步地可对上述第二图像集中的样本图像进行划分，上述第二图像集可包括第一子集和第二子集。其中，第一子集中的样本图像的人脸图像在水平面上的转动角度属于第一预设范围，该第一预设范围可以是30度到60度。而第二子集中的样本图像的人脸图像在水平面上的转动角度属于第二预设范围，该第二预设范围可以是60度到90度。

在对第一子集和第二子集中的样本图像的数量进行扩充时，可以增加第一子集中的样本图像的数量为第一图像集中的样本图像的数量的第一预设倍数，例如两倍。并且，可以增加第二子集中的样本图像的数量为第一图像集中的样本图像的数量的第二预设倍数，例如三倍。

如此，可以更为细化地根据不同范围内的转动角度，对不同子集中的样本图像进行样本扩充，通过对较难进行关键点检测的样本图像的数量进行扩充，使模型能够更多地学习到该类图像的特征。

在经过上述的样本分布平衡处理之后，请参阅图4，可通过以下方式对各个样本图像进行优化处理：

步骤S231，将各所述样本图像的尺寸调整为预设尺寸。

步骤S232，针对尺寸调整后的各所述样本图像，将所述样本图像中的人脸图像在竖直方向上转动预设角度。

步骤S233，利用遮挡像素块对各所述样本图像进行随机遮挡处理，得到目标图像集。

在本实施例中，考虑到输入至模型中的图像一般具有尺寸上的标准要求，而获得的样本图像在尺寸上可能大小不一，不利于模型的特征学习。因此，可将各个样本图像的尺寸调整为预设尺寸。例如，在样本图像的长度和宽度不一致时，首先可以长边为基准，对短边的边界进行扩充，使样本图像的长度和宽度变换为一致。在此基础上，还可将样本图像的长度和宽度同时进行缩小或放大，以使其尺寸满足预设尺寸，例如，160*160*3的图像。

样本图像中的人脸图像除了存在水平面上的转动情况外，可能还存在竖直方向上的转动，即人脸图像上的中心竖线与竖直方向之间存在一定夹角。在实际场景下，待识别的人脸图像也往往出现这种情形。由于人脸图像在竖直方向上转动一定角度时，同样会造成关键点的移位，以及关键点之间的相对位置的变化，对检测识别造成困难。

因此，在对模型进行训练的阶段，通过将各个样本图像中的人脸图像在竖直方向上转动预设角度，例如正负30度，则可以将人脸图像变换为具有竖直方向上不同转动角度的图像。从而使模型能够更多地学习到该类竖直方向具有转动角度的图像的特征，后续基于该模型对具有该类特征的待检测图像进行检测识别时，能够提高检测的准确性。

此外，在本实施例中，考虑到实际情况下，可能出现待检测图像存在遮挡的情况，例如在主播进行直播时，主播前方的麦克风等可能对主播的人脸造成遮挡，或者是主播在挥手时，造成人脸区域的遮挡。这些情形都可能增加对关键点检测识别的难度。

因此，在本实施例中，在对模型进行训练阶段，则可利用遮挡像素块对各个样本图像进行随机遮挡处理，以模拟实际应用场景中可能出现的人脸遮挡情况。

本实施例中，在对样本图像进行遮挡处理时，可根据获得的设置参数生成遮挡像素块，其中，设置参数包括遮挡像素块的颜色，例如黑色像素块、白色像素块等，还可以包括像素块的大小、形状等。在得到遮挡像素块后，为了模拟实际应用场景中可能出现的不同的遮挡情形，可根据生成的随机数确定遮挡像素块在样本图像中的叠加区域，从而将遮挡像素块叠加至样本图像中的该叠加区域。

在对获得的样本图像集经过上述的样本分布平衡处理以及对样本图像的优化处理之后，即可得到目标图像集，后续利用目标图像集对构建的神经网络模型进行训练，得到检测模型。

本实施例中，所构建的神经网络模型包括输入层、融合层、输出层以及连接在输入层和融合层之间的多个网络层。请参阅图5，可通过以下方式实现对神经网络模型的训练：

步骤S241，将所述样本图像集中的每个样本图像输入到所述输入层进行预处理，得到预处理图像。

步骤S242，针对每个所述网络层，通过该网络层对输入的图像进行卷积处理以及特征提取处理，输出特征图像。

步骤S243，将各个网络层输出的特征图像，在所述融合层中进行融合处理得到融合特征图，将所述融合特征图输入至所述输出层进行关键点分类，得到所述样本图像的预测关键点。

步骤S244，计算所述样本图像的预测关键点与所述标注关键点的损失函数值，根据所述损失函数值进行反向传播训练，更新所述神经网络模型的网络参数后继续训练，直至满足预设终止条件时，得到所述检测模型。

请参阅图6，图6示意性地示出了该神经网络模型的网络结构示意图，多个网络层可包括Stage1-Stage5，通过Stage1对输入层所输出的预处理图像进行卷积处理及特征提取处理，输出特征图像。Stage2-Stage5分别对前一层网络层所输出的特征图像进行卷积处理以及特征提取处理，并输出特征图像。融合层用于将各个网络层输出的特征图像进行融合处理，图中示意性示出了对Stage3、Stage4、Stage5的输出特征图像进行融合处理。融合处理后的图像在输出层中进行关键点分类，得到样本图像的预测关键点。

本实施例中，该神经网络模型可采用多个损失函数监督，例如Loss1-Loss4，如此，可保障各个网络层的特征均能很好地负责不同感受野下的特征，在后续进行融合之后，最终得到的融合特征能够具有较好特征效果。

在本实施例中，每个网络层包括两个网络模块，第一网络模块和第二网络模块，其中，第一网络模块和第二网络模块中对图像的处理策略不同。在各个网络层内部，可通过融合该两个网络模块的输出特征，以获得该网络层的输出特征图像。

可选地，针对每个网络层，可通过该网络层的第一网络模块对输入的图像进行卷积处理以及特征提取处理，得到第一特征图。并利用该网络层的第二网络模块对输入的图像进行卷积处理以及特征提取处理，得到第二特征图。最后，将得到的第一特征图和第二特征图进行融合处理，输出该网络层的特征图像。

可选地，本实施例中，在第一网络模块中，可分别采用两种不同的处理策略对图像进行处理，最后进行融合，以输出该第一网络模块的第一特征图。具体地，针对第一网络模块，可利用第一卷积处理策略对第一网络模块输入的图像进行卷积处理以及特征提取处理，并利用第二卷积处理策略对第一网络模块输入的图像进行卷积处理以及特征提取处理。最后，对第一卷积处理策略处理得到的输出图像以及第二卷积处理策略处理得到的输出图像进行融合处理，再对融合处理后的图像进行通道随机混合处理，输出第一特征图。

请结合参阅图7，其中，上述的第一卷积处理策略对应图7中左边的处理流程，具体可以是，对于输入第一网络模块的图像，首先以卷积核3*3(DWConv3*3)进行卷积操作，卷积操作的步长可设置为2。再以卷积核1*1(Conv1*1)进行卷积操作，并进行激励处理。上述的第二卷积处理策略对应图7中右边的处理流程，具体可以是，对于输入第一网络模块的图像，首先以卷积核1*1(Conv1*1)进行卷积操作，并进行激励处理。再以卷积核3*3(DWConv3*3)进行卷积操作，卷积操作的步长可设置为2。最后，再以卷积核1*1(Conv1*1)进行卷积操作，并进行激励处理。

最后在Concat层对两边输出的图像进行融合处理，再在Channel Shuffle层对融合处理后的图像进行通道随机混合处理，输出第一特征图。

此外，针对第二网络模块，在第二网络模块中，首先利用第二网络模块对输入的图像进行通道分离处理，得到多个单通道图像。对各个单通道图像进行卷积处理以及特征提取处理，再将各个单通道图像以及该单通道图像经卷积处理以及特征提取处理后的图像进行融合处理。最后，将融合处理后的多个单通道图像进行通道随机混合处理，输出第二特征图。

请结合参阅图8，在第二网络模块中，首先，在Channel Split层中对输入的图像进行通道分离处理。再通过右边的处理流程，首先以卷积核1*1(Conv1*1)进行卷积操作，并进行激励处理。再以卷积核3*3(DWConv3*3)进行卷积操作。最后，再以卷积核1*1(Conv1*1)进行卷积操作，并进行激励处理。然后，将单通道图像经该处理流程处理后的图像与该单通道图像在Concat层中进行融合，最后，在Channel Shuffle层对融合处理后的各个单通道图像进行通道随机混合处理，输出第二特征图。

本实施例所提供的神经网络模型，通过设置多个网络层，并对各个网络层的输出图像进行融合处理，可利用不同网络层获得不同特征的特性，提升特征学习的效果。并且，在各个网络层中，通过降维处理以及通道混合处理，提升最终获得的特征的融合特性。

进一步地，设置多个Loss函数监督，可保障各个网络层中的特征均能很好地负责不同感受野下的特征，使融合后的整个特征具有良好特性。

请参阅图9，为本申请实施例提供的电子设备的示例性组件示意图，该电子设备可为图1中所示的直播提供终端100或直播接收终端300或直播服务器200。该电子设备可包括存储介质110、处理器120、检测模型训练装置130及通信接口140。本实施例中，存储介质110与处理器120均位于电子设备中且二者分离设置。然而，应当理解的是，存储介质110也可以是独立于电子设备之外，且可以由处理器120通过总线接口来访问。可替换地，存储介质110也可以集成到处理器120中，例如，可以是高速缓存和/或通用寄存器。

检测模型训练装置130可以理解为上述电子设备，或电子设备的处理器120，也可以理解为独立于上述电子设备或处理器120之外的在电子设备控制下实现上述检测模型训练方法的软件功能模块。

如图10所示，上述检测模型训练装置130可以包括获取模块131、平衡处理模块132、优化处理模块133以及训练模块134。下面分别对该检测模型训练装置130的各个功能模块的功能进行详细阐述。

获取模块131，用于获取样本图像集，所述样本图像集包含多个样本图像，所述多个样本图像划分为多个图像子集。可以理解，该获取模块131可以用于执行上述步骤S210，关于该获取模块131的详细实现方式可以参照上述对步骤S210有关的内容。

平衡处理模块132，用于对所述多个图像子集中的样本图像的数量进行平衡处理。可以理解，该平衡处理模块132可以用于执行上述步骤S220，关于该平衡处理模块132的详细实现方式可以参照上述对步骤S220有关的内容。

优化处理模块133，用于对各所述样本图像按预设变换策略进行优化处理，得到目标图像集。可以理解，该优化处理模块133可以用于执行上述步骤S230，关于该优化处理模块133的详细实现方式可以参照上述对步骤S230有关的内容。

训练模块134，用于利用所述目标图像集对预先构建的神经网络模型进行训练，得到检测模型。可以理解，该训练模块134可以用于执行上述步骤S240，关于该训练模块134的详细实现方式可以参照上述对步骤S240有关的内容。

进一步地，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有机器可执行指令，机器可执行指令被执行时实现上述实施例提供的检测模型训练方法。

综上所述，本申请实施例提供一种检测模型训练方法、装置、电子设备和可读存储介质，通过将获得的样本图像集中的多个样本图像划分为多个图像子集，并对多个图像子集中的样本图像的数量进行平衡处理，以改善获得的样本图像集中样本分布不均的问题，并且，对各个样本图像按预设变换策略进行优化处理，得到目标图像集。再利用目标图像集对预先构建的神经网络模型进行训练，得到检测模型。该训练方案通过对样本图像集进行样本分布平衡处理以及对各样本图像进行优化处理，使得到的目标图像集在样本分布和单个样本图像上均得到优化，进而提升训练得到的检测模型的检测准确性。

在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种检测模型训练方法，其特征在于，所述方法包括：

对所述多个图像子集中的样本图像的数量进行平衡处理；

2.根据权利要求1所述的检测模型训练方法，其特征在于，所述对所述多个图像子集中的样本图像的数量进行平衡处理的步骤，包括：

获得各所述样本图像中的人脸图像在水平面上的转动角度；

3.根据权利要求2所述的检测模型训练方法，其特征在于，所述第二图像集包括第一子集和第二子集，所述第一子集中的样本图像的人脸图像在水平面上的转动角度属于第一预设范围，所述第二子集中的样本图像的人脸图像在水平面上的转动角度属于第二预设范围；

4.根据权利要求1所述的检测模型训练方法，其特征在于，所述对各所述样本图像按预设变换策略进行优化处理，得到目标图像集的步骤，包括：

将各所述样本图像的尺寸调整为预设尺寸；

5.根据权利要求4所述的检测模型训练方法，其特征在于，所述利用遮挡像素块对各所述样本图像进行随机遮挡处理的步骤，包括：

根据获得的设置参数生成遮挡像素块；

将所述遮挡像素块叠加至所述样本图像中的所述叠加区域。

6.根据权利要求1所述的检测模型训练方法，其特征在于，所述预先构建的神经网络模型包括输入层、融合层、输出层以及连接在所述输入层和融合层之间的多个网络层，各所述样本图像包含多个标注关键点，所述利用所述目标图像集对预先构建的神经网络模型进行训练，得到检测模型的步骤，包括：

7.根据权利要求6所述的检测模型训练方法，其特征在于，各所述网络层包含第一网络模块和第二网络模块，所述针对每个所述网络层，通过该网络层对输入的图像进行卷积处理以及特征提取处理，输出特征图像的步骤，包括：

8.根据权利要求7所述的检测模型训练方法，其特征在于，所述通过该网络层的第一网络模块对输入的图像进行卷积处理以及特征提取处理，得到第一特征图的步骤，包括：

9.根据权利要求7所述的检测模型训练方法，其特征在于，所述利用所述网络层的第二网络模块对输入的图像进行卷积处理以及特征提取处理，得到第二特征图的步骤，包括：

对各所述单通道图像进行卷积处理以及特征提取处理；

10.一种检测模型训练装置，其特征在于，所述装置包括：

11.一种电子设备，其特征在于，包括一个或多个存储介质和一个或多个与存储介质通信的处理器，一个或多个存储介质存储有处理器可执行的机器可执行指令，当电子设备运行时，处理器执行所述机器可执行指令，以执行权利要求1-9中任意一项所述的检测模型训练方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有机器可执行指令，所述机器可执行指令被执行时实现权利要求1-9中任意一项所述的检测模型训练方法。