CN111488476B

CN111488476B - 图像推送方法、模型训练方法及对应装置

Info

Publication number: CN111488476B
Application number: CN202010263423.8A
Authority: CN
Inventors: 梁喆; 朱雨
Original assignee: Beijing Aixin Technology Co ltd
Current assignee: Beijing Aixin Technology Co ltd
Priority date: 2020-04-03
Filing date: 2020-04-03
Publication date: 2023-06-27
Anticipated expiration: 2040-04-03
Also published as: CN111488476A

Abstract

本申请涉及人工智能技术领域，提供一种图像推送方法、模型训练方法及对应装置。图像推送方法包括：获取多个第一图像；将多个第一图像分别输入至终端设备上部署的第一神经网络进行打分，获得第一神经网络输出的多个第一分数；其中，第一神经网络的打分结果模拟服务器上部署的图像处理算法对待处理图像的打分结果；将多个第一分数中满足预设规则的目标分数对应的第一图像确定为目标图像并向服务器发送，以使服务器利用图像处理算法处理目标图像。上述方法不需要在终端设备部署大量属性网络，因此对终端设备性能要求不高，并且选择目标图像的过程以符合图像处理算法的预期为出发点，因此将目标图像用于图像处理任务时可能取得较好的效果。

Description

图像推送方法、模型训练方法及对应装置

技术领域

本发明涉及人工智能技术领域，具体而言，涉及一种图像推送方法、模型训练方法及对应装置。

背景技术

在一些安防***方案中，会部署主控服务器以及多路图像采集设备(如普通摄像头、抓拍机等)，但如果所有的图像采集设备都将采集到的全部图像传输给主控服务器进行后续处理，则受网络带宽影响，无法支持部署很多的图像采集设备，导致***功能受限。解决方案是图像采集设备先期对采集到的图像按照某种标准进行筛选，仅将筛选出的少量图像推送给服务器处理，以降低带宽压力。

以人脸识别场景为例，假设图像采集设备采集了同一人的多个人脸图像，现有的图像推送策略是对多个人脸图像进行质量打分，然后选出一张得分最高的图像推送给服务器进行人脸识别。为实现人脸图像的质量打分，目前常见的做法是在图像采集设备上部署各种属性网络，提取人脸图像的多种属性，比如3D姿态、模糊程度、人脸大小、人脸遮挡、眼睛状态、光照强度等属性，然后对这些属性进行加权平均，得到一个质量分数。

然而，在上述方案中，为获得人脸图像的多种属性，图像采集设备需要利用多个属性网络进行复杂计算，对设备性能要求较高；此外，各属性的加权系数往往由人工主观确定，因此选择出的人脸图像具有一定的主观倾向，导致该图像并不一定是服务器上部署的人脸识别算法所期望获得的图像。

发明内容

本申请实施例的目的在于提供一种图像推送方法、模型训练方法及对应装置，以改善上述技术问题。

为实现上述目的，本申请提供如下技术方案：

第一方面，本申请实施例提供一种图像推送方法，应用于终端设备，所述方法包括：获取多个第一图像；将所述多个第一图像分别输入至所述终端设备上部署的第一神经网络进行打分，获得所述第一神经网络对应输出的多个第一分数；其中，所述第一神经网络的打分结果模拟服务器上部署的图像处理算法对待处理图像的打分结果，所述图像处理算法的打分结果表征所述待处理图像被用于执行预设的图像处理任务的适合程度；将所述多个第一分数中满足预设规则的目标分数对应的第一图像确定为目标图像，并向所述服务器发送所述目标图像，以使所述服务器利用所述图像处理算法处理所述目标图像。

在上述方法中，首先，终端设备为获得第一图像的第一分数，只需要利用本地部署的第一神经网络，而不需要部署大量属性网络，其运算量十分有限，对终端设备性能要求不高；其次，第一神经网络能够模拟服务器上部署的、用于执行预设的图像处理任务的图像处理算法的打分结果，从而根据第一神经网络的打分来选择出目标图像，这一图像选择过程不包含主观因素，而是以符合图像处理算法的预期(表征为图像处理算法的打分结果)为出发点，从而将目标图像用于图像处理任务(即用图像处理算法处理目标图像)时可能取得较好的效果。

在第一方面的一种实现方式中，所述第一图像为人脸图像，所述图像处理算法为人脸识别算法，所述待处理图像为待识别人脸图像，所述图像处理任务为人脸识别任务，所述人脸识别算法的打分结果表征所述待识别人脸图像与底库人脸图像的相似程度。

本申请实施例提供的图像推送方法可用于人脸识别场景，但不必然用于此场景，在该场景中，底库人脸图像对应的人物身份是已知的，服务器会利用本地部署的人脸识别算法处理待识别人脸图像(例如，进行特征提取等)，并最终根据待识别人脸图像与底库人脸图像的相似程度确定待识别人脸图像中人物的身份，即达到人脸识别的目的。

在第一方面的一种实现方式中，所述获取多个第一图像，包括：获取第一人脸轨迹，所述第一人脸轨迹包括多个第一图像。

在第一方面的一种实现方式中，所述获取第一人脸轨迹，包括：对第一视频中的视频帧进行人脸检测，获得多个第一图像；其中，每个第一图像对应从视频帧中检测到的一个人脸框；关联所述多个第一图像以形成所述第一人脸轨迹。

在以上两种实现方式中，第一人脸轨迹可以指一系列在时间上连续的人脸图像(第一图像)的构成的集合，同一人脸轨迹中的人脸图像原则上属于同一人。

例如，第一人脸轨迹可以是一段视频中包含同一人的人脸的连续若干帧，出于人脸识别效果考虑，从中选出的目标图像应当为正常状态下的人脸图像(比如，没有遮挡、正面、光照条件较好等)。在一些实现方式中，第一人脸轨迹中包含的人脸图像可以只是视频帧中的人脸框而不是整个视频帧，这样有利于提高后续对人脸图像进行处理的效率，并且在向服务器推送目标图像时也只占用较小的带宽。

在第一方面的一种实现方式中，所述第一神经网络包括至少一个卷积层以及至少一个全连接层。

在上述实现方式中，至少一个卷积层用于提取图像特征，至少一个全连接层则用于将提取到的特征转化为分数输出。可以理解的，第一神经网络中还可以包含其他层，比如池化层等。

在第一方面的一种实现方式中，所述第一神经网络的参数以及所述第一神经网络中产生的特征均进行量化处理。

由于第一神经网络是部署在终端设备上的，终端设备相较于服务器等设备处理能力较弱，如果神经网络采用高精度的浮点处理则终端设备的性能可能难以满足要求，因此可以对第一神经网络的参数以及第一神经网络中产生的特征均进行量化处理，例如采用4bit、8bit量化等。

在第一方面的一种实现方式中，若所述图像处理算法的打分结果与所述待处理图像被用于执行所述图像处理任务的适合程度成正相关，则所述预设规则包括取最大值。

第二方面，本申请实施例提供一种模型训练方法，包括：获取多个第二图像；将所述第二图像输入至用于部署在终端设备上的第一神经网络进行打分，获得所述第一神经网络输出第二分数；获取用于部署在服务器上的图像处理算法对所述第二图像进行打分得到的第三分数；其中，所述第三分数表征所述第二图像被用于执行预设的图像处理任务的适合程度；将所述第三分数作为所述第二分数对应的标签，根据所述第二分数和所述第三分数计算所述第一神经网络的预测损失，并基于所述预测损失更新所述第一神经网络的参数。

上述训练方法提供了一种获得第一神经网络的方案，即使用服务器上部署的图像处理算法的打分结果作为训练样本的标签，从而训练出来的第一神经网络在对第一图像进行打分时，其打分结果可以模拟图像处理算法对待处理图像的打分结果，因此该第一神经网络可以在本申请实施例提供的图像推送方法中使用。需要指出，该训练方法的执行地点不限，可能在终端设备上，可能在服务器上，也可能在其他设备上。

此外，该方法利用图像处理算法自动生成训练标签，不用进行人工标注，其训练方式简单高效。

在第二方面的一种实现方式中，所述第二图像为人脸图像，所述图像处理算法为人脸识别算法，所述图像处理任务为人脸识别任务，所述第三分数表征所述第二图像与底库人脸图像的相似程度。

本申请实施例提供的图像推送方法可用于人脸识别场景，但不必然用于此场景。

在第二方面的一种实现方式中，获取用于部署在服务器上的人脸识别算法对所述第二图像进行打分得到的第三分数，包括：将所述第二图像输入至预训练的人脸识别网络，获得所述人脸识别网络提取的所述第二图像的特征；计算所述第二图像的特征与底库人脸图像的特征之间的距离，并基于计算出的距离中的最小距离确定所述第三分数。

上述实现方式提供了部署在服务器上的人脸识别算法的一种具体打分方式，当然人脸识别算法也可以采用其他打分方式。

第三方面，本申请实施例提供一种图像推送装置，应用于终端设备，所述装置包括：第一图像获取模块，用于获取多个第一图像；第一打分模块，用于将所述多个第一图像分别输入至所述终端设备上部署的第一神经网络进行打分，获得所述第一神经网络对应输出的多个第一分数；其中，所述第一神经网络的打分结果模拟服务器上部署的图像处理算法对待处理图像的打分结果，所述图像处理算法的打分结果表征所述待处理图像被用于执行预设的图像处理任务的适合程度；图像推送模块，用于将所述多个第一分数中满足预设规则的目标分数对应的第一图像确定为目标图像，并向所述服务器发送所述目标图像，以使所述服务器利用所述图像处理算法处理所述目标图像。

第四方面，本申请实施例提供一种模型训练装置，包括：第二图像获取模块，用于获取多个第二图像；第二打分模块，用于将所述第二图像输入至用于部署在终端设备上的第一神经网络进行打分，获得所述第一神经网络输出第二分数；第三打分模块，用于获取用于部署在服务器上的图像处理算法对所述第二图像进行打分得到的第三分数；其中，所述第三分数表征所述第二图像被用于执行预设的图像处理任务的适合程度；参数更新模块，用于将所述第三分数作为所述第二分数的标签计算所述第一神经网络的预测损失，并基于所述预测损失更新所述第一神经网络的参数。

第五方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器读取并运行时，执行第一方面、第二方面或两方面的任意一种可能的实现方式提供的方法。

第六方面，本申请实施例提供一种电子设备，包括：存储器以及处理器，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器读取并运行时，执行第一方面、第二方面或两方面的任意一种可能的实现方式提供的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例提供的一种图像推送方法的应用场景图；

图2示出了本申请实施例提供的一种图像推送方法的流程图；

图3示出了本申请实施例提供的一种模型训练方法的流程图；

图4示出了本申请实施例提供的一种图像推送装置的功能模块图；

图5示出了本申请实施例提供的一种模型训练装置的功能模块图；

图6示出了本申请实施例提供的一种电子设备的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

图1示出了本申请实施例提供的一种图像推送方法的应用场景图。参照图1，该场景中涉及终端设备100和服务器200，其中终端设备100上部署有第一神经网络，而服务器200上部署有用于执行预设的图像处理任务的图像处理算法，本申请并不限定服务器200上部署的图像处理算法具体用于执行何种图像处理任务，例如可以是人脸识别任务(此时图像处理算法为人脸识别算法)、目标检测任务(此时图像处理算法为目标检测算法)、图像分割任务(此时图像处理算法为图像分割算法)等等，当然在后文中主要以图像处理任务是人脸识别任务的情况为例进行说明。

本申请实施例提供的图像推送方法可以由终端设备100执行，图6示出了终端设备100的一种可能的结构，可以参考后文对图6的阐述。终端设备100执行该图像推送方法所要实现的功能是：从多个第一图像中选择目标图像，并将目标图像发送给服务器200，服务器200利用图像处理算法处理目标图像(即利用目标图像执行预设的图像处理任务)。其中，目标图像可以是一个也可以是多个，但选择一个目标图像是一种比较典型的情况，后文也主要以此为例，当然选出的目标图像的数量必然小于终端设备100上第一图像的数量。

要从多个第一图像中选择目标图像的原因，与具体的应用场景有关，本申请对此不作限制。比如，终端设备100和服务器200之间的带宽有限，若终端设备100不加选择地向服务器200发送第一图像，则会占据较多带宽，导致能够接入服务器200的终端设备100数量受限，不能满足实际需求，若只传输目标图像，则可大幅降低带宽压力。典型情况的比如安防***，前文已述。又比如，服务器200处理能力有限，若终端设备100不加选择地向服务器200发送第一图像，在接入服务器200的终端设备100数量较多时，服务器200将无法有效地处理接收到的图像，若只传输目标图像，则可大幅降低服务器200的处理压力。当然还可能存在其他原因，不再列举。在本申请实施例提供的图像推送方法中，终端设备100基于第一神经网络对第一图像的打分结果来选择并推送目标图像，其具体过程将在后文介绍。

在大多数情况中，终端设备100的运算处理能力明显低于服务器200，本申请中也专门针对这些情况设置了针对性的策略，但并不代表本申请实施例提供的图像推送方法对于终端设备100和服务器200的性能高低有强制性的要求。

图2示出了本申请实施例提供的一种图像推送方法的流程图。参照图2，该方法包括：

步骤S300：终端设备获取多个第一图像。

步骤S300中获取的多个第一图像用于作为目标图像的候选图像。第一图像的获取方式不作限定，例如可以从视频中获取解码后的视频帧作为第一图像，又例如可以从已有的图像库中获取图像作为第一图像。并且，第一图像可以是终端设备自己生成的，也可以是从其他设备处获取的。

多个第一图像在内容上可以具有一定的关联，例如可以是针对同一环境(比如房间、道路等)采集的一系列图像，可以是针对同一目标(如人、车辆等)采集的一系列图像，等等。

步骤S310：终端设备将多个第一图像分别输入至第一神经网络进行打分，获得第一神经网络对应输出的多个第一分数。

其中，第一神经网络具有这样的性质：其打分结果能够模拟服务器上部署的图像处理算法对待处理图像的打分结果，换句话说，若将同样的待处理图像分别输入至第一神经网络和服务器上部署的图像处理算法，其得到的打分结果是相似的。

要得到具有上述性质的第一神经网络可以采用本申请实施例提供的模型训练方法，具体步骤在后文阐述。当然，也可以通过其他方式获得第一神经网络，比如，对于图像处理算法也是某种基于神经网络的算法的情况，不妨将服务器上的神经网络称为第二神经网络，则第一神经网络可以由第二神经网络简化得到，甚至直接使用第二神经网络。当然，直接使用第二神经网络的情况不常见，正如前文提到的，多数情况下终端设备的运算处理能力明显低于服务器，终端设备上很难完全采用和服务器相同的算法。

本申请并不限定第一神经网络具体采用何种神经网络，例如可以是卷积神经网络(Convolutional Neural Network，简称CNN)、区域卷积神经网络(Region-based CNN，简称R-CNN)、循环神经网络(Recurrent Neural Network，简称RNN)等等。

在一种实现方式中，第一神经网络采用卷积神经网络，其结构包括依次连接的至少一个卷积层以及至少一个全连接层。其中，至少一个卷积层用于提取输入图像的特征，至少一个全连接层则用于将提取到的特征转化为分数输出。所谓“依次连接”，仅指各层间的顺序，并不代表各层一定要直接连接，比如，在相邻的卷积层之间也可以加入其他层，如用于下采样的池化层。考虑到终端设备性能可能较弱，不适于部署结构过于复杂的神经网络，因此在一些可选方案中，上述至少一个卷积层的层数不会设置得太多(当然也不能太少，否则无法有效进行特征提取)，例如可以设置7至11个卷积层。

进一步的，仍然是出于终端设备的性能考虑，如果第一神经网络采用高精度的浮点处理，则终端设备可能难以负担，因此在一些实现方式中，还可以对第一神经网络的参数以及第一神经网络中产生的特征均进行量化处理，例如采用4bit、8bit量化等，从而降低浮点运算的运算量。作为对比的，若服务器上使用第二神经网络执行图像处理任务，则第二神经网络的参数以及第二神经网络中产生的特征均无需量化处理。

在服务器上，图像处理算法输出的打分结果表征待处理图像被用于执行预设的图像处理任务的适合程度，在一种比较简单的实现方式中，图像处理算法的打分结果与待处理图像被用于执行预设的图像处理任务的适合程度正相关，也就是说，待处理图像越适合执行图像处理任务，则图像处理算法的打分结果越高，否则越低。比如，对于人脸识别任务而言，若人脸图像被成功识别的概率越高，则人脸识别算法的打分结果越高，否则越低。需要指出，一些图像处理算法可能并不会直接输出一个分数，此时可以将算法的中间或最终输出结果映射为一个分数作为算法的打分结果(也视为图像处理算法对待处理图像进行了打分)。

基于上面对步骤S310的阐述可知，第一神经网络对第一图像的打分结果和服务器上的图像处理算法对第一图像的打分结果是相似的(虽然在第一神经网络对第一图像打分时，图像处理算法实际上并未对第一图像打分，但这种相似性是可以预期的)。从而，第一分数可以表征第一图像被用于执行预设的图像处理任务的适合程度。

步骤S320：终端设备将多个第一分数中满足预设规则的目标分数对应的第一图像确定为目标图像，并向服务器发送目标图像。

本申请并不限定预设规则具体采用何种规则。例如，既然第一分数可以表征第一图像被用于执行预设的图像处理任务的适合程度，那么为了使图像处理任务的执行结果最佳，可以选择表征的适合程度最高的第一分数作为目标分数并由此确定目标图像。比如，若图像处理算法的打分结果与待处理图像被用于执行图像处理任务的适合程度成正相关，则预设规则可以设置为选择最大的第一分数。

又例如，并不追求图像处理任务的执行结果最佳，只需要找到一个能够使执行结果满足预设要求的第一图像就行，那么只需选择表征的适合程度符合要求的一个第一分数作为目标分数并由此确定目标图像即可。比如，若图像处理算法的打分结果与待处理图像被用于执行图像处理任务的适合程度成正相关，则预设规则可以设置为选择一个大于预设阈值的第一分数。

确定好目标图像后，终端设备将目标图像发送至服务器，服务器会利用图像处理算法处理目标图像，即执行预设的图像处理任务。

在上述方法中，首先，终端设备为获得第一图像的第一分数，只需要利用本地部署的第一神经网络，而不需要部署大量属性网络，其运算量十分有限，对终端设备性能要求不高；其次，第一神经网络能够模拟服务器上部署的、用于执行预设的图像处理任务的图像处理算法的打分结果，从而根据第一神经网络的打分来选择出目标图像，这一图像选择过程不包含主观因素，而是以符合服务器上图像处理算法的预期(表征为图像处理算法的打分结果)为出发点，从而将选择出的目标图像用于执行图像处理任务(即服务器利用图像处理算法处理目标图像)时可能取得较好的效果。

下面以人脸识别场景为例，再对图2中的方法进行一些说明。在人脸识别场景中，图2方法中提到的第一图像为人脸图像，图像处理算法为人脸识别算法，待处理图像为待识别人脸图像，图像处理任务为人脸识别任务。人脸识别的一种可能的做法是：事先存储若干底库人脸图像，其对应的人物身份是已知的，服务器会利用本地部署的人脸识别算法处理待识别人脸图像(例如，进行特征提取等)，并最终根据待识别人脸图像与底库人脸图像的相似程度(例如，图像特征的相似程度)确定待识别人脸图像中人物的身份(例如，将相似程度最高的底库图像对应的人物身份确定为识别结果)。具体的人脸识别算法不限定，例如可以是Faster R-CNN、FaceNet、CosFace等。

若采用此种做法进行人脸识别，则人脸识别算法的打分结果表征待识别人脸图像与底库人脸图像的相似程度：若待识别人脸图像与某个底库人脸图像相似度很高，则说明待识别人脸图像中人物的身份比较明确，或者说待识别人脸图像比较适合用于人脸识别；若待识别人脸图像与任一底库人脸图像的相似度都不高，则说明待识别人脸图像中人物的身份不太明确，或者说待识别人脸图像不太适合用于人脸识别。

若人脸识别算法的打分结果与待识别人脸图像与底库人脸图像的相似程度正相关，则用于选择目标图像的预设规则可以设置为选择最大的第一分数作为目标分数，若将这样选出的目标图像推送给服务器进行人脸识别，则有望获得较为准确的识别结果。

在一些实现方式中，步骤S200中的多个第一图像可以来源于第一人脸轨迹，第一人脸轨迹可以指一系列在时间上连续的人脸图像(第一图像)的构成的集合，同一人脸轨迹中的人脸图像原则上属于同一人，因此从原理上讲，从第一人脸轨迹中任意选出一个第一图像做人脸识别就可以了，当然实际中出于人脸识别效果考虑，从第一人脸轨迹中选出的目标图像最好是正常状态下的人脸图像(比如，没有遮挡、正面、光照条件较好等)，因此需要根据第一神经网络的输出的第一分数进行目标图像的选择。

例如，第一人脸轨迹可以是一段视频中包含同一人的人脸的连续若干帧，当然一段视频中可以有多个人，每个人的人脸都会形成一个人脸轨迹，第一人脸轨迹并不是特指某个人脸轨迹，若对每个人脸轨迹中的图像进行推送，其处理方式都是类似的，因此第一人脸轨迹具有一般性。

可以按照但不限于通过如下方式从视频中提取第一人脸轨迹：

首先，对第一视频中的视频帧进行人脸检测，获得多个第一图像。其中，每个第一图像对应从视频帧中检测到的一个人脸框。人脸检测方法不限定，例如可以是FPN、SSD、Fast R-CNN等。

其次，将获得的多个第一图像关联起来以形成第一人脸轨迹。这一步骤的主要目的是确保第一人脸轨迹中的第一图像都是针对同一人。例如，可以通过交并比追踪(Intersection over Union Tracking，简称IOU tracking)的方式，将相邻帧中检测到的交并比大于一定阈值的第一图像进行关联。

在按照上述方式确定的第一人脸轨迹中，第一图像只是视频帧中的人脸框而不是整个视频帧，这样有利于提高后续对第一图像进行处理的效率，并且在向服务器推送目标图像时也只占用较小的带宽。当然，也不排除在一些实现方式中，直接将整个视频帧作为第一人脸轨迹中的第一图像。

图3示出了本申请实施例提供的一种模型训练方法的流程图。该方法用于训练第一神经网络，执行该方法的设备称为训练设备。训练设备可以采用图6中电子设备700的结构实现，具体可参考后文关于图6的阐述。训练设备可以是终端设备、服务器或者其他设备。当然，出于终端设备的性能考虑，在高性能设备上进行第一神经网络的训练，训练好后再将其部署到终端设备上运行是一种比较合理的实现方式。参照图3，该方法包括：

步骤S400：训练设备获取多个第二图像。

步骤S410：训练设备将多个第二图像分别输入至第一神经网络进行打分，获得第一神经网络对应输出的多个第二分数。

以上两个步骤类似步骤S300和S310，区别主要在于第二图像为训练用的图像，因此不再重复阐述。需要说明的是，步骤S410中的第一神经网络部署在训练设备上，如前所述，该训练设备可能不是终端设备，只有训练完成后，第一神经网络才会部署到终端设备上投入使用。

步骤S420：训练设备获取图像处理算法对第二图像进行打分得到的第三分数。

其中，第三分数表征第二图像被用于执行预设的图像处理任务的适合程度。介绍步骤S310时已经指出服务器上部署的图像处理算法可以对待处理图像进行打分，步骤S420是类似的，第二图像可以理解为待处理图像，因此其过程不再重复。

在训练第一神经网络时，图像处理算法可以部署在服务器上，也可以部署在训练设备上，本申请并不限定，当然图像处理算法最终要部署在服务器上。若图像处理算法部署在服务器上，且训练设备不是服务器，则训练设备还需要将第二图像发送给服务器，服务器上利用图像处理算法对第二图像进行打分获得第三分数后，将第三分数返回给训练设备。

步骤S430：训练设备将第三分数作为第二分数对应的标签，根据第二分数和第三分数计算第一神经网络的预测损失，并基于预测损失更新第一神经网络的参数。

第三分数和第二分数分别是图像处理算法和第一神经网络对第二图像的打分结果，将第三分数作为第二分数对应的标签进行第一神经网络的参数更新(即训练)，从而训练出来的第一神经网络在对第一图像进行打分时，其打分结果可以模拟服务器上部署的图像处理算法对第一图像的打分结果，因此训练好的第一神经网络可以在本申请实施例提供的图像推送方法中使用。此外，该训练方法利用图像处理算法自动生成训练标签，不用进行人工标注，其训练方式简单高效。至于根据预测损失更新模型参数的反向传播算法，可以参考现有技术，此处不作解释。

下面以人脸识别场景为例，再对图3中的方法进行一些说明。在人脸识别场景中，图3方法中提到的第二图像为人脸图像，图像处理算法为人脸识别算法，图像处理任务为人脸识别任务，而第三分数表征第二图像与底库人脸图像的相似程度。

进一步的，在人脸识别场景中，人脸识别算法获得第三分数的过程可以这样实现：

首先，将第二图像输入至预训练的人脸识别网络，获得人脸识别网络提取的第二图像的特征。这里，人脸识别网络可以是一个神经网络，如前文提到的第二神经网络。

然后，计算第二图像的特征与底库人脸图像的特征之间的距离，其中，底库人脸图像的特征可以预先提取并保存，图像的特征可以采用向量的形式表示，这里所称的距离可以是指向量之间的L2距离，表征两个特征之间的相似程度，或者说两个具有该特征的图像之间的相似程度(相似程度越高，距离越小)。

最后，基于计算出的距离中的最小距离确定第三分数。例如，距离和分数之间可以预设一个映射关系，从而根据确定的最小距离就可以得到相应的第三分数，由于第三分数和最小距离的取值直接相关，所以第三分数能够表征第二图像与底库人脸图像的相似程度。

进一步的，由于底库人脸图像可以有多个，所以上一步骤会计算出多个距离，从中确定出最小距离也就相当于确定了和第二图像最相似的底库图像。换句话说，该底库图像对应的人物身份就是第二图像进行人脸识别的识别结果，从而基于这个最小距离计算出的第三分数反映了第二图像对于执行人脸识别任务的适合程度。

上述实现方式提供了部署在服务器上的人脸识别算法的一种具体打分方式，当然人脸识别算法也可以采用其他打分方式。还需要指出，服务器上部署的人脸识别算法可以是基于神经网络的算法，也可以不是基于神经网络的算法，本申请实施例提供的模型训练方法主要是利用该算法输出的第三分数，而并不限定算法的实现。

图4示出了本申请实施例提供的图像推送装置500的功能模块图。参照图4，图像推送装置500包括：

第一图像获取模块510，用于获取多个第一图像；

第一打分模块520，用于将所述多个第一图像分别输入至所述终端设备上部署的第一神经网络进行打分，获得所述第一神经网络对应输出的多个第一分数；其中，所述第一神经网络的打分结果模拟服务器上部署的图像处理算法对待处理图像的打分结果，所述图像处理算法的打分结果表征所述待处理图像被用于执行预设的图像处理任务的适合程度；

图像推送模块530，用于将所述多个第一分数中满足预设规则的目标分数对应的第一图像确定为目标图像，并向所述服务器发送所述目标图像，以使所述服务器利用所述图像处理算法处理所述目标图像。

在图像推送装置500的一种实现方式中，所述第一图像为人脸图像，所述图像处理算法为人脸识别算法，所述待处理图像为待识别人脸图像，所述图像处理任务为人脸识别任务，所述人脸识别算法的打分结果表征所述待识别人脸图像与底库人脸图像的相似程度。

在图像推送装置500的一种实现方式中，第一图像获取模块510获取多个第一图像，包括：获取第一人脸轨迹，所述第一人脸轨迹包括多个第一图像。

在图像推送装置500的一种实现方式中，第一图像获取模块510获取第一人脸轨迹，包括：对第一视频中的视频帧进行人脸检测，获得多个第一图像；其中，每个第一图像对应从视频帧中检测到的一个人脸框；关联所述多个第一图像以形成所述第一人脸轨迹。

在图像推送装置500的一种实现方式中，所述第一神经网络包括至少一个卷积层以及至少一个全连接层。

在图像推送装置500的一种实现方式中，所述第一神经网络的参数以及所述第一神经网络中产生的特征均进行量化处理。

在图像推送装置500的一种实现方式中，若所述图像处理算法的打分结果与所述待处理图像被用于执行所述图像处理任务的适合程度成正相关，则所述预设规则包括取最大值。

本申请实施例提供的图像推送装置500，其实现原理及产生的技术效果在前述方法实施例中已经介绍，为简要描述，装置实施例部分未提及之处，可参考方法施例中相应内容。

图5示出了本申请实施例提供的模型训练装置600的功能模块图。参照图5，模型训练装置600包括：

第二图像获取模块610，用于获取多个第二图像；

第二打分模块620，用于将所述第二图像输入至用于部署在终端设备上的第一神经网络进行打分，获得所述第一神经网络输出第二分数；

第三打分模块630，用于获取用于部署在服务器上的图像处理算法对所述第二图像进行打分得到的第三分数；其中，所述第三分数表征所述第二图像被用于执行预设的图像处理任务的适合程度；

参数更新模块640，用于将所述第三分数作为所述第二分数的对应的标签，根据所述第二分数和所述第三分数计算所述第一神经网络的预测损失，并基于所述预测损失更新所述第一神经网络的参数。

在模型训练装置600的一种实现方式中，所述第二图像为人脸图像，所述图像处理算法为人脸识别算法，所述图像处理任务为人脸识别任务，所述第三分数表征所述第二图像与底库人脸图像的相似程度。

在模型训练装置600的一种实现方式中，第三打分模块630用于部署在服务器上的人脸识别算法对所述第二图像进行打分得到的第三分数，包括：将所述第二图像输入至预训练的人脸识别网络，获得所述人脸识别网络提取的所述第二图像的特征；计算所述第二图像的特征与底库人脸图像的特征之间的距离，并基于计算出的距离中的最小距离确定所述第三分数。

本申请实施例提供的模型训练装置600，其实现原理及产生的技术效果在前述方法实施例中已经介绍，为简要描述，装置实施例部分未提及之处，可参考方法施例中相应内容。

图6示出了本申请实施例提供的电子设备700的一种可能的结构。参照图6，电子设备700包括：处理器710、存储器720以及通信接口730，这些组件通过通信总线740和/或其他形式的连接机构(未示出)互连并相互通讯。

其中，存储器720包括一个或多个(图中仅示出一个)，其可以是，但不限于，随机存取存储器(Random Access Memory，简称RAM)，只读存储器(Read Only Memory，简称ROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)等。处理器710以及其他可能的组件可对存储器720进行访问，读和/或写其中的数据。

处理器710包括一个或多个(图中仅示出一个)，其可以是一种集成电路芯片，具有信号的处理能力。上述的处理器710可以是通用处理器，包括中央处理器(CentralProcessing Unit，简称CPU)、微控制单元(Micro Controller Unit，简称MCU)、网络处理器(Network Processor，简称NP)或者其他常规处理器；还可以是专用处理器，包括数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application SpecificIntegrated Circuits，简称ASIC)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

通信接口730包括一个或多个(图中仅示出一个)，可以用于和其他设备进行直接或间接地通信，以便进行数据的交互。通信接口730可以包括进行有线和/或无线通信的接口。

在存储器720中可以存储一个或多个计算机程序指令，处理器710可以读取并运行这些计算机程序指令，以实现本申请实施例提供的图像推送方法和/或模型训练方法。

可以理解，图6所示的结构仅为示意，电子设备700还可以包括比图6中所示更多或者更少的组件，或者具有与图6所示不同的配置。图6中所示的各组件可以采用硬件、软件或其组合实现。电子设备700可能是实体设备，例如服务器、PC机、笔记本电脑、平板电脑、手机、可穿戴设备、图像采集设备、车载设备、无人机、机器人等，也可能是虚拟设备，例如虚拟机、虚拟化容器等。并且，电子设备700也不限于单台设备，也可以是多台设备的组合或者大量设备构成的一个或多个集群。例如，图1中的终端设备100可以采用电子设备700的结构来实现，图3中的训练设备也可以采用电子设备700的结构来实现。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被计算机的处理器读取并运行时，执行本申请实施例提供的图像推送方法和/或模型训练方法。例如，计算机可读存储介质可以实现为图6中电子设备700中的存储器720。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像推送方法，其特征在于，应用于终端设备，所述方法包括：

获取多个第一图像；

将所述多个第一图像分别输入至所述终端设备上部署的第一神经网络进行打分，获得所述第一神经网络对应输出的多个第一分数；其中，所述第一神经网络的打分结果模拟服务器上部署的图像处理算法对待处理图像的打分结果，所述图像处理算法的打分结果表征所述待处理图像被用于执行预设的图像处理任务的适合程度；

将所述多个第一分数中满足预设规则的目标分数对应的第一图像确定为目标图像，并向所述服务器发送所述目标图像，以使所述服务器利用所述图像处理算法处理所述目标图像。

2.根据权利要求1所述的图像推送方法，其特征在于，所述第一图像为人脸图像，所述图像处理算法为人脸识别算法，所述待处理图像为待识别人脸图像，所述图像处理任务为人脸识别任务，所述人脸识别算法的打分结果表征所述待识别人脸图像与底库人脸图像的相似程度。

3.根据权利要求2所述的图像推送方法，其特征在于，所述获取多个第一图像，包括：

获取第一人脸轨迹，所述第一人脸轨迹包括多个第一图像。

4.根据权利要求3所述的图像推送方法，其特征在于，所述获取第一人脸轨迹，包括：

对第一视频中的视频帧进行人脸检测，获得多个第一图像；其中，每个第一图像对应从视频帧中检测到的一个人脸框；

关联所述多个第一图像以形成所述第一人脸轨迹。

5.根据权利要求1所述的图像推送方法，其特征在于，所述第一神经网络包括至少一个卷积层以及至少一个全连接层。

6.根据权利要求1所述的图像推送方法，其特征在于，所述第一神经网络的参数以及所述第一神经网络中产生的特征均进行量化处理。

7.根据权利要求1-6中任一项所述的图像推送方法，其特征在于，若所述图像处理算法的打分结果与所述待处理图像被用于执行所述图像处理任务的适合程度成正相关，则所述预设规则包括取最大值。

8.一种模型训练方法，其特征在于，用于训练权利要求1-7中任一项所述图像推送方法中使用的第一神经网络，所述方法包括：

获取多个第二图像；

将所述第二图像输入至用于部署在终端设备上的所述第一神经网络进行打分，获得所述第一神经网络输出第二分数；

获取用于部署在服务器上的图像处理算法对所述第二图像进行打分得到的第三分数；其中，所述第三分数表征所述第二图像被用于执行预设的图像处理任务的适合程度；

将所述第三分数作为所述第二分数对应的标签，根据所述第二分数和所述第三分数计算所述第一神经网络的预测损失，并基于所述预测损失更新所述第一神经网络的参数。

9.根据权利要求8所述的模型训练方法，其特征在于，所述第二图像为人脸图像，所述图像处理算法为人脸识别算法，所述图像处理任务为人脸识别任务，所述第三分数表征所述第二图像与底库人脸图像的相似程度。

10.根据权利要求9所述的模型训练方法，其特征在于，获取用于部署在服务器上的人脸识别算法对所述第二图像进行打分得到的第三分数，包括：

将所述第二图像输入至预训练的人脸识别网络，获得所述人脸识别网络提取的所述第二图像的特征；

计算所述第二图像的特征与底库人脸图像的特征之间的距离，并基于计算出的距离中的最小距离确定所述第三分数。

11.一种图像推送装置，其特征在于，应用于终端设备，所述装置包括：

第一图像获取模块，用于获取多个第一图像；

第一打分模块，用于将所述多个第一图像分别输入至所述终端设备上部署的第一神经网络进行打分，获得所述第一神经网络对应输出的多个第一分数；其中，所述第一神经网络的打分结果模拟服务器上部署的图像处理算法对待处理图像的打分结果，所述图像处理算法的打分结果表征所述待处理图像被用于执行预设的图像处理任务的适合程度；

图像推送模块，用于将所述多个第一分数中满足预设规则的目标分数对应的第一图像确定为目标图像，并向所述服务器发送所述目标图像，以使所述服务器利用所述图像处理算法处理所述目标图像。

12.一种模型训练装置，其特征在于，用于训练权利要求1-7中任一项所述图像推送方法中使用的第一神经网络，所述装置包括：

第二图像获取模块，用于获取多个第二图像；

第二打分模块，用于将所述第二图像输入至用于部署在终端设备上的所述第一神经网络进行打分，获得所述第一神经网络输出第二分数；

第三打分模块，用于获取用于部署在服务器上的图像处理算法对所述第二图像进行打分得到的第三分数；其中，所述第三分数表征所述第二图像被用于执行预设的图像处理任务的适合程度；

参数更新模块，用于将所述第三分数作为所述第二分数对应的标签，根据所述第二分数和所述第三分数计算所述第一神经网络的预测损失，并基于所述预测损失更新所述第一神经网络的参数。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器读取并运行时，执行如权利要求1-10中任一项所述的方法。

14.一种电子设备，其特征在于，包括：存储器以及处理器，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器读取并运行时，执行如权利要求1-10中任一项所述的方法。