CN116109853A

CN116109853A - 任务处理模型训练、任务处理方法、装置及设备

Info

Publication number: CN116109853A
Application number: CN202111319455.6A
Authority: CN
Inventors: 方建生
Original assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd; Guangzhou Shiyuan Artificial Intelligence Innovation Research Institute Co Ltd
Current assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd; Guangzhou Shiyuan Artificial Intelligence Innovation Research Institute Co Ltd
Priority date: 2021-11-09
Filing date: 2021-11-09
Publication date: 2023-05-12

Abstract

本申请提供一种任务处理模型训练、任务处理方法、装置及设备。该任务处理模型训练方法包括：获取训练数据集，训练数据集中包括多个训练数据，每个训练数据对应有标签，标签与用户需求的任务处理模型所具备的功能相关；使用训练数据集对预设模型进行迭代训练，得到任务处理模型；预设模型在第i次迭代训练时所使用的权重分布矩阵，为对预设模型在第i‑1次迭代训练时基于梯度下降法更新后的权重分布矩阵进行调整得到的，任务处理模型用于进行目标任务的处理，目标任务为用户需求的任务处理模型所具备的功能，i为大于或等于2的整数；输出任务处理模型。本申请的方法减少了训练得到的任务处理模型的过拟合现象，提高了任务处理模型的预测准确度。

Description

任务处理模型训练、任务处理方法、装置及设备

技术领域

本申请涉及人工智能技术，尤其涉及一种任务处理模型训练、任务处理方法、装置及设备。

背景技术

贝叶斯卷积神经网络由于不确定性估计的特性，在很多领域都有所应用。

贝叶斯卷积神经网络是在卷积神经网络的卷积层中应用贝叶斯方法，将卷积层的权重参数表示为概率分布，这种概率分布能够很好地表达不确定性的预测结果。贝叶斯卷积神经网络的训练过程与普通神经网络的训练过程类似，首先确定一目标函数，并基于每次迭代训练得到的结果与标签确定目标函数值，再根据目标函数值调整本次迭代训练的权重参数，直至训练结束，得到训练好的模型。

然而，这种训练方法会导致训练好的模型存在过拟合现象，进而导致训练好的模型的预测准确度较低。

发明内容

本申请提供一种任务处理模型训练、任务处理方法、装置及设备，用以解决现有的对贝叶斯卷积神经网络的训练方法中训练好的模型存在过拟合现象，进而导致训练好的模型的预测准确度较低的问题。

第一方面，本申请提供一种任务处理模型训练方法，包括：获取训练数据集，所述训练数据集中包括多个训练数据，每个训练数据对应有标签，所述标签与用户需求的任务处理模型所具备的功能相关；使用所述训练数据集对预设模型进行迭代训练，得到任务处理模型；所述预设模型在第i次迭代训练时所使用的权重分布矩阵，为对所述预设模型在第i-1次迭代训练时所使用的权重分布矩阵进行调整得到的，所述任务处理模型用于进行目标任务的处理，所述目标任务为用户需求的所述任务处理模型所具备的功能，其中，所述i为大于或等于2的整数；输出所述任务处理模型。

第二方面，本申请提供一种任务处理方法，包括：接收待处理任务对应的图像；将所述待处理任务对应的图像输入基于第一方面所述的任务处理模型训练方法得到的任务处理模型中，得到任务处理结果；输出所述任务处理结果。

第三方面，本申请提供一种任务处理模型训练装置，包括：获取模块，用于获取训练数据集，所述训练数据集中包括多个训练数据，每个训练数据对应有标签，所述标签与用户需求的任务处理模型所具备的功能相关；训练模块，用于使用所述训练数据集对预设模型进行迭代训练，得到任务处理模型；所述预设模型在第i次迭代训练时所使用的权重分布矩阵，为对所述预设模型在第i-1次迭代训练时所使用的权重分布矩阵进行调整得到的，所述任务处理模型用于进行目标任务的处理，所述目标任务为用户需求的所述任务处理模型所具备的功能，其中，所述i为大于或等于2的整数；输出模块，用于输出所述任务处理模型。

第四方面，本申请提供一种任务处理装置，包括：接收模块，用于接收待处理任务对应的图像；输入模块，用于将所述待处理任务对应的图像输入基于第一方面所述的任务处理模型训练方法得到的任务处理模型中，得到任务处理结果；输出模块，用于输出所述任务处理结果。

第五方面，本申请提供一种电子设备，包括：处理器，以及与所述处理器通信连接的存储器；所述存储器存储计算机执行指令；所述处理器执行所述存储器存储的计算机执行指令，以实现如第一方面所述的方法。

第六方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如第一方面所述的方法。

第七方面，本申请提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现第一方面所述的方法。

本申请提供的任务处理模型训练、任务处理方法、装置及设备，通过获取训练数据集，训练数据集中包括多个训练数据，每个训练数据对应有标签，标签与用户需求的任务处理模型所具备的功能相关；使用训练数据集对预设模型进行迭代训练，得到任务处理模型；预设模型在第i次迭代训练时所使用的权重分布矩阵，为对预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵进行调整得到的，任务处理模型用于进行目标任务的处理，目标任务为用户需求的任务处理模型所具备的功能，其中，i为大于或等于2的整数；输出任务处理模型。由于预设模型在第i次迭代训练时所使用的权重分布矩阵，为对预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵进行调整得到的，因此，每次迭代训练得到的权重分布矩阵中权重分布的曲线是平滑的，将较高的权重进行减小，从而起到正则化作用，防止预设模型出现过拟合现象，进而提高训练得到的预设模型在任务处理过程中的预测准确度。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请实施例提供的神经网络的架构图；

图2为本申请实施例提供的卷积神经网络的示例图；

图3为本申请实施例提供的卷积神经网络的原理示意图；

图4为本申请实施例提供的不确定性估计的示例图；

图5为本申请实施例提供的贝叶斯卷积神经网络的示例图；

图6为本申请实施例提供的贝叶斯卷积神经网络的原理示意图；

图7为本申请实施例提供的应用场景图；

图8为本申请实施例提供的任务处理模型训练方法的流程图一；

图9为本申请实施例提供的任务处理方法的流程图二；

图10为本申请的实施例提供的任务处理模型训练装置的结构示意图；

图11为本申请实施例提供的任务处理装置的结构示意图；

图12为本申请实施例提供的电子设备的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

人工神经网络(artificial neural network，ANN)，简称神经网络(neuralnetwork，NN)是人工智能领域的研究热点，其是从信息处理角度对人脑神经元网络进行抽象，建立一种简单模型，并按不同的连接方式组成不同的网络，是一种模仿生物神经网络的结构和功能的数学模型或计算模型。随着人工神经网络的不断深入研究，其在模式识别、智能机器人、自动控制、预测估计、生物、医学、经济等领域已成功地解决了许多现代计算机难以解决的实际问题，表现出了良好的智能特性。

图1为本申请实施例提供的神经网络的架构图。如图1所示，神经网络包括输入层、隐藏层和输出层；输入层、隐藏层和输出层中每个层均包括多个神经元(即图中示出的圆圈)。通过图1可以看出，神经网络为全连接神经网络，即输入层中的每个神经元均与隐藏层中的每个神经元通过网络参数进行连接。而针对一些多维数据，例如图像，神经网络的计算量会非常大。举例来说，一个n*n的图像，可以表示为一个n²的向量。将全连接神经网络应用于图像处理时，就需要n²个输入层和n²个隐含层，则输入层与隐藏层之间的网络参数就需要n²*n²＝n⁴，参数太多会使计算过程很慢，导致训练基本无法进行。

卷积神经网络(Convolutional Neural Networks，CNN)能够很好地解决全连接神经网络在多维数据的应用场景中存在的问题。卷积神经网络包括输入层、卷积层、池化层和全连接层；其中，卷积层为整个卷积神经网络中最重要的部分，与全连接层不同之处在于，卷积层中每一个神经元的输入为上一层神经网络中部分神经元的输出。卷积层主要用于卷积操作，下面结合附图对卷积操作的原理进行介绍：

图2为本申请实施例提供的卷积神经网络的示例图。如图2所示，针对4*4*3的输入数据，卷积操作就是利用卷积核进行特征提取，图2中使用了2*2的卷积核(即权重矩阵)进行特征提取，得到2*2的特征图，可以看到，卷积神经网络在进行特征提取和输出结果中都是一个确定的数值。这与卷积神经网络的网络参数相关：

图3为本申请实施例提供的卷积神经网络的原理示意图。如图3所示，X代表输入，H₁、H₂、H₃代表神经元，Y代表输出，I代表偏差，卷积神经网络中的网络参数为一个具体的参数值(图中每条箭头上示出的数值)，因而所提取出来的特征也是一个具体的特征值。

将卷积神经网络的训练过程可以理解为包括前向传播(前馈)和反向传播(后传)；其中，前向传播是指将训练数据集输入卷积神经网络，得到网络输出的过程，训练数据集中每个训练数据对应一个网络输出；根据网络输出与训练数据对应的标签之间的差异，调整卷积神经网络的网络参数，直至卷积神经网络达到收敛状态，称为反向传播。在反向传播过程中，是将网络输出输入目标函数(也称为损失函数)计算网络输出与训练数据的标签之间的误差，进而根据该误差进行反向传播调整网络参数，得到网络参数的最优点估计，即得到的网络参数是一个固定的值，以支持卷积神经网络输出确定性结果。这种基于网络参数的最优点估计训练得到的CNN能较好地拟合训练数据集，但是却容易产生过拟合现象，即对训练数据集能够很好地进行拟合，但对在训练数据集中未出现过的其他数据却不能很好地拟合。基于此，正则化方法可以解决过拟合现象，例如early stopping、权值衰减、L1-L2正则化、dropout等。但这种方式训练得到的神经网络输出的都是确定性结果，无法给出对预测结果的确定程度，即不能度量不确定性。

从数据分布的角度来说，这种不确定性实际上就是通过训练拟合出一个反应训练集特征的分布，而所要推理的测试样本的特征可能不服从这个分布。这种不确定性主要是由于神经网络未能充分学习到足够的样本，即观测数据不能完全覆盖到未观测数据(测试样本)的特征。这种情况下，所学习到的网络参数对预测就会带来较大的不确定性。

这种不确定性本质上是因为观测到的数据(训练样本)总是有限的，网络模型所学习到的特征未充分，使得网络模型对未观测到的数据(测试样本)的预测产生不确定性。

图4为本申请实施例提供的不确定性估计的示例图。如图4所示，由于网络模型未接受过“非热狗”图像训练，从而将带有番茄酱的对象(例如涂有番茄酱的苹果、香蕉等)预测为热狗。实际中，并不能穷尽“非热狗”图片，因此这种不确定性要从网络模型本身解决，而不是增大数据集。

贝叶斯方法在小数据集(训练数据较少的训练数据集合)上具有优势，能够为网络模型的每个权重和偏差参数上增加先验分布(prior distribution)，并通过有限样本，在训练过程中去逼近后验分布(posterior distribution)，这个后验分布较真实地反应了总体样本的特征。BCNN模型就是在有限训练样本上学***衡，例如欺诈***易在所有交易数据中的占比为万分之一，垃圾邮件在所有邮件中的占比不足百分之一，这种情况会导致模型在采样的类别上发生过拟合现象。

而贝叶斯神经网络能很好的从小的数据集当中学***均值，这给网络提供正则化效果，从而防止过度拟合。

下面将结合附图对贝叶斯卷积神经网络的区别进行介绍，以辅助读者更好地理解卷积神经网络和贝叶斯卷积神经网络的区别。

图5为本申请实施例提供的贝叶斯卷积神经网络的示例图。如图5所示，针对4*4*3的输入数据，卷积操作就是利用卷积核进行特征提取，图5中使用了2*2的卷积核(即权重矩阵)进行特征提取，得到2*2的特征图，可以看到，卷积神经网络在进行特征提取和输出结果中都是一个概率分布。这是由于在贝叶斯卷积神经网络中，网络参数中的权重为权重的概率分布，即是将卷积神经网络中对网络参数的最优点估计转换为了对网络参数概率分布的估计，其权重为一个随机变量，而非卷积神经网络中给出的确定的值。

图6为本申请实施例提供的贝叶斯卷积神经网络的原理示意图。如图6所示，X代表输入，H₁、H₂、H₃代表神经元，Y代表输出，I代表偏差，可以看到，基于贝叶斯卷积神经网络提取出来的特征为特征分布，其最终输出的也是预测结果的概率分布(图6中示出的曲线，每条曲线代表一个概率分布)。因而，贝叶斯卷积神经网络能够很好地支持不确定性估计。

贝叶斯卷积神经网络的原理是：针对网络参数给定一个先验分布，然后通过变分推理的方法进行梯度近似估计，再基于训练数据集学习以及拟合网络参数的后验分布，以实现从训练数据集中学习到网络参数的后验分布，再基于网络参数的后验分布对测试数据集进行推断。下面通过一个具体的示例对贝叶斯卷积神经网络的原理进行说明：

假设贝叶斯卷积神经网络的后验分布为p(w|x,y)，则基于该后验分布对测试数据进行预测，可以表示为如下公式(1)：

式(1)中，

中的第一项和第二项分别表示测试数据的输入和标签，对该测试数据的预测是基于所学习到的后验分布p(w|x,y)的期望E，相当于无数个卷积层的集成。由于期望的积分性质使得上述公式(1)的求解很难，无法嵌入到卷积神经网络中进行前馈和后传。因此，基于近似变分法找到一个后验分布q(w|θ)去逼近真实的后验分布p(w|x,y)，其中θ是权重w的分布的参数。两个分布之间的距离可以通过KL散度来刻画，因此，贝叶斯卷积神经网络的目标函数可以表示为如下公式(2)：

上述公式(2)中等号后的每一项公式由上至下为目标函数的推导过程，最后一个等号对应的公式为贝叶斯卷积神经网络最终的目标函数，该目标函数旨在最小化第一项和最大化第二项，第一项是通过数据(x,y)学习到的后验分布q(w|θ)和先验p(w^prior)之间的距离，第二项是基于学习到的后验分布q(w|θ)的预测概率模型p(y|x,w)的期望。该目标函数具有积分性质，很难处理。因此，在一些文献中通过无偏Monte Carlo梯度的近似法构造可以嵌入到卷积神经网络中的贝叶斯卷积神经网络中的目标函数，并应用Monte Carlo采样方法，以及期望的导数等于导数的期望，推导出上述目标函数的近似解，即公式(2)中示出的目标函数可以近似为如下公式(3)：

l(w,θ)≈logq(w|θ)-logp(w^prior)-logp(y|x,w) (3)

式(3)中，先验p(w^prior)是预先定义的，而后验权重w是从学习到的后验分布q(w|θ)中采样得到的。p(w^prior)与权重w的分布参数θ无关，因此求导时为零。这种情况下，没有先验的约束，也就失去了正则化的意义，进而无法提高模型泛化能力，即模型对未知数据的预测能力较低。

因此，有一些文献中还通过保留原目标函数的第一项，即后验分布q(w|θ)和先验p(w^prior)的KL散度，作为正则化项，以对先验分布进行约束。但这种方法，首先是良好先验难以定义，其次是作为独立的卷积层，加入KL散度的目标函数很难集成到整个网络中进行回传求梯度，从而更新权重w的后验分布的参数θ。

综上，相关技术中针对贝叶斯卷积神经网络的训练方法训练得到的模型仍然无法很好地解决过拟合现象，导致训练得到的模型在进行任务处理时的预测准确度较低。例如，在人脸识别领域，则会导致人脸识别结果的准确度较低，若人脸识别结果是应用在安防监控，则会造成安防监控出错。再例如，在交通场景中的目标检测，则会导致目标检测结果的准确度较高，若目标检测出错，则会导致其在安全驾驶提醒方面的出错，造成交通事故。

综上，贝叶斯卷积神经网络的缺陷，导致其未能在一些对预测准确度要求很高的场景中得到广泛应用。因此，本申请旨在解决贝叶斯网络存在的诸多限制，以提高贝叶斯网络的预测准确度，使其能够很好地应用在预测准确度较高的领域中。其技术构思为：贝叶斯卷积神经网络中的卷积核可以理解为是一个关于权重分布的矩阵，通过该矩阵的最大奇异值对权重矩阵中每个权重分布进行约束，以抑制过高的权重分布，从而起到正则化作用，减少过拟合现象，提高训练得到的模型的预测准确度。另外，这种方法无需给定先验分布，从而实现将贝叶斯卷积灵活地嵌入卷积神经网络中以支持网络进行不确定性估计的效果。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图7为本申请实施例提供的应用场景图，如图7所示，该应用场景包括图像采集装置71、计算装置72；图像采集装置71与计算装置72通信连接，计算装置72上设置有贝叶斯卷积神经网络模型。

图像采集装置71用于采集图像，并发送至计算装置72，计算装置72中贝叶斯卷积神经网络模型基于接收到的图像进行任务处理，并输出任务处理结果。

其中，任务处理可以是身体部位的识别、人脸识别、图像分类、图像分割等任务。

以身体部位的识别为例，则图像采集装置71采集的是身体图片，且计算装置72是基于身体图片进行身体部位识别，例如胸部识别、肺部识别、身体关节识别等，并输出身体部位的识别结果。例如，将识别出的胸部进行标注并输出。

以人脸识别的任务为例，则图像采集装置71采集的是人脸图片，且计算装置72是基于人脸图片进行人脸识别，并将识别到的人脸与人脸图像库中预存的人脸图片进行比对，并给出人脸识别结果。人脸识别结果可以应用在需要进行身份验证的应用场景当中，例如，门禁***、手机屏幕解锁等场景。

以图像分类任务为例，则图像采集装置71采集的是待分类图片，且计算装置72是基于待分类图片进行图像分类。其中，图像分类任务是指对于一个给定的图片，预测其类别标签。例如，给定一张猫的图片，预测其是否为猫。

以图像分割任务为例，则图像采集装置71采集的是待分割图片，且计算装置72基于待分割图片进行图像分割。其中，图像分割包括普通分割、语义分割和实例分割；普通分割是指将不同分属不同物体的像素区域分开，例如将图像中的前景区域与后景区域分割开；语义分割是在普通分割的基础上，分类出每一块区域的语义，即该块区域是什么对象，例如将图像中的所有对象都识别出各自的类别。实例分割是在语义分割的基础上，给每个对象编号。例如图像中包括两只狗，则对两只狗分别编号为狗A和狗B。

上述图像采集装置71和计算装置72可以是集成在一个电子设备上，例如，手机、平板电脑、笔记本电脑、带摄像头的台式电脑、门禁***等的摄像头，也可以是分别部署在不同的位置，例如，图像采集装置71位于用户侧，计算装置72位于云端等。

基于图7所示的应用场景，本申请实施例提出一种任务处理模型训练方法。图8为本申请实施例提供的任务处理模型训练方法的流程图一。如图8所示，该任务处理模型训练方法包括：

S801、获取训练数据集，训练数据集中包括多个训练数据，每个训练数据对应有标签，标签与用户需求的任务处理模型所具备的功能相关。

本实施例的方法的执行主体可以是图7中示出的计算装置。

其中，标签为训练数据的标注信息，通常与训练任务的目的相关，也就是与用户需求的任务处理模型所具备的功能相关。举例来说，若训练任务是图像分类任务，则标签为训练图像的分类；若训练任务为身体部位的识别任务，则标签为待识别的身体部位；若训练任务为人脸识别任务，则标签为人脸识别结果，若训练任务为图像分割任务，则标签为图像中包括的各个类别的对象的标识。

S802、使用训练数据集对预设模型进行迭代训练，得到任务处理模型；预设模型在第i次迭代训练时所使用的权重分布矩阵，为对预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵进行调整得到的，任务处理模型用于进行目标任务的处理，目标任务为用户需求的任务处理模型所具备的功能，其中，i为大于或等于2的整数。

其中，目标任务可以理解为是任务处理模型所需解决的技术问题。例如，目标任务可以是：一个能够进行人脸识别的贝叶斯卷积神经网络模型，或，一个能够对包含各种对象(例如动物、水果等)的图像准确识别的贝叶斯卷积神经网络模型等。

在一些具体的实施例中，步骤S802包括：

步骤A1、针对第i次迭代训练，根据预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵，确定预设模型对应的第i-1次的权重调整参数。

在步骤A1之前，需要确定预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵，具体的确定过程包括如下步骤：

a1、使用梯度下降法确定第i-1次迭代训练时所使用的权重分布矩阵的更新值。

在贝叶斯卷积神经网络中，权重为概率分布，其可以使用均值和方差来表示，则第i-1次迭代训练时所使用的权重分布矩阵的更新值包括第i-1次迭代训练时所使用的权重分布矩阵中每个权重的均值和方差的更新值。

下面通过一个具体的示例对如何得到第i-1次迭代训练时所使用的权重分布矩阵中每个权重的均值和方差的更新值进行详细说明：

本实施例中，可以根据变分推理方法使用由一组参数控制的分布去逼近真正的后验分布，比如用高斯来近似的话，参数就是权重分布的均值和方差，即高斯变分后验分布。高斯变分后验分布的过程具体如下：

假设权重w满足的后验分布q(w|θ)是一个高斯函数，即θ＝(μ,ρ)，其中，μ是均值，ρ是关于方差σ的函数，方差σ＝log(1+e^ρ)，ρ的作用在于确保方差σ始终为非负。则权重w从后验分布q(w|θ)采样可近似为如下公式(4)：

而贝叶斯卷积神经网络可以表示为f(x,w)＝logp(y|x,w)，则在卷积层中f(x,w)＝x·w，x是训练数据集，w是卷积核(权重矩阵)。则均值的梯度(均值的更新值)计算如公式(5)：

以及，方差的梯度(方差的更新值)如下公式(6)：

a2、基于第i-1次迭代训练时所使用的权重分布矩阵的更新值对第i-1次迭代训练时所使用的权重分布矩阵进行更新，得到第i-1次迭代训练时更新后的权重分布矩阵。

具体的，基于均值的梯度可以根据如下公式(7)更新均值：

μ←μ-αΔμ； (7)

则根据方差的梯度可以根据如下公式(8)更新方差：

ρ←ρ-αΔρ； (8)

a3、根据更新后的均值和方差，能够确定第i-1次迭代训练时使用的权重分布矩阵中每个更新后的权重，从而得到第i-1次迭代训练时更新后的权重分布矩阵。

具体的，步骤A1包括：

步骤A11、确定预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵的最大奇异值。而步骤A11确定预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵的最大奇异值，具体包括：

步骤a、根据所述预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵的第j-1次的第一参数向量对所述预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵进行左乘运算，得到所述预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵的第j次的第二参数向量，其中，所述j为大于或等于2的整数；

步骤b、根据预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵的第j次的第二参数向量对预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵进行左乘运算，得到预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵的第j次的第一参数向量；

步骤c、确定j的取值是否达到预设数值；

步骤d、若j的取值达到预设数值，则根据第j次的第一参数向量和第j次的第二参数向量确定预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵的最大奇异值；

步骤e、若j的取值未达到预设数值，则将j加1，并返回步骤a。

步骤A12、将所述第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵的最大奇异值，作为第i-1次的权重调整参数。

步骤A2、根据第i-1次的权重调整参数，对预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵进行调整，得到预设模型在第i次迭代训练时所使用的权重分布矩阵，其中，第i-1次的权重调整参数用于对第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵中每个权重的更新范围进行约束。

具体的，第i-1次的权重调整参数用于对第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵中较大的权重进行抑制，在一些实施方式中，可以理解为是减小权重分布矩阵中大于预设值的权重，预设值可以是权重分布矩阵中所有权重的均值。

具体的，步骤A2包括：步骤A21、将预设模型在第i-1次迭代训练时所使用的权重分布矩阵中的每个权重除以第i-1次的权重调整参数，得到预设模型在第i次迭代训练时所使用的权重分布矩阵。

示例性地，假设第i-1次迭代训练时更新后的权重分布矩阵W^i-1如公式(9)所示：

则结合上述公式(9)，本步骤中得到的第i次迭代训练时所使用的权重分布矩阵如公式(10)所示：

式(10)中，║W^i-1║₂为矩阵W^i-1的权重调整参数。

步骤A3、使用第i次的权重分布矩阵和训练数据集，对预设模型进行第i次迭代训练。

其中，║W^i-1║₂是矩阵W^i-1的最大奇异值，涉及到大量的计算，本申请采用幂迭代法对║W^i-1║₂进行近似求解，其原理为：首先采用随机初始化的方式对v_j-1赋值，即j的取值为2时，从高斯分布中随机采样一随机向量，作为第i-1次迭代训练时所使用的权重分布矩阵Wⁱ ^-1的第1次的第一参数向量v₁，然后通过如下公式(11)进行计算，得到预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵的第j次(j的取值大于2)的第二参数向量u_j，再基于u_j和公式(12)计算得到预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵的第j次的第一参数向量v_j，根据j的取值确定是否达到约束条件，若满足约束条件停止迭代计算，预设条件可以是幂迭代次数达到预设的迭代次数阈值。

u_j←W^i-1·v_j-1； (11)

v_j←W^i-1·u_j； (12)

其中，公式(11)和公式(12)中的j为幂迭代次数。幂迭代法的原理在于通过采用随机初始化的方式得到v_j-1，例如从高斯分布中采样得到，并采用公式(11)对W^i-1左乘v_j-1，得到第二参数向量u_j；再采用公式(12)将第二参数向量u_j与矩阵W^i-1进行左乘，得到第一参数向量v_j，再将j加1之后，返回公式(11)，反复循环，直至满足约束条件停止幂迭代计算，再根据达到约束条件时的v和u计算矩阵W^i-1的权重调整参数，具体是根据公式(13)计算得到矩阵W^i-1的权重调整参数：

步骤d中根据第j次的第一参数向量和第j次的第二参数向量确定预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵的最大奇异值，可以根据公式(13)进行计算，得到权重分布矩阵W^i-1的最大奇异值，即矩阵W^i-1的权重调整参数，可以用于对Wⁱ ^-1中的每个权重进行约束，或者可以理解为规范化，从而抑制权重矩阵W^i-1中过高的权重，起到正则化作用。

S803、输出任务处理模型。

具体的，是将任务处理模型输出至用户的计算设备上，则用户的计算设备用于进行任务处理，用户的计算设备可以是计算装置之外的其他设备。也可以是输出至图7中所示的计算装置，则计算装置用于进行任务处理。

以门禁***为例，则是将任务处理模型输出至门禁***。具体的，可以理解为是将任务处理模型存储在门禁***中，则门禁***可以应用任务处理模型进行人脸识别，并基于人脸识别结果进行身份验证。

当然，本实施例并不限制是将人脸识别结果应用在门禁***，人脸识别的应用场景都可以进行使用。

本实施例通过获取训练数据集，训练数据集中包括多个训练数据，每个训练数据对应有标签，标签与用户需求的任务处理模型所具备的功能相关；使用训练数据集对预设模型进行迭代训练，得到任务处理模型；预设模型在第i次迭代训练时所使用的权重分布矩阵，为对预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵进行调整得到的，任务处理模型用于进行目标任务的处理，目标任务为用户需求的任务处理模型所具备的功能，其中，i为大于或等于2的整数；输出任务处理模型。由于预设模型在第i次迭代训练时所使用的权重分布矩阵，为对预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵进行调整得到的，因此，每次迭代训练得到的权重分布矩阵中权重分布的曲线是平滑的，将较高的权重进行减小，从而起到正则化作用，防止预设模型出现过拟合现象，进而提高训练得到的预设模型在任务处理过程中的预测准确度。

图9为本申请实施例提供的任务处理方法的流程图二，如图9所示，该任务处理方法，包括如下步骤：

S901、接收待处理任务对应的图像。

本实施例的方法的执行主体可以是图7中所示的计算装置。计算装置接收来自图像采集装置采集得到的图像。

S902、将待处理任务对应的图像输入基于任务处理模型训练方法得到的任务处理模型中，得到任务处理结果。

S903、输出任务处理结果。

在一些场景中，待处理任务可以包括身体部位识别任务、人脸识别任务、图像分类任务或图像分割任务，则任务处理结果可以包括身体部位识别结果、人脸识别结果、图像分类结果或图像分割结果。

在安防领域中，以门禁***为例，人脸识别结果可以用于给出是否通行的识别结果。以及在一些基于人脸识别的身份信息验证场景中，可以给出验证结果，以及是否允许进入下一步操作的结果，例如是否允许登录业务***。

本实施例通过接收待处理任务对应的图像，将待处理任务对应的图像输入基于任务处理模型训练方法得到的任务处理模型中，得到任务处理结果并输出。由于任务处理模型训练方法训练得到的任务处理模型的预测准确度高，因此，能够提高任务处理结果的准确度，从而将贝叶斯卷积神经网络在对预测准确度要求较高的领域中得到很好地应用。

在上述方法实施例的基础上，图10为本申请的实施例提供的任务处理模型训练装置的结构示意图。如图10所示，该任务处理模型训练装置包括：获取模块101、训练模块102和输出模块103；

其中，获取模块101，用于获取训练数据集，所述训练数据集中包括多个训练数据，每个训练数据对应有标签，所述标签与用户需求的任务处理模型所具备的功能相关；

训练模块102，用于使用所述训练数据集对预设模型进行迭代训练，得到任务处理模型；所述预设模型在第i次迭代训练时所使用的权重分布矩阵，为对所述预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵进行调整得到的，所述任务处理模型用于进行目标任务的处理，所述目标任务为用户需求的所述任务处理模型所具备的功能，其中，所述i为大于或等于2的整数；

输出模块103，用于输出所述任务处理模型。

在一些实施例中，训练模块102使用所述训练数据集对于预设模型进行迭代训练，得到任务处理模型，具体包括：针对第i次迭代训练，根据所述预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵，确定所述预设模型对应的第i-1次的权重调整参数；根据所述第i-1次的权重调整参数，对所述预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵进行调整，得到所述预设模型在第i次迭代训练时所使用的权重分布矩阵，其中，所述第i-1次的权重调整参数用于对所述第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵中每个权重的更新范围进行约束；使用第i次的权重分布矩阵和所述训练数据集，对所述预设模型进行第i次迭代训练。

在一些实施例中，所述训练模块102根据所述预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵，确定所述预设模型对应的第i-1次的权重调整参数，具体包括：确定所述预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵的最大奇异值；将所述第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵的最大奇异值，作为所述第i-1次的权重调整参数。

在一些实施例中，所述确定所述预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵的最大奇异值，包括：步骤a、根据所述预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵的第j-1次的第一参数向量对所述预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵进行左乘运算，得到所述预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵的第j次的第二参数向量，其中，所述j为大于或等于2的整数；步骤b、根据所述预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵的第j次的第二参数向量对所述预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵进行左乘运算，得到所述预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵的第j次的第一参数向量；步骤c、确定j的取值是否达到预设数值；步骤d、若j的取值达到预设数值，则根据所述第j次的第一参数向量和所述第j次的第二参数向量确定所述预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵的最大奇异值；步骤e、若j的取值未达到预设数值，则将j加1，并返回步骤a。

在一些实施例中，所述j的取值为2时，所述第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵的第j-1次的左乘结果为从高斯分布中随机采样得到的随机向量。

在一些实施例中，所述训练模块102根据所述第i-1次的权重调整参数，对所述预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵进行调整，得到所述预设模型在第i次迭代训练时所使用的权重分布矩阵，具体包括：将所述预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵中的每个权重除以所述第i-1次的权重调整参数，得到所述预设模型在第i次迭代训练时所使用的权重分布矩阵。

本申请实施例提供的任务处理模型训练装置，可用于执行上述实施例中任务处理模型训练方法的技术方案，其实现原理和技术效果类似，在此不再赘述。

在上述方法实施例的基础上，图11为本申请实施例提供的任务处理装置的结构示意图。如图11所示，该任务处理装置包括：接收模块111、输入模块112和输出模块113；

其中，接收模块111，用于接收待处理任务对应的图像；

输入模块112，用于将所述待处理任务对应的图像输入基于权利要求1-5任一项所述的任务处理模型训练方法得到的任务处理模型中，得到任务处理结果；

输出模块113，用于输出所述任务处理结果。

在一些实施例中，所述待处理任务包括身体部位识别任务、人脸识别任务、图像分类任务或图像分割任务；所述任务处理结果包括身体部位识别结果、人脸识别结果、图像分类结果或图像分割结果。

在一些实施例中，所述接收模块接收待处理任务对应的图像，具体包括：接收来自图像采集设备采集得到的所述图像。

本申请实施例提供的任务处理装置，可用于执行上述实施例中任务处理方法的技术方案，其实现原理和技术效果类似，在此不再赘述。

需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，训练模块102可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上训练模块102的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

图12为本申请实施例提供的电子设备的结构示意图。如图12所示，该电子设备可以包括：收发器121、处理器122、存储器123。

处理器122执行存储器存储的计算机执行指令，使得处理器122执行上述实施例中的方案。处理器122可以是通用处理器，包括中央处理器CPU、网络处理器(networkprocessor，NP)等；还可以是数字信号处理器DSP、专用集成电路ASIC、现场可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

存储器123通过***总线与处理器122连接并完成相互间的通信，存储器123用于存储计算机程序指令。

收发器121可以用于接收待处理任务对应的图像，或者获取训练数据集。

***总线可以是外设部件互连标准(peripheral component interconnect，PCI)总线或扩展工业标准结构(extended industry standard architecture，EISA)总线等。***总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。收发器用于实现数据库访问装置与其他计算机(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(randomaccess memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)。

本申请实施例提供的电子设备，可以是上述实施例的计算装置。

本申请实施例还提供一种运行指令的芯片，该芯片用于执行上述实施例中任务处理模型训练方法或任务处理方法的技术方案。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机指令，当该计算机指令在计算机上运行时，使得计算机执行上述实施例任务处理模型训练方法或任务处理方法的技术方案。

本申请实施例还提供一种计算机程序产品，该计算机程序产品包括计算机程序，其存储在计算机可读存储介质中，至少一个处理器可以从计算机可读存储介质读取计算机程序，至少一个处理器执行计算机程序时可实现上述实施例中任务处理模型训练方法或任务处理方法的技术方案。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求书指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims

1.一种任务处理模型训练方法，其特征在于，包括：

获取训练数据集，所述训练数据集中包括多个训练数据，每个训练数据对应有标签，所述标签与用户需求的任务处理模型所具备的功能相关；

使用所述训练数据集对预设模型进行迭代训练，得到任务处理模型；所述预设模型在第i次迭代训练时所使用的权重分布矩阵，为对所述预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵进行调整得到的，所述任务处理模型用于进行目标任务的处理，所述目标任务为用户需求的所述任务处理模型所具备的功能，其中，所述i为大于或等于2的整数；

输出所述任务处理模型。

2.根据权利要求1所述的方法，其特征在于，所述使用所述训练数据集对于预设模型进行迭代训练，得到任务处理模型，包括：

针对第i次迭代训练，根据所述预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵，确定所述预设模型对应的第i-1次的权重调整参数；

根据所述第i-1次的权重调整参数，对所述预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵进行调整，得到所述预设模型在第i次迭代训练时所使用的权重分布矩阵，其中，所述第i-1次的权重调整参数用于对所述第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵中每个权重的更新范围进行约束；

使用第i次的权重分布矩阵和所述训练数据集，对所述预设模型进行第i次迭代训练。

3.根据权利要求2所述的方法，其特征在于，所述根据所述预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵，确定所述预设模型对应的第i-1次的权重调整参数，包括：

确定所述预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵的最大奇异值；

将所述第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵的最大奇异值，作为所述第i-1次的权重调整参数。

4.根据权利要求3所述的方法，其特征在于，所述确定所述预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵的最大奇异值，包括：

步骤b、根据所述预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵的第j次的第二参数向量对所述预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵进行左乘运算，得到所述预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵的第j次的第一参数向量；

步骤c、确定j的取值是否达到预设数值；

步骤d、若j的取值达到预设数值，则根据所述第j次的第一参数向量和所述第j次的第二参数向量确定所述预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵的最大奇异值；

5.根据权利要求4所述的方法，其特征在于，所述j的取值为2时，所述第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵的第j-1次的左乘结果为从高斯分布中随机采样得到的随机向量。

6.根据权利要求2-5任一项所述的方法，其特征在于，所述根据所述第i-1次的权重调整参数，对所述预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵进行调整，得到所述预设模型在第i次迭代训练时所使用的权重分布矩阵，包括：

将所述预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵中的每个权重除以所述第i-1次的权重调整参数，得到所述预设模型在第i次迭代训练时所使用的权重分布矩阵。

7.一种任务处理方法，其特征在于，包括：

接收待处理任务对应的图像；

将所述待处理任务对应的图像输入基于权利要求1-5任一项所述的任务处理模型训练方法得到的任务处理模型中，得到任务处理结果；

输出所述任务处理结果。

8.根据权利要求7所述的方法，其特征在于，所述待处理任务包括身体部位识别任务、人脸识别任务、图像分类任务或图像分割任务；

所述任务处理结果包括身体部位识别结果、人脸识别结果、图像分类结果或图像分割结果。

9.根据权利要求7或8所述的方法，其特征在于，所述接收待处理任务对应的图像，包括：

接收来自图像采集设备采集得到的所述图像。

10.一种任务处理模型训练装置，其特征在于，包括：

获取模块，用于获取训练数据集，所述训练数据集中包括多个训练数据，每个训练数据对应有标签，所述标签与用户需求的任务处理模型所具备的功能相关；

训练模块，用于使用所述训练数据集对预设模型进行迭代训练，得到任务处理模型；所述预设模型在第i次迭代训练时所使用的权重分布矩阵，为对所述预设模型在第i-1次迭代训练时基于梯度下降法更新后的权重分布矩阵进行调整得到的，所述任务处理模型用于进行目标任务的处理，所述目标任务为用户需求的所述任务处理模型所具备的功能，其中，所述i为大于或等于2的整数；

输出模块，用于输出所述任务处理模型。

11.一种任务处理装置，其特征在于，包括：

接收模块，用于接收待处理任务对应的图像；

输入模块，用于将所述待处理任务对应的图像输入基于权利要求1-5任一项所述的任务处理模型训练方法得到的任务处理模型中，得到任务处理结果；

输出模块，用于输出所述任务处理结果。

12.一种电子设备，其特征在于，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求1-9中任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1-9中任一项所述的方法。

14.一种计算机程序产品，其特征在于，包括计算机程序，该计算机程序被处理器执行时实现权利要求1-9中任一项所述的方法。