WO2018107825A1

WO2018107825A1 - 抠图方法及装置

Info

Publication number: WO2018107825A1
Application number: PCT/CN2017/100596
Authority: WO
Inventors: 沈小勇; 贾佳亚; 鲁亚东
Original assignee: 华为技术有限公司
Priority date: 2016-12-13
Filing date: 2017-09-05
Publication date: 2018-06-21
Also published as: CN108460770A; CN108460770B

Abstract

本发明公开了一种抠图方法及装置，属于数字抠图领域。所述方法包括：将输入图像输入预设的全卷积网络，得到输入图像中的每个像素的属于前景区域的预测分值F^s、属于背景区域的预测分值B^s和属于未知区域的预测分值U^s；根据输入图像中的每个像素的F^s、B^s和U^s计算输入图像对应的前景概率矩阵F和背景概率矩阵B；将前景概率矩阵F和背景概率矩阵B输入预设的抠图实现函数进行抠图，得到输入图像的透明度值矩阵。本发明由于抠图实现函数是利用第一样本图像采用预设的后向传播算法进行训练后得到的，所以本方法不需要多次对输入图像进行三值图标定即可获得较为精确的抠图结果，并且实现全自动的数字抠图。

Description

抠图方法及装置

本申请要求于2016年12月13日提交中国专利局、申请号为201611144676.3、发明名称为“抠图方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明实施例涉及数字抠图领域，特别涉及一种抠图方法及装置。

背景技术

数字抠图技术是将数字图像I分解为前景图像F和背景图像B的技术。数字抠图技术的分解过程可表达为：

I＝αF+(1-α)B；

其中，α是一个位于0到1之间的数，称为数字图像的透明度值或α掩像(alpha matte)，数字图像I的α矩阵用于表示数字图像I的抠图结果，当α值为1时代表像素属于前景，当α值为0时代表像素属于背景，当α值为0和1之间的数则代表像素属于前背景混合区域。由于对数字图像中的每个像素都要同时估计α、F以及B，其中，α是单通道数据，而每个像素的F和B都是RGB(Red Green Blue，红绿蓝)三通道数据，所以对于数字图像中的每个像素需要同时估计七个未知数，导致上述数字抠图技术是非常难以精确求解的技术问题。

现有技术中，由用户手工标定来标定数字图像中的大部分像素的α值，也称三值图(英文：trimap)。如图1所示，对于一张输入图像100来讲，标定后的图像中包括：用户标定α值为1的前景区域12、用户标定α值为0的背景区域14，以及用户标定α值为不确定值的未知区域16，未知区域16是抠图算法需要估计的区域。在用户手工对输入图像进行标定后，采用闭合性抠图(closed-form matting)算法根据用户指定的前景区域12和背景区域14，对未知区域16中的前景像素和背景像素做出估计，得到未知区域中每个像素的α值。

由于用户很难精确指定闭合性抠图算法所需要的三值图，如果要得到精确的抠图结果，则需要用户不断地根据本次抠图结果重新标定下一次抠图所需要的三值图，该过程非常耗时且严重依赖用户的专业性。

发明内容

由于现有技术中，用户很难精确标定闭合性抠图算法所需要的三值图，如果要得到精确的抠图结果，则需要用户不断地根据本次抠图结果重新标定下一次抠图所需要的三值图，进行多次数字抠图后才能得到精确的抠图结果，该过程非常耗时且严重依赖用户的专业性。为此，本发明实施例提供了一种抠图方法及装置。在该抠图方法中，通过采用全卷积网络对输入图像进行预测，得到输入图像每个像素的属于前景区域的预测分值、属于背景区域的预测分值和属于未知区域的预测分值，而不需要用户手动对输入图像进行标定；同时将利用每个像素的属于前景区域的预测分值、属于背景区域的预测分值和属于未知区域的预测分值得到的前景概率矩阵F和背景概率矩阵B，输入抠图实现函数得到抠图结果。由于该抠图实现函数是预先利用第一样本图像采用预设的后向传播算法进行训练后得到的函数，对输入图像进行三值图标定的准确性不具有严重依赖，所以本方法不需要用户手动多次对输入图像进行标定即可获得较为精确的抠图结果，并且实现了全自动的数字抠图。

作为本申请的一种可能的实现方式，该抠图方法包括：

将输入图像输入预设的全卷积网络，得到输入图像中的每个像素的属于前景区域的预测分值F^s、属于背景区域的预测分值B^s和属于未知区域的预测分值U^s；全卷积网络是用于对每个像素所属区域进行预测的神经网络；

根据输入图像中的每个像素的F^s、B^s和U^s，计算输入图像对应的前景概率矩阵F和背景概率矩阵B；前景概率矩阵F用于表示输入图像中每个像素属于前景区域的概率，背景概率矩阵B用于表示输入图像中每个像素属于背景区域的概率；

将前景概率矩阵F和背景概率矩阵B输入预设的抠图实现函数进行抠图，得到输入图像的透明度值矩阵，抠图实现函数是利用第一样本图像对抠图目标方程的最优解采用预设的误差后向传播算法进行训练后得到，第一样本图像和输入图像具有相同的预设图像类型，透明度值矩阵是用于对输入图像进行抠图的矩阵。

本申请通过采用预设的全卷积网络对输入图像进行预测，得到输入图像中的每个像素的属于前景区域的预测分值、属于背景区域的预测分值和属于未知区域的预测分值，不需要用户手动对输入图像进行三值图标定；同时将利用每个像素的属于前景区域的预测分值、属于背景区域的预测分值和属于未知区域的预测分值得到的前景概率矩阵F和背景概率矩阵B，输入抠图实现函数得到透明度值矩阵，由于该抠图实现函数是利用样本图像集采用预设的后向传播函数进行训练后得到的，样本图像集包括了大量与输入图像具有相同的预设图像类型的第一样本图像，从而使得该抠图实现函数能够根据前景概率矩阵F和背景概率矩阵B实现精确的抠图结果，不需要用户反复对输入图像进行三值图标定，实现输入图像到透明度值矩阵的全自动实现过程。

结合第一方面，在第一方面的第一种可能的实施方式中，抠图实现函数是利用第一样本图像对抠图目标方程的最优解采用预设的后向传播算法进行训练后得到，包括：获取第一样本图像的前景概率矩阵F和背景概率矩阵B和样本透明度值矩阵；将抠图目标方程的最优解作为初始的抠图实现函数；将第一样本图像的前景概率矩阵F和背景概率矩阵B输入抠图实现函数，得到第一样本图像的训练透明度值矩阵；根据训练透明度值矩阵和样本透明度值矩阵之间的误差，采用误差后向传播算法对抠图实现函数中的参数进行修正；重复上述修正步骤，当训练透明度值矩阵和样本透明度值矩阵之间的误差小于预设阈值时，得到训练后的抠图实现函数。

该可选实施方式通过采用误差后向传播算法对抠图实现函数进行训练，获取误差小于预设阈值的抠图实现函数作为训练好的抠图实现函数，能够提高数字抠图的准确性，而且该抠图实现函数不严重依赖对输入图像进行三值图标定的准确性。

结合第一方面的第一种可能的实施方式，在第一方面的第二种可能的实施方式中，当所述抠图实现函数为f(F,B；λ)＝λ(λB+λF+L)^-1F时；根据训练透明度值矩阵和样本透明度值矩阵之间的误差，采用误差后向传播算法对抠图实现函数中的参数进行修正，包括：当误差大于预设阈值且误差后向传播算法采用梯度下降法时，通过如下偏导数构建梯度下降法中的梯度；

其中，f是抠图实现函数，F是前景概率矩阵，B是背景概率矩阵，λ是利用第一样本图像进行训练的参数，D＝λB+λF+L，L是已知的抠图拉普拉斯矩阵，diag是用于构建对角矩阵的函数。

该可选实施方式通过采用梯度下降法，并根据相应的偏导数构建梯度下降法中的梯度，能够使训练透明度值矩阵能更快地逼近样本透明度值矩阵，提高对抠图实现函数进行训练时的训练效率。

结合第一方面、第一方面的第一种可能的实施方式、第二种可能的实施方式中的任一种可能的实现方式，在第三种可能的实施方式中，根据输入图像中的每个像素的F^s、B^s和U^s，计算输入图像对应的前景概率矩阵F和背景概率矩阵B，包括：将输入图像中的每个像素的F^s、B^s和U^s输入如下公式，得到F：

将输入图像中的每个像素的F^s、B^s和U^s输入第二公式，得到B：

其中，exp是以自然常数e为底的指数函数。

该可选实施方式通过根据上述两个公式计算得到输入图像的前景概率矩阵和背景概率矩阵，作为后续抠图实现函数的输入，由于该过程是对输入图像的F^s、B^s和U^s进行归一化处理的过程，可以减少后续抠图实现函数在进行抠图时的计算量，提高抠图效率。

结合第一方面、第一方面的第一种可能的实施方式、第二种可能的实施方式、第三种可能的实施方式、在第四种可能的实施方式中，将输入图像输入预设的全卷积网络，得到输入图像中的每个像素的属于前景区域的预测分值F^s、属于背景区域的预测分值B^s和属于未知区域的预测分值U^s，包括：将输入图像和引导图矩阵输入全卷积网络，得到输入图像中的每个像素的F^s、B^s和U^s，所导图矩阵用于指示属于预设图像类型的图像中每个像素属于前景区域、背景区域和未知区域的经验概率值，引导图矩阵是预先采用抠图样本集所训练得到的，抠图图像集中的第二样本图像和输入图像具有相同的预设图像类型。

该可选实现方式通过利用引导图矩阵辅助全卷积网络进行预测，由于引导图矩阵是预先采用抠图样本集所训练得到的，其中，抠图图像集中的第二样本图像和输入图像具有相同的预设图像类型，从而提高了全卷积网络对输入图像的三值图进行预测时的预测准确性。

结合第一方面的第四种可能的实施方式，在第五种可能的实施方式中，引导图矩阵是预先采用第二样本图像所训练得到的，包括：

获取n张第二样本图像对应的{Pⁱ，Mⁱ}；其中，Pⁱ是第i张第二样本图像中的前景目标物体的特征点集，Mⁱ是第i张第二样本图像的样本透明度值矩阵；根据第i张第二样本图像中的Pⁱ计算出单应变换矩阵T_i；根据如下公式计算得到引导图矩阵M：

M是引导图矩阵，∑是求和函数，n是第二样本图像的个数。

该可选实现方式通过根据抠图样本集获取引导图矩阵，引导图矩阵用于指示属于预设图像类型的图像中每个像素属于前景区域、背景区域和未知区域的经验概率值，由于抠图图像集中的第二样本图像和输入图像具有相同的预设图像类型，所以能够提高引导图矩阵的训练准确性。

第二方面，本发明实施例提供了一种抠图装置，该抠图装置包括至少一个单元，该至少一个单元用于实现上述第一方面或第一方面中任意一种可能的实现方式所提供的抠图方法。

第三方面，本发明实施例提供了一种终端，该终端包括：一个或多个处理器，和存储器，上述存储器存储有一个或多个程序，一个或多个程序被配置成由一个或多个处理器执行，一个或多个程序包含用于实现如第一方面所述抠图方法的指令。

第四方面，本发明实施例提供了一种计算机可读存储介质，该计算机可读存储介质中存储有用于实现上述第一方面或第一方面中任意一种可能的实施方式所提供的抠图方法的可执行程序。

附图说明

图1是现有技术一个实施例提供的标定后的输入图像的示意图；

图2是本发明一个实施例提供的抠图方法的流程图；

图3是图2所示实施例中涉及的全卷积网络的示意图；

图4A是本发明另一个实施例提供的抠图方法的流程图；

图4B是本发明另一个实施例提供的抠图方法的示意图；

图5是本发明一个实施例提供的抠图实现函数的训练过程的方法流程图；

图6是本发明一个实施例提供的训练引导图矩阵的流程图；

图7是本发明一个实施例提供的抠图装置的框图；

图8是本发明一个实施例提供的终端的框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的实施方式作进一步地详细描述。

请参考图2，其示出了本发明一个实施例提供的抠图方法的流程图。本实施例以该抠图方法应用于具有图像处理能力的终端设备中来举例说明。该抠图方法包括如下几个步骤：

步骤201，将输入图像输入预设的全卷积网络，得到输入图像中的每个像素的属于前景区域的预测分值F^s、属于背景区域的预测分值B^s和属于未知区域的预测分值U^s。

输入图像是一帧数字图像。通常，输入图像是包括背景区域和前景区域的图像。比如，一幅输入图像的图像类型为半身人像类型，则该输入图像的前景区域包括半身人像。

可选地，输入图像是采用红绿蓝(Red Green Blue，RGB)颜色标准的数字图像。输入图像中包括M*N个像素，每个像素采用RGB三个颜色分量来表示。需要说明的是，本发明实施例同样适用于黑白图像或其它颜色标准的图像，对此不加以限定。

全卷积网络(Fully Convolutional Networks，FCN)具有像素级分类能力的神经网络。在本实施例中，预设的全卷积网络是具有对输入图像中的每个像素进行三分类，即将每个像素分类至前景区域、背景区域和未知区域中的任意一种分类的神经网络。同时，该全卷积网络能够预测出输入图像中每个像素的属于前景区域的预测分值F^s、属于背景区域的预测分值B^s和属于未知区域的预测分值U^s。

可选地，全卷积网络通常包括卷积层与反卷积层。其中，全卷积网络的卷积层用于提取输入图像的特征图(Feature Map)，全卷积网络的反卷积层用于对上述提取到的特征图进行上采样。全卷积网络具有模型体积小，计算速度快的优势。

如图3所示，其示例性示出了一种全卷积网络的示意图。该全卷积网络包括：一个输入层，至少一个卷积层(比如包括第一卷积层C1、第二卷积层C2和第三卷积层C3共3个卷积层)，至少一个反卷积层(比如包括第一反卷积层D1、第二反卷积层D2和第三反卷积层D3共3个反卷积层)和一个输出层。输入层的输入数据是输入图像和引导图矩阵。输出层的输出结果是输入图像中每个像素的属于前景区域的预测分值F^s、属于背景区域的预测分值B^s和属于未知区域的预测分值U^s。在本公开实施例中，对全卷积网络的卷积层和反卷积层的具体结构不作限定，上述图3所示的全卷积网络仅是示例性和解释性的，并不用于限定本发明实施例。一般来说，全卷积网络的层数越多，效果越好，但计算时间也会越长，在实际应用中，可结合对检测精度和效率的要求，设计适当层数的全卷积网络。

属于前景区域的预测分值F^s指示该像素属于前景区域的可能性，属于前景区域的预测分值Fs越大，该像素属于前景区域的可能性越大。

属于背景区域的预测分值B^s指示该像素属于背景区域的可能性，属于背景区域的预测分值Bs越大，该像素属于背景区域的可能性越大。

属于未知区域的预测分值U^s指示该像素属于未知区域的可能性，属于未知区域的预测分值Us越大，该像素属于未知区域的可能性越大。

步骤202，根据输入图像中的每个像素的F^s、B^s和U^s计算输入图像对应的前景概率矩阵F和背景概率矩阵B。

前景概率矩阵F用于表示输入图像中每个像素属于前景区域的概率，背景概率矩阵B用于表示输入图像中每个像素属于背景区域的概率。

步骤203，将前景概率矩阵F和背景概率矩阵B输入预设的抠图实现函数，得到输入图像的透明度值矩阵。

抠图实现函数是利用样本图像集对抠图目标方程的最优解采用预设的后向传播算法进行训练后得到的抠图函数。样本图像集中的第一样本图像和输入图像具有相同的预设图像类型，比如第一样本图像和输入图像都是半身人像图像。

可选地，预设的抠图实现函数采用如下的公式来表示：

f(F,B；λ)＝λ(λB+λF+L)^-1F。

其中，f(F,B；λ)是用于求解输入图像中每个像素的透明度值α的函数，λ是利用第一样本图像进行训练后得到的参数，L是抠图拉普拉斯矩阵。

终端设备将前景概率矩阵F和背景概率矩阵B输入预设的抠图实现函数，得到输入图像的透明度值矩阵。

透明度值矩阵是用于对输入图像进行抠图的矩阵。可选地，对于采用红绿蓝(英文：Red、Green、Blue，RGB)颜色标准的输入图像的每一个像素，将其每个颜色分量的亮度值与对应位置处的透明度值相乘，即可得到输入图像的抠图结果。

综上所述，本实施例提供的抠图方法，通过采用全卷积网络对输入图像进行预测，得到输入图像中的每个像素的属于前景区域的预测分值、属于背景区域的预测分值和属于未知区域的预测分值，不需要用户手动对输入图像进行三值图标定；同时将利用每个像素的属于前景区域的预测分值、属于背景区域的预测分值和属于未知区域的预测分值得到的前景概率矩阵F和背景概率矩阵B，输入抠图实现函数得到透明度值矩阵，透明度值矩阵是用于对输入图像进行抠图的矩阵。由于该抠图实现函数是利用第一样本图像采用预设的误差后向传播函数进行训练后得到的，该抠图实现函数对三值图标定的准确性不具有严重依赖，所以该抠图实现函数能够实现精确地抠图，不需要用户反复对输入图像进行三值图标定，进而实现了输入图像到透明度值矩阵的全自动实现。

图4A示出了本发明另一个实施例提供的抠图方法的方法流程图。本实施例以该抠图方法应用于具有图像处理能力的终端设备中来举例说明。该抠图方法包括如下几个步骤：

步骤401，将输入图像和引导图矩阵输入全卷积网络，得到输入图像中的每个像素的F^s、B^s和U^s。

引导图矩阵用于指示属于预设图像类型的图像中每个像素属于前景区域、背景区域和未知区域的经验概率值。

预设图像类型是输入图像对应的图像类型，比如，预设图像类型是半身人像类型，则引导图矩阵是用于指示属于半身人像类型的图像中每个像素属于前景区域、背景区域和未知区域的经验概率值，该引导图矩阵能够表征大部分半身人像图像中人像所处的经验位置；又比如，预设图像类型是全身人像类型，则引导图矩阵是用于指示属于全身人像类型的图像中每个像素属于前景区域、背景区域和未知区域的经验概率值，该引导图矩阵能够表征大部分全身人像图像中人像所处的经验位置。

可选地，引导图矩阵是预先采用抠图样本集所训练得到的，抠图图像集中的第二样本图像和输入图像具有相同的预设图像类型。

其中，引导图矩阵用于引导全卷积网络对输入图像的每个像素的预测，得到输入图像中的每个像素的属于前景区域的预测分值F^s、属于背景区域的预测分值B^s和属于未知区域的预测分值U^s。

在本实施例中，全卷积网络是具有对输入图像中的每个像素进行三分类，将每个像素分类至前景区域、背景区域和未知区域中的任意一种分类的神经网络。可选地，该全卷积网络是根据多张具有预定图像类型的样本图像中每个像素属于前景区域、属于背景区域和属于未知区域的实际取值预先训练得到的。

将输入图像和引导图矩阵输入全卷积网络后，能够预测出该输入图像中每个像素的F^s、B^s和U^s。

步骤402，将输入图像中的每个像素的F^s、B^s和U^s输入如下公式，得到F：

其中，F是输入图像的前景概率矩阵，exp是以自然常数e为底的指数函数。比如，某个像素的F^s、B^s和U^s分别为80、10和10，则该像素的前景概率为0.985。

前景概率矩阵F是输入图像中每个像素的前景概率所构成的矩阵。比如，输入图像包括M行N列像素，则前景概率矩阵F包括M行N列个矩阵元素，每个矩阵元素是一个像素属于前景区域的概率。

步骤403，将输入图像中的每个像素的F^s、B^s和U^s输入如下公式，得到B：

背景概率矩阵B是输入图像中每个像素的前景概率所构成的矩阵。比如，输入图像包括M行N列像素，则背景概率矩阵B包括M行N列个矩阵元素，每个矩阵元素是一个像素属于背景区域的概率。

需要说明的是，步骤402和步骤403是并列步骤，步骤402和步骤403可以同时执行，或，步骤402在步骤403之前执行，或，步骤403在步骤402之前执行。

步骤404，将前景概率矩阵F和背景概率矩阵B输入预设的抠图实现函数，得到输入图像的透明度值矩阵。

可选地，预设的抠图实现函数采用如下的公式来表示：

f(F,B；λ)＝λ(λB+λF+L)^-1F。

其中，用于求解输入图像中每个像素的透明度值α的函数，λ是利用第一样本图像进行训练后得到的参数，L是抠图拉普拉斯矩阵。

其中，抠图拉普拉斯矩阵用于指示输入图像的相邻像素间的透明度值α的线性关系。可选地，对输入图像采用最小二乘法计算得到抠图拉普拉斯矩阵。在本步骤中，λ和L可视为已知参数。

在一个具体的例子中，结合参考图4B，将输入图像41和引导图矩阵42同时输入全卷积网络43，得到输入图像中的每个像素的属于前景区域的预测分值F^s、属于背景区域的预测分值B^s和属于未知区域的预测分值U^s，将输入图像中的每个像素的F^s、B^s和U^s分别输入图4A所示实施例中步骤402和步骤403提供的两个公式，得到前景概率矩阵F和背景概率矩阵B输入抠图实现函数44，从而得到输入图像的透明度值矩阵45。

本实施例提供的抠图方法，还通过利用引导图矩阵辅助全卷积网络进行预测，由于引导图矩阵是预先采用抠图样本集所训练得到的，其中，抠图图像集中的第二样本图像和输入图像具有相同的预设图像类型，从而提高了全卷积网络对输入图像的三值图(F^s、B^s和U^s)进行预测时的预测准确性。

在对输入图像进行全自动抠图之前，需要预先训练得到抠图实现函数和引导图矩阵。本发明实施例将结合图5和图6所示的方法实施例对抠图实现函数的训练过程以及引导图矩阵的训练过程进行阐述。

在图5实施例中，采用神经网络中的误差后向传播算法对抠图实现函数进行训练。请参考图5，其示出了本发明一个实施例提供的抠图实现函数的训练过程的方法流程图。本实施例以该训练方法应用于具有图像处理能力的终端设备中来举例说明。该训练方法包括如下几个步骤：

步骤501，获取第一样本图像的前景概率矩阵F、背景概率矩阵B和样本透明度值矩阵。

可选地，第一样本图像的前景概率矩阵F和背景概率矩阵B是将第一样本图像和引导图矩阵输入全卷积网络，然后根据全卷积网络输出的第一样本图像中的每个像素的属于前景区域的预测分值F^s、属于背景区域的预测分值B^s和属于未知区域的预测分值U^s根据图4A所示实施例中步骤402和步骤403提供的两个公式计算得到的。

第一样本图像的样本透明度值矩阵是通过已有技术进行数字抠图后，得到的较为精确的透明度值矩阵。第一样本图像的样本透明度值矩阵中每个像素对应的α值均为已知的。

本实施例对样本透明度值矩阵的抠图方式不加以限定，示意性的，通过由用户手工对第一样本图像进行标注，然后采用抠图算法对标注后的的第一样本图像进行处理得到的。抠图算法可以是closed-form matting算法。

步骤502，将抠图目标方程的最优解作为初始的抠图实现函数。

可选地，抠图目标方程是如下的能量方程：

minλA^TBA+λ(A-1)^TF(A-1)+A^TLA,

其中，λ是参数，F是前景概率矩阵，B是背景概率矩阵，对上述能量方程中的A进行求解，使得上述能量方程得到最小值。也即，上述能量方程存在显式的解：

A＝λ(λB+λF+L)^-1F,

根据上述能量方程的解，得到抠图实现函数f(F,B；λ)。

也即，初始的抠图实现函数为

f(F,B；λ)＝λ(λB+λF+L)^-1F。

其中，初始的抠图实现函数具有初始化的参数λ。示意性的，采用0到1之间的随机数对参数λ进行初始化。该随机数可以通过高斯随机算法得到。

步骤503，将第一样本图像的前景概率矩阵F和背景概率矩阵B输入抠图实现函数，得到第一样本图像的训练透明度值矩阵。

此时，抠图实现函数作为训练过程中的正向传播函数来使用。

第1次得到第一样本图像的训练透明度值矩阵时，抠图实现函数中的参数λ是初始化的参数。

第i次得到第一样本图像的训练透明度值矩阵时，抠图实现函数中的参数λ是根据误差通过后向传播算法进行第i-1次更新的参数λ，i为大于1的正整数。

步骤504，根据训练透明度值矩阵和样本透明度值矩阵之间的误差，采用误差后向传播算法对抠图实现函数中的参数进行修正。

对于第一样本图像来讲，样本透明度值矩阵表征了该第一样本图像的准确的α值，而训练透明度值矩阵是由抠图实现函数所预测的不准确的α值。终端设备通过将训练透明度值矩阵和样本透明度值矩阵对比，得到抠图实现函数的误差。

可选地，误差是样本抠图结果中每个像素的α值与训练抠图结果对应像素的α值进行比较，从而得到每个像素的α值误差。

误差后向传播算法是(Back—PropagationNetwork，BP)是一种监督学习算法，通过在激励传播与权重更新两个环节反复循环迭代，直到抠图实现函数对输入图像的响应达到预定的目标范围为止。

可选地，误差后向传播算法有多种，最常使用的是梯度下降法。

可选地，当抠图实现函数为f(F,B；λ)＝λ(λB+λF+L)^-1F时，步骤504包括如下两个子步骤：

第一步，当误差大于预设阈值且误差后向传播算法采用梯度下降法时，通过如下偏导数构建梯度下降法中的梯度；

其中，f是抠图实现函数，F是前景概率矩阵，B是背景概率矩阵，λ是利用样本图像进行训练的参数，D＝λB+λF+L，L是已知的抠图拉普拉斯矩阵，diag是用于构建对角矩阵的函数。预设阈值可根据实际情况设定，预设阈值越小，则说明对抠图精度要求越高。

第二步，根据梯度按照预定步长更新抠图实现函数中的参数λ，使得更新参数后的抠图实现函数输出的训练透明度值矩阵逐步逼近样本透明度值矩阵。

可选地，终端设备更新抠图实现函数中的参数λ后，循环执行步骤503至步骤504，直到误差小于预设阈值。

步骤505，重复上述修正步骤，当训练透明度值矩阵和样本透明度值矩阵之间的误差小于预设阈值时，得到训练后的抠图实现函数。

当训练透明度值矩阵和样本透明度值矩阵之间的误差不小于预设阈值时，则代表抠图实现函数需要继续训练；当训练透明度值矩阵和样本透明度值矩阵之间的误差小于预设阈值时，则代表抠图实现函数已经能够满足精度要求，停止训练过程，得到训练好的抠图实现函数。

可选地，通过多张第一样本图像执行上述训练过程。

可选地，对训练好的抠图实现函数采用另一部分第一样本图像进行测试，以测试该抠图实现函数是否能够达到预设的精度要求。

综上所述，本实施例提供的抠图方法，通过采用误差后向传播算法对抠图实现函数进行训练，获取误差小于预设阈值的抠图实现函数作为训练好的抠图实现函数，能够提高数字抠图的准确性，而且该抠图实现函数不严重依赖对输入图像进行三值图标定的准确性，仅需要使用全卷积网络预测的三值图标定结果，也能够得到非常精确的抠图结果。

请参考图6，其示出了本发明一个实施例提供的引导图矩阵的训练过程的方法流程图。本实施例以该训练方法应用于具有图像处理能力的终端设备中来举例说明。该训练方法包括如下几个步骤：

步骤601，获取n张第二样本图像对应的{Pⁱ，Mⁱ}。

其中，Pⁱ是第i张第二样本图像中的前景目标物体的特征点集，Mⁱ是第i张第二样本图像的样本透明度值矩阵。

第二样本图像是包含前景目标物体的图像。前景目标物体是抠图结果中期望被标注为前景区域的物体。比如，前景目标物体是人像。

当引导图矩阵对应于半身人像类型时，第二样本图像全部是半身人像类型的数字图像；当引导图矩阵对于全身人像类型时，第二样本图像全部是全身人像类型的数字图像。

步骤602，根据第i张第二样本图像中的Pⁱ计算出单应变换矩阵T_i。

单应变换矩阵描述了两个图像之间的一对一点映射。在本实施例中，单应变换矩阵用于指示第二样本图像与引导图矩阵之间的一对一点映射。

步骤603，根据如下公式计算得到引导图矩阵：

其中，M是引导图矩阵，∑是对所有第二样本图像的样本透明度值矩阵与单应变换矩阵的乘积进行求和，n是抠图样本集中第二样本图像的个数，i可以是从1到n之间的所有整数中的任意一个。

综上所述，本实施例提供的抠图方法，通过根据抠图样本集获取引导图矩阵，引导图矩阵用于指示属于预设图像类型的图像中每个像素属于前景区域、背景区域和未知区域的经验概率值，由于抠图图像集中的第二样本图像和输入图像具有相同的预设图像类型，所以能够提高引导图矩阵的训练准确性。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

请参考图7，其示出了本发明一个实施例提供的抠图装置的框图，该装置具有实现上述示例中的抠图功能，该功能可以通过硬件实现，也可以通过硬件执行相应的软件的结合实现。该装置可以包括：预测单元701、计算单元702和抠图单元703。

预测单元701，具有执行上述步骤201和步骤401的功能。

计算单元702，具有执行上述步骤202、步骤402和步骤403的功能。

抠图单元703，具有执行上述步骤202和步骤404的功能。

可选地，该装置还可以包括第一训练单元(图7中未示出)和第二训练单元(图7中未示出)。其中，第一训练单元具有执行上述步骤501至步骤505的功能，第二训练单元具有执行上述步骤601至步骤603的功能。

需要说明的是，上述的预测单元701、计算单元702和抠图单元703可以通过终端中的处理器执行存储器中存储的一个或多个程序来实现。

本发明一示例性实施例还提供了一种终端，该终端包括如图7所示实施例或基于图7所示实施例提供的可选实施例所提供的抠图装置。

需要说明的是：上述实施例提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图8，其示出了本发明一个实施例提供的终端的结构示意图。例如，该终端可以是服务器，用于实现上述方法示例的功能。终端800可以包括：处理器801。

处理器801用于实现终端800的各项功能。所述处理器801还用于执行上述方法实施例中的各个步骤，或者本发明所描述的技术方案的其它步骤。

可选地，终端800还包括通信接口802。通信接口802用于支持终端设备800与其他设备之间的通信。

进一步地，终端800还可以包括存储器803，存储器803用于存储终端800的程序代码和数据。

此外，终端800还可以包括总线804。所述存储器803和所述通信接口802通过总线804与所述处理器801相连。

可以理解的是，图8仅仅示出了终端800的简化设计。在实际应用中，终端800可以包含任意数量的通信接口，处理器，存储器等，而所有可以实现本发明实施例的终端都在本发明实施例的保护范围之内。

上述主要从终端的角度对本发明实施例提供的方案进行了介绍。可以理解的是，终端为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。结合本发明中所公开的实施例描述的各示例的模块及算法步骤，本发明实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能，但是这种实现不应认为超出本发明实施例的技术方案的范围。

结合本发明实施例公开内容所描述的方法或者算法的步骤可以硬件的方式来实现，也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器(Random Access Memory，RAM)、闪存、只读存储器(Read Only Memory，ROM)、可擦除可编程只读存储器(Erasable Programmable ROM，EPROM)、电可擦可编程只读存储器(Electrically EPROM，EEPROM)、寄存器、硬盘、移动硬盘、只读光盘(CD-ROM)或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。当然，处理器和存储介质也可以作为分立组件存在于终端设备中。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明实施例中，术语“第一”、“第二”、“第三”等(如果存在)是用于区别类型的对象，而不必用于描述特定的顺序或先后次序，应该理解这样使用的对象在适当情况下可以互换，以便本发明实施例能够在除了本文图示或描述的实施例之外的其它实施例中以其它顺序实施。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的部分实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种抠图方法，其特征在于，所述方法包括：

将输入图像输入预设的全卷积网络，得到所述输入图像中的每个像素的属于前景区域的预测分值F^s、属于背景区域的预测分值B^s和属于未知区域的预测分值U^s；所述全卷积网络是用于对每个像素所属区域进行预测的神经网络；

根据所述输入图像中的每个像素的所述F^s、所述B^s和所述U^s，计算所述输入图像对应的前景概率矩阵F和背景概率矩阵B；所述前景概率矩阵F用于表示所述输入图像中每个像素属于所述前景区域的概率，所述背景概率矩阵B用于表示所述输入图像中每个像素属于所述背景区域的概率；

将所述前景概率矩阵F和所述背景概率矩阵B输入预设的抠图实现函数，得到所述输入图像的透明度值矩阵，所述抠图实现函数是利用第一样本图像对抠图目标方程的最优解采用预设的误差后向传播算法进行训练后得到的，所述第一样本图像和所述输入图像具有相同的预设图像类型，所述透明度值矩阵是用于对所述输入图像进行抠图的矩阵。
根据权利要求1所述的抠图方法，其特征在于，所述抠图实现函数是利用第一样本图像对抠图目标方程的最优解采用预设的后向传播算法进行训练后得到的，包括：

获取所述第一样本图像的前景概率矩阵F、背景概率矩阵B和样本透明度值矩阵；

将所述抠图目标方程的最优解作为初始的抠图实现函数；

将所述第一样本图像的所述前景概率矩阵F和所述背景概率矩阵B输入所述抠图实现函数，得到所述第一样本图像的训练透明度值矩阵；

根据所述训练透明度值矩阵和所述样本透明度值矩阵之间的误差，采用误差后向传播算法对所述抠图实现函数中的参数进行修正；

重复上述修正步骤，当所述训练透明度值矩阵和所述样本透明度值矩阵之间的误差小于预设阈值时，得到训练后的所述抠图实现函数。
根据权利要求2所述的抠图方法，其特征在于，当所述抠图实现函数为f(F,B；λ)＝λ(λB+λF+L)^-1F时，所述根据所述训练透明度值矩阵和所述样本透明度值矩阵之间的误差，采用误差后向传播算法对所述抠图实现函数中的参数进行修正，包括：

当所述误差大于所述预设阈值且所述误差后向传播算法采用梯度下降法时，通过如下偏导数构建所述梯度下降法中的梯度；

根据所述梯度按照预定步长更新所述抠图实现函数中的所述参数λ，使得更新参数后的所述抠图实现函数输出的所述训练透明度值矩阵逐步逼近所述样本透明度值矩阵；

其中，f是所述抠图实现函数，F是所述前景概率矩阵，B是所述背景概率矩阵，λ是利用所述第一样本图像进行训练的参数，D＝λB+λF+L，L是已知的抠图拉普拉斯矩阵，diag是用于构建对角矩阵的函数。
根据权利要求1至3任一所述的抠图方法，其特征在于，所述根据所述输入图像中的每个像素的所述F^s、所述B^s和所述U^s，计算所述输入图像对应的前景概率矩阵F和背景概率矩阵B，包括：

将所述输入图像中的每个像素的所述F^s、所述B^s和所述U^s输入如下公式，得到所述F：

将所述输入图像中的每个像素的所述F^s、所述B^s和所述U^s输入如下公式，得到所述B：

其中，exp是以自然常数e为底的指数函数。
根据权利要求1至4任一所述的抠图方法，其特征在于，所述将输入图像输入预设的全卷积网络，得到所述输入图像中的每个像素的属于前景区域的预测分值F^s、属于背景区域的预测分值B^s和属于未知区域的预测分值U^s，包括：

将所述输入图像和引导图矩阵输入所述全卷积网络，得到所述输入图像中的每个像素的所述F^s、所述B^s和所述U^s，所述引导图矩阵用于指示属于所述预设图像类型的图像中每个像素属于所述前景区域、所述背景区域和所述未知区域的经验概率值，所述引导图矩阵是预先采用第二样本图像所训练得到的，所述第二样本图像和所述输入图像具有相同的预设图像类型。
根据权利要求5所述的方法，其特征在于，所述引导图矩阵是预先采用第二样本图像所训练得到的，包括：

获取n张所述第二样本图像对应的{Pⁱ，Mⁱ}；其中，Pⁱ是第i张所述第二样本图像中的前景目标物体的特征点集，Mⁱ是第i张所述第二样本图像的样本透明度值矩阵；

根据第i张所述第二样本图像中的Pⁱ计算出单应变换矩阵T_i；

根据如下公式计算得到所述引导图矩阵M：

所述M是所述引导图矩阵，∑是求和函数，n是所述第二样本图像的个数。
一种抠图装置，其特征在于，所述装置包括：

预测单元，用于将输入图像输入预设的全卷积网络，得到所述输入图像中的每个像素的属于前景区域的预测分值F^s、属于背景区域的预测分值B^s和属于未知区域的预测分值U^s；所述全卷积网络是用于对每个像素所属区域进行预测的神经网络；

计算单元，用于根据所述输入图像中的每个像素的所述F^s、所述B^s和所述U^s，计算所述输入图像对应的前景概率矩阵F和背景概率矩阵B；所述前景概率矩阵F用于表示所述输入图像中每个像素属于前景区域的概率，所述背景概率矩阵B用于表示所述输入图像中每个像素属于背景区域的概率；

抠图单元，用于将所述前景概率矩阵F和所述背景概率矩阵B输入预设的抠图实现函数进行抠图，得到所述输入图像的透明度值矩阵，所述抠图实现函数是利用第一样本图像对抠图目标方程的最优解采用预设的误差后向传播算法进行训练后得到的；所述第一样本图像和所述输入图像具有相同的预设图像类型，所述透明度值矩阵是用于对所述输入图像进行抠图的矩阵。
根据权利要求7所述的抠图装置，其特征在于，所述装置，还包括：

第一训练单元，用于获取所述第一样本图像的所述前景概率矩阵F、所述第一样本图像的所述背景概率矩阵B和的样本透明度值矩阵；将所述抠图目标方程的最优解作为初始的抠图实现函数；将所述第一样本图像的所述前景概率矩阵F和所述第一样本图像的所述背景概率矩阵B输入所述抠图实现函数进行抠图，得到所述第一样本图像的训练透明度值矩阵；根据所述训练透明度值矩阵和所述样本透明度值矩阵之间的误差，采用误差后向传播算法对所述抠图实现函数中的参数进行修正；重复上述修正步骤，当所述训练透明度值矩阵和所述样本透明度值矩阵之间的误差小于所述预设阈值时，得到训练后的所述抠图实现函数。
根据权利要求8所述的抠图装置，其特征在于，当所述抠图实现函数为f(F,B；λ)＝λ(λB+λF+L)^-1F时，所述第一训练单元，用于当所述误差大于所述预设阈值且所述误差后向传播算法采用梯度下降法时，通过如下偏导数构建所述梯度下降法中的梯度；

根据所述梯度按照预定步长更新所述抠图实现函数中的所述参数λ，使得更新参数后的所述抠图实现函数输出的所述训练透明度值矩阵逐步逼近所述样本透明度值矩阵；

其中，f是所述抠图实现函数，F是所述前景概率矩阵，B是所述背景概率矩阵，λ是利用所述第一样本图像进行训练的参数，D＝λB+λF+L，L是已知的抠图拉普拉斯矩阵，diag是用于构建对角矩阵的函数。
根据权利要求7至9任一所述的抠图装置，其特征在于，所述计算单元，用于将所述输入图像中的每个像素的所述F^s、所述B^s和所述U^s输入如下公式，得到所述F：

将所述输入图像中的每个像素的所述F^s、所述B^s和所述U^s输入如下公式，得到所述B：

其中，exp是以自然常数e为底的指数函数。
根据权利要求7至10任一所述的装置，其特征在于，所述预测单元，用于将所述输入图像和引导图矩阵输入所述全卷积网络，得到所述输入图像中的每个像素的所述F^s、所述B^s和所述U^s，所述引导图矩阵用于指示属于所述预设图像类型的图像中每个像素属于所述前景区域、所述背景区域和所述未知区域的经验概率值，所述引导图矩阵是预先采用第二样本图像所训练得到的，所述第二样本图像和所述输入图像具有相同的预设图像类型。
根据权利要求11所述的抠图装置，其特征在于，所述装置还包括：

第二训练单元，用于获取n张所述第二样本图像对应的{Pⁱ，Mⁱ}；其中，Pⁱ是第i张所述第二样本图像中的前景目标物体的特征点集，Mⁱ是第i张所述第二样本图像的样本透明度值矩阵；根据第i张所述第二样本图像中的Pⁱ计算出单应变换矩阵T_i；根据如下公式计算得到所述引导图矩阵：

所述M是所述引导图矩阵，∑是求和函数，n是所述第二样本图像的个数。
一种终端，其特征在于，所述终端包括：

一个或多个处理器；和

存储器；

所述存储器存储有一个或多个程序，所述一个或多个程序被配置成由所述一个或多个处理器执行，所述一个或多个程序包含用于实现如权利要求1至6任一所述抠图方法的指令。