CN108447068A

CN108447068A - 三元图自动生成方法及利用该三元图的前景提取方法

Info

Publication number: CN108447068A
Application number: CN201711408268.9A
Authority: CN
Inventors: 宋璐
Original assignee: Hangzhou Inter Technology Co Ltd
Current assignee: Hangzhou Inter Technology Co Ltd
Priority date: 2017-12-22
Filing date: 2017-12-22
Publication date: 2018-08-24
Anticipated expiration: 2037-12-22
Also published as: CN108447068B

Abstract

本发明涉及一种三元图自动生成方法，其步骤包括：S1、获取输入图像，并通过窗口连续扫描图像；S2、在每个窗口中通过边缘检测算法提取图像边缘，得到输入图像的边缘图像；S3、根据边缘图像得到图像分割算法的不完全标记输入图；S4、通过图像分割算法和不完全标记输入图得到分割结果图像；S5、根据分割结果图像得到三元图。本发明提供一种无需用户交互输入的三元图自动生成方法，通过该方法无需特殊成像设备即可实现全自动数字图像的前景提取；并且该算法具有较好的实时性和提取精度。

Description

三元图自动生成方法及利用该三元图的前景提取方法

技术领域

本发明涉及一种图像处理方法，特别是一种三元图自动生成方法及利用该三元图的前景提取方法。

背景技术

数字图像抠图是指从图像或视频序列中将任意形状的前景自然地抽取出来的技术。根据少量的用户交互信息，将图像中所需要的信息自动精确地求解出来，即为自动抠图，完全不需要用户输入的为全自动抠图。自动抠图是图像处理领域的关键技术，能够大大减少人工抠图的工作量，显著提高工作效率。

目前较为成熟且应用广泛的自动抠图算法是微软研究院的Grab Cut抠图算法，我们可以在Microsoft Office PowerPoint中使用该算法进行抠图，PowerPoint中的抠图功能为了追求处理速度对大分辨率图像进行了缩放，因此物体边缘的处理比较粗糙，并且其默认将画面的80％大小居中的矩形框作为抠图的前景框选输入，该矩形框必须完全包含前景物体，并且尽可能地接近前景物体的最小外界矩形才能达到较好的抠图效果，因此该矩形框不满足要求时，用户需要手动调整该矩形框以完成抠图。clippingmagic是一个非常流行的在线抠图网站，该网站应用了类Grab Cut算法，其输入是用户涂鸦，在抠图开始前用户必须用前景笔和背景笔分别在前景和背景区域涂抹以开始抠图，并在迭代过程中反复交互以达到令人满意的结果。严格来说，以上两种方式都属于半自动抠图，需要用户的交互来输出抠图结果，提升的工作效率有限。而全自动抠图多依赖于特殊的设备，如深度图像、双目图像、镜面反射等，求解出前景目标的景深信息再进行抠图，这类方法由于成像的特殊要求难以推广。阿里云计算有限公司开发的抠图云服务只能处理单色背景图片，且前景边缘锯齿明显，应用场景有限且效果不佳。而一些效果较好的抠图算法如Closed-Form Matting要求输入原图以及对应的用户涂鸦标记(用画笔随意涂抹确定的前景和背景)，而SharedMatting等算法更是要求用户提供原图及其对应的trimap(与原图同尺寸的三元图，用白色表示确定的前景部分，黑色表示确定的背景部分，而灰色部分为抠图待求解区域)，通常情况下的图片都不具备对应的trimap，而怎样得到trimap又给用户带来了一定的负担，所以这些优秀的算法难以推广应用。Photoshop的一种抠图方式就是通过引导用户绘制出前景的内部轮廓和外部轮廓来获得trimap以完成抠图。

发明内容

本发明所要解决的技术问题是提供一种无需用户交互输入的三元图自动生成方法，通过该方法无需特殊成像设备即可实现全自动数字图像的前景提取；并且该算法具有较好的实时性和提取精度。

本发明解决上述技术问题所采用的技术方案是：

一种三元图自动生成方法，其步骤包括：

S1、获取输入图像，并通过窗口连续扫描图像；

S2、在每个窗口中通过边缘检测算法提取图像边缘，得到输入图像的边缘图像；

S3、根据边缘图像得到图像分割算法的不完全标记输入图；

S4、通过图像分割算法和不完全标记输入图得到分割结果图像；

S5、根据分割结果图像得到三元图。

现有的边缘检测技术在进行边缘检测时，如果使用高阈值会丢失掉响应微弱部分的边缘，如前景背景色接近的高光区域，阴影区域等，前景无法得到封闭的轮廓；使用低阈值会检测出所有微弱的边缘，包括背景处的微弱纹理，甚至在背景纹理已经相当多地检测到的情况下，前景边界的微弱边缘仍然不能被检测到。本技术方案以窗口为单位的检测方式能够获取每个窗口中较为准确的边缘，并通过连续的窗口得到整幅图像较为准确的边缘，通过该边缘图像生成图像分割算法所需的不完全标记输入图像，以实现待求解区域的显著减少，求解速度满足实时性使用要求，并能得到相对现有算法更为精确的trimap。

进一步地，所述步骤S1通过窗口连续扫描图像中，相邻窗口均有部分重叠。当一条连续的边缘如果恰好处于两个小窗口的连接处，并且和窗口连接方向平行，那么这条边缘在两个局部窗口中都将不可见；此外如果相邻两窗口光照变化剧烈，有可能出现边缘在相邻窗口突然消失的情况，令相邻窗口具有部分重叠能够有效解决以上问题，从而使得到的边缘图像更为准确。

作为优选，所述步骤S1中，窗口的横向步长和纵向步长分别通过以下公式得到：

step_w＝(int)(percentage*rate*width)+1；

step_h＝(int)(percentage*rate*height)+1；

step_w为窗口的横向步长，step_h为窗口的纵向步长，width为输入图像的宽度，height为输入图像的高度，percentage为前景占输入图像比例的典型低值，rate为前景亮面和暗面比例的典型低值，其中percentage的取值范围为30～60％，rate的取值范围为10～40％；

窗口的宽度和高度通过以下公式得到：

r_w＝step_w*L

r_h＝step_h*L

r_w为窗口的宽度，r_h为窗口的高度，L为窗口重叠系数，其中L的取值使得图像重叠部分占比达到15％以上。

一幅图像中前景占整个画面比例的典型值在30～60％以上，光照一般会照亮前景的阳面，随着拍摄角度和光照方向的不同，前景亮面和暗面的比例会不断变化，这一比例在10～40％以上，取局部图像尺寸约为整幅图像长宽的各乘以两者的典型低值可以极大概率地规避同时取到高光和暗影的情况。这样窗口内的光照是一致的，可以进行统一处理；而step计算中通过取整+1的操作可以保证窗口移动过程中覆盖到整个图像，不会有遗漏图像碎片；并且通过((L-1)/L*100)％≥15％的图像重叠能够使图像自然拼接。

进一步地，所述步骤S1至步骤S2间还包括如下步骤：

S1-2、将每个窗口中的彩色图像转换为灰度图像，统计其灰度直方图，遍历窗口中图像的点得到窗口归一化图像；

所述步骤S2中根据窗口归一化图像提取图像边缘。

通过归一化处理可以进一步减少边缘计算所需时间，并可以通过归一化处理得到对比度较高的局部图，很容易用常规阈值提取到其边缘。

作为优选，所述步骤S1-2的具体步骤为：

S1-2a、将每个窗口中彩色图像的像素转化为灰度图像，灰度图像中每个像素具有像素值v，v为x～y之间的任一值，其中y>x；

S1-2b、分别统计每个窗口中灰度图像每个像素值v出现的频度Pv(v＝x～y)，得到P＝{Px,...,Py}，其中Pv等于灰度图像中像素值等于v的像素个数；

S1-2c、取窗口中所有像素值的中位数向两个方向扩展，抛弃两端的直方图带，得到保留的像素的阈值下限Thres_low和阈值上限Thres_high使其满足：

sum(Pv)/(r_w*r_h)>Ts；

r_w为窗口的宽度，r_h为窗口的高度，Ts为保留的像素比例，其中v≥Thres_low&v≤Thres_high，Ts>0.5&Ts<1；

S1-2d、对灰度图像中每个像素重新赋值：

v＝(v-Thres_low)*z/(Thres_high-Thres_low)；

其中z≥Thres_high&z≤y。

相比常规的直方图密度均等归一化方式，通过以上归一化方式可以将高光和暗影噪点排除，保留像素差异性，不会丢失直方图低密度处对应的边缘，并且得到对比度较高的局部图像，很容易用常规阈值提取到有意义的边缘。

作为优选，所述步骤S3的具体步骤为：

S3a、将边缘图像的边缘进行膨胀操作；

S3b、选取膨胀区域外的接近边缘图像外周的点作为种子点进行漫水填充；

S3c、将漫水填充部分作为背景区域，未被填充部分作为可能的前景区域，并转换为图像分割算法的不完全标记输入图。

保留窗口的边缘检测结果的所有边缘值并映射到edge图(边缘图像)，然后与所有窗口在相应位置做或运算。所有窗口的结果即映射到edge图上，但由于每一小块归一化阈值的不同，造成边缘响应位置略有偏移，可能会出现边缘不连续的情况，所以需要对edge图做的形态学膨胀，使其边缘连续构成封闭的大致的前景轮廓。再在漫水填充算法中选取边缘点，优选为图像四个顶点作为种子点，这样的填充方式基本能将前景轮廓外部分完全填充，从而得到准确的可转换为图像分割算法的不完全标记输入图。

作为优选，所述步骤S5的具体步骤为：将分割结果图像中前景和背景交接的部分膨胀作为三元图的待求解区域，将分割结果图像中剩余前景部分作为三元图的确定前景区域，将分割结果图像中剩余背景部分作为三元图的确定背景区域。

膨胀交接部分作为待求解区域使后续前景提取后边缘与背景融合更为自然并消除锯齿。

一种前景提取方法，其步骤包括：

SA、通过权利要求1至7任一所述的方法得到三元图；

SB、通过基于三元图的前景提取算法和三元图得到结果图。

作为优选，其步骤还包括：

SC、将结果图转化为图像分割算法的不完全标记输入图，并返回进行步骤S4，直至本次结果图与上次结果图的差值绝对值小于设定阈值时结束。

本发明同现有技术相比具有以下优点及效果：

1.该算法具有较好的实时性，通过测试数千张不同分辨率(5173x3628～541x603)的图像抠图平均时间为1.39秒；

2.该算法细节保留完整，前景边缘清晰自然；

3.该算法在不需要用户交互输入的情况下就可以得到满意的结果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的流程图。

图2为处理流程示意图1。

图3为处理流程示意图2。

图4为处理流程示意图3。

图5为处理流程示意图4。

图6为处理流程示意图5。

图7为处理流程示意图6。

图8为处理流程示意图7。

图9为处理流程示意图8。

图10为处理流程示意图9。

图11为处理流程示意图10。

图12a-12c为本发明与现有技术处理结果对比图1。

图13a-13c为本发明与现有技术处理结果对比图2。

图14a-14c为本发明与现有技术处理结果对比图3。

图15a-15c为本发明与现有技术处理结果对比图4。

图16a-16c为本发明与现有技术处理结果对比图5。

图17a-17c为本发明与现有技术处理结果对比图6。

图18a-18c为本发明与现有技术处理结果对比图7。

具体实施方式

下面结合实施例对本发明做进一步的详细说明，以下实施例是对本发明的解释而本发明并不局限于以下实施例。

实施例1：

如图1所示，首先获取如图2所示的输入图像，并根据图3所示通过窗口连续扫描图像，其中相邻窗口均具有重叠部分，其中窗口的横向步长和纵向步长分别通过以下公式得到：

step_w＝(int)(percentage*rate*width)+1；

step_h＝(int)(percentage*rate*height)+1；

step_w为窗口的横向步长，step_h为窗口的纵向步长，width为输入图像的宽度，height为输入图像的高度，percentage为前景占输入图像比例的典型低值，根据本次输入图像可选取40％，rate为前景亮面和暗面比例的典型低值，根据本次输入图像可选取25％，因此step_w略大于10％width，step_h略大于10％height，从而在图像中设置100个窗口，每个窗口的宽度和高度通过以下公式得到：

r_w＝step_w*L

r_h＝step_h*L

r_w为窗口的宽度，r_h为窗口的高度，L为窗口重叠系数，此处L选取1.2，从而整幅图像的重叠部分能够达到16.67％以实现图像自然拼接。

扫描后如图3左下角小窗所示，对每个窗口局部图像进行直方图归一化和提取边缘操作，其中窗口局部图像直方图归一化通过以下步骤完成：

由于输入图像为RGB彩色图像，每个通道每个像素点用一个字节存储，也就是说组成每个像素点真实色彩的三原色取值范围均为0～255。由于需要图像的边缘，并不需要色彩信息，那么灰度图像即可实现，先将RGB图像转换成灰度图像：

gray＝r*Kr+g*Kg+b*Kb

其中Kr+Kg+Kb＝1，按照上述公式计算每个像素点的灰度值gray，进而得到整个局部图像的灰度图gray，现在gray是具有和原彩色图像相同分辨率大小的图像，但每个像素只有单通道，每个像素点的值可以用一个0～255之间的数字表示。

接下来统计gray中每个像素值v出现的频度Pv(v＝0～255)，可以得到

P＝{P0,P1,P2,...,P255}

其中Pv等于gray中像素值等于v的像素个数。

取所有像素值的中位数向两个方向扩展，抛弃掉两端的噪点直方图带，因为它们或许是图像中混入的高光和暗影噪点，接下来我们可以得到Thres_low和Thres_high，使得

sum(Pv)/(r_w*r_h)>Ts；

Ts为保留的像素比例，其中v>Thres_low&v<Thres_high，Ts>0.5&Ts<1，因此选取抛弃最大的1％和最小的1％直方图带。接下来对gray中的每一个像素点v，进行v的重新赋值使

v＝(v-Thres_low)*255/(Thres_high-Thres_low)

这样就得到了局部归一化图像，现在的gray就是一个对比度较高的局部图像，可以很容易用常规阈值提取到其边缘。

边缘提取部分采用了Canny检测算法(固定阈值)，先使用高斯平滑滤波器对图像卷积，消除噪声。

应用一对横向和纵向sobel滤波器卷积，提取出两个方向的边缘。

Gx＝[-10+1；-20+2；-10+1],

Gy＝[-1-2-1；000；+1+2+1]；

计算幅值和方向

G＝sqrt(Gx^2+Gy^2)；

theta＝arctan(Gy/Gx)

梯度方向近似到四个可能的角度之一(0,45,90,135)；

非极大值抑制，仅仅保留一系列响应值中的细线条作为候选边缘。

最后应用两个滞后阈值：如果某一像素位置的幅值超过高阈值，那么该像素直接被保留为边缘像素；如果某一像素位置的幅值小于低阈值，那么直接被排除；处于中间值的这些像素，只有当它们连接到高于高阈值的像素时才被保留。

当然直接在RGB彩色图像上也可以进行边缘提取，但从精度和响应时间上看经过上述归一化操作后的提取速度更快且效果更佳。

如图4所示，创建一个和输入图像同分辨率的黑色edge图，窗口图像边缘提取后，将局部边缘检测图像映射到edge图中，得到整幅图像的边缘信息，但是由于每一小块归一化阈值的不同，造成边缘响应位置略有偏移，可能会出现边缘不连续的情况，所以需要对edge图做的形态学膨胀，以期边缘连续构成封闭的大致的前景轮廓。现在的edge图是一幅黑底(0)白色(255)边缘的图像，接着：

edge＝bit_not(edge)；

edge＝edge/2+128；

得到白底灰色(128)边缘图，edge图中白色或灰色没有占到四个顶点，因此以四个顶点作为种子点，以120作为阈值开始做漫水填充，填充值为黑色，得到了一个伪三元图，图中的黑色部分表示要分离出的背景区域(firm background)，灰色和白色部分为可能的前景TU(unknown)。将这个伪三元图按照上述设定转换为Grab Cut的不完全输入标记图(0表示firmbackground，TB部分全部赋值为0，1表示firm foreground此处为空，2表示probablybackground此处留空，3表示probably foreground，TU部分全部赋值为3)，如图5所示。

然后将上述Grab Cut的不完全输入标记图进行一次Grab Cut迭代，在迭代过程中，可能的前景部分会根据计算重新赋予合适的标记。得到图6，这是一个二值图，黑色部分为背景，白色部分为前景，不包含前景和背景的渐变过渡。上述图像分割算法也可以使用Graph Cut。

Graph Cut是一种十分流行的能量优化算法，在计算机视觉领域普遍应用于前背景分割、立体视觉、抠图等。此类方法把图像分割问题与图的最小割(min cut)问题相关联。首先用一个无向图G＝<V，E>表示要分割的图像，V和E分别是顶点(vertex)和边(edge)的集合。此处的Graph和普通的Graph稍有不同。普通的图由顶点和边构成，如果边是有方向的，这样的图被则称为有向图，否则为无向图，且边是有权值的，不同的边可以有不同的权值，分别代表不同的物理意义。

而Graph Cuts图是在普通图的基础上多了2个顶点，这2个顶点分别用符号”S”和”T”表示，统称为终端顶点。其它所有的顶点都必须和这2个顶点相连形成边集合中的一部分。所以Graph Cuts中有两种顶点，也有两种边。第一种普通顶点对应于图像中的每个像素。每两个邻域顶点(对应于图像中每两个邻域像素)的连接就是一条边。这种边也叫n-links。第二种顶点和边：除图像像素外，还有另外两个终端顶点，叫S(source：源点，取源头之意)和T(sink：汇点，取汇聚之意)。每个普通顶点和这2个终端顶点之间都有连接，组成第二种边。这种边也叫t-links。

图中每条边都有一个非负的权值We，也可以理解为cost(代价)。一个cut(割)就是图中边集合E的一个子集C，那这个割的cost(表示为|C|)就是边子集C的所有边的权值的总和。Graph Cuts中的Cuts是指这样一个边的集合，很显然这些边集合包括了上面2种边，该集合中所有边的断开会导致残留”S”和”T”图的分开，所以就称为“割”。如果一个割，它的边的所有权值之和最小，那么这个就称为最小割，也就是图割的结果。

而福特-富克森定理表明，网路的最大流max flow与最小割min cut相等。所以由Boykov和Kolmogorov发明的max-flow/min-cut算法就可以用来获得s-t图的最小割。这个最小割把图的顶点划分为两个不相交的子集S和T，其中s∈S，t∈T和S∪T＝V。这两个子集就对应于图像的前景像素集和背景像素集，那就相当于完成了图像分割。

Grab Cut算法以Graph Cut算法为基础，在以下三个方面做出了优化改进。

(1)Graph Cut的目标和背景的模型是灰度直方图，Grab Cut取代为RGB三通道的混合高斯模型GMM；

(2)Graph Cut的能量最小化(分割)是一次达到的，而Grab Cut取代为一个不断进行分割估计和模型参数学习的交互迭代过程；

(3)Graph Cut需要用户指定目标和背景的一些种子点，但是Grab Cut只需要提供背景区域的像素集就可以了。也就是说你只需要框选目标，那么在方框外的像素全部当成背景，这时候就可以对GMM进行建模和完成良好的分割了。即Grab Cut允许不完全的标注(incomplete labelling)。

Grab Cut的能量最小化策略以迭代方式工作，代替了原来的一次计算的算法。这样做的好处是允许透明参数alpha的自动细化(automatic refinement)，初始的trimap中的TU区域新标记的像素用于细化彩色GMM中的参数theta。

Grab Cut***的步骤1很简单，通过对每个像素的n个kn值的简单枚举来完成。步骤2为一组高斯参数估计程序的实现。对于一组给定的GMM组件k，如前景模型，定义一个像素的子集F(k)＝{zn:kn＝k andαn＝1}。用样本均值估计均值μ(α,k)，用F(k)中像素的方差来估计方差Σ(α,k)，权值为π(α,k)＝|F(k)|/∑k|F(k)|，其中|S|表示集合S的大小。最后步骤3是一个全局优化，使用[Boykov andJolly2001]中的图割算法。

该算法的结构保证了适当的收敛性。这是因为步骤1到3的每一步迭代最小化可以被证明是在三组变量k,θ_,α_中轮流取值最小化总能量E。因此E是单调递减的，从而保证算法至少收敛到E的局部极小值。因此可以很容易地检测到E不再显著减少，并自动终止迭代。

由于图6不包含前景和背景的渐变过渡，在图6的基础上将白色和黑色交接的部分用一定宽度的灰色像素刷绘制，得到标准的trimap，如图7所示，作为下一步前景提取算法的输入。

Grab Cut应用了BorderMatting来在边缘处产生连续的透明度，并且在边界处恢复前景颜色，将前景中混入的背景颜色去除掉。此处也可以采用效果更好的sharedmatting来替代。

sharedmatting利用相邻像素的相似性，估计当前像素点的f和b值，然后求出对应的alpha，该算法细节此处不再赘述，只需知道该算法需要输入原图及其对应的标准trimap即可。白色对应确定的前景，黑色对应确定的背景，灰色对应待求解区域。白色和黑色部分对应的原图在求解过程中不会做任何改变，只有灰色部分的前景颜色值及其透明度需要重新估计。所以利用上一步生成的trimap可以得到估算出的图9前景图F、背景图B以及图8透明度图matte。

修正中将matte转化为Grab Cut的不完全标记输入再次进行迭代，直到相邻两次结果的matte图差值的绝对值小于设定阈值，判断为抠图过程收敛，自动终止迭代，给出最终的抠图效果，上述过程如图10和图11所示。

图12至图18为现有前景提取技术与本实施例比对结果，其中a图为输入图像，b图为现有前景提取技术的抠图效果，c图为本实施例的抠图效果，可以看出，当前景与相邻背景接近或前景区域内具有背景部分的图像，本实施例在抠图精确度上有很大的提升。

此外，需要说明的是，本说明书中所描述的具体实施例，其零、部件的形状、所取名称等可以不同。凡依本发明专利构思所述的构造、特征及原理所做的等效或简单变化，均包括于本发明专利的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离本发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种三元图自动生成方法，其步骤包括：

S1、获取输入图像，并通过窗口连续扫描图像；

S3、根据边缘图像得到图像分割算法的不完全标记输入图；

S5、根据分割结果图像得到三元图。

2.根据权利要求1所述的三元图自动生成方法，其特征在于：所述步骤S1通过窗口连续扫描图像中，相邻窗口均有部分重叠。

3.根据权利要求2所述的三元图自动生成方法，其特征在于：所述步骤S1中，窗口的横向步长和纵向步长分别通过以下公式得到：

step_w＝(int)(percentage*rate*width)+1；

step_h＝(int)(percentage*rate*height)+1；

窗口的宽度和高度通过以下公式得到：

r_w＝step_w*L

r_h＝step_h*L

4.根据权利要求1所述的三元图自动生成方法，其特征在于：所述步骤S1至步骤S2间还包括如下步骤：

所述步骤S2中根据窗口归一化图像提取图像边缘。

5.根据权利要求4所述的三元图自动生成方法，其特征在于：所述步骤S1-2的具体步骤为：

sum(Pv)/(r_w*r_h)>Ts；

S1-2d、对灰度图像中每个像素重新赋值：

v＝(v-Thres_low)*z/(Thres_high-Thres_low)；

其中z≥Thres_high&z≤y。

6.根据权利要求1所述的三元图自动生成方法，其特征在于：所述步骤S3的具体步骤为：

S3a、将边缘图像的边缘进行膨胀操作；

7.根据权利要求1所述的三元图自动生成方法，其特征在于：所述步骤S5的具体步骤为：将分割结果图像中前景和背景交接的部分膨胀作为三元图的待求解区域，将分割结果图像中剩余前景部分作为三元图的确定前景区域，将分割结果图像中剩余背景部分作为三元图的确定背景区域。

8.一种前景提取方法，其步骤包括：

SA、通过权利要求1至7任一所述的方法得到三元图；

SB、通过基于三元图的前景提取算法和三元图得到结果图。

9.根据权利要求8所述的前景提取方法，其步骤还包括：