CN116206114B

CN116206114B - 一种复杂背景下人像提取方法及装置

Info

Publication number: CN116206114B
Application number: CN202310474489.5A
Authority: CN
Inventors: 向雷; 吕磊; 黄德頔
Original assignee: Chengdu Yundun Technology Co ltd
Current assignee: Chengdu Yundun Technology Co ltd
Priority date: 2023-04-28
Filing date: 2023-04-28
Publication date: 2023-08-01
Anticipated expiration: 2043-04-28
Also published as: CN116206114A

Abstract

本发明公开了一种复杂背景下人像提取方法及装置，涉及图片处理技术领域，无需用户手动提取人像，能够自动地、精确地提取复杂背景下的人像；对待提取图片没有场所和拍照位置的限制，适用范围广。方案要点为：将待提取图片分割为第一非重叠块；将第一非重叠块映射到任意维度，得到维度参数；提取维度参数中的特征量；根据特征量拼接成块,得到第一分辨率特征图；根据第一分辨率特征图,分割出人像特征图；将人像特征图的块分割为第二非重叠块；提取第二非重叠块的人像特征量，与通过跳跃连接算法获得的多维度特征量融合；将人像特征量转换成图像输出参数；根据图像输出参数输出人像图片。本发明主要用于图片人像提取中。

Description

一种复杂背景下人像提取方法及装置

技术领域

本发明涉及图片处理技术领域，尤其涉及一种复杂背景下人像提取方法及装置。

背景技术

人像提取技术，顾名思义就是将人像从图片中提取出来，近年来，随着科学技术的发展，人像提取技术仍然存在许多问题，例如人物抠图不准确，无法较准确地将人脸从背景里分离开；边缘细节粗糙；拍照时对人物的位置有较多限制；没有人脸倾斜矫正等。

现有基于几何特征的识别方法也存在困难，其困难在于尚未形成一个统一、优秀的特征提取标准。由于成人的面部模式***，即使是同一个人的面部图像，由于时间、光照、摄影机角度等不同，也很难用一个统一的模式来表达，造成了特征提取的困难。

发明内容

本发明提供一种复杂背景下人像提取方法及装置，包括将待提取图片分割为第一非重叠块；将所述第一非重叠块映射到任意维度，得到维度参数；提取所述维度参数中的特征量；根据所述特征量拼接成块,得到第一分辨率特征图；根据所述第一分辨率特征图,分割出人像特征图；将所述人像特征图的块分割为第二非重叠块；提取所述第二非重叠块的人像特征量，与通过跳跃连接算法获得的多维度特征量融合；将所述人像特征量转换成图像输出参数；根据所述图像输出参数输出人像图片，相比于现有技术，本发明无需用户手动提取人像，能够自动地、精确地提取复杂背景下的人像；对待提取图片没有场所和拍照位置的限制，适用范围广。

为达到上述目的，本发明采用如下技术方案：

本发明第一方面提供一种复杂背景下人像提取方法，包括：

将待提取图片分割为第一非重叠块。

将所述第一非重叠块映射到任意维度，得到维度参数。

提取所述维度参数中的特征量。

根据所述特征量拼接成块,得到第一分辨率特征图。

根据所述第一分辨率特征图,分割出人像特征图。

将所述人像特征图的块分割为第二非重叠块。

提取所述第二非重叠块的人像特征量，与通过跳跃连接算法获得的多维度特征量融合。

将所述人像特征量转换成图像输出参数。

根据所述图像输出参数输出人像图片。

进一步的，所述的复杂背景下人像提取方法，在根据所述特征量拼接成块,得到第一分辨率特征图之后，还包括：

提取所述维度参数中的特征量。

根据所述特征量拼接成块,得到第二分辨率特征图；所述第二分辨率特征图的分辨率大于所述第一分辨率特征图的分辨率。

进一步的，所述的复杂背景下人像提取方法，在根据所述特征量拼接成块,得到第二分辨率特征图之后，还包括：

提取所述维度参数中的特征量。

根据所述特征量拼接成块,得到第三分辨率特征图；所述第三分辨率特征图的分辨率大于所述第二分辨率特征图的分辨率。

进一步的，所述的复杂背景下人像提取方法，将所述人像特征图的块分割为第二非重叠块，包括：

将所述第一分辨率特征图的块分割为第二分辨率特征图的块。

将所述第二分辨率特征图的块分割为第三分辨率特征图的块。

将所述第三分辨率特征图的块分割为所述第二非重叠块。

本发明第二方面提供一种复杂背景下人像提取装置，包括：

第一分割单元，用于将待提取图片分割为第一非重叠块。

映射单元，用于将所述第一非重叠块映射到任意维度，得到维度参数。

第一提取单元，用于提取所述维度参数中的特征量。

第一拼接单元，用于根据所述特征量拼接成块,得到第一分辨率特征图。

第二分割单元，用于根据所述分辨率特征图,分割出人像特征图。

第三分割单元，用于将所述人像特征图的块分割为第二非重叠块。

第二提取单元，用于提取所述第二非重叠块的人像特征量，与通过跳跃连接算法获得的多维度特征量融合。

转换单元，用于将所述人像特征量转换成图像输出参数。

输出单元，用于根据所述图像输出参数输出人像图片。

进一步的，所述的复杂背景下人像提取装置，还包括：

第三提取单元，用于提取所述维度参数中的特征量。

第二拼接单元，用于根据所述特征量拼接成块,得到第二分辨率特征图；所述第二分辨率特征图的分辨率大于所述第一分辨率特征图的分辨率。

进一步的，所述的复杂背景下人像提取装置，还包括：

第四提取单元，用于提取所述维度参数中的特征量。

第三拼接单元，用于根据所述特征量拼接成块,得到第三分辨率特征图；所述第三分辨率特征图的分辨率大于所述第二分辨率特征图的分辨率。

进一步的，所述的复杂背景下人像提取装置，所述第三分割单元包括：

第一分割模块，用于将所述第一分辨率特征图的块分割为第二分辨率特征图的块。

第二分割模块，用于将所述第二分辨率特征图的块分割为第三分辨率特征图的块。

第三分割模块，用于将所述第三分辨率特征图的块分割为所述第二非重叠块。

附图说明

为了更清楚地说明本发明实施例的技术方案，以下将对实施例描述中所需要使用的附图作简单地介绍，附图仅用于示出实施方式的目的，而并不认为是对本发明的限制。

图1为本发明实施例中一种复杂背景下人像提取方法流程示意图；

图2为本发明实施例中另一种复杂背景下人像提取方法流程示意图；

图3为本发明实施例中一种复杂背景下人像提取装置组成结构示意图；

图4为本发明实施例中另一种复杂背景下人像提取装置组成结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本发明所使用的所有的技术和科学术语与属于本发明术领域的技术人员通常理解的含义相同；本发明中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。

在本发明实施例的描述中，技术术语“第一”“第二”等仅用于区别不同对象，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量、特定顺序或主次关系。在本发明实施例的描述中，“多个”的含义是两个以上，除非另有明确具体的限定。

在本发明实施例的描述中，术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

在本发明实施例的描述中，术语“多个”指的是两个以上（包括两个），同理，“多组”指的是两组以上（包括两组），“多片”指的是两片以上（包括两片）。

在本发明实施例的描述中，技术术语“中心”“纵向”“横向”“长度”“宽度”“厚度”“上”“下”“前”“后”“左”“右”“竖直”“水平”“顶”“底”“内”“外”“顺时针”“逆时针”“轴向”“径向”“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明实施例和简化描述，而不是指示或暗示所指的装置或组件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明实施例的限制。

在本发明实施例的描述中，除非另有明确的规定和限定，技术术语“安装”“相连”“连接”“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；也可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个组件内部的连通或两个组件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明例中的具体含义。

实施例1

本发明实施例提供一种复杂背景下人像提取方法，如图1所示，包括：

S1、将待提取图片分割为第一非重叠块。

此处需要说明的是：本发明实施例对待提取图片不作限制，但待提取图片中一定包含人像。

其中，非重叠块，顾名思义就是不重叠的图片块，本发明实施例对分割后的第一非重叠块的大小不作限制。

S2、将所述第一非重叠块映射到任意维度，得到维度参数。

其中，维度又称维数，是数学中独立参数的数目。在物理学和哲学的领域内，指独立的时空坐标的数目。

S3、提取所述维度参数中的特征量。

S4、根据所述特征量拼接成块,得到第一分辨率特征图。

S5、根据所述第一分辨率特征图,分割出人像特征图。

S6、将所述人像特征图的块分割为第二非重叠块。

S7、提取所述第二非重叠块的人像特征量，与通过跳跃连接算法获得的多维度特征量融合。

S8、将所述人像特征量转换成图像输出参数。

S9、根据所述图像输出参数输出人像图片。

本发明通过FT-UNet来实现上述步骤，其中，FT-UNet由编码器、bottleneck、解码器和skip连接组成。FT-UNet的基本单元是Focal Transformer模块。对于编码器，为了将输入转换为序列嵌入，图像被分成4×4大小的非重叠块。patch merging层负责减少采样和增加维度，Focal Transformer负责学习特征表示。提取的上下文特征通过skip连接与来自编码器的多尺度特征融合，以补充下采样造成的空间信息损失。patch merging层将相邻维的特征图重朔为分辨率为上采样两倍的大特征图。最后，使用patch expanding层来执行4×上采样，以将特征图的分辨率恢复到输入分辨率W×H，然后在这些上采样的特征上应用线性投影层，以输出人像提取。

其中，Focal Transformer结构包含patch partition层、线性嵌入层、FocalTransformer层和patch merging层。patch partition层用于分块降维，线性嵌入层用于线性变换，patch merging层用于下采样。核心模块是Focal Transformer块，其中包含用于移动窗口的焦点自注意力。

其中，焦点自注意力模型如下所示：

假设输入特征图，其中/>为空间维度，d为特征维度。所有L级的池子窗口。L是焦点自我注意力提取标签的粒度级别的数量。对于聚焦级别l，首先将输入特征图x分成大小为/>的子窗口网格。/>表示在/>级别获得摘要标记的子窗口的大小，通过使用线性层/>在空间上合并子窗口：

，（1）

式中，x表示输入的特征图；l表示聚焦级别；M、N表示空间维度；d表示特征维度；表示在/>级别获得摘要标记的子窗口的大小；/>表示线性层。

当获得所有L层的汇集特征图时，使用三个线性投影层/>、/>和/>来计算第一层的查询和所有层的键和值：

，/>，（2）

式中，Q、K、V分别为查询、键和值矩阵；x表示输入的特征图；、/>和/>表示线性投影层。

要执行focus self-attention，首先提取特征图中每个查询标签的周围标签。对于第i个窗口的中的查询，/>表示窗口划分，/>表示l级参与区域中水平和垂直子窗口的数量，从查询所在窗口周围的/>和/>中提取/>键和值，然后从所有L中收集键和值得到/>和，其中，s是所有层的焦点区域之和，即/>。本文通过以下方式计算/>的焦点自我关注度：

（3）

式中，、/>和/>分别表示查询、键和值矩阵，d为向量维数，B为偏向矩阵，SoftMax为多分类激活函数。

本发明提供一种复杂背景下人像提取方法，包括将待提取图片分割为第一非重叠块；将所述第一非重叠块映射到任意维度，得到维度参数；提取所述维度参数中的特征量；根据所述特征量拼接成块,得到第一分辨率特征图；根据所述第一分辨率特征图,分割出人像特征图；将所述人像特征图的块分割为第二非重叠块；提取所述第二非重叠块的人像特征量，与通过跳跃连接算法获得的多维度特征量融合；将所述人像特征量转换成图像输出参数；根据所述图像输出参数输出人像图片，相比于现有技术，本发明无需用户手动提取人像，能够自动地、精确地提取复杂背景下的人像；对待提取图片没有场所和拍照位置的限制，适用范围广。

实施例2

本发明实施例提供一种复杂背景下人像提取方法，如图2所示，包括：

S201、将待提取图片分割为第一非重叠块。

具体的，将待提取图片分割成大小相同的第一非重叠块，例如：将待提取图片分割成4×4大小的非重叠块，此处需要说明的是：本发明实施例对非重叠块的大小不作限制，实施者可根据待提取图片的大小相应地决定。

S202、将所述第一非重叠块映射到任意维度，得到维度参数。

具体的，将第一非重叠块映像到三维，得到其参数，例如：将4×4大小的非重叠块映射到三维，得到4×4×3的维度参数。

S203、提取所述维度参数中的特征量。

S204、根据所述特征量拼接成块,得到第一分辨率特征图。

S205、提取所述维度参数中的特征量。

S206、根据所述特征量拼接成块,得到第二分辨率特征图；所述第二分辨率特征图的分辨率大于所述第一分辨率特征图的分辨率。

S207、提取所述维度参数中的特征量。

S208、根据所述特征量拼接成块,得到第三分辨率特征图；所述第三分辨率特征图的分辨率大于所述第二分辨率特征图的分辨率。

S209、根据所述第一分辨率特征图,分割出人像特征图。

S210、将所述人像特征图的块分割为第二非重叠块。

S2101、将所述第一分辨率特征图的块分割为第二分辨率特征图的块。

S2102、将所述第二分辨率特征图的块分割为第三分辨率特征图的块。

S2103、将所述第三分辨率特征图的块分割为所述第二非重叠块。

在原始数据不足的情况下，通过数据增强对数据集进行扩充。常见的数据集的扩充方式是添加新的数据，但在现实中这样方式实现比较困难。另外一种方式，通过将数据集进行翻转、旋转、剪切等操作，即是对数据进行增强，来进行数据扩充，这种方式的操作性高，便于实现。通过图像中像素与像素的空间变换来进行数据增强。关于坐标变换如公式如下表示：

（4）

式中，（v，w）表示原图像中像素的坐标，（x，y）表示变换后图形中的坐标。

仿射变换是常见的一种变换，其一般形式的公式如下：

（5）

式中，表示原图像中像素的坐标，/>表示变换后图形中的坐标。

本发明实施例提出了一种基于搜索的数据增强方法Auto-Augment。它的基本思路是使用增强学***移，旋转或剪切等，对于每一个操作都有一组概率和幅度来表征这个操作的使用性质。

其中，搜索算法有两个组成部分：一部分是控制器，另一部分则是训练算法PPO（Proximal Policy Optimization）算法。每一步操作中，控制器对SoftMax输出的结果预测产生特征向量，然后将特征向量作为下一步操作的嵌入向量。搜索算法有两个组件，一个控制器是一个循环神经网络和一个训练算法是近似策略优化算法。每一步控制器都会预测一个由SoftMax产生的决定，进行预测。然后会被送入下一步，作为一个嵌入。控制器一共为了5个子策略，预测30个SoftMax预测，每个子策略都有2个操作，每个操作都需要一个操作类型，强度，概率。

控制器的训练：控制器由奖励信号来训练，即策略多大程度上能提升子模型的泛化能力，一个神经网络作为搜索过程的一部分而训练。在本发明实施例中，通过设置一个验证集去衡量子模型的泛化能力。一个子模型是使用通过往训练集应用5个子策略来生成增强数据而训练。对于每个小批量的案例来说，5个子策略中的一个会被随机选中去增强图片。这个子模型然后会在验证集上被衡量准确率，然后会被作为反馈信号而训练循环神经网络。在每个数据集上，控制器会抽样1.5万个策略。

在搜索的末尾，从5个最佳策略的子策略中拼接形成一个单一策略。这个有25个子策略的最终策略会被使用去训练每个数据集的模型。

S211、提取所述第二非重叠块的人像特征量，与通过跳跃连接算法获得的多维度特征量融合。

S212、将所述人像特征量转换成图像输出参数。

S213、根据所述图像输出参数输出人像图片。

本发明实施例提出一种改进的结构分割的损失函数：

（6）

式中，表示结构分割的损失函数；/>表示/>的权重；/>表示指数对数Dice损失；/>表示/>的权重；/>表示加权指数交叉熵。

使用和/>分别计算指数对数Dice损失（/>）和加权指数交叉熵（）的权重：

（7）

式中，表示指数对数Dice损失；i表示标签；/>表示/>关于i的平均值。

（8）

式中，X表示像素位置；i表示标签；l表示X处的真实标签；表示Kroneckerdelta；/>表示SoftMax的概率；/>是加法平滑处理训练样本中缺失标签的伪计数。

（9）

式中，X表示像素位置，l表示X处的真实标签。表示/>中关于X的平均值，表示SoftMax的概率。

当计算时，/>充当标签i所拥有的像素X的部分。/>是加法平滑处理训练样本中缺失标签的伪计数。/>，其中/>是标签k的频率，是用于减少更频繁出现的标签的影响的标签权重。通过引入指数/>和/>进一步控制损失的非线性。为了简单起见，本发明在这里使用/>。

损失函数使用标签权重来平衡标签频率，这种焦点损失还在简单样本和困难样本之间进行了平衡。对Focal Loss和Dice Loss进行指数和对数转换进行组合，这样网络就可以被迫的关注预测不准的部分，以合并更精细的分割边界和准确的数据分布。

实施例3

本发明实施例提供一种复杂背景下人像提取装置，如图3所示，包括：

第一分割单元31，用于将待提取图片分割为第一非重叠块。

映射单元32，用于将所述第一非重叠块映射到任意维度，得到维度参数。

第一提取单元33，用于提取所述维度参数中的特征量。

第一拼接单元34，用于根据所述特征量拼接成块,得到第一分辨率特征图。

第二分割单元35，用于根据所述第一分辨率特征图,分割出人像特征图。

第三分割单元36，用于将所述人像特征图的块分割为第二非重叠块。

第二提取单元37，用于提取所述第二非重叠块的人像特征量，与通过跳跃连接算法获得的多维度特征量融合。

转换单元38，用于将所述人像特征量转换成图像输出参数。

输出单元39，用于根据所述图像输出参数输出人像图片。

此处需要说明的是：本实施例各部分详细说明可参照其它实施例对应部分，此处不再赘述。

本发明提供一种复杂背景下人像提取装置，包括将待提取图片分割为第一非重叠块；将所述第一非重叠块映射到任意维度，得到维度参数；提取所述维度参数中的特征量；根据所述特征量拼接成块,得到第一分辨率特征图；根据所述第一分辨率特征图,分割出人像特征图；将所述人像特征图的块分割为第二非重叠块；提取所述第二非重叠块的人像特征量，与通过跳跃连接算法获得的多维度特征量融合；将所述人像特征量转换成图像输出参数；根据所述图像输出参数输出人像图片，相比于现有技术，本发明无需用户手动提取人像，能够自动地、精确地提取复杂背景下的人像；对待提取图片没有场所和拍照位置的限制，适用范围广。

实施例4

本发明实施例提供一种复杂背景下人像提取装置，如图4所示，包括：

第一分割单元41，用于将待提取图片分割为第一非重叠块。

映射单元42，用于将所述第一非重叠块映射到任意维度，得到维度参数。

第一提取单元43，用于提取所述维度参数中的特征量。

第一拼接单元44，用于根据所述特征量拼接成块,得到第一分辨率特征图。

第三提取单元45，用于提取所述维度参数中的特征量。

第二拼接单元46，用于根据所述特征量拼接成块,得到第二分辨率特征图。所述第二分辨率特征图的分辨率大于所述第一分辨率特征图的分辨率。

第四提取单元47，用于提取所述维度参数中的特征量。

第三拼接单元48，用于根据所述特征量拼接成块,得到第三分辨率特征图；所述第三分辨率特征图的分辨率大于所述第二分辨率特征图的分辨率。

第二分割单元49，用于根据所述第一分辨率特征图,分割出人像特征图。

第三分割单元410，用于将所述人像特征图的块分割为第二非重叠块。

第一分割模块4101，用于将所述第一分辨率特征图的块分割为第二分辨率特征图的块。

第二分割模块4102，用于将所述第二分辨率特征图的块分割为第三分辨率特征图的块。

第三分割模块4103，用于将所述第三分辨率特征图的块分割为所述第二非重叠块。

第二提取单元411，用于提取所述第二非重叠块的人像特征量，与通过跳跃连接算法获得的多维度特征量融合。

转换单元412，用于将所述人像特征量转换成图像输出参数。

输出单元413，用于根据所述图像输出参数输出人像图片。

最后应说明的是：以上各实施例仅用以说明本发明技术方案，非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。尤其是，只要不存在结构冲突，各个实施例中所提到的各项技术特征均可以任意方式组合起来。本发明并不局限于文中公开的特定实施例，而是包括落入权利要求的范围内的所有技术方案。

Claims

1.一种复杂背景下人像提取方法，其特征在于，包括：

将待提取图片分割为第一非重叠块；

将所述第一非重叠块映射到三维，得到维度参数；

提取所述维度参数中的第一特征量，根据所述第一特征量拼接成块,得到第一分辨率特征图；

提取所述维度参数中的第二特征量，根据所述第二特征量拼接成块,得到第二分辨率特征图，所述第二分辨率特征图的分辨率大于所述第一分辨率特征图的分辨率；

提取所述维度参数中的第三特征量，根据所述第三特征量拼接成块,得到第三分辨率特征图；所述第三分辨率特征图的分辨率大于所述第二分辨率特征图的分辨率；

根据所述第一分辨率特征图、第二分辨率特征图、第三分辨率特征图,将所述第一分辨率特征图的块分割为第二分辨率特征图的块，将所述第二分辨率特征图的块分割为第三分辨率特征图的块；

将所述第三分辨率特征图的块分割为第二非重叠块；

提取所述第二非重叠块的人像特征量，与通过跳跃连接算法获得的多维度特征量融合；

将融合后的人像特征量转换成图像输出参数；

根据所述图像输出参数输出人像图片。

2.一种复杂背景下人像提取装置，其特征在于，包括：

第一分割单元，用于将待提取图片分割为第一非重叠块；

映射单元，用于将所述第一非重叠块映射到三维度，得到维度参数；

第一提取单元，用于提取所述维度参数中的第一特征量、第二特征量、第三特征量；

第一拼接单元，用于根据所述第一特征量、第二特征量、第三特征量拼接成块,对应得到第一分辨率特征图、第二分辨率特征图、第三分辨率特征图，所述第二分辨率特征图的分辨率大于所述第一分辨率特征图的分辨率，所述第三分辨率特征图的分辨率大于所述第二分辨率特征图的分辨率；

第二分割单元，用于根据所述第一分辨率特征图,分割出人像特征图；

第三分割单元，用于将所述人像特征图的块分割为第二非重叠块，将所述第一分辨率特征图的块分割为第二分辨率特征图的块，将所述第二分辨率特征图的块分割为第三分辨率特征图的块；

第二提取单元，用于提取所述第二非重叠块的人像特征量，与通过跳跃连接算法获得的多维度特征量融合；

转换单元，用于将融合后的人像特征量转换成图像输出参数；

输出单元，用于根据所述图像输出参数输出人像图片。