CN116206114B - 一种复杂背景下人像提取方法及装置 - Google Patents

一种复杂背景下人像提取方法及装置 Download PDF

Info

Publication number
CN116206114B
CN116206114B CN202310474489.5A CN202310474489A CN116206114B CN 116206114 B CN116206114 B CN 116206114B CN 202310474489 A CN202310474489 A CN 202310474489A CN 116206114 B CN116206114 B CN 116206114B
Authority
CN
China
Prior art keywords
resolution
portrait
feature map
characteristic quantity
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310474489.5A
Other languages
English (en)
Other versions
CN116206114A (zh
Inventor
向雷
吕磊
黄德頔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Yundun Technology Co ltd
Original Assignee
Chengdu Yundun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Yundun Technology Co ltd filed Critical Chengdu Yundun Technology Co ltd
Priority to CN202310474489.5A priority Critical patent/CN116206114B/zh
Publication of CN116206114A publication Critical patent/CN116206114A/zh
Application granted granted Critical
Publication of CN116206114B publication Critical patent/CN116206114B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种复杂背景下人像提取方法及装置,涉及图片处理技术领域,无需用户手动提取人像,能够自动地、精确地提取复杂背景下的人像;对待提取图片没有场所和拍照位置的限制,适用范围广。方案要点为:将待提取图片分割为第一非重叠块;将第一非重叠块映射到任意维度,得到维度参数;提取维度参数中的特征量;根据特征量拼接成块,得到第一分辨率特征图;根据第一分辨率特征图,分割出人像特征图;将人像特征图的块分割为第二非重叠块;提取第二非重叠块的人像特征量,与通过跳跃连接算法获得的多维度特征量融合;将人像特征量转换成图像输出参数;根据图像输出参数输出人像图片。本发明主要用于图片人像提取中。

Description

一种复杂背景下人像提取方法及装置
技术领域
本发明涉及图片处理技术领域,尤其涉及一种复杂背景下人像提取方法及装置。
背景技术
人像提取技术,顾名思义就是将人像从图片中提取出来,近年来,随着科学技术的发展,人像提取技术仍然存在许多问题,例如人物抠图不准确,无法较准确地将人脸从背景里分离开;边缘细节粗糙;拍照时对人物的位置有较多限制;没有人脸倾斜矫正等。
现有基于几何特征的识别方法也存在困难,其困难在于尚未形成一个统一、 优秀的特征提取标准。由于成人的面部模式***,即使是同一个人的面部图像,由于时间、光照、摄影机角度等不同,也很难用一个统一的模式来表达,造成了特征提取的困难。
发明内容
本发明提供一种复杂背景下人像提取方法及装置,包括将待提取图片分割为第一非重叠块;将所述第一非重叠块映射到任意维度,得到维度参数;提取所述维度参数中的特征量;根据所述特征量拼接成块,得到第一分辨率特征图;根据所述第一分辨率特征图,分割出人像特征图;将所述人像特征图的块分割为第二非重叠块;提取所述第二非重叠块的人像特征量,与通过跳跃连接算法获得的多维度特征量融合;将所述人像特征量转换成图像输出参数;根据所述图像输出参数输出人像图片,相比于现有技术,本发明无需用户手动提取人像,能够自动地、精确地提取复杂背景下的人像;对待提取图片没有场所和拍照位置的限制,适用范围广。
为达到上述目的,本发明采用如下技术方案:
本发明第一方面提供一种复杂背景下人像提取方法,包括:
将待提取图片分割为第一非重叠块。
将所述第一非重叠块映射到任意维度,得到维度参数。
提取所述维度参数中的特征量。
根据所述特征量拼接成块,得到第一分辨率特征图。
根据所述第一分辨率特征图,分割出人像特征图。
将所述人像特征图的块分割为第二非重叠块。
提取所述第二非重叠块的人像特征量,与通过跳跃连接算法获得的多维度特征量融合。
将所述人像特征量转换成图像输出参数。
根据所述图像输出参数输出人像图片。
进一步的,所述的复杂背景下人像提取方法,在根据所述特征量拼接成块,得到第一分辨率特征图之后,还包括:
提取所述维度参数中的特征量。
根据所述特征量拼接成块,得到第二分辨率特征图;所述第二分辨率特征图的分辨率大于所述第一分辨率特征图的分辨率。
进一步的,所述的复杂背景下人像提取方法,在根据所述特征量拼接成块,得到第二分辨率特征图之后,还包括:
提取所述维度参数中的特征量。
根据所述特征量拼接成块,得到第三分辨率特征图;所述第三分辨率特征图的分辨率大于所述第二分辨率特征图的分辨率。
进一步的,所述的复杂背景下人像提取方法,将所述人像特征图的块分割为第二非重叠块,包括:
将所述第一分辨率特征图的块分割为第二分辨率特征图的块。
将所述第二分辨率特征图的块分割为第三分辨率特征图的块。
将所述第三分辨率特征图的块分割为所述第二非重叠块。
本发明第二方面提供一种复杂背景下人像提取装置,包括:
第一分割单元,用于将待提取图片分割为第一非重叠块。
映射单元,用于将所述第一非重叠块映射到任意维度,得到维度参数。
第一提取单元,用于提取所述维度参数中的特征量。
第一拼接单元,用于根据所述特征量拼接成块,得到第一分辨率特征图。
第二分割单元,用于根据所述分辨率特征图,分割出人像特征图。
第三分割单元,用于将所述人像特征图的块分割为第二非重叠块。
第二提取单元,用于提取所述第二非重叠块的人像特征量,与通过跳跃连接算法获得的多维度特征量融合。
转换单元,用于将所述人像特征量转换成图像输出参数。
输出单元,用于根据所述图像输出参数输出人像图片。
进一步的,所述的复杂背景下人像提取装置,还包括:
第三提取单元,用于提取所述维度参数中的特征量。
第二拼接单元,用于根据所述特征量拼接成块,得到第二分辨率特征图;所述第二分辨率特征图的分辨率大于所述第一分辨率特征图的分辨率。
进一步的,所述的复杂背景下人像提取装置,还包括:
第四提取单元,用于提取所述维度参数中的特征量。
第三拼接单元,用于根据所述特征量拼接成块,得到第三分辨率特征图;所述第三分辨率特征图的分辨率大于所述第二分辨率特征图的分辨率。
进一步的,所述的复杂背景下人像提取装置,所述第三分割单元包括:
第一分割模块,用于将所述第一分辨率特征图的块分割为第二分辨率特征图的块。
第二分割模块,用于将所述第二分辨率特征图的块分割为第三分辨率特征图的块。
第三分割模块,用于将所述第三分辨率特征图的块分割为所述第二非重叠块。
本发明提供一种复杂背景下人像提取方法及装置,包括将待提取图片分割为第一非重叠块;将所述第一非重叠块映射到任意维度,得到维度参数;提取所述维度参数中的特征量;根据所述特征量拼接成块,得到第一分辨率特征图;根据所述第一分辨率特征图,分割出人像特征图;将所述人像特征图的块分割为第二非重叠块;提取所述第二非重叠块的人像特征量,与通过跳跃连接算法获得的多维度特征量融合;将所述人像特征量转换成图像输出参数;根据所述图像输出参数输出人像图片,相比于现有技术,本发明无需用户手动提取人像,能够自动地、精确地提取复杂背景下的人像;对待提取图片没有场所和拍照位置的限制,适用范围广。
附图说明
为了更清楚地说明本发明实施例的技术方案,以下将对实施例描述中所需要使用的附图作简单地介绍,附图仅用于示出实施方式的目的,而并不认为是对本发明的限制。
图1为本发明实施例中一种复杂背景下人像提取方法流程示意图;
图2为本发明实施例中另一种复杂背景下人像提取方法流程示意图;
图3为本发明实施例中一种复杂背景下人像提取装置组成结构示意图;
图4为本发明实施例中另一种复杂背景下人像提取装置组成结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本发明所使用的所有的技术和科学术语与属于本发明术领域的技术人员通常理解的含义相同;本发明中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。
在本发明实施例的描述中,技术术语“第一”“第二”等仅用于区别不同对象,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量、特定顺序或主次关系。在本发明实施例的描述中,“多个”的含义是两个以上,除非另有明确具体的限定。
在本发明实施例的描述中,术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
在本发明实施例的描述中,术语“多个”指的是两个以上(包括两个),同理,“多组”指的是两组以上(包括两组),“多片”指的是两片以上(包括两片)。
在本发明实施例的描述中,技术术语“中心”“纵向”“横向”“长度”“宽度”“厚度”“上”“下”“前”“后”“左”“右”“竖直”“水平”“顶”“底”“内”“外”“顺时针”“逆时针”“轴向”“径向”“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明实施例和简化描述,而不是指示或暗示所指的装置或组件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明实施例的限制。
在本发明实施例的描述中,除非另有明确的规定和限定,技术术语“安装”“相连”“连接”“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;也可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个组件内部的连通或两个组件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明例中的具体含义。
实施例1
本发明实施例提供一种复杂背景下人像提取方法,如图1所示,包括:
S1、将待提取图片分割为第一非重叠块。
此处需要说明的是:本发明实施例对待提取图片不作限制,但待提取图片中一定包含人像。
其中,非重叠块,顾名思义就是不重叠的图片块,本发明实施例对分割后的第一非重叠块的大小不作限制。
S2、将所述第一非重叠块映射到任意维度,得到维度参数。
其中,维度又称维数,是数学中独立参数的数目。在物理学和哲学的领域内,指独立的时空坐标的数目。
S3、提取所述维度参数中的特征量。
S4、根据所述特征量拼接成块,得到第一分辨率特征图。
S5、根据所述第一分辨率特征图,分割出人像特征图。
S6、将所述人像特征图的块分割为第二非重叠块。
S7、提取所述第二非重叠块的人像特征量,与通过跳跃连接算法获得的多维度特征量融合。
S8、将所述人像特征量转换成图像输出参数。
S9、根据所述图像输出参数输出人像图片。
本发明通过FT-UNet来实现上述步骤,其中,FT-UNet由编码器、bottleneck、解码器和skip连接组成。FT-UNet的基本单元是Focal Transformer模块。对于编码器,为了将输入转换为序列嵌入,图像被分成4×4大小的非重叠块。patch merging层负责减少采样和增加维度,Focal Transformer负责学习特征表示。提取的上下文特征通过skip连接与来自编码器的多尺度特征融合,以补充下采样造成的空间信息损失。patch merging层将相邻维的特征图重朔为分辨率为上采样两倍的大特征图。最后,使用patch expanding层来执行4×上采样,以将特征图的分辨率恢复到输入分辨率W×H,然后在这些上采样的特征上应用线性投影层,以输出人像提取。
其中,Focal Transformer结构包含patch partition层、线性嵌入层、FocalTransformer层和patch merging层。patch partition层用于分块降维,线性嵌入层用于线性变换,patch merging层用于下采样。核心模块是Focal Transformer块,其中包含用于移动窗口的焦点自注意力。
其中,焦点自注意力模型如下所示:
假设输入特征图,其中/>为空间维度,d为特征维度。所有L级的池子窗口。L是焦点自我注意力提取标签的粒度级别的数量。对于聚焦级别l,首先将输入特征图x分成大小为/>的子窗口网格。/>表示在/>级别获得摘要标记的子窗口的大小,通过使用线性层/>在空间上合并子窗口:
(1)
式中,x表示输入的特征图;l表示聚焦级别;M、N表示空间维度;d表示特征维度;表示在/>级别获得摘要标记的子窗口的大小;/>表示线性层。
当获得所有L层的汇集特征图时,使用三个线性投影层/>、/>和/>来计算第一层的查询和所有层的键和值:
,/> (2)
式中,Q、K、V分别为查询、键和值矩阵;x表示输入的特征图;、/>和/>表示线性投影层。
要执行focus self-attention,首先提取特征图中每个查询标签的周围标签。对于第i个窗口的中的查询,/>表示窗口划分,/>表示l级参与区域中水平和垂直子窗口的数量,从查询所在窗口周围的/>和/>中提取/>键和值,然后从所有L中收集键和值得到/>,其中,s是所有层的焦点区域之和,即/>。本文通过以下方式计算/>的焦点自我关注度:
(3)
式中,、/>和/>分别表示查询、键和值矩阵,d为向量维数,B为偏向矩阵,SoftMax为多分类激活函数。
本发明提供一种复杂背景下人像提取方法,包括将待提取图片分割为第一非重叠块;将所述第一非重叠块映射到任意维度,得到维度参数;提取所述维度参数中的特征量;根据所述特征量拼接成块,得到第一分辨率特征图;根据所述第一分辨率特征图,分割出人像特征图;将所述人像特征图的块分割为第二非重叠块;提取所述第二非重叠块的人像特征量,与通过跳跃连接算法获得的多维度特征量融合;将所述人像特征量转换成图像输出参数;根据所述图像输出参数输出人像图片,相比于现有技术,本发明无需用户手动提取人像,能够自动地、精确地提取复杂背景下的人像;对待提取图片没有场所和拍照位置的限制,适用范围广。
实施例2
本发明实施例提供一种复杂背景下人像提取方法,如图2所示,包括:
S201、将待提取图片分割为第一非重叠块。
具体的,将待提取图片分割成大小相同的第一非重叠块,例如:将待提取图片分割成4×4大小的非重叠块,此处需要说明的是:本发明实施例对非重叠块的大小不作限制,实施者可根据待提取图片的大小相应地决定。
S202、将所述第一非重叠块映射到任意维度,得到维度参数。
具体的,将第一非重叠块映像到三维,得到其参数,例如:将4×4大小的非重叠块映射到三维,得到4×4×3的维度参数。
S203、提取所述维度参数中的特征量。
S204、根据所述特征量拼接成块,得到第一分辨率特征图。
S205、提取所述维度参数中的特征量。
S206、根据所述特征量拼接成块,得到第二分辨率特征图;所述第二分辨率特征图的分辨率大于所述第一分辨率特征图的分辨率。
S207、提取所述维度参数中的特征量。
S208、根据所述特征量拼接成块,得到第三分辨率特征图;所述第三分辨率特征图的分辨率大于所述第二分辨率特征图的分辨率。
S209、根据所述第一分辨率特征图,分割出人像特征图。
S210、将所述人像特征图的块分割为第二非重叠块。
S2101、将所述第一分辨率特征图的块分割为第二分辨率特征图的块。
S2102、将所述第二分辨率特征图的块分割为第三分辨率特征图的块。
S2103、将所述第三分辨率特征图的块分割为所述第二非重叠块。
在原始数据不足的情况下,通过数据增强对数据集进行扩充。常见的数据集的扩充方式是添加新的数据,但在现实中这样方式实现比较困难。另外一种方式,通过将数据集进行翻转、旋转、剪切等操作,即是对数据进行增强,来进行数据扩充,这种方式的操作性高,便于实现。通过图像中像素与像素的空间变换来进行数据增强。关于坐标变换如公式如下表示:
(4)
式中,(v,w)表示原图像中像素的坐标,(x,y)表示变换后图形中的坐标。
仿射变换是常见的一种变换,其一般形式的公式如下:
(5)
式中,表示原图像中像素的坐标,/>表示变换后图形中的坐标。
本发明实施例提出了一种基于搜索的数据增强方法Auto-Augment。它的基本思路是使用增强学***移,旋转或剪切等,对于每一个操作都有一组概率和幅度来表征这个操作的使用性质。
其中,搜索算法有两个组成部分:一部分是控制器,另一部分则是训练算法PPO(Proximal Policy Optimization)算法。 每一步操作中,控制器对SoftMax输出的结果预测产生特征向量,然后将特征向量作为下一步操作的嵌入向量。搜索算法有两个组件,一个控制器是一个循环神经网络和一个训练算法是近似策略优化算法。每一步控制器都会预测一个由SoftMax产生的决定,进行预测。然后会被送入下一步,作为一个嵌入。控制器一共为了5个子策略,预测30个SoftMax预测,每个子策略都有2个操作,每个操作都需要一个操作类型,强度,概率。
控制器的训练:控制器由奖励信号来训练,即策略多大程度上能提升子模型的泛化能力,一个神经网络作为搜索过程的一部分而训练。在本发明实施例中,通过设置一个验证集去衡量子模型的泛化能力。一个子模型是使用通过往训练集应用5个子策略来生成增强数据而训练。对于每个小批量的案例来说,5个子策略中的一个会被随机选中去增强图片。这个子模型然后会在验证集上被衡量准确率,然后会被作为反馈信号而训练循环神经网络。在每个数据集上,控制器会抽样1.5万个策略。
在搜索的末尾,从5个最佳策略的子策略中拼接形成一个单一策略。这个有25个子策略的最终策略会被使用去训练每个数据集的模型。
S211、提取所述第二非重叠块的人像特征量,与通过跳跃连接算法获得的多维度特征量融合。
S212、将所述人像特征量转换成图像输出参数。
S213、根据所述图像输出参数输出人像图片。
本发明实施例提出一种改进的结构分割的损失函数:
(6)
式中,表示结构分割的损失函数;/>表示/>的权重;/>表示指数对数Dice损失;/>表示/>的权重;/>表示加权指数交叉熵。
使用和/>分别计算指数对数Dice损失(/>)和加权指数交叉熵()的权重:
(7)
式中,表示指数对数Dice损失;i表示标签;/>表示/>关于i的平均值。
(8)
式中,X表示像素位置;i表示标签;l表示X处的真实标签;表示Kroneckerdelta;/>表示SoftMax的概率;/>是加法平滑处理训练样本中缺失标签的伪计数。
(9)
式中,X表示像素位置,l表示X处的真实标签。表示/>中关于X的平均值,表示SoftMax的概率。
当计算时,/>充当标签i所拥有的像素X的部分。/>是加法平滑处理训练样本中缺失标签的伪计数。/>,其中/>是标签k的频率,是用于减少更频繁出现的标签的影响的标签权重。通过引入指数/>和/>进一步控制损失的非线性。为了简单起见,本发明在这里使用/>
损失函数使用标签权重来平衡标签频率,这种焦点损失还在简单样本和困难样本之间进行了平衡。对Focal Loss和Dice Loss进行指数和对数转换进行组合,这样网络就可以被迫的关注预测不准的部分,以合并更精细的分割边界和准确的数据分布。
本发明提供一种复杂背景下人像提取方法,包括将待提取图片分割为第一非重叠块;将所述第一非重叠块映射到任意维度,得到维度参数;提取所述维度参数中的特征量;根据所述特征量拼接成块,得到第一分辨率特征图;根据所述第一分辨率特征图,分割出人像特征图;将所述人像特征图的块分割为第二非重叠块;提取所述第二非重叠块的人像特征量,与通过跳跃连接算法获得的多维度特征量融合;将所述人像特征量转换成图像输出参数;根据所述图像输出参数输出人像图片,相比于现有技术,本发明无需用户手动提取人像,能够自动地、精确地提取复杂背景下的人像;对待提取图片没有场所和拍照位置的限制,适用范围广。
实施例3
本发明实施例提供一种复杂背景下人像提取装置,如图3所示,包括:
第一分割单元31,用于将待提取图片分割为第一非重叠块。
映射单元32,用于将所述第一非重叠块映射到任意维度,得到维度参数。
第一提取单元33,用于提取所述维度参数中的特征量。
第一拼接单元34,用于根据所述特征量拼接成块,得到第一分辨率特征图。
第二分割单元35,用于根据所述第一分辨率特征图,分割出人像特征图。
第三分割单元36,用于将所述人像特征图的块分割为第二非重叠块。
第二提取单元37,用于提取所述第二非重叠块的人像特征量,与通过跳跃连接算法获得的多维度特征量融合。
转换单元38,用于将所述人像特征量转换成图像输出参数。
输出单元39,用于根据所述图像输出参数输出人像图片。
此处需要说明的是:本实施例各部分详细说明可参照其它实施例对应部分,此处不再赘述。
本发明提供一种复杂背景下人像提取装置,包括将待提取图片分割为第一非重叠块;将所述第一非重叠块映射到任意维度,得到维度参数;提取所述维度参数中的特征量;根据所述特征量拼接成块,得到第一分辨率特征图;根据所述第一分辨率特征图,分割出人像特征图;将所述人像特征图的块分割为第二非重叠块;提取所述第二非重叠块的人像特征量,与通过跳跃连接算法获得的多维度特征量融合;将所述人像特征量转换成图像输出参数;根据所述图像输出参数输出人像图片,相比于现有技术,本发明无需用户手动提取人像,能够自动地、精确地提取复杂背景下的人像;对待提取图片没有场所和拍照位置的限制,适用范围广。
实施例4
本发明实施例提供一种复杂背景下人像提取装置,如图4所示,包括:
第一分割单元41,用于将待提取图片分割为第一非重叠块。
映射单元42,用于将所述第一非重叠块映射到任意维度,得到维度参数。
第一提取单元43,用于提取所述维度参数中的特征量。
第一拼接单元44,用于根据所述特征量拼接成块,得到第一分辨率特征图。
第三提取单元45,用于提取所述维度参数中的特征量。
第二拼接单元46,用于根据所述特征量拼接成块,得到第二分辨率特征图。所述第二分辨率特征图的分辨率大于所述第一分辨率特征图的分辨率。
第四提取单元47,用于提取所述维度参数中的特征量。
第三拼接单元48,用于根据所述特征量拼接成块,得到第三分辨率特征图;所述第三分辨率特征图的分辨率大于所述第二分辨率特征图的分辨率。
第二分割单元49,用于根据所述第一分辨率特征图,分割出人像特征图。
第三分割单元410,用于将所述人像特征图的块分割为第二非重叠块。
第一分割模块4101,用于将所述第一分辨率特征图的块分割为第二分辨率特征图的块。
第二分割模块4102,用于将所述第二分辨率特征图的块分割为第三分辨率特征图的块。
第三分割模块4103,用于将所述第三分辨率特征图的块分割为所述第二非重叠块。
第二提取单元411,用于提取所述第二非重叠块的人像特征量,与通过跳跃连接算法获得的多维度特征量融合。
转换单元412,用于将所述人像特征量转换成图像输出参数。
输出单元413,用于根据所述图像输出参数输出人像图片。
此处需要说明的是:本实施例各部分详细说明可参照其它实施例对应部分,此处不再赘述。
本发明提供一种复杂背景下人像提取装置,包括将待提取图片分割为第一非重叠块;将所述第一非重叠块映射到任意维度,得到维度参数;提取所述维度参数中的特征量;根据所述特征量拼接成块,得到第一分辨率特征图;根据所述第一分辨率特征图,分割出人像特征图;将所述人像特征图的块分割为第二非重叠块;提取所述第二非重叠块的人像特征量,与通过跳跃连接算法获得的多维度特征量融合;将所述人像特征量转换成图像输出参数;根据所述图像输出参数输出人像图片,相比于现有技术,本发明无需用户手动提取人像,能够自动地、精确地提取复杂背景下的人像;对待提取图片没有场所和拍照位置的限制,适用范围广。
最后应说明的是:以上各实施例仅用以说明本发明技术方案,非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。尤其是,只要不存在结构冲突,各个实施例中所提到的各项技术特征均可以任意方式组合起来。本发明并不局限于文中公开的特定实施例,而是包括落入权利要求的范围内的所有技术方案。

Claims (2)

1.一种复杂背景下人像提取方法,其特征在于,包括:
将待提取图片分割为第一非重叠块;
将所述第一非重叠块映射到三维,得到维度参数;
提取所述维度参数中的第一特征量,根据所述第一特征量拼接成块,得到第一分辨率特征图;
提取所述维度参数中的第二特征量,根据所述第二特征量拼接成块,得到第二分辨率特征图,所述第二分辨率特征图的分辨率大于所述第一分辨率特征图的分辨率;
提取所述维度参数中的第三特征量,根据所述第三特征量拼接成块,得到第三分辨率特征图;所述第三分辨率特征图的分辨率大于所述第二分辨率特征图的分辨率;
根据所述第一分辨率特征图、第二分辨率特征图、第三分辨率特征图,将所述第一分辨率特征图的块分割为第二分辨率特征图的块,将所述第二分辨率特征图的块分割为第三分辨率特征图的块;
将所述第三分辨率特征图的块分割为第二非重叠块;
提取所述第二非重叠块的人像特征量,与通过跳跃连接算法获得的多维度特征量融合;
将融合后的人像特征量转换成图像输出参数;
根据所述图像输出参数输出人像图片。
2.一种复杂背景下人像提取装置,其特征在于,包括:
第一分割单元,用于将待提取图片分割为第一非重叠块;
映射单元,用于将所述第一非重叠块映射到三维度,得到维度参数;
第一提取单元,用于提取所述维度参数中的第一特征量、第二特征量、第三特征量;
第一拼接单元,用于根据所述第一特征量、第二特征量、第三特征量拼接成块,对应得到第一分辨率特征图、第二分辨率特征图、第三分辨率特征图,所述第二分辨率特征图的分辨率大于所述第一分辨率特征图的分辨率,所述第三分辨率特征图的分辨率大于所述第二分辨率特征图的分辨率;
第二分割单元,用于根据所述第一分辨率特征图,分割出人像特征图;
第三分割单元,用于将所述人像特征图的块分割为第二非重叠块,将所述第一分辨率特征图的块分割为第二分辨率特征图的块,将所述第二分辨率特征图的块分割为第三分辨率特征图的块;
第二提取单元,用于提取所述第二非重叠块的人像特征量,与通过跳跃连接算法获得的多维度特征量融合;
转换单元,用于将融合后的人像特征量转换成图像输出参数;
输出单元,用于根据所述图像输出参数输出人像图片。
CN202310474489.5A 2023-04-28 2023-04-28 一种复杂背景下人像提取方法及装置 Active CN116206114B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310474489.5A CN116206114B (zh) 2023-04-28 2023-04-28 一种复杂背景下人像提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310474489.5A CN116206114B (zh) 2023-04-28 2023-04-28 一种复杂背景下人像提取方法及装置

Publications (2)

Publication Number Publication Date
CN116206114A CN116206114A (zh) 2023-06-02
CN116206114B true CN116206114B (zh) 2023-08-01

Family

ID=86509785

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310474489.5A Active CN116206114B (zh) 2023-04-28 2023-04-28 一种复杂背景下人像提取方法及装置

Country Status (1)

Country Link
CN (1) CN116206114B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020043296A1 (en) * 2018-08-30 2020-03-05 Huawei Technologies Co., Ltd. Device and method for separating a picture into foreground and background using deep learning
CN113191953A (zh) * 2021-06-04 2021-07-30 山东财经大学 一种基于Transformer的人脸图像超分辨的方法
WO2021169128A1 (zh) * 2020-02-29 2021-09-02 平安科技(深圳)有限公司 眼底视网膜血管识别及量化方法、装置、设备及存储介质
CN114494296A (zh) * 2022-01-27 2022-05-13 复旦大学 一种基于Unet和Transformer相融合的脑部胶质瘤分割方法与***

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110033003B (zh) * 2019-03-01 2023-12-15 华为技术有限公司 图像分割方法和图像处理装置
CN111311629B (zh) * 2020-02-21 2023-12-01 京东方科技集团股份有限公司 图像处理方法、图像处理装置及设备
CN113870283B (zh) * 2021-09-29 2024-05-28 深圳万兴软件有限公司 人像抠图方法、装置、计算机设备及可读存储介质
CN114511703A (zh) * 2022-01-21 2022-05-17 苏州医智影科技有限公司 面向分割任务的融合Swin Transformer与UNet的迁移学习方法和***
CN114565763B (zh) * 2022-02-28 2024-01-05 北京百度网讯科技有限公司 图像分割方法、装置、设备、介质及程序产品
CN115457043A (zh) * 2022-03-23 2022-12-09 苏州迭代智能医疗科技有限公司 基于重叠自注意力变形器架构u型网络的图像分割网络
CN114972746B (zh) * 2022-04-13 2024-04-30 湖南大学 一种基于多分辨率重叠注意力机制的医学影像分割方法
CN115330817A (zh) * 2022-08-25 2022-11-11 上海健康医学院 基于Swin-Unet和形态学处理的气胸病灶分割方法及相关设备
CN115994914A (zh) * 2022-09-06 2023-04-21 中南民族大学 用于医学图像分割的ATFormer架构及对应方法
CN115471470A (zh) * 2022-09-14 2022-12-13 安徽大学 一种食管癌ct图像分割方法
CN115482382A (zh) * 2022-09-17 2022-12-16 北京工业大学 一种基于Transformer架构的图像语义分割方法
CN115984560A (zh) * 2022-12-26 2023-04-18 杭州电子科技大学 基于CNN和Transformer的图像分割方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020043296A1 (en) * 2018-08-30 2020-03-05 Huawei Technologies Co., Ltd. Device and method for separating a picture into foreground and background using deep learning
WO2021169128A1 (zh) * 2020-02-29 2021-09-02 平安科技(深圳)有限公司 眼底视网膜血管识别及量化方法、装置、设备及存储介质
CN113191953A (zh) * 2021-06-04 2021-07-30 山东财经大学 一种基于Transformer的人脸图像超分辨的方法
CN114494296A (zh) * 2022-01-27 2022-05-13 复旦大学 一种基于Unet和Transformer相融合的脑部胶质瘤分割方法与***

Also Published As

Publication number Publication date
CN116206114A (zh) 2023-06-02

Similar Documents

Publication Publication Date Title
CN113362329B (zh) 病灶检测模型的训练方法及识别图像中的病灶的方法
CN111191663B (zh) 车牌号码识别方法、装置、电子设备及存储介质
CN109583345B (zh) 道路识别方法、装置、计算机装置及计算机可读存储介质
CN113936256A (zh) 一种图像目标检测方法、装置、设备以及存储介质
CN110717851A (zh) 图像处理方法及装置、神经网络的训练方法、存储介质
CN112036260B (zh) 一种自然环境下多尺度子块聚合的表情识别方法及***
CN116645592B (zh) 一种基于图像处理的裂缝检测方法和存储介质
CN113012177A (zh) 基于几何特征提取和边缘感知编码的三维点云分割方法
Chen et al. SARAS-net: scale and relation aware siamese network for change detection
CN112836625A (zh) 人脸活体检测方法、装置、电子设备
Feng et al. Building extraction from VHR remote sensing imagery by combining an improved deep convolutional encoder-decoder architecture and historical land use vector map
CN113378897A (zh) 基于神经网络的遥感图像分类方法、计算设备及存储介质
Zhou et al. Attention transfer network for nature image matting
CN116740422A (zh) 基于多模态注意力融合技术的遥感图像分类方法及装置
CN116977674A (zh) 图像匹配方法、相关设备、存储介质及程序产品
CN115690797A (zh) 字符识别方法、装置、设备及存储介质
Pan et al. An adaptive multifeature method for semiautomatic road extraction from high-resolution stereo mapping satellite images
Li et al. Maskformer with improved encoder-decoder module for semantic segmentation of fine-resolution remote sensing images
CN116206114B (zh) 一种复杂背景下人像提取方法及装置
Chen et al. Towards deep and efficient: A deep Siamese self-attention fully efficient convolutional network for change detection in VHR images
Chacon-Murguia et al. Moving object detection in video sequences based on a two-frame temporal information CNN
CN116310832A (zh) 遥感图像处理方法、装置、设备、介质及产品
CN115713624A (zh) 一种增强遥感影像多尺度特征的自适应融合语义分割方法
Chen et al. Exploring efficient and effective generative adversarial network for thermal infrared image colorization
CN113486879A (zh) 图像区域建议框检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant