CN113610818A - 一种基于位置可控的人头分割方法 - Google Patents

一种基于位置可控的人头分割方法 Download PDF

Info

Publication number
CN113610818A
CN113610818A CN202110917750.5A CN202110917750A CN113610818A CN 113610818 A CN113610818 A CN 113610818A CN 202110917750 A CN202110917750 A CN 202110917750A CN 113610818 A CN113610818 A CN 113610818A
Authority
CN
China
Prior art keywords
head
human head
module
feature
key point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110917750.5A
Other languages
English (en)
Inventor
张明琦
吴茗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Xiaoying Innovation Technology Co ltd
Original Assignee
Hangzhou Xiaoying Innovation Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Xiaoying Innovation Technology Co ltd filed Critical Hangzhou Xiaoying Innovation Technology Co ltd
Priority to CN202110917750.5A priority Critical patent/CN113610818A/zh
Publication of CN113610818A publication Critical patent/CN113610818A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于位置可控的人头分割方法。它包括人头关键点检测模块、位置矫正模块以及人头分割三个模块组成,通过位置矫正模块对用户点击位置进行矫正,从而匹配到人头关键点位置,利用该关键点信息和人头分割模块得到最终的人头分割结果。本发明的有益效果是:能够精确的对多人场景下的单一人头进行分割,更加灵活方法,提高运行效率,部署在手机端。

Description

一种基于位置可控的人头分割方法
技术领域
本发明涉及图像处理相关技术领域,尤其是指一种基于位置可控的人头分割方法。
背景技术
人头分割是目前短视频软件中比较常见的功能,其目的是为用户制作表情包、人头贴纸、换动漫身体等特效玩法提供基础。
目前大多数的人头分割都是基于深度学习技术开发,通常采用语义分割模型来扣取图像中的人头部分。然而在图片中存在多人的情况时,无法对单一人头进行针对性的扣取,导致可玩性大大降低。虽然还有实例分割技术能对多人场景下的人头进行有区别性的分割,但是目前实例分割技术的运行考虑不高,并且还需要复杂的后处理,不适合端侧部署。
发明内容
本发明是为了克服现有技术中存在上述的不足,提供了一种运行效率高且灵活的基于位置可控的人头分割方法。
为了实现上述目的,本发明采用以下技术方案:
一种基于位置可控的人头分割方法,具体包括如下步骤:
(1)对输入图片进行预处理,将分辨率缩放到256x256,然后对其进行归一化操作,将像素点的范围控制在-1到1之间;
(2)构建人头关键点检测模块,将步骤(1)中的输入图片输入到人头关键点检测模块,得到1x256x256的关键点特征,对关键点特征进行位置解析,得到每个人头的中心点坐标,假设N={N1,N2,N3,…}表示人头的个数,其中Ni={xi,yi}表示每个人头在图片中的具***置;
(3)假设用户点击位置为I={x,y},并且存在用户点击位置不完全在图片中人头的情况,通过位置矫正模块通过将位置I循环的与N个人头的位置进行最近距离匹配,通过比较N个最近距离的大小来获取最接近用户点击位置的人头Nj,并将该人头默认为用户需要从图片中扣取的人头;
(4)对人头Nj的坐标进行高斯模糊来得到特定位置的条件,高斯模糊的计算公式如下:
Figure BDA0003206259820000021
其中σ=2,并且高斯核的大小设置为10来加大位置条件的信息范围,从而保证更好的对特定位置的人头进行分割;
(5)构建人头分割模块,该模块是一个全卷积神经网络,由编码和解码两个模块组成,编码模块由4个特征提取单元组成,每个特征提取单元由两个卷积层和一个下采样层组成,每个下采样层的倍数为2,因此整个编码模块共进行16倍的下采样;另外在解码模块中,利用一个卷积层和一个上采样的组合来恢复特征的尺寸,每次进行2倍的上采样,同时将该特征与编码模块中相同尺寸的特征进行融合,按该方式进行4次操作,最终得到与原图大小一致的输出特征;最后对输出特征进行sigmoid函数激活;
(6)将步骤(1)中的输入图片和步骤(4)中的人头位置条件信息进行合并,然后输入到步骤(5)中人头分割网络中,得到对应位置的单独人头掩膜,完成用户需要的人头分割。
本方法利用先利用人头关键点检测网络以及位置矫正模块获取用户需要分割的人头位置,后利用该位置和人头分割的分割网络来精确的对该人头进行分割,忽略图片中其他人的影响,能够精确的对多人场景下的单一人头进行分割,更加灵活方法,提高运行效率,部署在手机端。
作为优选,在步骤(2)中,人头关键点检测模块指的是:一个全卷积神经网络,由编码和解码两个模块组成,编码模块由5个特征提取单元组成,每个特征提取单元由两个卷积层和一个下采样层组成,每个下采样层的倍数为2,因此整个编码模块共进行32倍的下采样;在解码模块中,利用两个卷积层和一个上采样的组合来恢复特征的尺寸,每次进行2倍的上采样,同时将该特征与编码模块中相同尺寸的特征进行融合,按该方式进行5次操作,最终得到与原图大小一致的输出特征图;对输出特征图中的关键点位置进行解析,每个关键点位置利用求取期望的方法来获得其在原图中的具体坐标信息。
作为优选,在步骤(3)中,位置I与N个人头的位置的最近距离dst计算公式如下
Figure BDA0003206259820000031
本发明的有益效果是:能够精确的对多人场景下的单一人头进行分割,更加灵活方法,提高运行效率,部署在手机端。
附图说明
图1是本发明的方法流程图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步的描述。
如图1所述的实施例中,一种基于位置可控的人头分割方法,具体包括如下步骤:
(1)对输入图片进行预处理,将分辨率缩放到256x256,然后对其进行归一化操作,将像素点的范围控制在-1到1之间;
(2)构建人头关键点检测模块,将步骤(1)中的输入图片输入到人头关键点检测模块,得到1x256x256的关键点特征,对关键点特征进行位置解析,得到每个人头的中心点坐标,假设N={N1,N2,N3,…}表示人头的个数,其中Ni={xi,yi}表示每个人头在图片中的具***置;人头关键点检测模块指的是:一个全卷积神经网络,由编码和解码两个模块组成,编码模块由5个特征提取单元组成,每个特征提取单元由两个卷积层和一个下采样层组成,每个下采样层的倍数为2,因此整个编码模块共进行32倍的下采样;在解码模块中,利用两个卷积层和一个上采样的组合来恢复特征的尺寸,每次进行2倍的上采样,同时将该特征与编码模块中相同尺寸的特征进行融合,按该方式进行5次操作,最终得到与原图大小一致的输出特征图;对输出特征图中的关键点位置进行解析,每个关键点位置利用求取期望的方法来获得其在原图中的具体坐标信息;
(3)假设用户点击位置为I={x,y},并且存在用户点击位置不完全在图片中人头的情况,通过位置矫正模块通过将位置I循环的与N个人头的位置进行最近距离匹配,通过比较N个最近距离的大小来获取最接近用户点击位置的人头Nj,并将该人头默认为用户需要从图片中扣取的人头;位置I与N个人头的位置的最近距离dst计算公式如下
Figure BDA0003206259820000041
(4)对人头Nj的坐标进行高斯模糊来得到特定位置的条件,高斯模糊的计算公式如下:
Figure BDA0003206259820000051
其中σ=2,并且高斯核的大小设置为10来加大位置条件的信息范围,从而保证更好的对特定位置的人头进行分割;
(5)构建人头分割模块,该模块是一个全卷积神经网络,由编码和解码两个模块组成,编码模块由4个特征提取单元组成,每个特征提取单元由两个卷积层和一个下采样层组成,每个下采样层的倍数为2,因此整个编码模块共进行16倍的下采样;另外在解码模块中,利用一个卷积层和一个上采样的组合来恢复特征的尺寸,每次进行2倍的上采样,同时将该特征与编码模块中相同尺寸的特征进行融合,按该方式进行4次操作,最终得到与原图大小一致的输出特征;最后对输出特征进行sigmoid函数激活;
(6)将步骤(1)中的输入图片和步骤(4)中的人头位置条件信息进行合并,然后输入到步骤(5)中人头分割网络中,得到对应位置的单独人头掩膜,完成用户需要的人头分割。
整个方法包括人头关键点检测模块、位置矫正模块以及人头分割三个模块组成。通过位置矫正模块对用户点击位置进行矫正,从而匹配到人头关键点位置。利用该关键点信息和人头分割模块得到最终的人头分割结果。整个***采用轻量化的模型设计,运行效果高。本方法利用先利用人头关键点检测网络以及位置矫正模块获取用户需要分割的人头位置,后利用该位置和人头分割的分割网络来精确的对该人头进行分割,忽略图片中其他人的影响,能够精确的对多人场景下的单一人头进行分割,更加灵活方法,提高运行效率,部署在手机端。

Claims (3)

1.一种基于位置可控的人头分割方法,其特征是,具体包括如下步骤:
(1)对输入图片进行预处理,将分辨率缩放到256x256,然后对其进行归一化操作,将像素点的范围控制在-1到1之间;
(2)构建人头关键点检测模块,将步骤(1)中的输入图片输入到人头关键点检测模块,得到1x256x256的关键点特征,对关键点特征进行位置解析,得到每个人头的中心点坐标,假设N={N1,N2,N3,…}表示人头的个数,其中Ni={xi,yi}表示每个人头在图片中的具***置;
(3)假设用户点击位置为I={x,y},并且存在用户点击位置不完全在图片中人头的情况,通过位置矫正模块通过将位置I循环的与N个人头的位置进行最近距离匹配,通过比较N个最近距离的大小来获取最接近用户点击位置的人头Nj,并将该人头默认为用户需要从图片中扣取的人头;
(4)对人头Nj的坐标进行高斯模糊来得到特定位置的条件,高斯模糊的计算公式如下:
Figure FDA0003206259810000011
其中σ=2,并且高斯核的大小设置为10来加大位置条件的信息范围,从而保证更好的对特定位置的人头进行分割;
(5)构建人头分割模块,该模块是一个全卷积神经网络,由编码和解码两个模块组成,编码模块由4个特征提取单元组成,每个特征提取单元由两个卷积层和一个下采样层组成,每个下采样层的倍数为2,因此整个编码模块共进行16倍的下采样;另外在解码模块中,利用一个卷积层和一个上采样的组合来恢复特征的尺寸,每次进行2倍的上采样,同时将该特征与编码模块中相同尺寸的特征进行融合,按该方式进行4次操作,最终得到与原图大小一致的输出特征;最后对输出特征进行sigmoid函数激活;
(6)将步骤(1)中的输入图片和步骤(4)中的人头位置条件信息进行合并,然后输入到步骤(5)中人头分割网络中,得到对应位置的单独人头掩膜,完成用户需要的人头分割。
2.根据权利要求1所述的一种基于位置可控的人头分割方法,其特征是,在步骤(2)中,人头关键点检测模块指的是:一个全卷积神经网络,由编码和解码两个模块组成,编码模块由5个特征提取单元组成,每个特征提取单元由两个卷积层和一个下采样层组成,每个下采样层的倍数为2,因此整个编码模块共进行32倍的下采样;在解码模块中,利用两个卷积层和一个上采样的组合来恢复特征的尺寸,每次进行2倍的上采样,同时将该特征与编码模块中相同尺寸的特征进行融合,按该方式进行5次操作,最终得到与原图大小一致的输出特征图;对输出特征图中的关键点位置进行解析,每个关键点位置利用求取期望的方法来获得其在原图中的具体坐标信息。
3.根据权利要求1所述的一种基于位置可控的人头分割方法,其特征是,在步骤(3)中,位置I与N个人头的位置的最近距离dst计算公式如下
Figure FDA0003206259810000021
CN202110917750.5A 2021-08-11 2021-08-11 一种基于位置可控的人头分割方法 Pending CN113610818A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110917750.5A CN113610818A (zh) 2021-08-11 2021-08-11 一种基于位置可控的人头分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110917750.5A CN113610818A (zh) 2021-08-11 2021-08-11 一种基于位置可控的人头分割方法

Publications (1)

Publication Number Publication Date
CN113610818A true CN113610818A (zh) 2021-11-05

Family

ID=78340207

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110917750.5A Pending CN113610818A (zh) 2021-08-11 2021-08-11 一种基于位置可控的人头分割方法

Country Status (1)

Country Link
CN (1) CN113610818A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106960195A (zh) * 2017-03-27 2017-07-18 深圳市丰巨泰科电子有限公司 一种基于深度学习的人群计数方法及装置
CN108304820A (zh) * 2018-02-12 2018-07-20 腾讯科技(深圳)有限公司 一种人脸检测方法、装置及终端设备
US20190057507A1 (en) * 2017-08-18 2019-02-21 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images
CN111339395A (zh) * 2020-02-11 2020-06-26 山东经贸职业学院 一种用于电子商务***的数据信息匹配方法和***
CN111670457A (zh) * 2017-12-03 2020-09-15 脸谱公司 动态对象实例检测、分割和结构映射的优化

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106960195A (zh) * 2017-03-27 2017-07-18 深圳市丰巨泰科电子有限公司 一种基于深度学习的人群计数方法及装置
US20190057507A1 (en) * 2017-08-18 2019-02-21 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images
CN111670457A (zh) * 2017-12-03 2020-09-15 脸谱公司 动态对象实例检测、分割和结构映射的优化
CN108304820A (zh) * 2018-02-12 2018-07-20 腾讯科技(深圳)有限公司 一种人脸检测方法、装置及终端设备
CN111339395A (zh) * 2020-02-11 2020-06-26 山东经贸职业学院 一种用于电子商务***的数据信息匹配方法和***

Similar Documents

Publication Publication Date Title
Chen et al. Fsrnet: End-to-end learning face super-resolution with facial priors
CN109961005B (zh) 一种基于二维卷积网络的动态手势识别方法及***
CN111340814B (zh) 一种基于多模态自适应卷积的rgb-d图像语义分割方法
CN106960202B (zh) 一种基于可见光与红外图像融合的笑脸识别方法
CN108537754B (zh) 基于形变引导图的人脸图像复原***
CN108647560B (zh) 一种基于cnn的保持表情信息的人脸转移方法
CN112766160A (zh) 基于多级属性编码器和注意力机制的人脸替换方法
CN112733797B (zh) 人脸图像的视线矫正方法、装置、设备及存储介质
CN114723760B (zh) 人像分割模型的训练方法、装置及人像分割方法、装置
CN111899169B (zh) 一种基于语义分割的人脸图像的分割网络的方法
CN114529982B (zh) 基于流式注意力的轻量级人体姿态估计方法及***
CN111476133B (zh) 面向无人驾驶的前背景编解码器网络目标提取方法
Hu et al. Face restoration via plug-and-play 3D facial priors
CN112966574A (zh) 人体三维关键点预测方法、装置及电子设备
CN111768354A (zh) 基于多尺度人脸部位特征字典的人脸图像复原***
CN113935435A (zh) 基于时空特征融合的多模态情感识别方法
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
CN113780140B (zh) 基于深度学习的手势图像分割与识别方法以及装置
CN113516604B (zh) 图像修复方法
CN110826534A (zh) 一种基于局部主成分分析的人脸关键点检测方法及***
CN111950496B (zh) 一种蒙面人身份识别方法
Kostopoulos et al. Haptic access to conventional 2D maps for the visually impaired
CN114882553B (zh) 一种基于深度学习的微表情识别方法及***
CN113610818A (zh) 一种基于位置可控的人头分割方法
CN116563908A (zh) 一种基于多任务协同网络的人脸解析和情感识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination