CN116091955A - 一种分割方法、装置、设备及计算机可读存储介质 - Google Patents

一种分割方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN116091955A
CN116091955A CN202111299080.1A CN202111299080A CN116091955A CN 116091955 A CN116091955 A CN 116091955A CN 202111299080 A CN202111299080 A CN 202111299080A CN 116091955 A CN116091955 A CN 116091955A
Authority
CN
China
Prior art keywords
video frame
segmented
training
video
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111299080.1A
Other languages
English (en)
Inventor
汤成
程宝平
谢小燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Hangzhou Information Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202111299080.1A priority Critical patent/CN116091955A/zh
Publication of CN116091955A publication Critical patent/CN116091955A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本申请公开了一种分割方法、装置、设备及计算机可读存储介质,包括:获取待分割的视频数据和训练好的分割模型;确定视频数据中包括的多个视频帧,并将多个视频帧依次确定为待分割视频帧;当待分割视频帧之前存在至少一个历史视频帧,从至少一个历史视频帧的目标透明度模板中确定待分割视频帧的参考透明度模板;将待分割视频帧和参考透明度模板输入至训练好的分割模型,得到待分割视频帧的目标透明度模板;基于目标透明度模板对待分割视频帧进行提取处理,得到待分割视频帧的目标前景图像。如此,通过历史视频帧对应的参考透明度模板来增加输入的时空特征,从而减少计算复杂度,并提升目标透明度模板的准确性,从而提高分割效果。

Description

一种分割方法、装置、设备及计算机可读存储介质
技术领域
本申请涉及图像技术领域,涉及但不限于一种分割方法、装置、设备及计算机可读存储介质。
背景技术
随着网络技术的不断发展,各种互联网通信方式也随之兴起,人们对通信已经由最初的单一语音需求转变为对视频和音频的通信需求,以传送语音数据和视频数据为一体的视频通信业务成为通信领域发展的热点,并在会议电视、远程视频医疗、远程视频教育等方面得到越来越广泛的应用。
随之带来的视频通信中对趣味性与隐私保护等需求,背景替换功能应运而生,其中涉及到视频人像分割方法,用于抠出视频图像中人像区域,再通过图像融合的方法实现替换背景。
相关技术中的视频人像分割算法未考虑前后帧在时间上的连续性,因此可能产生分割的抖动,从而影响分割效果,降低分割准确性。
发明内容
有鉴于此,本申请实施例提供一种分割方法、装置、设备及计算机可读存储介质。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种分割方法,所述方法包括:
获取待分割的视频数据和训练好的分割模型;
确定所述视频数据中包括的多个视频帧,并将所述多个视频帧依次确定为待分割视频帧;
当所述待分割视频帧之前存在至少一个历史视频帧,从所述至少一个历史视频帧的目标透明度模板中确定所述待分割视频帧的参考透明度模板;
将所述待分割视频帧和所述参考透明度模板输入至所述训练好的分割模型,得到所述待分割视频帧的目标透明度模板;
基于所述目标透明度模板对所述待分割视频帧进行提取处理,得到所述待分割视频帧的目标前景图像。
本申请实施例提供一种分割装置,所述分割装置包括:
获取模块,用于获取待分割的视频数据和训练好的分割模型;
第一确定模块,用于确定所述视频数据中包括的多个视频帧,并将所述多个视频帧依次确定为待分割视频帧;
第二确定模块,用于当所述待分割视频帧之前存在至少一个历史视频帧,从所述至少一个历史视频帧的目标透明度模板中确定所述待分割视频帧的参考透明度模板;
分割模块,用于将所述待分割视频帧和所述参考透明度模板输入至所述训练好的分割模型,得到所述待分割视频帧的目标透明度模板;
提取模块,用于基于所述目标透明度模板对所述待分割视频帧进行提取处理,得到所述待分割视频帧的目标前景图像。
本申请实施例提供一种分割设备,所述分割设备包括:
处理器;以及
存储器,用于存储可在所述处理器上运行的计算机程序;
其中,所述计算机程序被处理器执行时实现上述分割方法。
本申请实施例提供一种计算机可读存储介质,所述计算机存储介质中存储有计算机可执行指令,该计算机可执行指令配置为执行上述分割方法。
本申请实施例提供一种分割方法、装置、设备及计算机可读存储介质,该分割方法包括:先获取待分割的视频数据和训练好的分割模型,再确定视频帧数据中所包括的多个视频帧,并将该多个视频帧依次确定为待分割视频帧;接着,在该待分割视频帧之前存在至少一个历史视频帧的情况下,则从至少一个历史视频帧对应的目标透明度模板中确定该待分割视频帧对应的参考透明度模板,这里,该参考透明度模板则为待分割视频帧的时空特征;然后,将待分割视频帧和参考透明度模板输入至训练好的分割模型,从而通过该训练好的分割模型的输出得到待分割视频帧的目标透明度模板,如此,在通过训练好的分割模型在进行分割时,充分考虑到待分割视频帧及其时空特征,简化分割过程,从能够快速地得到精确度高的目标透明度模板;最后,基于该目标透明度模板对待分割视频帧进行提取处理,则可得到待分割视频帧对应的目标前景图像,该目标前景图像更加真实且符合实际情况。
附图说明
在附图(其不一定是按比例绘制的)中,相似的附图标记可在不同的视图中描述相似的部件。附图以示例而非限制的方式大体示出了本文中所讨论的各个实施例。
图1为本申请实施例提供的分割方法的一种实现流程示意图;
图2为本申请实施例提供的确定参考透明度模板的一种实现流程示意图;
图3为本申请实施例提供的确定目标透明度模板的一种实现流程示意图;
图4为本申请实施例提供的确定目标语义信息的一种实现流程示意图;
图5为本申请实施例提供的分割方法的另一种实现流程示意图;
图6为本申请实施例提供的确定训练好的分割模型的一种实现流程示意图;
图7为本申请实施例提供的确定初步训练好的分割模型的一种实现流程示意图;
图8为本申请实施例提供的确定训练好的分割模型的另一种实现流程示意图;
图9为本申请实施例提供的分割方法的再一种实现流程示意图;
图10为本申请实施例提供的图像数据透明度模板变换的一种结构示意图;
图11为本申请实施例提供的人像分割网络模型组成架构的一种结构示意图;
图12为本申请实施例提供的分割装置的组成结构示意图;
图13为本申请实施例提供的分割设备的组成结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
在相关技术中,存在通过判断视频前后帧差异值,决定是否使用预设模型进行人像分割处理,若差异值大于预设阈值,则根据预设模型对第一图像进行人像分割处理;若差异值小于或等于预设阈值,则根据第二图像的人像分割结果和运动估计算法,确定人像分割结果。该方案在后处理阶段考虑了视频中前后帧的时空联系性,减少了一定的运算量。但是前后帧差异值的设置与视频场景存在较强联系,较难推广至不同场景。
还有在MobileNet网络模型中融入空洞卷积,设计细节增强模块,将模型中的批标准化节点与前后卷积层融合并调节降采样率等方法,减少了模型的计算量,但是模型的输入还是单张图像,没有更丰富的先验信息进行监督如视频前后帧间的相关性,在视频人像分割时较难得到更好的分割结果。
相关技术中还存在如下方法:获取待处理图像,对待处理图像进行图像语义分割得到语义分割图像,其中,语义分割图像包括经过语义分割出的目标区域和非目标区域;接着,对待处理图像进行姿态识别,得到识别出骨架区域的姿态识别图像;然后,将语义分割图像的目标区域和非目标区域与姿态识别图像的骨架区域进行融合,得到划分出前景区域、背景区域和待识别区域的三分图;最后,根据待处理图像和三分图,生成用于对待处理图像进行图像分离的透明度遮罩图像。该方法通过姿态识别获取人体骨架区域组合人像分割结果得到三分图后再获取透明度遮罩图像,虽然可以获得较好的分割结果,但增加人体姿态识别以及三分图获取透明度遮罩的计算量较大,计算过程复杂,较难应用于实时计算场景。
相关技术中还提出电子设备可以对初始分割模型进行更新,得到更新后的分割模型。电子设备可以使用更新后的分割模型来对图像做前背景分割,得到更加精准的前背景分割结果,并基于该精准的前背景分割结果再通过用户的后处理如图割算法(Graph Cut)跳帧的图像分割效果。该方案可以实现较高的分割精度,但需要用户手动交互,难以应用于实时通信场景,实时性差。
基于相关技术所存在的问题,本申请实施例提供一种分割方法,本申请实施例提供的方法可以通过计算机程序来实现,该计算机程序在执行的时候,完成本申请实施例提供的分割方法。在一些实施例中,该计算机程序可以在分割设备中的处理器执行。图1为本申请实施例提供的分割方法的一种实现流程,如图1所示,该分割方法包括:
步骤S101,获取待分割的视频数据和训练好的分割模型。
这里,待分割的视频数据可以直播视频数据、会议视频数据、线上培训视频数据等,该待分割视频数据可以通过监控设备、智能手机、电脑等进行采集,采集之后,该待分割视频数据可以存储在云端存储设备或者本地存储设备中。基于此,可通过数据位置或者数据内容标识指令来获得该待分割视频数据。
在本申请实施例中,训练好的分割模型可以是基于人工智能算法的模型,其中,人工智能算法可以为神经网络算法、遗传算法、贝叶斯网络算法等。在实际中,该训练好的分割模型的输入包括待分割视频数据及其对应的时空特征,基于时空特征,能够提高训练好的分割模型的分割速度和准确性,从而提升分割效果。
步骤S102,确定视频数据中包括的多个视频帧,并将多个视频帧依次确定为待分割视频帧。
在实际中,一个视频数据是由多个视频帧组成,可通过多媒体视频处理技术确定出视频数据中包括的多个视频帧,例如,该多媒体视频处理技术可以为Fast ForwardMpeg,缩写记为ffmpeg,ffmpeg是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。
在本申请实施例中,可按照多个视频帧在视频数据中的先后顺序,将多个视频帧依次确定为待分割视频帧;也可以按照自定义指定的顺序,将多个视频帧确定为待分割视频帧,本申请对确定待分割视频帧的方法不做限定。在实际实现时,每次将多个视频帧中的一个视频帧作为待分割视频帧,直至每个视频帧均被作为过待分割视频帧为止。
步骤S103,当待分割视频帧之前存在至少一个历史视频帧,从至少一个历史视频帧的目标透明度模板中确定待分割视频帧的参考透明度模板。
这里,待分割视频帧之前存在至少一个历史视频帧是指:该待分割视频帧不是视频数据中的第一帧视频帧,而是该视频数据中的第二帧视频帧或者第二帧之后的视频帧。基于此,该至少一个历史视频帧的帧数量至少为1个,可以为1个、2个、3个等。
在本申请实施例中,可根据默认规则或者预设规则,将超前待分割视频帧n-i帧的历史视频帧中确定出目标历史视频帧,由于该目标历史视频帧与待分割视频帧之间存在前后关系的联系,因此,该目标历史视频帧所对应的目标透明度模板能够对待分割视频帧的目标透明度模板起到参考的作用。基于此,会将该目标历史视频帧所对应的目标透明度模板确定为待分割视频帧的参考透明度模板。其中,n为至少一个历史视频帧的帧数量,n为大于或者等于1的整数;i为大于等于等0且小于n的整数。
以n的取值为10举例来说,表征此时待分割视频帧为第11帧视频帧,那么,i可以取值为1,也即将超前待分割视频帧一帧视频帧确定为目标历史视频帧;i可以取值为3,也即将超前待分割视频帧三帧的视频帧确定为目标历史视频帧;i可以取值为5,也即将超前待分割视频帧五帧的视频帧确定为目标历史视频帧。
在一些实施例中,如果待分割视频帧之前并不存在任一历史视频帧,则表征此时待分割视频帧为视频数据中的第一帧视频帧,会将该待分割视频帧的Y分量确定为待分割视频帧的参考透明度。
步骤S104,将待分割视频帧和参考透明度模板输入至训练好的分割模型,得到待分割视频帧的目标透明度模板。
在本申请实施例中,步骤S102中确定的待分割视频帧的编码格式可以采用YUV编码,那么,待分割视频帧则包括Y分量、U分量和V分量。
在步骤S104中,是将Y分量、U分量、V分量以及参考透明度模板输入至训练好的待分割模型,接着,一方面,是对Y分量、U分量、V分量以及参考透明度模板进行语义信息提取,得到目标语义信息;另一方面,还同时对Y分量、U分量、V分量以及参考透明度模板进行边缘信息提取,从而得到目标边缘信息;然后,融合该目标语义信息和目标边缘信息,得到目标融合信息;最后,对该目标融合信息进行特征提取,从而得到待分割视频帧对应的目标透明模板。
在实际中,该目标透明板可以为由0、1组成黑白图像,其中,黑色表征背景图像,通过0表示;白色表征前景图像,通过1表示。并且该目标透明度模板的大小与待分割视频帧的大小相同。
步骤S105,基于目标透明度模板对待分割视频帧进行提取处理,得到待分割视频帧的目标前景图像。
这里,可将目标透明度模板与待分割视频帧进行与运算,使得背景图像取值为0,而目标前景图像的取值为前景图像本身的值,从而实现对待分割视频帧提取处理。
本申请实施例提供一种分割方法,先获取待分割的视频数据和训练好的分割模型,再确定视频帧数据中所包括的多个视频帧,并将该多个视频帧依次确定为待分割视频帧;接着,在该待分割视频帧之前存在至少一个历史视频帧的情况下,则从至少一个历史视频帧对应的目标透明度模板中确定该待分割视频帧对应的参考透明度模板,这里,该参考透明度模板则为待分割视频帧的时空特征;然后,将待分割视频帧和参考透明度模板输入至训练好的分割模型,从而通过该训练好的分割模型的输出得到待分割视频帧的目标透明度模板,如此,在通过训练好的分割模型在进行分割时,充分考虑到待分割视频帧及其时空特征,简化分割过程,从能够快速地得到精确度高的目标透明度模板;最后,基于该目标透明度模板对待分割视频帧进行提取处理,则可得到待分割视频帧对应的目标前景图像,该目标前景图像更加真实且符合实际情况。
在一些实施例中,在实现步骤S103“当待分割视频帧之前存在至少一个历史视频帧,从至少一个历史视频帧的目标透明度模板中确定待分割视频帧的参考透明度模板”,如图2所示,可通过如下步骤S1031至步骤S1033来实现:
步骤S1031,确定至少一个历史视频帧的帧数量,并将帧数量记为n。
这里,n为大于或者等于1的整数。在一些实施例中,视频数据中的任一视频帧中可包括帧标识,能够表征该任一视频帧在多个视频帧中的位置。示例地,如果帧标识表征待分割视频帧处于第十一帧的位置,那么,该待分割视频帧之前存在十帧历史视频帧,也即,帧数量n为10。
步骤S1032,将超前待分割视频帧n-i帧的历史视频帧确定为目标历史视频帧。
这里,i大于等于零且小于n的整数。以n为10举例来说,理论上,i的取值可以为0至9中的任一整数,在实际中,为了提高待分割视频帧和目标历史视频帧的相关性,使得目标历史视频帧具备较强的参考意义,该目标历史视频帧不宜距离待分割视频帧太远,也即,i的取值不宜过大,一般情况下,i的取值可以为1、2、3、5等。
在本申请实施例中,当i取值为1的时候,则将超前待分割视频帧一帧的历史视频帧确定为目标历史视频帧;当i取值为2的时候,则将超前待分割视频帧两帧的历史视频帧确定为目标历史视频帧;当i取值为3的时候,则将超前待分割视频帧三帧的历史视频帧确定为目标历史视频帧;同样地,当i取值为5的时候,则将超前待分割视频帧五帧的历史视频帧确定为目标历史视频帧。
在实际实现的时候,可先确定出i,然后再将超前待分割视频帧n-i帧的历史视频帧确定为目标历史视频帧。
步骤S1033,将目标历史视频帧对应的目标透明度模板确定为待分割视频帧的参考透明度模板。
这里,可先获取目标历史视频帧对应的目标透明度模板,其中该目标历史视频帧对应的目标透明度也是基于上述步骤S101至步骤S105而确定出来的;接着,将该目标历史视频帧对应的目标透明度模板确定为待分割视频帧的参考透明度模板。
在本申请实施例中,通过上述步骤S1031至步骤S1033,先确定出至少一个历史视频帧的帧数量n;然后,将超前待分割视频帧n-i帧的历史视频帧确定为目标历史视频帧,其中i为大于等于零且小于n的整数,以此确定出与待分割视频帧存在关联的历史视频帧;最后,将该目标历史视频帧对应的目标透明度模板确定为待分割视频帧的参考透明度模板,由于该目标历史视频帧对应的目标透明度模板为视频数据的时空特征,从而能够简单、高效地获取视频数据的时空特征。
在一些实施例中,步骤S104“将待分割视频帧和参考透明度模板输入至训练好的分割模型,得到待分割视频帧的目标透明度模板”在实际实现时,参考图3,可通过以下步骤S1041至步骤S1044来实现:
步骤S1041,对待分割视频帧和参考透明度模板进行语义信息提取,得到目标语义信息。
在实际实现时,参考图4,步骤S1041可通过以下步骤S411至步骤S413来实现:
步骤S411,依次对待分割视频帧和参考透明度模板进行局部特征提取、拼接处理,得到第一局部特征。
这里,可通过卷积层对待分割视频帧和参考透明度模板进行局部特征提取,得到提取结果,其中,每层卷积层由若干卷积单元组成,每个卷积单元的参数都是通过反向传播算法最佳化得到的。卷积运算的目的是提取输入的不同特征,第一层卷积层能够提取一些低级的特征如边缘、线条和角等层级,更多层的结构能从低级特征中迭代提取更复杂的特征,在步骤S411是为了提取到较为抽象的特征,比如,视频帧中的分类信息,也即视频帧中某一位置是属于背景还是属于前景。示例地,该卷积层可以为一个3*3的卷积层。
在本申请实施例中,可基于Y、U、V和参考模板的顺序,对提取结果进行拼接,得到第一局部特征。当然,也可基于参考模板、Y、U和V的顺序,对提取结果进行拼接,本申请实施例对拼接的顺序不做限定。
步骤S412,对第一局部特征进行下采样和特征提取,得到第二局部特征。
这里,可对第一局部特征进行多次下采样和特征提取,在本申请实施例中,以进行两次下采样和特征提取为例,首先对第一局部特征进行第一次下采样,得到第一下采样结果,然后再对第一下采样结果进行特征提取,得到第一提取结果;再对第一提取结果进行第二次下采样,得到第二下采样结果,然后再对第二下采样结果进行特征提取,得到第二局部特征。
其中,下采样的倍数可以为4倍、16倍、64倍等,承接上面的例子,第一次下采样的倍数可以为4倍,经过第一次下采样,则将第一局部特征的长宽各缩小至输入尺寸的1/2,从而能够减小每部分的计算量;然后可通过多个密集综合卷积模块(例如,2个密集综合卷积模块)继续对第一下采样结果进行特征提取,从而提取到更为抽象的分类特征;接着,第二次下采样的倍数可以为16倍,经过第二次下采样,则将第一提取结果的长宽各缩小至输入尺寸的1/4,再次减小每部分的计算量;再经过两个密集综合卷积模块进行二次特征提取,得到第二局部特征。
步骤S413,对第二局部特征进行上采样,得到目标语义信息。
这里,上采样的倍数与步骤S412中下采样的倍数相对应,示例地,如果步骤S412中分别进行了4倍下采样和16倍下采样,此时上采样的倍数则为64倍,从而将尺寸复原至输入时的尺寸,经上采样复原,得到目标语义信息,该目标语义信息包括待分割视频帧较为抽象的分类特征信息,也即待分割视频帧中的前景、背景信息。
步骤S1042,对待分割视频帧和参考透明度模板进行边缘信息提取,得到目标边缘信息。
在实际实现时,步骤S1042可通过以下步骤S421和步骤S422来实现:
步骤S421,对待分割视频帧和参考透明度模板进行局部特征提取,得到第三局部特征。
这里,步骤S421中局部特征提取的方法与步骤S411中局部特征提取的方法相类似,因此,步骤S421中局部特征提取的方法可参考步骤S411中局部特征提取的方法。
步骤S422,对第三局部特征进行特征提取,得到目标边缘信息。
这里,可通过一个密集综合卷积模块对第三局部特征进行特征提取,得到目标边缘信息,该目标边缘信息是指待分割视频帧中前景与背景交界处的图像信息。
步骤S1043,融合目标语义信息和目标边缘信息,得到目标融合信息。
这里,可通过特征图逐元素相加的方法来融合目标语义信息和目标边缘信息,得到包含抽象分类特征信息以及边缘信息的目标融合信息。
步骤S1044,对目标融合信息进行特征提取,得到目标透明度模板。
这里,步骤S1044中特征提取的方法与步骤S411中局部特征提取的方法相类似,因此,步骤S1044中局部特征提取的方法可参考步骤S411中局部特征提取的方法。
在本申请实施例中,通过上述步骤S1041至步骤S1044,一方面,通过特征提取、拼接、下采样、上采样等,实现对待分割视频帧和参考透明度模板中抽象分类特征的提取;同时,还通过特征提取得到待分割视频帧和参考透明度模板的目标边缘信息,最后,融合抽象分类特征和目标边缘信息,经特征提取后获得待分割视频帧的目标透明度模板,由于在处理过程中考虑到参考透明度模板这一时空特征,从而能够简化分割过程,并提升分割准确性。
在一些实施例中,目标视频帧包括Y分量、U分量和V分量,在步骤S102之后,如图5所示,还可执行以下步骤:
步骤S103’,判断待分割视频帧之前是否存在至少一个历史视频帧。
这里,可通过判断待分割视频帧是否为视频数据的第一帧视频帧,来判断待分割视频帧之前是否存在至少一个实例视频帧。如果待分割视频帧为视频数据的第一帧视频帧,则表征待分割视频帧之前不存在任一历史视频帧,进入步骤S104’;而如果待分割视频帧不是视频数据的第一帧视频帧,则表征待分割视频帧之前存在至少一个历史视频帧,进入步骤S106’。
步骤S104’,将Y分量确定为待分割视频帧的参考透明度模板。
此时,待分割视频帧之前不存在任一历史视频帧,为提升分割的可靠性,则将待分割视频帧的Y分量确定为该待分割视频帧的参考透明度模板。
步骤S105’,将待分割视频帧和参考透明度模板输入至训练好的分割模型,得到待分割视频帧的目标透明度模板。
这里,步骤S105’的实现过程与步骤S104的实现过程相类似,因此,步骤S105’的实现过程可参考步骤S104的实现过程。
步骤S106’,进入步骤S103。
此时,表征待分割视频帧之前存在至少一个历史视频帧,由于步骤S103是针对待分割视频帧之前存在至少一个历史视频帧的处理情况,则进行步骤S103进行处理。
通过以上步骤S103’至步骤S106’,在待分割视频帧之前不存在任一历史视频帧的情况下,则将待分割视频帧的Y分量确定为待分割视频帧的参考透明度模板;而在待分割视频帧之前存在至少一个历史视频帧的情况下,则从至少一个历史视频帧对应的目标透明度模板中确定该待分割视频帧的参考透明度模板;最后,将待分割视频帧和参考透明度模板输入至训练好的分割模型,从而得到待分割模型的目标透明度模板,也即,无论在待分割视频帧之前是否存在至少一个历史视频帧,均能够实现对该待分割视频帧较为精确的分割,从而提升分割方案的完整性。
在一些实施例中,在执行上述步骤S101“获取待分割的视频数据和训练好的分割模型”之前,还需确定出训练好的分割模型,参考图6,可通过如下步骤S001至步骤S003来确定出训练好的分割模型:
步骤S001,获取视频训练数据、图片训练数据和预设分割模型。
这里,图片训练数据包括训练图片、训练图片对应的第一训练标签和训练图片对应的训练图片透明度模板;视频训练数据包括训练视频帧、训练视频帧对应的第二训练标签和训练视频帧对应的训练视频帧透明度模板。
在本申请实施例中,视频训练数据和图片训练数据可从通用服务器或者专用服务器中获得。在实际中,图片训练数据还可从Portrait Matting_dataset数据集而获得。预设分类模型是指模型中各个权重值还未确定,该各个权重值此时还是默认的初始值或者随机生成的值。
在一些实施例中,图片训练数据中的训练图片和训练图片对应的第一训练标签可通过步骤S001来获取,而训练图片对应的训练图片透明度模板可通过如下步骤S0011和步骤S0012来获得:
步骤S0011,对训练图片进行标注处理,得到原始透明度模板。
这里,以训练图片从Portrait Matting_dataset数据集获得举例来说,由于该数据集已具有粗糙的透明度模板,则再使用图像处理软件继续对透明度模板进行精细化处理,从而完成对训练图的标注处理,得到训练图片对应的原始透明度模板。
步骤S0012,对原始透明度模板进行刚性变换和/或非刚性变换处理,得到训练图片透明度模板。
这里,由于训练图片为一张图片,并不存在时间上前后关联的其他图片,因此,可通过刚性变换和/或非刚性变换来模拟训练图片的运动,从而得到训练图片透明度模板。其中,刚性变换是指,对原始透明模板中图像的平移加旋转,图像形状不变,得到的变换称为刚性变换;非刚性变换是比刚性变换更复杂的变换,例如,缩放、仿射、投射、多项式等一些比较复杂的变换。
在本申请实施例中,训练图片透明度模板可认为是训练图片的时空特征。
步骤S002,利用图片训练数据对预设分割模型进行训练,得到初步训练好的分割模型。
在实际实现时,参考图7,可通过如下步骤S021至步骤S023来实现步骤S002:
步骤S021,将训练图片和训练图片透明度模板输入至预设分割模型,得到训练图片对应的第一预测标签。
这里,是对预设分割模型进行第一次训练,得到的结果为训练图片对应的第一预测标签,实际中,训练过程的与推理过程相类似,因此,过程步骤S021的实现过程与步骤S104的实现过程相类似,因此,步骤S021的实现过程可参考步骤S104的实现过程。
步骤S022,获取第一训练标签与第一预测标签之间的第一误差信息。
这里,第一训练标签和第一预测标签均为矩阵,第一训练标签与第一预测标签之间的距离可表征两者之间的差异,因此,可将第一训练标签与第一预测标签之间的距离确定为第一误差信息。
步骤S023,基于第一误差信息和第一误差阈值对预设分割模型进行反向传播训练,得到初步训练好的分割模型。
这里,第一误差阈值可以为默认值,也可以为自定义设置值,在第一误差信息小于第一误差阈值的情况下,表征第一误差信息在允许范围之内,满足训练停止条件,无需继续进行训练,表征此时已经得到初步训练好的分割模型;而如果第一误差信息大于或者等于第一误差阈值的情况下,表征第一误差信息并不在允许范围之内,不满足训练停止条件,表征此时还未得到初步训练好的分割模型,仍需继续进行训练。
步骤S003,利用视频训练数据对初步训练好的分割模型继续进行训练,得到训练好的分割模型。
在实际实现时,参考图8,可通过如下步骤S031至步骤S033来实现步骤S003:
步骤S031,将训练视频帧和训练视频帧透明度模板输入至初步训练好的分割模型,得到训练视频帧对应的第二预测标签。
这里,步骤S031的实现过程与步骤S021的实现过程相类似,因此,步骤S031的实现过程可参考步骤S021的实现过程。
步骤S032,获取第二训练标签与第二预测标签之间的第二误差信息。
这里,步骤S032的实现过程与步骤S022的实现过程相类似,因此,步骤S032的实现过程可参考步骤S022的实现过程。
步骤S033,基于第二误差信息和第二误差阈值对初步训练好的分割模型进行反向传播训练,得到训练好的分割模型。
这里,第二误差阈值可以为默认值,也可以为自定义设置值,此外,第二误差阈值可与第一误差阈值相同,也可与第一误差阈值不同,本申请实施例并不做限定。
在第二误差信息小于第二误差阈值的情况下,表征第二误差信息在允许范围之内,满足训练停止条件,无需继续进行训练,表征此时已经得到训练好的分割模型;而如果第二误差信息大于或者等于第二误差阈值的情况下,表征第二误差信息并不在允许范围之内,不满足训练停止条件,表征此时还未得到训练好的分割模型,仍需继续进行训练。
通过上述步骤S001至步骤S003,先获取视频训练数据、图片训练数据和预设分割模型;由于利用图片训练数据可简单、高效地完成对预订和分割模型的训练,则先利用图片训练数据对预设分割模型进行第一次训练,得到初步训练好的分割模型;接着,还通过视频训练数据再次对初步训练好的分割模型继续进行训练,最终得到训练好的分割模型。如此通过分阶段的模型训练,获得精确度更高的训练好的分割模型。
基于上述实施例,本申请实施例再提供一种分割方法,本申请实施例中的分割方法是一种基于YUV色彩空间结合时空特征的高效视频人像分割方法,可用于视频通信、直播等场景,该分割方法包括:
第一,数据的收集与标注;数据主要分为图像数据以及视频数据,其中,图像数据对应上述实施例中的图片训练数据,视频数据对应上述实施例中视频训练数据,图像数据采用开源数据集,视频数据主要为信通信场景下通过采集设备采集的视频数据,这里,采集设备可以为通用串行总线(Universal Serial Bus,USB)摄像头、智能手机或者带摄像头机顶盒。对于数据的标注,开源数据集自带的标注信息往往存在噪声以及边缘瑕疵,需进一步使用图像处理软件(例如,Adobe Photoshop)精细化透明度模板,对于视频数据先使用抽帧工具(例如,ffmpeg)获取所有的视频帧,再使用图像处理软件(例如,Adobe Photoshop)扣取人像透明度模板。
第二,视频人像分割模型训练;这里,视频人像分割模型对应上述实施例中的预设分割模型,由于视频帧图像分割标注时间所需人力成本较高,本申请实施例提出通过单张图像训练视频人像分割方法,通过在单张图像的透明度模板上添加刚性变换和非刚性变换,来模拟视频中前后帧的运动所带来的透明度模板差异。其中刚性变换包含平移、旋转以及两者的组合,平移是模拟人像相对镜头平面的水平运动;非刚性变换包括:缩放、放射、投射、多项式、局部运动变换等,缩放是模拟人像相对镜头平面的垂直运动,通过使用K个控制点的薄板样条(Thin Plate Spline,TPS)形变可模拟人像局部运动变换。这样,先在图像数据上进行训练,得到第一模型权重;基于该第一模型权重,再使用真实视频人像分割数据进行迁移学习得到第二模型权重。
第三,将训练好的模型部署至智能设备进行视频人像分割。这里,训练好的模型对应上述实施例中的训练好的分割模型。
在本申请实施例中,如图9所示,该分割方法在模型训练阶段包括如下步骤S901至步骤S905:
步骤S901,获取图像视频数据。
这里,图像视频数据包括图像数据和视频数据,图像数据可以直接使用开源的Portrait Matting_dataset数据集中的数据,视频数据可使用采集设备采集的视频数据,其中,采集设备可以为USB摄像头、智能手机或者带摄像头机顶盒。
步骤S902,数据标注。
这里,当前帧透明度模板标注包括:得到原始数据后,对原始数据进行数据标注以及清洗工作。其中,对于图像数据,是使用Portrait Matting_dataset数据集,该数据集已具有粗糙的透明度模板,在此基础上可再使用Adobe PhotoShop进一步精细化透明度模板;对于视频数据,先试用ffmpeg等工具将视频拆分成视频帧,然后可再使用Adobe PhotoShop分割得到透明度模板。为了利用视频中的时空特征来监督网络的训练,本申请实施例提出使用当前视频帧结合前一帧透明度模板(Mask)作为视频数据人像分割模型算法输入,同时视频中存储的视频帧往往是YUV色彩空间而非图像中常见的RGB色彩空间,为简化计算过程,本申请实施例使用YUV+Mask组合成四通道数据输入网络进行训练和推断。
步骤S903,图像数据透明度模板变换。
这里,为了充分利用图像数据,本申请实施例提出通过单张图像训练视频人像分割方法。由于图像数据并不存在前一帧数据,输入Mask的确定如图10所示,参考图10,a)为原始图像,b)为通过步骤S902对a)标注后得到的标注透明度模板,基于此,对b)进行缩放的非刚性变换,得到缩放后的透明度模板,也即得到c),在实际中缩放尺度在[0.9,1.1]之间均匀分布;接着,对c)进行平移的刚性变换,得到平移后的透明度模板,也即得到d),在实际中,上下左右四个方向平移坐标是在原图尺寸的[0,0.05]倍之间均匀分布;然后,还对d)进行TPS形变的非刚性变换,得到TPS形变后的透明度模板,也即得到e),在进行TPS形变时K的取值可以为5,相当于通过5个控制点的TPS来模拟人像局部运动变换。
此外,为了解决模拟视频第一帧图像不存在前一帧透明度模板的问题,在当前帧为视频第一帧图像的情况下,可使用当前帧YUV色彩空间中Y通道作为Mask,然后基于YUV和Mask完成对当前帧进行训练。
步骤S904,单图人像分割网络训练。
这里,在得到标注好并进行透明度模板变换的训练数据后,首先,在图像数据上进行人像分割网络模型的训练,其中,人像分割网络模型对应上述实施例中的预设分割模型,人像分割网络模型结构如图11所示,其中,人像分割网络的输入部分区别于传统人像分割的RGB色彩空间的数据,由于视频编码中视频帧数据往往存储为YUV420或YUV420P格式,而传统图像分割算法需要将YUV格式的视频帧转为RGB格式输入模型算法,带来了额外的计算量,为了简化计算量,这里采用YUV色彩空间数据,也即直接使用YUV格式进行网络的训练,在推理阶段可去除转换部分计算量。同时,为了分割效果更具鲁棒性,减少视频分割过程中前后帧分割抖动情况,本申请实施例提出了结合视频时空特征的分割方法,体现在本申请实施例中分割方法的输入部分考虑了视频前一帧的分割结果,即前一帧透明度模板。因此本申请实施例中分割方法的输入主要由如下两部分组成:利用YUV编码的当前帧和前一帧透明度模板(Mask)。
人像分割网络模型的骨干网络部分有两个双分支,如图11所示,图11上半部分的分支为粗糙分支1101,1101中的网络层数较多,是用于提取生成的高层语义信息;而下半部分的分支为精炼分支1102,仅使用少量的卷积层,用于提取浅层边缘细节信息。其中,粗糙分支1101由先经过一个3*3卷积层11011,再拼接输入数据下采样4倍11012,使得Y、U、V、Mask的长宽各缩小至输入尺寸的1/2;然后,再经过两个密集综合卷积模块11013,并拼接输入数据下采样16倍11014,使得Y、U、V、Mask的长宽各缩小至输入尺寸的1/4;接着,经过两个密集综合卷积模块11015,再使用上采样层11016将特征图上采样至输入面积的1/4倍,得到粗糙分支结果,这里上采样层11016可使用双线性差值。精炼分支1102先经过一个3*3卷积层11021,再经过一个密集综合卷积模块11022,得到精炼分支结果。最后,对粗糙分支结果和精炼分支结果进行特征图逐元素相加1103,并通过一个3*3卷积层1104,从而得到最终的透明度模板110。
在上述训练过程中,可使用带动量的随机梯度下降算法作为优化函数,并使用L2正则约束模型的权重。对于损失函数,则综合考虑人像分割的边缘损失以及交叉熵损失监督网络的学习,总的损失函数如下公式1所示:
Ltotal=λ*Lce+(1-λ)*Lb   (1);
其中,Ltotal表示总损失函数,λ表示权重系数,Lce表示交叉熵损失,这里可使用带focal loss系数的交叉熵函数,该交叉熵函数可用于缓解数据集中人像前景和其余背景不均衡的问题,计算方式如公式2所示,其中,Lb表示边界损失,可使用人像分割网络模型输出的透明度模板与标注模板进行图像形态学运算,包括:先将透明度膨胀得到膨胀模板,再进行腐蚀得到腐蚀模板,最后两者做差得到图像的边缘信息,再通过公式3计算边界损失。
Figure BDA0003337572310000191
Figure BDA0003337572310000192
其中,y表示图像中具***置的标签信息,
Figure BDA0003337572310000193
表示人像分割网络模型预测结果,γ大于0,通过调整γ值影响人像分割网络模型对于较难分割样本的损失权重。根据上述损失函数计算对已有神经网络参数的梯度,并利用带动量的随机梯度下降法,进行参数更新直到人像分割网络收敛,即可得到第一模型权重。
步骤S905,视频人像分割迁移训练。
这里,在获得第一模型权重后,进行视频数据人像分割模型训练。首先,考虑到视频前一帧透明度模板的选择,记录当前帧为第t帧,可随机使用第t-1帧、第t-3帧以及第t-5的透明度模板作为Mask,以模拟不同帧率、不同人、不同场景时人物运动带来的差异。当t-1、t-3、t-5小于0时,则可使用当前帧YUV色彩空间中Y通道作为Mask组合当前帧进行训练。视频数据人像分割模型的结构与步骤S604中的模型结果一致。由于此时视频数据人像分割模型的输入的Mask较为准确,且希望为了更好的分割效果,视频数据人像分割模型的损失函数中带focal loss系数的交叉熵损失函数可替换为Lovasz损失函数,如公式4、公式5和公式6所示。
Figure BDA0003337572310000201
Figure BDA0003337572310000202
Figure BDA0003337572310000203
其中,y表示图像中具***置的标签信息,
Figure BDA0003337572310000204
表示视频数据人像分割模型的预测结果,
Figure BDA0003337572310000205
为当前位置预测的合页损失(hinge loss),
Figure BDA0003337572310000206
Figure BDA0003337572310000207
的Lovasz扩展。相较于如公式6所示的Jaccard loss,Lovasz损失能更有效地减少损失。加载第一网络权重文件,并根据上述损失函数计算对已有神经网络参数的梯度,利用带动量的随机梯度下降法,进行参数更新直到网络收敛,即可得到第二模型权重即最终训练结果。
在本申请实施例中,第一,使用YUV颜色空间进行模型的推断,相较于传统的RGB颜色空间,避免了视频帧从YUV格式转化为RBG格式的运算,节省了这部分的计算量与计算时间,提高了视频人像分割的效率。第二,使用YUV+Mask的输入格式进行视频人像分割,相对于传统的单一RGB数据,在模型的预测中添加了视频中的时空特征,同时简化了预测透明度模板的难度,进一步可降低模型的复杂程度。在提高了算法效果与鲁棒性的同时,更好地实现了算法效率。第三,使用多阶段的训练方式,依次使用图像数据、视频数据进行视频人像分割模型的训练。在训练阶段通过图像透明度模板变换,将图像数据应用于视频人像分割任务,一定程度上缓解了视频人像分割数据不足、标注成本高的问题。同时根据数据的特点使用不同的损失函数进行更有效的监督学习。
基于此,本申请实施例在视频人像分割推断时不需要进行颜色空间转化,实现了高效地视频不合规检测;且相较于传统的单帧人像分割算法,通过在输入端添加前一帧视频的透明度模板,增加了视频中的时空特征,不仅可以解决视频分割过程中透明度模板抖动、分割质量不足等不鲁棒的问题,还简化了当前帧预测的困难度,通过较小的网络即可得到较好的视频人像分割结果,在提高了模型的鲁棒性的同时,实现了高效地预测;最后,在训练阶段通过图像透明度模板变换,将图像数据应用于视频人像分割任务,一定程度上缓解了视频人像分割数据不足、标注成本高的问题。
基于前述的实施例,本申请实施例提供一种分割装置,该装置包括的各模块、以及各模块包括的各单元,可以通过计算机设备中的处理器来实现;当然也可通过相应的逻辑电路实现;在实施的过程中,处理器可以为中央处理器(Central Processing Unit,CPU)、微处理器(Microprocessor Unit,MPU)、数字信号处理器(Digital Signal Processing,DSP)或现场可编程门阵列(Field Programmable Gate Array,FPGA)等。
本申请实施例再提供一种分割装置,图12为本申请实施例提供的分割装置的组成结构示意图,如图12所示,所述分割装置1200包括:
获取模块1201,用于获取待分割的视频数据和训练好的分割模型;
第一确定模块1202,用于确定所述视频数据中包括的多个视频帧,并将所述多个视频帧依次确定为待分割视频帧;
第二确定模块1203,用于当所述待分割视频帧之前存在至少一个历史视频帧,从所述至少一个历史视频帧的目标透明度模板中确定所述待分割视频帧的参考透明度模板;
分割模块1204,用于将所述待分割视频帧和所述参考透明度模板输入至所述训练好的分割模型,得到所述待分割视频帧的目标透明度模板;
提取模块1205,用于基于所述目标透明度模板对所述待分割视频帧进行提取处理,得到所述待分割视频帧的目标前景图像。
在一些实施例中,所述第二确定模块1203包括:
第一确定子模块,用于确定所述至少一个历史视频帧的帧数量,并将所述帧数量记为n,所述n为大于或者等于1的整数;
第二确定子模块,用于将超前所述待分割视频帧n-i帧的历史视频帧确定为目标历史视频帧,所述i大于等于零且小于所述n,所述i为整数;
第三确定子模块,用于将所述目标历史视频帧对应的目标透明度模板确定为所述待分割视频帧的参考透明度模板。
在一些实施例中,所述分割模块1204包括::
第一提取子模块,用于对所述待分割视频帧和所述参考透明度模板进行语义信息提取,得到目标语义信息;
第二提取子模块,用于对所述待分割视频帧和所述参考透明度模板进行边缘信息提取,得到目标边缘信息;
融合子模块,用于融合所述目标语义信息和所述目标边缘信息,得到目标融合信息;
特征提取子模块,用于对所述目标融合信息进行特征提取,得到所述目标透明度模板。
在一些实施例中,所述第一提取子模块包括:
第一提取单元,用于依次对所述待分割视频帧和所述参考透明度模板进行局部特征提取、拼接处理,得到第一局部特征;
第二提取单元,用于对所述第一局部特征进行下采样和特征提取,得到第二局部特征;
上采样单元,用于对所述第二局部特征进行上采样,得到所述目标语义信息。
在一些实施例中,所述第二提取子模块包括:
第三提取单元,用于对所述待分割视频帧和所述参考透明度模板进行局部特征提取,得到第三局部特征;
第四提取单元,用于对所述第三局部特征进行特征提取,得到所述目标边缘信息。
在一些实施例中,所述目标视频帧包括Y分量、U分量和V分量,所述分割模块1204,还用于将所述待分割视频帧和所述参考透明度模板输入至所述训练好的分割模型,得到所述待分割视频帧的目标透明度模板。所述分割装置1200包括:
第三确定模块,用于当所述待分割视频帧之前不存在任一历史视频帧,将所述Y分量确定为所述待分割视频帧的参考透明度模板。
在一些实施例中,所述获取模块1201,还用于获取视频训练数据、图片训练数据和预设分割模型;
所述分割模块1204,还用于利用所述图片训练数据对所述预设分割模型进行训练,得到初步训练好的分割模型;利用所述视频训练数据对所述初步训练好的分割模型继续进行训练,得到所述训练好的分割模型。
在一些实施例中,所述图片训练数据包括训练图片、所述训练图片对应的第一训练标签、所述训练图片对应的训练图片透明度模板,所述分割模块1204包括:
第一输入子模块,用于将所述训练图片和所述训练图片透明度模板输入至所述预设分割模型,得到训练图片对应的第一预测标签;
第一获取子模块,用于获取所述第一训练标签与所述第一预测标签之间的第一误差信息;
第一训练子模块,用于基于所述第一误差信息和第一误差阈值对所述预设分割模型进行反向传播训练,得到所述初步训练好的分割模型。
在一些实施例中,所述分割装置1200还包括:
标注子模块,用于对所述训练图片进行标注处理,得到原始透明度模板;
变换子模块,用于对所述原始透明度模板进行刚性变换和/或非刚性变换处理,得到所述训练图片透明度模板。
在一些实施例中,所述视频训练数据包括训练视频帧、所述训练视频帧对应的第二训练标签、所述训练视频帧对应的训练视频帧透明度模板,所述分割模块1204还包括:
第二输入子模块,用于将所述训练视频帧和所述训练视频帧透明度模板输入至所述初步训练好的分割模型,得到所述训练视频帧对应的第二预测标签;
第二获取子模块,用于获取所述第二训练标签与所述第二预测标签之间的第二误差信息;
第二训练子模块,用于基于所述第二误差信息和第二误差阈值对所述初步训练好的分割模型进行反向传播训练,得到所述训练好的分割模型。
需要说明的是,本申请实施例分割装置的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本装置实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
需要说明的是,本申请实施例中,如果以软件功能模块的形式实现上述的分割方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read OnlyMemory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请实施例不限制于任何特定的硬件和软件结合。
相应地,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中提供的分割方法。
本申请实施例提供一种分割设备,图13为本申请实施例提供的分割设备的组成结构示意图,如图13所示,所述分割设备1300包括:一个处理器1301、至少一个通信总线1302、用户接口1303、至少一个外部通信接口1304和存储器1305。其中,通信总线1302配置为实现这些组件之间的连接通信。其中,用户接口1303可以包括显示屏,外部通信接口1304可以包括标准的有线接口和无线接口。其中,所述处理器1301配置为执行存储器中存储的分割方法的程序,以实现以上述实施例提供的分割方法。
以上分割设备和存储介质实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请分割设备和存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
这里需要指出的是:以上存储介质和分割设备实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请存储介质和分割设备实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个***,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本申请实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台AC执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (13)

1.一种分割方法,其特征在于,所述方法包括:
获取待分割的视频数据和训练好的分割模型;
确定所述视频数据中包括的多个视频帧,并将所述多个视频帧依次确定为待分割视频帧;
当所述待分割视频帧之前存在至少一个历史视频帧,从所述至少一个历史视频帧的目标透明度模板中确定所述待分割视频帧的参考透明度模板;
将所述待分割视频帧和所述参考透明度模板输入至所述训练好的分割模型,得到所述待分割视频帧的目标透明度模板;
基于所述目标透明度模板对所述待分割视频帧进行提取处理,得到所述待分割视频帧的目标前景图像。
2.根据权利要求1中所述的方法,其特征在于,当所述待分割视频帧之前存在至少一个历史视频帧,从所述至少一个历史视频帧的目标透明度模板中确定所述待分割视频帧的参考透明度模板,包括:
确定所述至少一个历史视频帧的帧数量,并将所述帧数量记为n,所述n为大于或者等于1的整数;
将超前所述待分割视频帧n-i帧的历史视频帧确定为目标历史视频帧,所述i大于等于零且小于所述n,所述i为整数;
将所述目标历史视频帧对应的目标透明度模板确定为所述待分割视频帧的参考透明度模板。
3.根据权利要求1中所述的方法,其特征在于,将所述待分割视频帧和所述参考透明度模板输入至所述训练好的分割模型,得到所述待分割视频帧的目标透明度模板,包括:
对所述待分割视频帧和所述参考透明度模板进行语义信息提取,得到目标语义信息;
对所述待分割视频帧和所述参考透明度模板进行边缘信息提取,得到目标边缘信息;
融合所述目标语义信息和所述目标边缘信息,得到目标融合信息;
对所述目标融合信息进行特征提取,得到所述目标透明度模板。
4.根据权利要求3中所述的方法,其特征在于,对所述待分割视频帧和所述参考透明度模板进行语义信息提取,得到目标语义信息,包括:
依次对所述待分割视频帧和所述参考透明度模板进行局部特征提取、拼接处理,得到第一局部特征;
对所述第一局部特征进行下采样和特征提取,得到第二局部特征;
对所述第二局部特征进行上采样,得到所述目标语义信息。
5.根据权利要求3中所述的方法,其特征在于,对所述待分割视频帧和所述参考透明度模板进行边缘信息提取,得到目标边缘信息,包括:
对所述待分割视频帧和所述参考透明度模板进行局部特征提取,得到第三局部特征;
对所述第三局部特征进行特征提取,得到所述目标边缘信息。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述目标视频帧包括Y分量、U分量和V分量,所述方法还包括:
当所述待分割视频帧之前不存在任一历史视频帧,将所述Y分量确定为所述待分割视频帧的参考透明度模板;
将所述待分割视频帧和所述参考透明度模板输入至所述训练好的分割模型,得到所述待分割视频帧的目标透明度模板。
7.根据权利要求1至5任一项所述的方法,其特征在于,所述方法还包括:
获取视频训练数据、图片训练数据和预设分割模型;
利用所述图片训练数据对所述预设分割模型进行训练,得到初步训练好的分割模型;
利用所述视频训练数据对所述初步训练好的分割模型继续进行训练,得到所述训练好的分割模型。
8.根据权利要求7中所述的方法,其特征在于,所述图片训练数据包括训练图片、所述训练图片对应的第一训练标签、所述训练图片对应的训练图片透明度模板,所述利用所述图片训练数据对所述预设分割模型进行训练,得到初步训练好的分割模型,包括:
将所述训练图片和所述训练图片透明度模板输入至所述预设分割模型,得到训练图片对应的第一预测标签;
获取所述第一训练标签与所述第一预测标签之间的第一误差信息;
基于所述第一误差信息和第一误差阈值对所述预设分割模型进行反向传播训练,得到所述初步训练好的分割模型。
9.根据权利要求8中所述的方法,其特征在于,所述方法还包括:
对所述训练图片进行标注处理,得到原始透明度模板;
对所述原始透明度模板进行刚性变换和/或非刚性变换处理,得到所述训练图片透明度模板。
10.根据权利要求7中所述的方法,其特征在于,所述视频训练数据包括训练视频帧、所述训练视频帧对应的第二训练标签、所述训练视频帧对应的训练视频帧透明度模板,所述利用所述视频训练数据对所述初步训练好的分割模型继续进行训练,得到训练好的分割模型,包括:
将所述训练视频帧和所述训练视频帧透明度模板输入至所述初步训练好的分割模型,得到所述训练视频帧对应的第二预测标签;
获取所述第二训练标签与所述第二预测标签之间的第二误差信息;
基于所述第二误差信息和第二误差阈值对所述初步训练好的分割模型进行反向传播训练,得到所述训练好的分割模型。
11.一种分割装置,其特征在于,所述分割装置包括:
获取模块,用于获取待分割的视频数据和训练好的分割模型;
第一确定模块,用于确定所述视频数据中包括的多个视频帧,并将所述多个视频帧依次确定为待分割视频帧;
第二确定模块,用于当所述待分割视频帧之前存在至少一个历史视频帧,从所述至少一个历史视频帧的目标透明度模板中确定所述待分割视频帧的参考透明度模板;
分割模块,用于将所述待分割视频帧和所述参考透明度模板输入至所述训练好的分割模型,得到所述待分割视频帧的目标透明度模板;
提取模块,用于基于所述目标透明度模板对所述待分割视频帧进行提取处理,得到所述待分割视频帧的目标前景图像。
12.一种分割设备,其特征在于,所述分割设备包括:
处理器;以及
存储器,用于存储可在所述处理器上运行的计算机程序;
其中,所述计算机程序被处理器执行时实现权利要求1至10任一项所述的分割方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机可执行指令,该计算机可执行指令配置为执行上述权利要求1至10任一项所述的分割方法。
CN202111299080.1A 2021-11-04 2021-11-04 一种分割方法、装置、设备及计算机可读存储介质 Pending CN116091955A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111299080.1A CN116091955A (zh) 2021-11-04 2021-11-04 一种分割方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111299080.1A CN116091955A (zh) 2021-11-04 2021-11-04 一种分割方法、装置、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN116091955A true CN116091955A (zh) 2023-05-09

Family

ID=86208761

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111299080.1A Pending CN116091955A (zh) 2021-11-04 2021-11-04 一种分割方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN116091955A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116630354A (zh) * 2023-07-24 2023-08-22 荣耀终端有限公司 一种视频抠图方法、电子设备、存储介质及程序产品
CN117036351A (zh) * 2023-10-09 2023-11-10 合肥安迅精密技术有限公司 元件缺陷检测方法及***、存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116630354A (zh) * 2023-07-24 2023-08-22 荣耀终端有限公司 一种视频抠图方法、电子设备、存储介质及程序产品
CN116630354B (zh) * 2023-07-24 2024-04-12 荣耀终端有限公司 一种视频抠图方法、电子设备、存储介质及程序产品
CN117036351A (zh) * 2023-10-09 2023-11-10 合肥安迅精密技术有限公司 元件缺陷检测方法及***、存储介质

Similar Documents

Publication Publication Date Title
CN108932693B (zh) 基于人脸几何信息的人脸编辑补全方法及装置
CN110751649B (zh) 视频质量评估方法、装置、电子设备及存储介质
CN109712145A (zh) 一种图像抠图方法及***
CN116091955A (zh) 一种分割方法、装置、设备及计算机可读存储介质
CN113538480A (zh) 图像分割处理方法、装置、计算机设备和存储介质
CN112396645A (zh) 一种基于卷积残差学习的单目图像深度估计方法和***
CN109948441B (zh) 模型训练、图像处理方法、装置、电子设备及计算机可读存储介质
Zhao et al. Vcgan: Video colorization with hybrid generative adversarial network
CN114549574A (zh) 一种基于掩膜传播网络的交互式视频抠图***
WO2024131565A1 (zh) 服装图像提取方法及其装置、设备、介质、产品
CN111382647B (zh) 一种图片处理方法、装置、设备及存储介质
KR20240089729A (ko) 화상 처리 방법, 장치, 저장 매체 및 전자 기기
CN111242068B (zh) 基于视频的行为识别方法、装置、电子设备和存储介质
CN114782596A (zh) 语音驱动的人脸动画生成方法、装置、设备及存储介质
CN117237648B (zh) 基于上下文感知的语义分割模型的训练方法、装置和设备
CN117474817A (zh) 对合成连续图像进行内容一致化的方法
CN113128517A (zh) 色调映射图像混合视觉特征提取模型建立及质量评价方法
CN112070181A (zh) 一种基于图像流的协同检测方法及装置、存储介质
CN117314808A (zh) 一种结合Transformer与CNN双编码器的红外与可见光图像融合方法
US20220217321A1 (en) Method of training a neural network configured for converting 2d images into 3d models
CN115409721A (zh) 暗光视频增强方法及装置
CN115578298A (zh) 一种基于内容感知的深度肖像视频合成方法
CN115100218A (zh) 基于深度学习的视频一致性融合方法
CN114882405A (zh) 一种基于时空双流金字塔网络架构的视频显著性检测方法
CN113344807A (zh) 图像修复方法及装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination