CN114040140B - 一种视频抠图方法、装置、***及存储介质 - Google Patents

一种视频抠图方法、装置、***及存储介质 Download PDF

Info

Publication number
CN114040140B
CN114040140B CN202111348109.0A CN202111348109A CN114040140B CN 114040140 B CN114040140 B CN 114040140B CN 202111348109 A CN202111348109 A CN 202111348109A CN 114040140 B CN114040140 B CN 114040140B
Authority
CN
China
Prior art keywords
resolution
video
code stream
low
edge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111348109.0A
Other languages
English (en)
Other versions
CN114040140A (zh
Inventor
张红
田文宝
范文新
李一凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Yifuzhen Internet Hospital Co ltd
Beijing Yibai Technology Co ltd
Original Assignee
Tianjin Yifuzhen Internet Hospital Co ltd
Beijing Yibai Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Yifuzhen Internet Hospital Co ltd, Beijing Yibai Technology Co ltd filed Critical Tianjin Yifuzhen Internet Hospital Co ltd
Priority to CN202111348109.0A priority Critical patent/CN114040140B/zh
Publication of CN114040140A publication Critical patent/CN114040140A/zh
Application granted granted Critical
Publication of CN114040140B publication Critical patent/CN114040140B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0127Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level by changing the field or frame frequency of the incoming video signal, e.g. frame rate converter
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/96Tree coding, e.g. quad-tree coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本申请提供一种视频抠图方法、装置、***和存储介质,其方法包括:对初始视频进行编码得到视频码流并将视频码流分为三路;将第一路视频码流处理为低分辨率码流,提取低分辨率码流中的全局特征数据;提取第二路视频码流局部特征数据;根据全局特征数据、局部特征数据和解码处理得到低分辨率视频;将第三路视频码流处理为高分辨率码流,提取高分辨率码流中的边缘特征数据;对边缘特征数据进行解码后得到高分辨率视频;将低分辨率视频中的人形区域识别结果和高分辨率视频中的人形边缘识别结果融合后得到初始视频中的人形抠图结果。本申请的以上方案对初始视频的抠图结果具有高效率、高准确性、适用场景广泛和低成本的有益效果。

Description

一种视频抠图方法、装置、***及存储介质
技术领域
本申请涉及视频流数据处理技术领域,具体地,涉及一种视频抠图方法、装置、***和存储介质。
背景技术
在视频通话、监控或抓拍场景中,通常需要采用抠图算法从视频流数据的每一视频帧图像中抠出人脸图片。
目前,抠图的算法包括实时人像背景替换算法模型MODNet,其提出了一种简单、快速、稳定的实时人像抠图处理算法。该模型的优点是,只需要将摄像头拍摄的视频流信号输入模型即可输出人脸识别结果,不需要额外的真实背景作为输入。该模型的缺点是,仅适合与已有训练样本具有一致性的视频流数据,如果输入视频流信号中的背景与已有训练样本中的背景不具有相似性(即输入模型的视频流信号中的背景是模型并未“见过”的背景),则模型输出的抠图结果会有一定程度的噪声。而MODNet模型的训练样本的规模并不大,导致其抠图算法的适用场景有限,如果重新对模型进行训练,成本又太高。在实际应用过程中,摄像头拍摄背景难以统一,无法保证输入模型的所以视频流信号的背景都是模型训练过程中处理过的情况,所以利用上述算法进行抠图处理,准确性会大打折扣。
在另一些方案中提出采用足够复杂的模型对视频流进行抠图,相同测试条件下利用复杂模型得到的抠图效果会优于MODNet模型。但是,这类复杂模型一般要求输入两路摄像头的视频信号,其中一路摄像头视频信号需记录真实背景,而且对于摄像头拍摄环境的光线稳定性和摄像头的参数稳定性要求很高,由于限制条件较为苛刻难以投入到实际应用中。
因此,需要对现有视频抠图算法进行改进。
发明内容
本申请提供一种视频抠图方法、装置、***和存储介质,以解决现有技术中视频流抠图算法存在的准确性难以保证或者对于适用性差的技术问题。
本申请一部分实施例中提供一种视频抠图方法,包括如下步骤:
对初始视频进行编码得到视频码流并将所述视频码流分为三路;
对第一路视频码流进行降低分辨率处理后得到低分辨率码流,提取所述低分辨率码流中的全局特征数据;对第二路视频码流进行多尺度池化解析后提取所述第二路视频码流中的局部特征数据;
将所述全局特征数据和所述局部特征数据融合后得到低分辨率特征数据;对所述低分辨率特征数据和所述局部特征数据进行解码后得到低分辨率视频,所述低分辨率视频包括人形区域识别结果;
对第三路视频码流进行升高分辨率处理后得到高分辨率码流;提取所述高分辨率码流中的边缘特征数据;对所述边缘特征数据进行解码后得到高分辨率视频,所述高分辨率视频包括人形边缘识别结果;
将所述低分辨率视频中的所述人形区域识别结果和所述高分辨率视频中的人形边缘识别结果融合后得到所述初始视频中的人形抠图结果。
本申请一部分实施例中提供的视频抠图方法,在将所述全局特征数据和所述局部特征数据融合后得到低分辨率特征数据的步骤中还包括:
升高所述低分辨率特征数据的分辨率,使所述低分辨率特征数据的最终分辨率与所述初始视频的分辨率相一致。
本申请一部分实施例中提供的视频抠图方法,对第二路视频码流进行多尺度池化解析后提取所述第二路视频码流中的局部特征数据的步骤中:
对所述第二路视频码流进行至少五个池化尺度解析处理,每一池化尺度处理包括:
对第二路视频码流降维处理得到池化尺度所需的降维后特征数据,对降维后特征图像执行卷积处理后得到卷积后特征数据;
对所述卷积后特征数据进行升维处理得到与所述第二路视频码流维度相同的池化特征数据。
本申请一部分实施例中提供的视频抠图方法,对所述低分辨率特征数据和所述局部特征数据进行解码后得到低分辨率视频,所述低分辨率视频包括人形区域识别结果的步骤中:
通过树形图解码器对所述低分辨率特征数据和所述局部特征数据进行低分辨率解码处理;
根据所述树形图解码器输出的树形图预测结果得到所述人形区域识别结果。
本申请一部分实施例中提供的视频抠图方法,对所述边缘特征数据进行解码后得到高分辨率视频,所述高分辨率视频包括人形边缘识别结果的步骤中:
通过边沿检测解码器对所述边缘特征数据进行高分辨率微调处理;
根据所述边沿检测解码器输出的边沿预测结果得到所述人形边缘识别结果。
基于同一发明构思,本申请一部分实施例中提供一种视频抠图装置,包括:
编码器,用于对初始视频进行编码得到视频码流并将所述视频码流分为三路;
分辨率降低模型,用于对第一路视频码流进行降低分辨率处理后得到低分辨率码流;
全局特征提取模型,用于提取所述低分辨率码流中的全局特征数据;
局部特征提取模型,用于对第二路视频码流进行多尺度池化解析后提取所述第二路视频码流中的局部特征数据;
连接器,用于将所述全局特征数据和所述局部特征数据融合后得到低分辨率特征数据;
第一解码器,用于对所述低分辨率特征数据和所述局部特征数据进行解码后得到低分辨率视频,所述低分辨率视频包括人形区域识别结果;
分辨率升高模型,用于对第三路视频码流进行升高分辨率处理后得到高分辨率码流;
边缘特征提取模型,用于提取所述高分辨率码流中的边缘特征数据;
第二解码器,用于对所述边缘特征数据进行解码后得到高分辨率视频,所述高分辨率视频包括人形边缘识别结果;
将融合模型,用于将所述低分辨率视频中的所述人形区域识别结果和所述高分辨率视频中的人形边缘识别结果融合后得到所述初始视频中的人形抠图结果。
本申请一部分实施例中提供的视频抠图装置,还包括:
分辨率恢复模型,用于升高所述低分辨率特征数据的分辨率,使所述低分辨率特征数据的最终分辨率与所述初始视频的分辨率相一致。
本申请一部分实施例中提供的视频抠图装置:
所述第一解码器为树形图解码器,所述树形图解码器对所述低分辨率特征数据和所述局部特征数据进行低分辨率解码处理;根据所述树形图解码器输出的树形图预测结果得到所述人形区域识别结果;
所述第二解码器为边沿检测解码器,所述边沿检测解码器对所述边缘特征数据进行高分辨率微调处理;根据所述边沿检测解码器输出的边沿预测结果得到所述人形边缘识别结果。
基于同一发明构思,本申请一部分实施例还提供一种视频抠图***,所述***包括至少一个处理器和至少一个存储器,至少一个所述存储器中存储有程序指令,至少一个所述处理器读取所述程序指令后执行以上任一项方案所述的视频抠图方法。
基于同一发明构思,本申请一部分实施例还提供一种可读存储介质,所述可读储介质中存储有程序信息,计算机读取所述程序信息后执行以上任一项方案所述的视频抠图方法。
与现有技术相比,本申请实施例提供的上述技术方案至少具有以下有益效果:通过将初始视频编码后的视频码流分为三路,降低第一路视频码流的分辨率,并从中提取全局特征数据,对第二路视频码流数据进行多尺度池化解析并从中提取局部特征数据,全局特征数据和局部特征数据融合并与局部特征数据一同执行解码操作后,即可得到低分辨率情形下的人形区域识别结果,在该过程充,由于是针对降低分辨率之后的数据进行的操作,能够确保人形区域识别的速度,只是人形区域的边缘检测精度可能会有所欠缺。因此,通过对第三路视频码流的分辨率进行升高并在升高分辨率的数据中提取人行区域的边缘特征,之后对提取的高分辨率边缘特征进行解码就能得到高精度的人形边缘识别结果,由于在高分辨率数据解析时不需要考虑人形区域内的数据分析,所以不会产生很多运算,依然能确保识别速度。最后将两个识别结果相融合得到最终的人形抠图结果。本申请的以上方案,能够在确保人形区域识别速度、人形边缘识别速度以及人形边缘识别精度的前提下完成初始视频的人形抠图处理。而且,本申请的以上方案对于输入的视频信号没有过高要求,仅需要一路摄像头输入即可,在人形识别的过程中对于背景图像要求不高,不需要大量训练样本的支持,所以无论是硬件结构还是软件分析算法方面的成本很低,解决了现有技术中视频抠图算法所存在的问题。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本申请不同实施例中的技术方案做进一步的详细描述。
附图说明
附图用来提供对本申请方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请,并不构成对本申请的限制。在附图中:
图1为本申请一个实施例所述的视频抠图方法的流程图;
图2为本申请一个实施例所述初始视频在被抠图方法处理的过程中的不同阶段的示意图;
图3为本申请一个实施例所述的视频抠图装置的结构框图;
图4为本申请一个实施例所述视频抠图***的硬件结构示意图。
具体实施方式
以下结合附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请。术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。另外,本发明中提供的以下实施例中的各个技术方案,除非彼此之间相互矛盾,否则不同技术方案之间可以相互组合,其中的技术特征可以相互替换。
本实施例提供一种视频抠图方法,可应用于视频会议控制***、视频监控***或视频聊天等需要对视频中的人形进行识别的一些控制***中,如图1所示,上述方法包括如下步骤:
S101:对初始视频进行编码得到视频码流并将所述视频码流分为三路。其中,所述初始视频即为摄像头拍摄到的包含人形的原始视频数据。可以理解,视频是连续的多帧图像序列,每一帧即为一幅图像。连续的帧图像之间具有极高的相似度,因此,为便于视频的储存或传输,需要对视频进行编码处理,编码后得到的视频码流相比于原视频,能够降低存储空间的占用。降低传输过程中占用的带宽宽度以及提升传输效率。本步骤中的编码方式可以选用MPEG(Moving Picture Experts Group:运动图象专家组)系列中的编码形式、H.26X系列中的编码形式来实现,根据选定的编码方法所具有标准执行即可。
S102:对第一路视频码流进行降低分辨率处理后得到低分辨率码流,提取所述低分辨率码流中的全局特征数据。本步骤中降低分辨率处理的方法,可以根据步骤S101中得到的视频码流的格式来确定。例如,H.263编码格式中本身就带有降低分辨率的模式,虽然分辨率降低了但是能够在维持满足视频画面质量。如果是MPEG-4编码格式,可以采用卷积神经网络算法降低原视频的分辨率。通过降低分辨率的操作,能够降低视频码流的数据存储空间,也能够提升其传输速率。全局特征,是基于灰度像素值的描述,可以分为直方图特征、颜色特征和轮廓特征等,可以通过全局池化的方式得到全局特征。其中,直方图特征是表示人形的外观特征,颜色特征可以采用RGB(红绿蓝)颜色空间、HSV(色调、饱和度、亮度)颜色空间来表示,轮廓特征可以采用背景差法、帧差法等方式来确定。
S103:对第二路视频码流进行多尺度池化解析后提取所述第二路视频码流中的局部特征数据。每一尺度池化方式可以得到对应该池化尺度的局部特征,当采用多尺度池化解析时对视频码流进行处理后,就能够得到视频码流的不同尺度特征。池化的作用是将具有相似性的特征合并起来,不同池化尺度能够将一副图像的数据划分为不同的相似特征集合,而不同的相似特征集合之间在原图像中的相对位置关系具有固定性。通过将不同尺度池化结果连接起来,以确保能够得到较为全面的局部特征。
S104:将所述全局特征数据和所述局部特征数据融合后得到低分辨率特征数据。得到全局特征和局部特征的数据之后,将二者融合即可得到视频码流的整体数据,而且由于经过将分辨率以及池化的处理过程,本步骤中得到的数据量已经有所减小,从而能提高后续数据处理速度。
S105:对所述低分辨率特征数据和所述局部特征数据进行解码后得到低分辨率视频,所述低分辨率视频包括人形区域识别结果。本步骤中解码操作可根据实际应用情况结合步骤S101的编码操作进行选择。
S106:对第三路视频码流进行升高分辨率处理后得到高分辨率码流,提取所述高分辨率码流中的边缘特征数据。目前,已有将图像处理为超分辨率的方式,可以采用渐进式的方法将包含人形区域的视频帧的分辨率分为多个步骤进行训练,每一步骤都比前一步提升一点分辨率,如此能够稳定地将视频帧的分辨率缓步提升。也有一些方法中,直接将人形区域的像素差值和热图值相乘。因为本步骤的处理结果,是用于对人形区域的边缘进行准确检测的,因此实际上并不需要对所有的特征数据进行分析运算,根据编码数据的属性能够确定人形区域与背景的临界点,并以此确定边缘特征数据即可。
S107:对所述边缘特征数据进行解码后得到高分辨率视频,所述高分辨率视频包括人形边缘识别结果。本步骤中解码操作可根据实际应用情况结合步骤S101的编码操作进行选择。
S108:将所述低分辨率视频中的所述人形区域识别结果和所述高分辨率视频中的人形边缘识别结果融合后得到所述初始视频中的人形抠图结果。如图2所示,高分辨率视频和低分辨率视频中,区别仅在于人形识别结果,低分辨率视频中的人形区域识别结果中包含了区域内的全部信息,如人脸、服装等,但是其边缘处的噪声较大。而高分辨率视频中仅包含人形区域的边缘识别结果,但是不需要包括边缘内部的信息。在此基础上,将两种识别结果相融合之后就能够最终的人形抠图结果(图中人形区域内的识别结果如人脸、眼镜、服装等并未详细展示,实际应用中是与初始视频中拍摄结果一致)。另外,可以理解,对于三路视频码流的处理过程实际上是并行的,并不受到上述步骤序号的先后顺序的限制。
本实施例提供的以上方案,通过将初始视频编码后的视频码流分为三路,降低第一路视频码流的分辨率,并从中提取全局特征数据,对第二路视频码流数据进行多尺度池化解析并从中提取局部特征数据,全局特征数据和局部特征数据融合并与局部特征数据一同执行解码操作后,即可得到低分辨率情形下的人形区域识别结果,在该过程充,由于是针对降低分辨率之后的数据进行的操作,能够确保人形区域识别的速度,只是人形区域的边缘检测精度可能会有所欠缺。因此,通过对第三路视频码流的分辨率进行升高并在升高分辨率的数据中提取人行区域的边缘特征,之后对提取的高分辨率边缘特征进行解码就能得到高精度的人形边缘识别结果,由于在高分辨率数据解析时不需要考虑人形区域内的数据分析,所以不会产生很多运算,依然能确保识别速度。最后将两个识别结果相融合得到最终的人形抠图结果。
本申请的以上方案,能够在确保人形区域识别速度、人形边缘识别速度以及人形边缘识别精度的前提下完成初始视频的人形抠图处理。而且,本申请的以上方案对于输入的视频信号没有过高要求,仅需要一路摄像头输入即可,在人形识别的过程中对于背景图像要求不高,不需要大量训练样本的支持,所以无论是硬件结构还是软件分析算法方面的成本很低,解决了现有技术中视频抠图算法所存在的问题。
在一些实施例中,以上步骤S104中,还可以包括:升高所述低分辨率特征数据的分辨率,使所述低分辨率特征数据的最终分辨率与所述初始视频的分辨率相一致。本步骤的升高分辨率的过程可以如步骤S106中所提出的方式实现。在步骤S102中降低了初始视频的分辨率,在本步骤中,完成全局特征和局部特征的提取后,可以将分辨率在恢复至与初始视频分辨率相同的程度,从而使最终解码后的视频帧的分辨率与初始图像具有更高的一致性。
在本申请一些实施例中,步骤S101中的编码过程可以通过卷积神经网络实现,将初始视频作为输入信号,输入到一个卷积神经网络中,卷积神经网络包括多个卷积层,多个卷积层中包括多个或一个下采样层(池化层)。通过获取卷积神经网络的第n卷积层输出的特征集合作为视频码流,n为正整数。即第n卷积层输出的特征集合作为全局特征提取的基础,也作为多尺度池化解析的基础。
本申请中可以采用金字塔场景解析网络实现多尺度池化解析的操作,其中的“多尺度”优选地包括至少五个池化尺度,即:对所述第二路视频码流进行至少五个池化尺度解析处理,每一池化尺度处理包括:对第二路视频码流降维处理得到池化尺度所需的降维后特征数据,对降维后特征图像执行卷积处理后得到卷积后特征数据;对所述卷积后特征数据进行升维处理得到与所述第二路视频码流维度相同的池化特征数据。本申请中以下实施例以五个池化尺度为例对解析过程进行说明。
以卷积神经网络模型输出的Conv5_3(卷积神经网络模型的第5个卷积block里面的第3个卷积层)分辨率为(2048×90×90)的特征作为金字塔解析网络的分析对象,在金字塔场景解析网络内部将其分为4路进行处理,本实施例中:分别通过全局平均池化的方式将其压缩处理为1×1的特征(缩小90倍)、2×2的特征(缩小45倍)、3×3的特征(缩小30倍)、6×6的特征(缩小15倍),随后对这4路特征图再使用双线性插值恢复到90×90。将以上五个特征:Conv5_3的特征、1×1的特征、2×2的特征、3×3的特征和6×6的特征连接到一起,再进行类别输出。
以上Conv5_3(2048×90×90)的特征是通过下述计算得到:
卷积神经网络模型的输入数据为3×713×713(即三通道、视频图像尺寸为713×713);第一个卷积block里的第一个卷积层得到输出为64×357×357;第一个卷积block里的第二个卷积层得到输出为64×179×179……,后续卷积层的输出采用如下规则依次类推,每一个卷积层都是对上一个卷积层的输出使用1×1减小维度再用3×3卷积再用1×1恢复维度,最后即可得到Conv5_3(2048×90×90)的特征输出。
将Conv5_3(2048×90×90)的特征缩小90倍为1×1的特征时,卷积参数选择为AVEkernel_size:90,stride:90,num_output:512;依次类推,将Conv5_3(2048×90×90)的特征缩小90倍为2×2的特征时,卷积参数选择为AVE kernel_size:45,stride:45,num_output:512;将Conv5_3(2048×90×90)的特征缩小90倍为3×3的特征时,卷积参数选择为AVE kernel_size:30,stride:30,num_output:512;将Conv5_3(2048×90×90)的特征缩小90倍为6×6的特征时,卷积参数选择为AVE kernel_size:15,stride:15,num_output:512;以上五个特征连接在一起之后得到的特征,即可作为最终提取的局部特征数据。将局部特征数据和全局特征数据连接(即Contact)后执行低分辨率解码操作即可得到包括人形区域识别结果的低分辨率视频。
作为一种优选的实现方式,针对1×1的特征、2×2的特征、3×3的特征和6×6的特征,还可以通过使用双线性插值恢复分辨率恢复图像的分辨率,恢复分辨率的处理中,通过对原始视频码流的数据降维处理能够减小数据处理量,之后对降维后的数据执行升维处理,能够恢复数据的分辨率。恢复分辨率的过程中,双线性插值法中的参数选择为:height:90width:90,即可将每一特征恢复为90×90的分辨率。
本申请一些实施例中,高分辨率和低分辨率视频的解码方式可以相同也可以不同,采用相同的解码方式时能简化算法。本实施例中:
对所述低分辨率特征数据和所述局部特征数据进行解码中,通过树形图解码器(Trimap Decoder)对所述低分辨率特征数据和所述局部特征数据进行低分辨率解码处理;根据所述树形图解码器输出的树形图预测结果(Trimap Generation)得到所述人形区域识别结果。
对所述边缘特征数据进行解码后得到高分辨率视频中,通过边沿检测解码器(Edge Decoder)对所述边缘特征数据进行高分辨率微调处理;根据所述边沿检测解码器输出的边沿预测结果(Edge Prediction)得到所述人形边缘识别结果。其中的微调处理可以选择预先训练好的微调模型(Fine-Turing)来实现,在线下通过训练样本对选择的学习模型训练完成并经过测试满足需求后,可以直接将该微调模型对解码后的数据进一步优化。
以上方案中,针对低分辨率和高分辨率视频的处理,选择不同的解码步骤,使解码方法更具有针对性,解码得到的结果准确性更强。
在本申请一部分实施例中还提供一种视频抠图装置,如图3所示,该装置包括编码器100、低分辨率训练单元(包括分辨率降低模型201、全局特征提取模型202、局部特征提取模型203、连接器204)、高分辨率训练单元(包括分辨率升高模型301、边缘特征提取模型302)、第一解码器401、第二解码器402和融合模型500,其中:
所述编码器100,用于对初始视频进行编码得到视频码流并将所述视频码流分为三路,编码方式可以选用MPEG(Moving Picture Experts Group:运动图像专家组)系列中的编码形式、H.26X系列中的编码形式来实现,根据选定的编码方法所具有标准执行即可。
所述分辨率降低模型201,用于对第一路视频码流进行降低分辨率处理后得到低分辨率码流,降低分辨率处理的方法,可以根据步骤S101中得到的视频码流的格式来确定,可以通过全局池化的方式得到全局特征。
所述全局特征提取模型202,用于提取所述低分辨率码流中的全局特征数据。每一尺度池化方式可以得到对应该池化尺度的局部特征。
所述局部特征提取模型203,用于对第二路视频码流进行多尺度池化解析后提取所述第二路视频码流中的局部特征数据;当采用多尺度池化解析时对视频码流进行处理后,就能够得到视频码流的不同尺度特征。通过将不同尺度池化结果连接起来,以确保能够得到较为全面的局部特征。
所述连接器204,用于将所述全局特征数据和所述局部特征数据融合后得到低分辨率特征数据,得到全局特征和局部特征的数据之后,将二者融合即可得到视频码流的整体数据。
所述第一解码器401,用于对所述低分辨率特征数据和所述局部特征数据进行解码后得到低分辨率视频,所述低分辨率视频包括人形区域识别结果。优选地,所述第一解码器401为树形图解码器,所述树形图解码器对所述低分辨率特征数据和所述局部特征数据进行低分辨率解码处理;根据所述树形图解码器输出的树形图预测结果得到所述人形区域识别结果。
所述分辨率升高模型301,用于对第三路视频码流进行升高分辨率处理后得到高分辨率码流,高分辨率码流是用于对人形区域的边缘进行准确检测的。
所述边缘特征提取模型302,用于提取所述高分辨率码流中的边缘特征数据;根据编码数据的属性能够确定人形区域与背景的临界点,并以此确定边缘特征数据即可。
所述第二解码器402,用于对所述边缘特征数据进行解码后得到高分辨率视频,所述高分辨率视频包括人形边缘识别结果;优选地,所述第二解码器402为边沿检测解码器,所述边沿检测解码器对所述边缘特征数据进行高分辨率微调处理;根据所述边沿检测解码器输出的边沿预测结果得到所述人形边缘识别结果。
所述将融合模型500,用于将所述低分辨率视频中的所述人形区域识别结果和所述高分辨率视频中的人形边缘识别结果融合后得到所述初始视频中的人形抠图结果。
本实施例提供的视频抠图装置,能够在确保人形区域识别速度、人形边缘识别速度以及人形边缘识别精度的前提下完成初始视频的人形抠图处理。而且,以上方案对于输入的视频信号没有过高要求,仅需要一路摄像头输入即可,在人形识别的过程中对于背景图像要求不高,不需要大量训练样本的支持,所以无论是硬件结构还是软件分析算法方面的成本很低,解决了现有技术中视频抠图算法所存在的问题
在一些实施例中的视频抠图装置,还可以包括:分辨率恢复模型,用于升高所述低分辨率特征数据的分辨率,使所述低分辨率特征数据的最终分辨率与所述初始视频的分辨率相一致。即,完成全局特征和局部特征的提取后,可以将分辨率在恢复至与初始视频分辨率相同的程度,从而使最终解码后的视频帧的分辨率与初始图像具有更高的一致性。
本申请一些实施例提供一种可读存储介质,所述存储介质中存储有程序指令,计算机读取所述程序指令后执行以上实施例中任一方法实施例技术方案所述的视频抠图方法。
图4是本实施例提供的视频抠图***的硬件结构示意图,该***包括一个或多个处理器601以及存储器602,图4中以一个处理器601为例。视频抠图***还可以包括:输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图4中以通过总线连接为例。
存储器602作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器601通过运行存储在存储器602中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的视频抠图方法。上述***可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (7)

1.一种视频抠图方法,其特征在于,包括如下步骤:
对初始视频进行编码得到视频码流并将所述视频码流分为三路;
对第一路视频码流进行降低分辨率处理后得到低分辨率码流,提取所述低分辨率码流中的全局特征数据;对第二路视频码流进行多尺度池化解析后提取所述第二路视频码流中的局部特征数据;
将所述全局特征数据和所述局部特征数据融合后得到低分辨率特征数据;对所述低分辨率特征数据和所述局部特征数据进行解码后得到低分辨率视频,所述低分辨率视频包括人形区域识别结果;
对第三路视频码流进行升高分辨率处理后得到高分辨率码流;提取所述高分辨率码流中的边缘特征数据;对所述边缘特征数据进行解码后得到高分辨率视频,所述高分辨率视频包括人形边缘识别结果;
将所述低分辨率视频中的所述人形区域识别结果和所述高分辨率视频中的人形边缘识别结果融合后得到所述初始视频中的人形抠图结果;
通过树形图解码器对所述低分辨率特征数据和所述局部特征数据进行低分辨率解码处理;
根据所述树形图解码器输出的树形图预测结果得到所述人形区域识别结果;
通过边沿检测解码器对所述边缘特征数据进行高分辨率微调处理;
根据所述边沿检测解码器输出的边沿预测结果得到所述人形边缘识别结果。
2.根据权利要求1所述的视频抠图方法,其特征在于,在将所述全局特征数据和所述局部特征数据融合后得到低分辨率特征数据的步骤中还包括:
升高所述低分辨率特征数据的分辨率,使所述低分辨率特征数据的最终分辨率与所述初始视频的分辨率相一致。
3.根据权利要求2所述的视频抠图方法,其特征在于,对第二路视频码流进行多尺度池化解析后提取所述第二路视频码流中的局部特征数据的步骤中:
对所述第二路视频码流进行至少五个池化尺度解析处理,每一池化尺度处理包括:
对第二路视频码流降维处理得到池化尺度所需的降维后特征数据,对降维后特征图像执行卷积处理后得到卷积后特征数据;
对所述卷积后特征数据进行升维处理得到与所述第二路视频码流维度相同的池化特征数据。
4.一种视频抠图装置,其特征在于,包括:
编码器,用于对初始视频进行编码得到视频码流并将所述视频码流分为三路;
分辨率降低模型,用于对第一路视频码流进行降低分辨率处理后得到低分辨率码流;
全局特征提取模型,用于提取所述低分辨率码流中的全局特征数据;
局部特征提取模型,用于对第二路视频码流进行多尺度池化解析后提取所述第二路视频码流中的局部特征数据;
连接器,用于将所述全局特征数据和所述局部特征数据融合后得到低分辨率特征数据;
第一解码器,用于对所述低分辨率特征数据和所述局部特征数据进行解码后得到低分辨率视频,所述低分辨率视频包括人形区域识别结果;
分辨率升高模型,用于对第三路视频码流进行升高分辨率处理后得到高分辨率码流;
边缘特征提取模型,用于提取所述高分辨率码流中的边缘特征数据;
第二解码器,用于对所述边缘特征数据进行解码后得到高分辨率视频,所述高分辨率视频包括人形边缘识别结果;
将融合模型,用于将所述低分辨率视频中的所述人形区域识别结果和所述高分辨率视频中的人形边缘识别结果融合后得到所述初始视频中的人形抠图结果;
所述第一解码器为树形图解码器,所述树形图解码器对所述低分辨率特征数据和所述局部特征数据进行低分辨率解码处理;根据所述树形图解码器输出的树形图预测结果得到所述人形区域识别结果;
所述第二解码器为边沿检测解码器,所述边沿检测解码器对所述边缘特征数据进行高分辨率微调处理;根据所述边沿检测解码器输出的边沿预测结果得到所述人形边缘识别结果。
5.根据权利要求4所述的视频抠图装置,其特征在于,还包括:
分辨率恢复模型,用于升高所述低分辨率特征数据的分辨率,使所述低分辨率特征数据的最终分辨率与所述初始视频的分辨率相一致。
6.一种视频抠图***,其特征在于:
所述***包括至少一个处理器和至少一个存储器,至少一个所述存储器中存储有程序指令,至少一个所述处理器读取所述程序指令后执行权利要求1-3任一项所述的视频抠图方法。
7.一种可读存储介质,其特征在于:
所述可读储介质中存储有程序信息,计算机读取所述程序信息后执行权利要求1-3任一项所述的视频抠图方法。
CN202111348109.0A 2021-11-15 2021-11-15 一种视频抠图方法、装置、***及存储介质 Active CN114040140B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111348109.0A CN114040140B (zh) 2021-11-15 2021-11-15 一种视频抠图方法、装置、***及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111348109.0A CN114040140B (zh) 2021-11-15 2021-11-15 一种视频抠图方法、装置、***及存储介质

Publications (2)

Publication Number Publication Date
CN114040140A CN114040140A (zh) 2022-02-11
CN114040140B true CN114040140B (zh) 2024-04-12

Family

ID=80144420

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111348109.0A Active CN114040140B (zh) 2021-11-15 2021-11-15 一种视频抠图方法、装置、***及存储介质

Country Status (1)

Country Link
CN (1) CN114040140B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013075295A1 (zh) * 2011-11-23 2013-05-30 浙江晨鹰科技有限公司 低分辨率视频的服装识别方法及***
CN104240192A (zh) * 2013-07-04 2014-12-24 西南科技大学 一种快速的单幅图像去雾算法
CN111311629A (zh) * 2020-02-21 2020-06-19 京东方科技集团股份有限公司 图像处理方法、图像处理装置及设备
CN111683269A (zh) * 2020-06-12 2020-09-18 腾讯科技(深圳)有限公司 视频处理方法、装置、计算机设备和存储介质
CN111932594A (zh) * 2020-09-18 2020-11-13 西安拙河安见信息科技有限公司 一种基于光流的十亿像素视频对齐方法及装置、介质
CN112581567A (zh) * 2020-12-25 2021-03-30 腾讯科技(深圳)有限公司 图像处理方法、装置、电子设备及计算机可读存储介质
CN113160358A (zh) * 2021-05-21 2021-07-23 上海随幻智能科技有限公司 一种无绿幕抠图渲染方法
CN113284156A (zh) * 2021-07-23 2021-08-20 杭州星犀科技有限公司 实时无绿幕抠图方法、电子设备和存储介质
WO2021208247A1 (zh) * 2020-04-17 2021-10-21 北京大学 一种视频图像的拟态压缩方法、装置、存储介质及终端
CN113538225A (zh) * 2020-04-14 2021-10-22 阿里巴巴集团控股有限公司 模型训练方法及图像转换方法、装置、设备和存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013075295A1 (zh) * 2011-11-23 2013-05-30 浙江晨鹰科技有限公司 低分辨率视频的服装识别方法及***
CN104240192A (zh) * 2013-07-04 2014-12-24 西南科技大学 一种快速的单幅图像去雾算法
CN111311629A (zh) * 2020-02-21 2020-06-19 京东方科技集团股份有限公司 图像处理方法、图像处理装置及设备
CN113538225A (zh) * 2020-04-14 2021-10-22 阿里巴巴集团控股有限公司 模型训练方法及图像转换方法、装置、设备和存储介质
WO2021208247A1 (zh) * 2020-04-17 2021-10-21 北京大学 一种视频图像的拟态压缩方法、装置、存储介质及终端
CN111683269A (zh) * 2020-06-12 2020-09-18 腾讯科技(深圳)有限公司 视频处理方法、装置、计算机设备和存储介质
CN111932594A (zh) * 2020-09-18 2020-11-13 西安拙河安见信息科技有限公司 一种基于光流的十亿像素视频对齐方法及装置、介质
CN112581567A (zh) * 2020-12-25 2021-03-30 腾讯科技(深圳)有限公司 图像处理方法、装置、电子设备及计算机可读存储介质
CN113160358A (zh) * 2021-05-21 2021-07-23 上海随幻智能科技有限公司 一种无绿幕抠图渲染方法
CN113284156A (zh) * 2021-07-23 2021-08-20 杭州星犀科技有限公司 实时无绿幕抠图方法、电子设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于多尺度特征融合的中分辨率遥感场景分类算法;张军;张敏;郝小可;解鹏;;河北大学学报(自然科学版)(06);全文 *
雾天图像的清晰化处理与颜色校正算法研究;张红;《中国优秀硕士论文电子期刊网》;全文 *

Also Published As

Publication number Publication date
CN114040140A (zh) 2022-02-11

Similar Documents

Publication Publication Date Title
CN111768432B (zh) 基于孪生深度神经网络的动目标分割方法及***
CN111598026B (zh) 动作识别方法、装置、设备及存储介质
CN112232349A (zh) 模型训练方法、图像分割方法及装置
CN110675403B (zh) 一种基于编码辅助信息的多实例图像分割方法
CN109614933B (zh) 一种基于确定性拟合的运动分割方法
CN111079539A (zh) 一种基于异常追踪的视频异常行为检测方法
CN114419102B (zh) 一种基于帧差时序运动信息的多目标跟踪检测方法
CN115082966A (zh) 行人重识别模型训练方法、行人重识别方法、装置和设备
CN112884657B (zh) 一种人脸超分辨率重建方法及***
Ren et al. A lightweight object detection network in low-light conditions based on depthwise separable pyramid network and attention mechanism on embedded platforms
CN112991239B (zh) 一种基于深度学习的图像反向恢复方法
CN111079567B (zh) 采样方法、模型生成方法、视频行为识别方法及装置
CN112132761B (zh) 一种基于循环上下文聚合网络的单图像去雾方法
US20240062347A1 (en) Multi-scale fusion defogging method based on stacked hourglass network
CN114040140B (zh) 一种视频抠图方法、装置、***及存储介质
CN115439367A (zh) 一种图像增强方法、装置、电子设备及存储介质
CN116309117A (zh) 二维码图像修复及识别方法和装置、电子设备及存储介质
CN111950496B (zh) 一种蒙面人身份识别方法
Yun et al. Coarse-to-fine video denoising with dual-stage spatial-channel transformer
Kang et al. Lightweight Image Matting via Efficient Non-Local Guidance
CN117078564B (zh) 视频会议画面的智能生成方法及其***
Yuan et al. A generic video coding framework based on anisotropic diffusion and spatio-temporal completion
WO2024109902A1 (zh) 一种基于视频超分辨率的多目标识别方法和装置
CN117915093A (zh) 基于神经网络的数据处理和生成方法及装置
Li et al. Image Defogging Algorithm Based on Dual-Stream Skip Connections

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant