CN106875406B - 图像引导的视频语义对象分割方法及装置 - Google Patents
图像引导的视频语义对象分割方法及装置 Download PDFInfo
- Publication number
- CN106875406B CN106875406B CN201710060268.8A CN201710060268A CN106875406B CN 106875406 B CN106875406 B CN 106875406B CN 201710060268 A CN201710060268 A CN 201710060268A CN 106875406 B CN106875406 B CN 106875406B
- Authority
- CN
- China
- Prior art keywords
- segmentation
- foreground
- candidate
- initial
- candidate region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 139
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000005457 optimization Methods 0.000 claims abstract description 31
- 238000012545 processing Methods 0.000 claims abstract description 24
- 239000013598 vector Substances 0.000 claims description 35
- 238000004422 calculation algorithm Methods 0.000 claims description 27
- 238000009826 distribution Methods 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 14
- 230000000644 propagated effect Effects 0.000 claims description 14
- 238000005295 random walk Methods 0.000 claims description 12
- 230000001902 propagating effect Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 230000007480 spreading Effects 0.000 abstract description 3
- 238000003892 spreading Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 19
- 238000012549 training Methods 0.000 description 10
- 230000000007 visual effect Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000002146 bilateral effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/143—Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/174—Segmentation; Edge detection involving the use of two or more images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/28—Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种图像引导的视频语义对象分割方法及装置,根据给定语义类别,在样本图像中定位目标对象,得到对象样例;对输入视频中每帧图像进行候选区域的提取;根据对象样例,将每帧中所提取的多个候选区域与对象样例进行匹配,得到每个候选区域的相似度分数;对每帧中各个候选区域的相似度分数进行排序,选出满足预设候选区域个数的、相似度分数由高到低的高分候选区域;对选出的高分候选区域进行前景与背景的初始分割处理;基于初始分割后前景与背景的一致性和无二义性约束条件,对初始分割处理后的候选区域构建优化函数,求解优化函数得到最优候选区域集合;将最优候选区域对应的初始前景分割传播到整个视频,得到输入视频的语义对象分割。
Description
技术领域
本发明涉及计算机视觉与多媒体分析领域,尤其涉及一种图像引导的视频语义对象分割方法及装置。
背景技术
随着计算机视觉、多媒体分析技术的发展,以直观形象为特征的多媒体信息资源日益丰富且深受社会大众的喜爱,如何高效地从视频信息中定位并分割出需要的视频资源亦成为了研究热点。
视频语义对象分割是一种针对特定语义类别,从输入视频中定位并分割出属于该类别对象的视频像素的技术。该技术可应用于大规模互联网分析,影视制作中的视频编辑,以及基于视频的三维建模等。目前的视频语义对象分割方法主要为参数化方法,所谓参数化方法,就是在视频中对对象的所处位置进行一一标注,并收集大量已经标注了对象位置或对象轮廓的图像视频,从中学习出一个统一的、由参数作为表达形式的视觉模型,并将该视觉模型应用于输入的测试视频,基于该学习得到的视觉模型对该测试视频中的目标对象进行对象分割。例如,美国乔治亚理工大学的Kundu等人提出了基于特征空间优化的视频语义对象分割方法,该参数化方法通过大量精确标注的视频帧学习卷积神经网络得到视觉模型。美国密西根大学的Lei等人于2016年提出了机器学习模型递归时域深度场(RecurrentTemporal Deep Field),并应用于视频语义对象分割。然而,这类参数化的方法存在以下问题:一方面,采用参数化方法需要对大量的图像进行精确标注得到训练样本,因此训练样本的收集过程较为困难且耗时较长;另一方面,训练得到的参数模型难以根据新增加的图像进行高效地更新和迭代,因此对于视觉资源的动态增长的适应性不好。例如,若在已有的视觉***中增加新的训练样本或者语义类别,采用参数化方法则需要重新训练视觉模型,而该模型的训练过程是耗时耗力的,对于现代的机器学习模型,可能需要数天甚至数周的时间。
发明内容
本发明提供一种图像引导的视频语义对象分割方法及装置,该方法属于非参数化的视频语义对象分割方法,基于仅标注了语义类别标签的样本图像集合得到对象样例,并根据该对象样例对输入的视频进行语义对象分割。相比现有技术中的参数化方法,本发明能够充分利用互联网上广泛存在的弱标注图像集,不需要像参数化方法那样对训练样本进行精确标注;通过建立输入视频与图像集的匹配,定位视频语义对象,省略了对视觉模型的训练过程,还能够支持图像集的动态增长,简单且高效地实现对视频的语义对象分割。
本发明提供一种图像引导的视频语义对象分割方法,包括:
根据给定的语义类别,在样本图像中定位出与所述语义类别对应的目标对象,得到对象样例;
对输入视频中的每帧图像进行候选区域的提取;
根据所述对象样例,将每帧中所提取的多个候选区域与所述对象样例进行匹配处理,得到每个候选区域的相似度分数;
对每帧中各个候选区域的相似度分数进行排序,选出满足预设候选区域个数的、相似度分数由高到低的高分候选区域;
对选出的所述高分候选区域进行前景与背景的初始分割处理;
基于初始分割后前景与背景的一致性和无二义性约束条件,对初始分割处理后的候选区域构建优化函数,求解所述优化函数得到最优的候选区域集合;
将所述最优的候选区域对应的初始前景分割传播到整个视频,得到所述输入视频的语义对象分割。
本发明还提供一种图像引导的视频语义对象分割装置,包括:
定位模块,用于根据给定的语义类别,在样本图像中定位出与所述语义类别对应的目标对象,得到对象样例;
提取模块,用于对输入视频中的每帧图像进行候选区域的提取;
匹配模块,用于根据所述对象样例,将每帧中所提取的多个候选区域与所述对象样例进行匹配处理,得到每个候选区域的相似度分数;
排序模块,用于对每帧中各个候选区域的相似度分数进行排序,选出满足预设候选区域个数的、相似度分数由高到低的高分候选区域;
处理模块,用于对选出的所述高分候选区域进行前景与背景的初始分割处理;
计算模块,用于基于初始分割后前景与背景的一致性和无二义性约束条件,对初始分割处理后的候选区域构建优化函数,求解所述优化函数得到最优的候选区域集合;
传播模块,用于将所述最优的候选区域对应的初始前景分割传播到整个视频,得到所述输入视频的语义对象分割。
本发明的图像引导的视频语义对象分割方法及装置,通过根据给定的语义类别,在样本图像中定位出与所述语义类别对应的目标对象,得到对象样例;对输入视频中的每帧图像进行候选区域的提取;根据对象样例,将每帧中所提取的多个候选区域与对象样例进行匹配处理,得到每个候选区域的相似度分数;对每帧中各个候选区域的相似度分数进行排序,选出满足预设候选区域个数的、相似度分数由高到低的高分候选区域;对选出的高分候选区域进行前景与背景的初始分割处理;基于初始分割后前景与背景的一致性和无二义性约束条件,对初始分割处理后的候选区域构建优化函数,求解优化函数得到最优的候选区域集合;将最优的候选区域对应的初始前景分割传播到整个视频,得到输入视频的语义对象分割。该方案无需训练视觉模型,充分利用互联网上广泛存在的弱标注图像代替以往方法所需的精确标注的训练样本,从而省略了模型的训练过程,能较好地支持图像集合的动态增长,高效且准确地得到视频资源的语义对象分割结果。
附图说明
图1为本发明一示例性实施例示出的图像引导的视频语义对象分割方法的流程示意图;
图2a、图2b为图1所示实施例的对象样例的示意图;
图3为图1所示实施例的视频帧的示意图;
图4为本发明另一示例性实施例示出的图像引导的视频语义对象分割方法的流程示意图;
图5为本发明一示例性实施例示出的图像引导的视频语义对象分割装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明一示例性实施例示出的图像引导的视频语义对象分割方法的流程示意图,如图1所示,本实施例示出的图像引导的视频语义对象分割方法,包括:
步骤101、根据给定的语义类别,在样本图像中定位出与语义类别对应的目标对象,得到对象样例。
具体的,根据事前给定的语义类别,在包含该语义类别对象的大量图像中共定位出目标对象,从而构造得到对象样例。如在图2a、图2b所示的图像中,假定语义类别为“牛”,则根据语义类别“牛”在图2a和图2b的样本图像中分别对“牛”的目标对象进行定位,定位后的结果分别如图2a和图2b中的矩形框所示,需要注意的是,此处,定位得到的对象样例虽然是根据语义类别“牛”进行的定位,但是有可能定位得到的结果是错误的,例如图2b中,“牛”的图像被错误定位到了“树”的图像。其中,定位目标图像的方法可以采用现有技术中的共定位方法,如2015年法国国家信息与自动化研究所、巴黎高等工程学院与法国国家科学研究中心的联合WILLOW实验室的Cho等人所提出的“概率哈夫匹配”(Probabilistic HoughMatching)共定位算法。该算法首先从每幅图像中提取大量候选矩形区域,然后计算每个矩形区域的“共显著性”(Co-Saliency),并在每幅图像中选取共显著性最高的区域作为对象样例。该过程是完全自动的,因此存在对象定位不精确甚至错误的情况。
步骤102、对输入视频中的每帧图像进行候选区域的提取。
如图3所示,假设该图为输入视频中的其中一帧图像,根据预设的候选区域选择算法,在每帧图像中进行候选区域的提取,被提取的候选区域如图3中的各个矩形框所示(如标号1-6所示)。该候选区域的提取无需依据给定的语义类别,随机进行候选区域的选定。
步骤103、根据对象样例,将每帧中所提取的多个候选区域与对象样例进行匹配处理,得到每个候选区域的相似度分数。
具体的,针对标注同语义类别的输入视频,在每一帧上提取候选区域集合并根据之前得到的对象样例,将每个候选区域与对象样例进行匹配,利用匹配区域与图像对象样例的空间上下文关系,为视频帧的候选区域集合进行快速打分。如图3所示,经过匹配处理后,与图2a中的“牛”对象样例匹配度高的候选区域得到的相似度分数高,例如,标号为6的候选区域的得分最高。由于图2b中的错误对象样例的存在,标号为1的候选区域的得分可能也较高。对图3中的每个候选区域都进行相似度的评分处理。
步骤104、对每帧中各个候选区域的相似度分数进行排序,选出满足预设候选区域个数的、相似度分数由高到低的高分候选区域。
根据预设的候选区域个数,选出视频帧中得分较高的几个高分候选区域以对其进行后续处理。
步骤105、对选出的高分候选区域进行前景与背景的初始分割处理。
步骤106、基于初始分割后前景与背景的一致性和无二义性约束条件,对初始分割处理后的候选区域构建优化函数,求解优化函数得到最优的候选区域集合。
具体的,为每一高分候选区域构造初始前景与背景分割,联合分割的一致性与无二义性约束从候选区域集合中选取最优的对象区域集合;由于视频与对象样例匹配过程可能的错误以及图像对象样例本身的不精确性,得最高分的候选区域不一定能够精确定位视频对象。为此,该步骤通过视频分割的一致性与无二义性,在各视频帧上联合优化选取正确的候选区域,得到最优的候选区域集合。
步骤107、将最优的候选区域对应的初始前景分割传播到整个视频,得到输入视频的语义对象分割。
本实施例的图像引导的视频语义对象分割方法,通过根据给定的语义类别,在样本图像中定位出与所述语义类别对应的目标对象,得到对象样例;对输入视频中的每帧图像进行候选区域的提取;根据对象样例,将每帧中所提取的多个候选区域与对象样例进行匹配处理,得到每个候选区域的相似度分数;对每帧中各个候选区域的相似度分数进行排序,选出满足预设候选区域个数的、相似度分数由高到低的高分候选区域;对选出的高分候选区域进行前景与背景的初始分割处理;基于初始分割后前景与背景的一致性和无二义性约束条件,对初始分割处理后的候选区域构建优化函数,求解优化函数得到最优的候选区域集合;将最优的候选区域对应的初始前景分割传播到整个视频,得到输入视频的语义对象分割。该方案无需训练视觉模型,充分利用互联网上广泛存在的弱标注图像代替以往方法所需的精确标注的训练样本,从而省略了模型的训练过程,能较好地支持图像集合的动态增长,高效且准确地得到视频资源的语义对象分割结果。
图4为本发明另一示例性实施例示出的图像引导的视频语义对象分割方法的流程示意图,如图4所示,进一步的,在上述实施例的基础上,本实施的图像引导的视频语义对象分割方法,具体包括:
步骤401、根据给定的语义类别,在样本图像中定位出与语义类别对应的目标对象,得到对象样例。
步骤402、对输入视频中的每帧图像进行候选区域的提取。
步骤403、在对象样例中,确定与每帧中的每个候选区域外观相似的图像区域;确定图像区域在对象样例的样本图像中的相对坐标和尺寸参数;保持相对坐标和尺寸参数,在输入视频的对应帧中构造一个新的对象区域;根据构造的新的对象区域为每一个候选区域评分,得到每个候选区域的相似度分数。
具体的,为视频帧的每一候选区域快速找到对象样例中外观相似的图像区域,然后保持对象样例中的匹配图像区域与该对象样例的相对坐标和尺寸关系,在原输入视频帧上构造一个新的对象区域。通过该方式可以构造大量的对象区域。由于图像对象样例存在不精确或者错误,因此所构造对象区域也存在部分不精确的情况。为了解决该问题带来的影响,本发明利用迁移得到的大量对象区域(新的对象区域)为每一候选区域进行打分。这一步骤可以从两个方面有效解决对象样例不精确或者存在错误的问题:首先,所提取的候选区域利用了视频帧本身的信息,一般能够紧密贴合对象边界;其次,利用大量的对象样例(新的对象区域)进行打分,对于少量样例不精确的情况,具有较强的鲁棒性。
相似度分数的具体算法如下:针对从视频帧提取的候选区域集合中的某一候选区域采用KD树算法匹配得到K个外观最相似的图像区域。对于第k个匹配区域保持该区域与所在图像对象样例的相对坐标和尺寸关系,并在原视频帧上构造一个新的对象区域位置最后可以构造个对象样例。采用如下公式为每一候选区域打分。以候选区域为例,其得分为:
其中表示区域的外观特征向量,本发明采用VGG深度网络的fc7层输出作为特征。大括号内的分母δf为常量,一般取其分子的平均值。上式表示区域与前K个最相似度对象样例的平均相似度。表示区域的“可迁移性”(新的对象区域),结合局部空间上下文关系定义。具体而言,若通过该区域所迁移得到的对象位置与通过其邻近区域迁移得到的对象位置较为相似,则该区域的“可迁移性”较高。定义为:
在上式中,表示区域的第k个匹配区域,c为该匹配区域的置信度,由“概率哈夫匹配”算法输出得到;为区域的邻近区域集合,表示通过邻近区域集合所迁移的对象位置的平均值。δr与δn为高斯核控制参数,可设为相应分子的平均值,Zc、Zr与Zn为归一化常量,分别为Zc=Zr=K, 表示区域与某一迁移得到的对象位置的相似度。定义为
其中对象位置表示为5维向量,包括其包围矩形中心点的横纵坐标、宽和高、以及尺度(面积的平方根)。当采用上述高斯核形式的时候,候选区域的打分可以看作一个双边滤波过程。采用2011年美国斯坦福大学Philipp与Vladlen Koltun提出的卷积算法,可在线性时间内为所有候选区域打分。
步骤404、对每帧中各个候选区域的相似度分数进行排序,选出满足预设候选区域个数的、相似度分数由高到低的高分候选区域。
步骤405、对高分候选区域内的每个超像素的前景与背景的概率值进行计算,得到所有超像素的前景概率所构成的初始前景分割向量以及背景概率所构成的初始背景分割向量。
具体的,对于输入视频的第t帧的所有候选区域(即候选区域集合)及各个候选区域的得分,采用非极大值抑制(Non-Maximal Suppression)算法得到少量得分较高,且相互重叠区域较少的高分候选区域集合针对每一高分候选区域构造前背景初始分割。前景(背景)分割即为视频每一超像素赋予一个前景(背景)概率值。对于视频的每一超像素前景分割的构造方法为:
其中,为至少有50%的区域被所覆盖的候选区域集合,为区域所包含的超像素集合,为区域的“对象性”得分,由“测地线对象假设”算法输出得到。背景初始分割则是对于属于的超像素赋值为0,否则赋值为1。将所有超像素的前景(背景)概率连成初始前背景分割向量,分别记为初始前景分割向量与初始背景分割向量
步骤406、对输入视频构建第一超像素图,将初始前景分割向量与初始背景分割向量沿着第一超像素图传播至整个输入视频,得到传播后的前景和背景分割向量。
具体的,构建视频的超像素图(即第一超像素图)。每个超像素均与来自其他帧上的对象区域中的超像素作匹配,并与匹配得分最高的9个超像素之间建立邻接关系。匹配过程中,超像素的外观特征采用颜色直方图与梯度直方图表示。将初始前背景分割与沿着视频超像素图(即第一超像素图)传播至所有帧,传播过程采用流行排序算法(Manifold Ranking),得到传播后的前背景分割与
步骤407、根据传播后的前景和背景分割向量,构造分割的一致性约束项和无二义性约束项,形成优化函数;基于贪婪算法,对优化函数进行求解,得到每帧上的最优初始分割。
具体的,结合分割的一致性与无二义性。求解优化函数:
其中表示第t帧上的高分候选区域集合,为所选取对象区域的打分,ψa与ψc分别表示分割的无二义性约束项和一致性约束项。求解过程需要满足的条件为:每一帧的候选区域集合中最多选取一个区域;选取的对象区域总数需要占总视频帧数的给定比例γ(在0到1之间,本发明取0.7)。无二义性约束项ψa此时可定义为每个超像素前背景概率值的差异:
其中为权重向量,是将与的每个分量取绝对值后,在向量的相同位置取较小的分量构造而成的。运算符⊙表示两个向量的逐分量相乘。由于上述问题难以求解,首先将替换为其上界此时该问题可看作定义在分离拟阵(Partition Matroid)上的子模最大化(Submodular Maximization)问题,可采用下述贪婪算法得到较优的近似解。该算法遍历T次,在第t次执行中,1)选取第t帧上得分最高的候选区域,加入最优对象区域集合;2)在未选取的某帧上,选取一个高分候选区域能使得目标函数的增益最大;3)重复步骤2)直到所选取的区域数量超过γT。T次执行完毕后可以得到T组解,选取目标函数值最大的一组作为最优解。
步骤408、根据给定的视频帧数,给定的每帧上的高分候选区域的个数,在高分候选区域中选取候选区域,得到精选候选区域集合;对选取的精选候选区域集合建立第二超像素图,采用随机游走算法将精选候选区域集合中候选区域对应的初始前景分割沿第二超像素图传播,得到传播后的前景概率分布;以传播后的前景概率分布作为初始分布,在输入视频的第一超像素图上基于随机游走算法进行二次传播,得到最终的超像素前景概率分布;对最终的超像素前景概率分布进行归一化处理,并提取大于预设阈值的超像素作为输入视频的语义对象分割结果。
具体地,精选候选区域集合中包含有给定的视频帧数与给定的每帧上的高分候选区域的个数的乘积个高分候选区域;给定的视频帧数可以根据步骤207中的γ确定,即选取的对象区域总数需要占总视频帧数的给定比例γ(在0到1之间,本发明取0.7)在所选取的对象区域集合上建立超像素图。给定的每帧上的高分候选区域的个数应该大于等于一个,且小于步骤204中的高分候选区域的预设个数阈值,具体而言,每个超像素均与来自其他帧上的对象区域中的超像素作匹配,并与匹配得分最高的9个超像素之间建立邻接关系。匹配过程中,超像素的外观特征采用颜色直方图与梯度直方图表示。以所选取对象区域相应的前景分割作为超像素的初始前景概率,在上述超像素图上采用随机游走(Random Walk)算法进行传播,得到传播后的前景概率分布。再以传播后的超像素前景概率分布作为初始分布,再次在视频的超像素图上采用随机游走算法进行二次传播,得到最终的超像素前景概率分布。将超像素前景概率分布归一化到0和1之间,并取出大于一定阈值的超像素作为目标视频对象分割结果。本发明中,该阈值设定为0.2。通过上述两步传播,使得在优化选取的候选区域内传播得到较为精细的视频分割结果,然后再次传播至整体视频区域。相比一次传播至整体视频,能够得到更为精细的分割结果。
本实施例所公开的图像引导的视频语义对象分割方法,包括:给定语义类别,在包含该类别对象的大量图像中共定位出对象样例;在每一帧上提取候选区域集合并建立到图像区域的匹配,利用匹配区域与图像对象样例的空间上下文关系,为视频帧的候选区域集合进行快速打分;为每一高分候选区域构造初始前背景分割,联合分割的一致性与无二义性约束从候选区域中选取最优的对象区域集合;采用双阶段随机游走算法传播所选取对象区域对应的初始前景分割到整体视频,得到最终分割结果。本发明能够广泛应用于国防军事、电影制作、公共安全等领域的计算机视觉***。
图5为本发明一示例性实施例示出的图像引导的视频语义对象分割装置的结构示意图,如图5所示,该图像引导的视频语义对象分割装置包括:
定位模块1,用于根据给定的语义类别,在样本图像中定位出与语义类别对应的目标对象,得到对象样例;提取模块2,用于对输入视频中的每帧图像进行候选区域的提取;匹配模块3,用于根据对象样例,将每帧中所提取的多个候选区域与对象样例进行匹配处理,得到每个候选区域的相似度分数;排序模块4,用于对每帧中各个候选区域的相似度分数进行排序,选出满足预设候选区域个数的、相似度分数由高到低的高分候选区域;处理模块5,用于对选出的高分候选区域进行前景与背景的初始分割处理;计算模块6,用于基于初始分割后前景与背景的一致性和无二义性约束条件,对初始分割处理后的候选区域构建优化函数,求解优化函数得到最优的候选区域集合;传播模块7,用于将最优的候选区域对应的初始前景分割传播到整个视频,得到输入视频的语义对象分割。
本实施例的装置,可用于执行图1所述图像引导的视频语义对象分割方法的实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
进一步地,在上述实施例的基础上,该图像引导的视频语义对象分割装置中的匹配模块3,具体用于在对象样例中,确定与每帧中的每个候选区域外观相似的图像区域;确定图像区域在对象样例的样本图像中的相对坐标和尺寸参数;保持相对坐标和尺寸参数,在输入视频的对应帧中构造一个新的对象区域;根据构造的新的对象区域为每一个候选区域评分,得到每个候选区域的相似度分数。
可选的,处理模块5,具体用于对高分候选区域内的每个超像素的前景与背景的概率值进行计算,得到所有超像素的前景概率所构成的初始前景分割向量以及背景概率所构成的初始背景分割向量。
可选的,计算模块6,具体用于对输入视频构建第一超像素图,将初始前景分割向量与初始背景分割向量沿着第一超像素图传播至整个输入视频,得到传播后的前景和背景分割向量;根据传播后的前景和背景分割向量,构造分割的一致性约束项和无二义性约束项,形成优化函数;基于贪婪算法,对优化函数进行求解,得到最优的候选区域集合。
可选的,传播模块7,具体用于根据给定的视频帧数,给定的每帧上的高分候选区域的个数,在高分候选区域中选取候选区域,得到精选候选区域集合;精选候选区域集合中包含有给定的视频帧数与给定的每帧上的高分候选区域的个数的乘积个高分候选区域;对选取的精选候选区域集合建立第二超像素图,采用随机游走算法将精选候选区域集合中候选区域对应的初始前景分割沿第二超像素图传播,得到传播后的前景概率分布;以传播后的前景概率分布作为初始分布,在输入视频的第一超像素图上基于随机游走算法进行二次传播,得到最终的超像素前景概率分布;对最终的超像素前景概率分布进行归一化处理,并提取大于预设阈值的超像素作为输入视频的语义对象分割结果。
本实施例的装置,可用于执行图4所述图像引导的视频语义对象分割方法的实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种图像引导的视频语义对象分割方法,其特征在于,包括:
根据给定的语义类别,在样本图像中定位出与所述语义类别对应的目标对象,得到对象样例;
对输入视频中的每帧图像进行候选区域的提取;
根据所述对象样例,将每帧中所提取的多个候选区域与所述对象样例进行匹配处理,得到每个候选区域的相似度分数;
对每帧中各个候选区域的相似度分数进行排序,选出满足预设候选区域个数的、相似度分数由高到低的高分候选区域;
对选出的所述高分候选区域进行前景与背景的初始分割处理;
基于初始分割后前景与背景的一致性和无二义性约束条件,对初始分割处理后的候选区域构建优化函数,求解所述优化函数得到最优的候选区域集合;
将所述最优的候选区域对应的初始前景分割向量传播到整个视频,得到所述输入视频的语义对象分割。
2.根据权利要求1所述的方法,其特征在于,所述根据所述对象样例,将每帧中所提取的多个候选区域与所述对象样例进行匹配处理,得到每个候选区域的相似度分数,包括:
在所述对象样例中,确定与每帧中的每个候选区域外观相似的图像区域;
确定所述图像区域在所述对象样例的样本图像中的相对坐标和尺寸参数;
保持所述相对坐标和尺寸参数,在所述输入视频的对应帧中构造一个新的对象区域;
根据构造的所述新的对象区域为每一个所述候选区域评分,得到每个候选区域的相似度分数。
3.根据权利要求1所述的方法,其特征在于,所述对选出的所述高分候选区域进行前景与背景的初始分割处理,包括:
对所述高分候选区域内的每个超像素的前景与背景的概率值进行计算,得到所有超像素的前景概率所构成的初始前景分割向量以及背景概率所构成的初始背景分割向量。
4.根据权利要求3所述的方法,其特征在于,所述基于初始分割后前景与背景的一致性和无二义性约束条件,对初始分割处理后的候选区域构建优化函数,求解所述优化函数得到最优的候选区域集合,包括:
对所述输入视频构建第一超像素图,将所述初始前景分割向量与所述初始背景分割向量沿着所述第一超像素图传播至整个所述输入视频,得到传播后的前景和背景分割向量;
根据所述传播后的前景和背景分割向量,构造分割的一致性约束项和无二义性约束项,形成所述优化函数;
基于贪婪算法,对所述优化函数进行求解,得到最优的候选区域集合。
5.根据权利要求4所述的方法,其特征在于,所述将所述最优的候选区域对应的初始前景分割传播到整个视频,得到所述输入视频的语义对象分割,包括:
根据给定的视频帧数,给定的每帧上的所述高分候选区域的个数,在所述高分候选区域中选取候选区域,得到精选候选区域集合;其中,所述精选候选区域集合中包含有所述给定的视频帧数与所述给定的每帧上的所述高分候选区域的个数的乘积个高分候选区域;
对选取的所述精选候选区域集合建立第二超像素图,采用随机游走算法将所述精选候选区域集合中候选区域对应的初始前景分割沿所述第二超像素图传播,得到传播后的前景概率分布;
以所述传播后的前景概率分布作为初始分布,在所述输入视频的所述第一超像素图上基于所述随机游走算法进行二次传播,得到最终的超像素前景概率分布;
对所述最终的超像素前景概率分布进行归一化处理,并提取大于预设阈值的超像素作为所述输入视频的语义对象分割结果。
6.一种图像引导的视频语义对象分割装置,其特征在于,包括:
定位模块,用于根据给定的语义类别,在样本图像中定位出与所述语义类别对应的目标对象,得到对象样例;
提取模块,用于对输入视频中的每帧图像进行候选区域的提取;
匹配模块,用于根据所述对象样例,将每帧中所提取的多个候选区域与所述对象样例进行匹配处理,得到每个候选区域的相似度分数;
排序模块,用于对每帧中各个候选区域的相似度分数进行排序,选出满足预设候选区域个数的、相似度分数由高到低的高分候选区域;
处理模块,用于对选出的所述高分候选区域进行前景与背景的初始分割处理;
计算模块,用于基于初始分割后前景与背景的一致性和无二义性约束条件,对初始分割处理后的候选区域构建优化函数,求解所述优化函数得到最优的候选区域集合;
传播模块,用于将所述最优的候选区域对应的初始前景分割向量传播到整个视频,得到所述输入视频的语义对象分割。
7.根据权利要求6所述的装置,其特征在于,
所述匹配模块,具体用于在所述对象样例中,确定与每帧中的每个候选区域外观相似的图像区域;确定所述图像区域在所述对象样例的样本图像中的相对坐标和尺寸参数;保持所述相对坐标和尺寸参数,在所述输入视频的对应帧中构造一个新的对象区域;根据构造的所述新的对象区域为每一个所述候选区域评分,得到每个候选区域的相似度分数。
8.根据权利要求6所述的装置,其特征在于,
所述处理模块,具体用于对所述高分候选区域内的每个超像素的前景与背景的概率值进行计算,得到所有超像素的前景概率所构成的初始前景分割向量以及背景概率所构成的初始背景分割向量。
9.根据权利要求8所述的装置,其特征在于,
所述计算模块,具体用于对所述输入视频构建第一超像素图,将所述初始前景分割向量与所述初始背景分割向量沿着所述第一超像素图传播至整个所述输入视频,得到传播后的前景和背景分割向量;根据所述传播后的前景和背景分割向量,构造分割的一致性约束项和无二义性约束项,形成所述优化函数;基于贪婪算法,对所述优化函数进行求解,得到最优的候选区域集合。
10.根据权利要求9所述的装置,其特征在于,
所述传播模块,具体用于根据给定的视频帧数,给定的每帧上的所述高分候选区域的个数,在所述高分候选区域中选取候选区域,得到精选候选区域集合;所述精选候选区域集合中包含有所述给定的视频帧数与所述给定的每帧上的所述高分候选区域的个数的乘积个高分候选区域;对选取的所述精选候选区域集合建立第二超像素图,采用随机游走算法将所述精选候选区域集合中候选区域对应的初始前景分割沿所述第二超像素图传播,得到传播后的前景概率分布;以所述传播后的前景概率分布作为初始分布,在所述输入视频的所述第一超像素图上基于所述随机游走算法进行二次传播,得到最终的超像素前景概率分布;对所述最终的超像素前景概率分布进行归一化处理,并提取大于预设阈值的超像素作为所述输入视频的语义对象分割结果。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710060268.8A CN106875406B (zh) | 2017-01-24 | 2017-01-24 | 图像引导的视频语义对象分割方法及装置 |
US15/710,791 US10354392B2 (en) | 2017-01-24 | 2017-09-20 | Image guided video semantic object segmentation method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710060268.8A CN106875406B (zh) | 2017-01-24 | 2017-01-24 | 图像引导的视频语义对象分割方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106875406A CN106875406A (zh) | 2017-06-20 |
CN106875406B true CN106875406B (zh) | 2020-04-14 |
Family
ID=59159042
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710060268.8A Active CN106875406B (zh) | 2017-01-24 | 2017-01-24 | 图像引导的视频语义对象分割方法及装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10354392B2 (zh) |
CN (1) | CN106875406B (zh) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10169549B2 (en) | 2017-03-30 | 2019-01-01 | Adobe Inc. | Digital image processing including refinement layer, search context data, or DRM |
US10339642B2 (en) * | 2017-03-30 | 2019-07-02 | Adobe Inc. | Digital image processing through use of an image repository |
JP6729515B2 (ja) * | 2017-07-19 | 2020-07-22 | ヤマハ株式会社 | 楽曲解析方法、楽曲解析装置およびプログラム |
EP3438929B1 (en) * | 2017-08-04 | 2020-07-08 | Université de Liège | Foreground and background detection method |
US10706558B2 (en) * | 2017-08-04 | 2020-07-07 | Université de Liège | Foreground and background detection method |
US20190251695A1 (en) * | 2017-08-04 | 2019-08-15 | Universite De Liege | Foreground and background detection method |
CN108171697B (zh) * | 2018-01-05 | 2022-03-01 | 北京航空航天大学 | 一种基于簇的wmh自动提取*** |
JP6707305B2 (ja) * | 2018-02-06 | 2020-06-10 | 日本電信電話株式会社 | コンテンツ判定装置、コンテンツ判定方法、及びプログラム |
CN110782466B (zh) * | 2018-07-31 | 2023-05-02 | 阿里巴巴集团控股有限公司 | 图片分割方法、装置和*** |
CN110569698B (zh) * | 2018-08-31 | 2023-05-12 | 创新先进技术有限公司 | 一种图像目标检测及语义分割方法和装置 |
CN109784164B (zh) * | 2018-12-12 | 2020-11-06 | 北京达佳互联信息技术有限公司 | 前景识别方法、装置、电子设备及存储介质 |
CN111382753B (zh) * | 2018-12-27 | 2023-05-12 | 曜科智能科技(上海)有限公司 | 光场语义分割方法、***、电子终端及存储介质 |
CN109753913B (zh) * | 2018-12-28 | 2023-05-23 | 东南大学 | 计算高效的多模式视频语义分割方法 |
CN110163873B (zh) * | 2019-05-20 | 2023-02-24 | 长沙理工大学 | 一种双边视频目标分割方法及*** |
CN110390293B (zh) * | 2019-07-18 | 2023-04-25 | 南京信息工程大学 | 一种基于高阶能量约束的视频对象分割算法 |
CN111008978B (zh) * | 2019-12-06 | 2022-10-14 | 电子科技大学 | 基于深度学习的视频场景分割方法 |
CN111160301B (zh) * | 2019-12-31 | 2023-04-18 | 同济大学 | 基于机器视觉的隧道病害目标智能识别及提取方法 |
CN111428990A (zh) * | 2020-03-20 | 2020-07-17 | 浙江大学城市学院 | 一种基于深度神经网络的水培花卉开花期花卉等级评估方法 |
CN111757149B (zh) * | 2020-07-17 | 2022-07-05 | 商汤集团有限公司 | 视频剪辑方法、装置、设备及存储介质 |
CN112307908B (zh) * | 2020-10-15 | 2022-07-26 | 武汉科技大学城市学院 | 一种视频语义提取方法及装置 |
CN112866797B (zh) * | 2020-12-31 | 2023-03-24 | 上海商汤智能科技有限公司 | 一种视频处理方法、装置、电子设备及存储介质 |
CN112950466A (zh) * | 2021-01-26 | 2021-06-11 | 北京航空航天大学 | 一种基于语义对象匹配的图像拼接方法 |
CN113537235A (zh) * | 2021-02-08 | 2021-10-22 | 中国石油化工股份有限公司 | 岩石鉴定方法、***、装置、终端及可读存储介质 |
CN112862839B (zh) * | 2021-02-24 | 2022-12-23 | 清华大学 | 一种地图要素语义分割鲁棒性增强方法和*** |
CN115223113B (zh) * | 2022-08-11 | 2023-04-14 | 中关村科学城城市大脑股份有限公司 | 训练样本集清洗方法、装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105809672A (zh) * | 2016-03-03 | 2016-07-27 | 浙江大学 | 一种基于超像素和结构化约束的图像多目标协同分割方法 |
CN106327469A (zh) * | 2015-06-29 | 2017-01-11 | 北京航空航天大学 | 一种语义标签引导的视频对象分割方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102388391B (zh) * | 2009-02-10 | 2014-01-22 | 汤姆森特许公司 | 基于前景-背景约束传播的视频抠图 |
KR101634228B1 (ko) * | 2009-03-17 | 2016-06-28 | 삼성전자주식회사 | 디지털 이미지 처리장치, 추적방법, 추적방법을 실행시키기위한 프로그램을 저장한 기록매체 및 추적방법을 채용한 디지털 이미지 처리장치 |
US8792718B2 (en) * | 2012-06-29 | 2014-07-29 | Adobe Systems Incorporated | Temporal matte filter for video matting |
JP6492849B2 (ja) * | 2015-03-24 | 2019-04-03 | 富士ゼロックス株式会社 | ユーザプロファイル作成装置、動画像分析装置、動画像再生装置、及びユーザプロファイル作成プログラム |
US10192117B2 (en) * | 2015-06-25 | 2019-01-29 | Kodak Alaris Inc. | Graph-based framework for video object segmentation and extraction in feature space |
-
2017
- 2017-01-24 CN CN201710060268.8A patent/CN106875406B/zh active Active
- 2017-09-20 US US15/710,791 patent/US10354392B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106327469A (zh) * | 2015-06-29 | 2017-01-11 | 北京航空航天大学 | 一种语义标签引导的视频对象分割方法 |
CN105809672A (zh) * | 2016-03-03 | 2016-07-27 | 浙江大学 | 一种基于超像素和结构化约束的图像多目标协同分割方法 |
Non-Patent Citations (2)
Title |
---|
A Graph-Based Framework for Video Object Segmentation and Extraction in Feature Space;Lei Fan,Alexander C. Loui;《2015 IEEE International Symposium on Multimedia (ISM)》;20160328;266-271 * |
Objectness-aware Semantic Segmentation;Yuhang Wang等;《 Proceedings of the 24th ACM international conference on Multimedia》;20161019;307-311 * |
Also Published As
Publication number | Publication date |
---|---|
US20180211393A1 (en) | 2018-07-26 |
US10354392B2 (en) | 2019-07-16 |
CN106875406A (zh) | 2017-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106875406B (zh) | 图像引导的视频语义对象分割方法及装置 | |
CN109241913B (zh) | 结合显著性检测和深度学习的船只检测方法及*** | |
CN112001385B (zh) | 一种目标跨域检测与理解方法、***、设备及存储介质 | |
CN110910391B (zh) | 一种双模块神经网络结构视频对象分割方法 | |
CN111259936B (zh) | 一种基于单一像素标注的图像语义分割方法及*** | |
CN105825502B (zh) | 一种基于显著性指导的词典学习的弱监督图像解析方法 | |
CN111091573B (zh) | 基于深度学习的ct影像肺血管的分割方法及*** | |
CN111445488B (zh) | 一种弱监督学习自动识别和分割盐体的方法 | |
CN113033520B (zh) | 一种基于深度学习的树木线虫病害木识别方法及*** | |
CN111666921A (zh) | 车辆控制方法、装置、计算机设备和计算机可读存储介质 | |
CN103886619B (zh) | 一种融合多尺度超像素的目标跟踪方法 | |
CN112668579A (zh) | 基于自适应亲和力和类别分配的弱监督语义分割方法 | |
CN110827312B (zh) | 一种基于协同视觉注意力神经网络的学习方法 | |
CN112036231B (zh) | 一种基于车载视频的车道线和路面指示标志检测与识别方法 | |
CN113076871A (zh) | 一种基于目标遮挡补偿的鱼群自动检测方法 | |
CN102663757A (zh) | 基于核传递的半自动图像分割方法 | |
CN102799646B (zh) | 一种面向多视点视频的语义对象分割方法 | |
CN114092487A (zh) | 目标果实实例分割方法及*** | |
CN113362341B (zh) | 基于超像素结构约束的空地红外目标跟踪数据集标注方法 | |
CN116310128A (zh) | 基于实例分割与三维重建的动态环境单目多物体slam方法 | |
CN116310688A (zh) | 基于级联融合的目标检测模型及其构建方法、装置及应用 | |
CN114764870A (zh) | 对象定位模型处理、对象定位方法、装置及计算机设备 | |
CN117437423A (zh) | 基于sam协同学习和跨层特征聚合增强的弱监督医学图像分割方法及装置 | |
CN116109649A (zh) | 一种基于语义错误修正的3d点云实例分割方法 | |
CN112215205B (zh) | 目标识别方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |