CN105719297A - 基于视频的物体切割方法及装置 - Google Patents

基于视频的物体切割方法及装置 Download PDF

Info

Publication number
CN105719297A
CN105719297A CN201610041711.2A CN201610041711A CN105719297A CN 105719297 A CN105719297 A CN 105719297A CN 201610041711 A CN201610041711 A CN 201610041711A CN 105719297 A CN105719297 A CN 105719297A
Authority
CN
China
Prior art keywords
video
cutting
pixel
statistical nature
feature learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610041711.2A
Other languages
English (en)
Inventor
陈世峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201610041711.2A priority Critical patent/CN105719297A/zh
Publication of CN105719297A publication Critical patent/CN105719297A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Image Analysis (AREA)

Abstract

本发明适用于视频处理技术领域,提供了基于视频的物体切割方法及装置,包括:提取视频的其中一帧图像,通过图切割算法切割出所述图像中的指定物体;对切割出的物体进行特征学习,获取所述物体的物体区域、非物体区域及边界的统计特征;基于获取到的所述物体的统计特征,通过条件随机场模型对所述视频的其他帧图像中的所述物体进行切割。本发明基于第一帧图像的切割结果,学习切割出的物体的统计特征,进而通过条件随机场模型来实现对该视频片段其它帧的该物体的切割,从而能够完成对任意视频中任意物体的自动切割,使得物体切割不再受背景静止、相机静止、前景运动或者背景已知等条件的限制,提高了物体切割算法的处理能力。

Description

基于视频的物体切割方法及装置
技术领域
本发明属于视频处理技术领域,尤其涉及基于视频的物体切割方法及装置。
背景技术
视频中的物体切割技术在在计算机视觉的许多应用领域都扮演着极为重要的角色,包括视频监控、视频编辑、视频检索等应用领域。为了提高物体切割的精度,现有技术中的大多算法都会对视频数据提出一些假设,例如视频背景静止的假设,或者相机保持静止的假设,等等,然而,以上假设也为物体切割的适用场景提出了限制,无法针对任意视频完成物体切割操作。
发明内容
有鉴于此,本发明实施例提供了基于视频的物体切割方法及装置,以解决现有技术对物体切割的适用场景存在限制,无法针对任意视频完成物体切割操作的问题。
第一方面,提供了一种基于视频的物体切割方法,包括:
提取视频的其中一帧图像,通过图切割算法切割出所述图像中的指定物体;
对切割出的物体进行特征学习,获取所述物体的物体区域、非物体区域及边界的统计特征;
基于获取到的所述物体的统计特征,通过条件随机场模型对所述视频的其他帧图像中的所述物体进行切割。
第二方面,提供了一种基于视频的物体切割装置,包括:
第一切割单元,用于提取视频的其中一帧图像,通过图切割算法切割出所述图像中的指定物体;
特征学习单元,用于对切割出的物体进行特征学习,获取所述物体的物体区域、非物体区域及边界的统计特征;
第二切割单元,用于基于获取到的所述物体的统计特征,通过条件随机场模型对所述视频的其他帧图像中的所述物体进行切割。
本发明实施例首先利用简单的图切割算法切割出视频片段第一帧图像中的物体,之后基于该第一帧图像的切割结果,学习切割出的物体的统计特征,进而通过条件随机场模型来实现对该视频片段其它帧的该物体的切割,从而能够完成对任意视频中任意物体的自动切割,使得物体切割不再受背景静止、相机静止、前景运动或者背景已知等条件的限制,提高了物体切割算法的处理能力。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于视频的物体切割方法的实现流程图;
图2是本发明实施例提供的基于视频的物体切割装置的结构框图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定***结构、技术之类的具体细节,以便透切理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的***、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
图1示出了本发明实施例提供的基于视频的物体切割方法的实现流程,详述如下:
在S101中,提取视频的其中一帧图像,通过图切割算法切割出所述图像中的指定物体。
优选地,可以按照视频图像帧的播放顺序,提取出视频的第一帧图像,并通过图切割算法来对该图像中通过用户交互所指定的物体进行切割。
在S102中,对切割出的物体进行特征学习,获取所述物体的物体区域、非物体区域及边界的统计特征。
在本发明实施例中,可以采用支持向量机(SVM)作为分类器,选择像素的色彩或者亮度值,以及以该像素为中心的图像块的色彩或者亮度值作为图像统计特征,从而分别学习到该物体的物体区域、非物体区域及边界的统计特征。
将视频的第一帧图像的物体切割结果作为训练数据,采用SVM进行学习。假设fo是学习到的分类函数,在分类函数中,sgn[fo(oi)]=+1代表像素i属于物体区域,sgn[fo(oi)]=-1代表像素i属于非物体区域,其中,sgn代表符号函数。
在S103中,基于获取到的所述物体的统计特征,通过条件随机场模型对所述视频的其他帧图像中的所述物体进行切割。
记o={oi}i∈l为要处理的图像帧,r={ri}i∈l为图像帧的切割结果,其中,I为图像帧中的像素集合,oi为像素i的统计特征(即亮度或色彩等统计特征),ri为像素i的标注,其值为+1或-1(ri=+1代表像素i属于物体区域,ri=-1代表像素i属于非物体区域),由此,可以将物体切割问题描述成视频图像帧中的所有像素求解最优标注的问题。
通过条件随机场(CRF)模型,视频图像帧中像素最优标注的求解可以通过以下的最大后验概率p(r|o)实现:
其中,是像素i的邻域,包括空间邻域和时间邻域对于每个像素,采用8个空间邻域和18个时间邻域,Z是区分函数。上述最大后验概率的求解可以转化为求解以下能量函数:
为了定义(2)式中的u,需要选择一个分类器,在本发明实施例中,可以采用支持向量机(SVM)来作为分类器,选择像素的色彩以及以其为中心的图像块色彩作为图像统计特征。
将视频的第一帧图像的物体切割结果作为训练数据,采用SVM进行学***面,该超平面离上述两个类的训练数据中的最近数据点的距离最大,假设m+1和m-1分别是两类训练数据中离这个超平面的最大距离,则u定义为:
在公式(2)中,v定义为以下三项之和:
v ( r i , r j ) = v i j c + v i j b + v i j t , - - - ( 4 )
其中:
v i j c = α · exp ( - | | c i - c j | | σ ) · | r i - r j | , - - - ( 5 )
在此,i与j是空间邻域内的像素对,α与σ是控制参数,α采用随机100张图的分割结果求得,σ自动设置为σ=2<||ci-cj||>,其中,<·>是针对整个图像的均值操作。
基于初始的图像切割结果,选择所有邻域内有着不同标注值的像素对,基于这些选择的数据,计算3个2维的直方图表Hr,Hg和Hb,分别对应R、G、B色彩通道。定义:
v i j b = &alpha; &prime; &CenterDot; exp ( - H i j &sigma; &prime; ) &CenterDot; | r i - r j | , - - - ( 6 )
其中, H i j = m a x { H r ( c i - c j ) , H g ( c i - c j ) , H b ( c i - c j ) } , α′=α,σ′=Np,其中,Np是从初始结果中选择的像素对的数目。
对于采用跟对比度相类似的定义,即其中,不同的是i与j是时间邻域内的像素对。
结合以上公式,可以得到最终的能量函数,并通过最小化该能量函数,确定视频每个图像帧中每个像素的最优标注,从而完成物体的切割,其中,能量函数最小化的求解可以通过图切割算法来实现。
本发明实施例首先利用简单的图切割算法切割出视频片段第一帧图像中的物体,之后基于该第一帧图像的切割结果,学习切割出的物体的统计特征,进而通过条件随机场模型来实现对该视频片段其它帧的该物体的切割,从而能够完成对任意视频中任意物体的自动切割,使得物体切割不再受背景静止、相机静止、前景运动或者背景已知等条件的限制,提高了物体切割算法的处理能力。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
对应于上文实施例所述的基于视频的物体切割方法,图2示出了本发明实施例提供的基于视频的物体切割装置的结构框图,为了便于说明,仅示出了与本实施例相关的部分。
参照图2,该装置包括:
第一切割单元21,提取视频的其中一帧图像,通过图切割算法切割出所述图像中的指定物体;
特征学习单元22,对切割出的物体进行特征学习,获取所述物体的物体区域、非物体区域及边界的统计特征;
第二切割单元23,基于获取到的所述物体的统计特征,通过条件随机场模型对所述视频的其他帧图像中的所述物体进行切割。
可选地,所述第二切割单元23用于:
最小化预设的能量函数,以确定每个像素的最优标注,所述标注用于表明其对应的像素是否属于所述物体。
可选地,所述第一切割单元21具体用于:
提取所述视频的第一帧图像。
可选地,所述特征学习单元22具体用于:
通过支持向量机对切割出的物体进行特征学习。
可选地,所述统计特征包括像素的色彩或亮度值,以及以该像素为中心的图像块的色彩或亮度值。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述***中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的***实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明实施例各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例各实施例技术方案的精神和范围。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于视频的物体切割方法,其特征在于,包括:
提取视频的其中一帧图像,通过图切割算法切割出所述图像中的指定物体;
对切割出的物体进行特征学习,获取所述物体的物体区域、非物体区域及边界的统计特征;
基于获取到的所述物体的统计特征,通过条件随机场模型对所述视频的其他帧图像中的所述物体进行切割。
2.如权利要求1所述的方法,其特征在于,所述基于获取到的所述物体的统计特征,通过条件随机场模型对所述视频的其他帧图像中的所述物体进行切割包括:
最小化预设的能量函数,以确定每个像素的最优标注,所述标注用于表明其对应的像素是否属于所述物体。
3.如权利要求1所述的方法,其特征在于,所述提取视频的其中一帧图像包括:
提取所述视频的第一帧图像。
4.如权利要求1所述的方法,其特征在于,所述对切割出的物体进行特征学习包括:
通过支持向量机对切割出的物体进行特征学习。
5.如权利要求1所述的方法,其特征在于,所述统计特征包括像素的色彩或亮度值,以及以该像素为中心的图像块的色彩或亮度值。
6.一种基于视频的物体切割装置,其特征在于,包括:
第一切割单元,用于提取视频的其中一帧图像,通过图切割算法切割出所述图像中的指定物体;
特征学习单元,用于对切割出的物体进行特征学习,获取所述物体的物体区域、非物体区域及边界的统计特征;
第二切割单元,用于基于获取到的所述物体的统计特征,通过条件随机场模型对所述视频的其他帧图像中的所述物体进行切割。
7.如权利要求6所述的装置,其特征在于,所述第二切割单元用于:
最小化预设的能量函数,以确定每个像素的最优标注,所述标注用于表明其对应的像素是否属于所述物体。
8.如权利要求6所述的装置,其特征在于,所述第一切割单元具体用于:
提取所述视频的第一帧图像。
9.如权利要求6所述的装置,其特征在于,所述特征学习单元具体用于:
通过支持向量机对切割出的物体进行特征学习。
10.如权利要求6所述的装置,其特征在于,所述统计特征包括像素的色彩或亮度值,以及以该像素为中心的图像块的色彩或亮度值。
CN201610041711.2A 2016-01-21 2016-01-21 基于视频的物体切割方法及装置 Pending CN105719297A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610041711.2A CN105719297A (zh) 2016-01-21 2016-01-21 基于视频的物体切割方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610041711.2A CN105719297A (zh) 2016-01-21 2016-01-21 基于视频的物体切割方法及装置

Publications (1)

Publication Number Publication Date
CN105719297A true CN105719297A (zh) 2016-06-29

Family

ID=56154842

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610041711.2A Pending CN105719297A (zh) 2016-01-21 2016-01-21 基于视频的物体切割方法及装置

Country Status (1)

Country Link
CN (1) CN105719297A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112085025A (zh) * 2019-06-14 2020-12-15 阿里巴巴集团控股有限公司 物体分割方法、装置、设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101689305A (zh) * 2007-06-05 2010-03-31 微软公司 从单个示例学习对象剪切
CN102044151A (zh) * 2010-10-14 2011-05-04 吉林大学 基于光照可见度辨识的夜间车辆视频检测方法
US20110200230A1 (en) * 2008-10-10 2011-08-18 Adc Automotive Distance Control Systems Gmbh Method and device for analyzing surrounding objects and/or surrounding scenes, such as for object and scene class segmenting
CN102902978A (zh) * 2012-08-31 2013-01-30 电子科技大学 一种面向对象的高分辨率遥感图像分类方法
JP2013080433A (ja) * 2011-10-05 2013-05-02 Nippon Telegr & Teleph Corp <Ntt> ジェスチャ認識装置及びそのプログラム
CN103810704A (zh) * 2014-01-23 2014-05-21 西安电子科技大学 基于支持向量机和判别随机场的sar图像变化检测方法
CN104751492A (zh) * 2015-04-17 2015-07-01 中国科学院自动化研究所 基于动态耦合条件随机场的目标区域跟踪方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101689305A (zh) * 2007-06-05 2010-03-31 微软公司 从单个示例学习对象剪切
US20110200230A1 (en) * 2008-10-10 2011-08-18 Adc Automotive Distance Control Systems Gmbh Method and device for analyzing surrounding objects and/or surrounding scenes, such as for object and scene class segmenting
CN102044151A (zh) * 2010-10-14 2011-05-04 吉林大学 基于光照可见度辨识的夜间车辆视频检测方法
JP2013080433A (ja) * 2011-10-05 2013-05-02 Nippon Telegr & Teleph Corp <Ntt> ジェスチャ認識装置及びそのプログラム
CN102902978A (zh) * 2012-08-31 2013-01-30 电子科技大学 一种面向对象的高分辨率遥感图像分类方法
CN103810704A (zh) * 2014-01-23 2014-05-21 西安电子科技大学 基于支持向量机和判别随机场的sar图像变化检测方法
CN104751492A (zh) * 2015-04-17 2015-07-01 中国科学院自动化研究所 基于动态耦合条件随机场的目标区域跟踪方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
PEI YIN 等: "Tree-based Classifiers for Bilayer Video Segmentation", 《2007 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN ESSA》 *
SHIFENG CHEN等: "Learning Boundary and Appearance for Video Object Cutout", 《IEEE SIGNAL PROCESSING LETTERS》 *
丁明跃: "《物联网识别技术》", 31 July 2012, 中国铁道出版社 *
李丽莎: "基于本体的图像检索技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
汪洪桥 等: "《模式分析的多核方法及其应用》", 31 March 2014, 国防工业出版社 *
郭磊 等: "基于支持向量机和条件随机场的MR图像分割", 《北京理工大学学报》 *
陈厚群等著: "《高拱坝抗震安全》", 31 January 2012, 中国电力出版社 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112085025A (zh) * 2019-06-14 2020-12-15 阿里巴巴集团控股有限公司 物体分割方法、装置、设备
CN112085025B (zh) * 2019-06-14 2024-01-16 阿里巴巴集团控股有限公司 物体分割方法、装置、设备

Similar Documents

Publication Publication Date Title
Rafique et al. Vehicle license plate detection using region-based convolutional neural networks
EP3493101B1 (en) Image recognition method, terminal, and nonvolatile storage medium
CN110874841A (zh) 参照边缘图像的客体检测方法及装置
CN101657839B (zh) 用于对2d图像进行区域分类以进行2d至3d转换的***和方法
CN112153483B (zh) 信息植入区域的检测方法、装置及电子设备
US9633446B2 (en) Method, apparatus and computer program product for segmentation of objects in media content
US20100226564A1 (en) Framework for image thumbnailing based on visual similarity
KR101436369B1 (ko) 적응적 블록 분할을 이용한 다중 객체 검출 장치 및 방법
CN102474636A (zh) 调节立体图像对中的透视性和差异
CN109214403A (zh) 图像识别方法、装置及设备、可读介质
CN105741265A (zh) 深度图像的处理方法及装置
Amer et al. Monocular extraction of 2.1 d sketch using constrained convex optimization
CN111126197A (zh) 基于深度学习的视频处理方法及装置
CN110222582A (zh) 一种图像处理方法和相机
CN111126401A (zh) 一种基于上下文信息的车牌字符识别方法
CN106384071A (zh) 一种二维码扫描识别处理方法及装置
CN111080723B (zh) 基于Unet网络的图像元素分割方法
CN113689434A (zh) 一种基于条带池化的图像语义分割方法
Zeeshan et al. A newly developed ground truth dataset for visual saliency in videos
CN105741269A (zh) 视频切割的方法及装置
CN114816410A (zh) 界面生成方法、装置以及存储介质
CN112990172A (zh) 一种文本识别方法、字符识别方法及装置
EP2991036B1 (en) Method, apparatus and computer program product for disparity estimation of foreground objects in images
CN113221991A (zh) 一种利用深度学习重新标注数据集的方法
CN105719297A (zh) 基于视频的物体切割方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160629