CN106952269A - 近邻可逆的视频前景物体序列检测分割方法及*** - Google Patents
近邻可逆的视频前景物体序列检测分割方法及*** Download PDFInfo
- Publication number
- CN106952269A CN106952269A CN201710104243.3A CN201710104243A CN106952269A CN 106952269 A CN106952269 A CN 106952269A CN 201710104243 A CN201710104243 A CN 201710104243A CN 106952269 A CN106952269 A CN 106952269A
- Authority
- CN
- China
- Prior art keywords
- video
- frame
- super
- pixel block
- angle value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/457—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by analysing connectivity, e.g. edge linking, connected component analysis or slices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2193—Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种近邻可逆的视频前景物体序列检测分割方法及***,其中,方法包括:将视频的每一视频帧划分为超像素块;利用视觉关注属性特征表征每一个超像素块;构建并训练深度神经网络,预测每一个超像素块在空域上的初始前景度值;利用视觉关注属性特征在不同视频帧之间构建近邻可逆矩阵;利用近邻可逆矩阵传播超像素块的初始前景度值,构建迭代优化问题,求解超像素块在时空域上的最终前景度值;将超像素块的最终前景度值进行像素级转化;采用形态学平滑操作对像素的最终前景度值进行优化处理;根据像素的最终前景度值判定所述像素是否属于视频前景物体序列。本发明处理视频无需设置先验假定条件,尤其适用于包含复杂场景的大数据集。
Description
技术领域
本发明涉及计算机视觉和图像视频处理领域,尤其涉及一种近邻可逆的视频前景物体序列检测分割方法及***。
背景技术
近年来,图像前景物体序列的分割,或称为基于图像的显著对象检测,随着随机森林、多示例学习、栈式自编码器、深度神经网络等技术的结合与应用,在大规模图像数据集上训练出了很多强大的检测模型,取得了令人印象深刻的发展与进步。
视频前景物体序列与图像显著对象存在内在联系,即视频中前景物体序列在大部分视频帧上都是图像显著对象。然而两者也具有根本性不同之处,表现在:首先,视频中所有视频帧上的前景物体序列并不总是图像显著对象,其次,视频中视频帧与视频帧的一致关系为分割前景物体序列与背景提供了额外的线索,最后,由于摄像头和对象的各种动作,前景物体序列可能落在视频的边界处,导致在图像显著检测模型中广泛使用的背景先验不再有效。
分割视频的前景物体序列是众多计算机视觉应用中很重要的一步。然而,针对视频前景物体序列检测分割,仍然存在巨大的挑战。由于缺少大规模的训练视频数据,无法利用机器学习方法训练性能足够强大的时空域检测模型。此外,由于相机和拍摄对象的运动,使得同样的视频前景物体序列在不同视频帧上产生不同的出现方式,或者多个前景物体序列同时出现,或者与干扰背景有遮挡现象,使得很难持续一致地在整个视频中凸显前景物体序列。
为解决视频前景物体序列检测分割存在的问题,当前研究中存在三种模型类型:全自动分割模型、交互分割模型以及语义信息指导分割模型。
交互分割模型需要对视频第一帧或若干关键视频帧手动标注出前景物体序列,随后才能进行自动的分割过程。而语义信息指导分割模型在分割过程进行之前,需要先设定视频前景物体序列的语义类别,因此这类模型可以结合对象检测器等其他工具分割视频前景物体序列。通常,这两类模型都可依靠人工标注或者数据学习得到的先验知识取得不错的性能。但是,所需要的交互工作和语义标签使得他们很难在大规模数据集上推广使用。
全自动分割模型旨在对单个视频直接分割出前景物体序列或者对视频集共分割出前景物体序列。一般地,全自动分割模型需要对视频前景物体序列的空域视觉属性或者时域运动方式提出确定的假设条件。比如,Papazoglou等人在2013年ICCV会议上提出在视频大部分片段中前景对象应该尽可能的和周围背景有不同的运动方式的假设条件,他们首先根据运动信息初始化得到前景概率图,然后在时空域中优化求解以提高前景对象运动的平滑性。又如,Zhang等人在2013年CVPR会议上的论文中提出基于层次化有向非循环图的***框架分割视频前景物体序列,其假设条件为对象是空域紧致的、而且他们的形状和位置随着时域平滑变动。实际上,类似的假设条件出现在很多全自动分割模型中,并且在若干小数据(SegTrack以及SegTrackV2等数据集)上都有不错的性能,然而,对于Youtube-Objects和VOS等包含复杂场景的大数据集,假设条件可能并不成立,此类模型有时会产生失败负例。而且,很多全自动分割模型需要对视频计算光流,或者需要迭代求解复杂优化问题,使得该模型在分割视频前景物体序列过程中显著地增加计算开销,导致更低的分割速度。
发明内容
本发明提供一种近邻可逆的视频前景物体序列检测分割方法及***,用于解决现有的视频前景物体序列分割方法无法适用于大规模视频数据集的问题。
本发明提供一种近邻可逆的视频前景物体序列检测分割方法,包括:
将待处理视频划分为多个视频帧{I1,I2,...,Iu-1,Iu},并将每个视频帧Iu按照当前设定的尺度划分为多个超像素块其中,u为所述多个视频帧的个数,Nu为所述视频帧Iu中超像素块的个数;
获取每个超像素块的视觉关注属性特征集合,所述视觉关注属性特征集合中每个视觉关注属性特征为所述超像素块中所有像素的所述视觉关注属性特征的平均值;
针对每个视频帧Iu,依次将其前后各T帧的每个视频帧Iv与所述视频帧Iu作为当前的待处理视频帧,执行步骤一至步骤三的步骤,获得所述视频帧Iu对应的2T个近邻可逆矩阵;其中,Iv∈Tu,Tu={Iu-T,...,Iu-1,Iu+1,...,Iu+T},T为正整数,Nv为所述视频帧Iv中超像素块个数;
步骤一:根据当前的待处理视频帧对应的超像素块,构建对应的近邻可逆矩阵Fuv:
步骤二:针对当前的待处理视频帧中每个视频帧对应的每个超像素块,将另一视频帧中所有的超像素块按照与所述超像素块的视觉关注属性特征集合的相似度进行排序,若所述视频帧Iu中的超像素块Oui和所述视频帧Iv中的超像素块Ovj都为对方的前K个最相似的超像素块,确定超像素块Oui和超像素块Ovj互为可逆K近邻,其中,K为正整数;
步骤三:针对所述矩阵Fuv中的每个元素fui,vj,若K≤K0,则将所述元素fui,vj赋值为fui,vj=exp(-2K/K0),否则赋值为0,其中,K0为预设的正整数;
构建深度神经网络,基于所述深度神经网络利用图像显著领域的大规模数据集训练得到的前景度回归器,预测每个视频帧Iu中每个超像素块在空域上的初始前景度值;
针对每个视频帧Iu,根据所述视频帧Iu对应的2T个近邻可逆矩阵,重复执行N次步骤A至步骤B,获得所述视频帧Iu中各超像素块在时空域上的最终前景度值,所述最终前景度值为最后一次执行步骤B之后所述各超像素块当前的前景度值,N为预设的正整数;
步骤A:利用第一公式,将所述视频帧Iu中各超像素块当前的前景度值依次传播到所述视频帧Iu的前后各T帧的视频帧Iv中,得到所述视频帧Iu中各超像素块的2T个前景度传播值,所述第一公式为:
其中,表示所述视频帧Iv中各超像素块在第t次迭代前的前景度值的列向量;表示所述视频帧Iu中各超像素块在第t次迭代前传播到所述视频帧Iv中的前景度传播值的列向量;
步骤B:根据所述视频帧Iu中各超像素块的前景度值和所述各超像素块的2T个前景度传播值,构建优化问题并求解,获得并根据所述各超像素块的优化前景度值更新所述各超像素块当前的前景度值;
针对每个视频帧Iu中每个像素,将所述像素所在的超像素块的最终前景度值作为当前尺度下所述像素的前景度值;
采用形态学平滑操作,对每个视频帧Iu中各像素的前景度值进行优化处理,并针对每个视频帧Iu中每个像素的前景度值,若所述像素的前景度值大于预设的阈值,则判定所述像素属于视频前景物体序列,否则,判定所述像素属于视频背景物体序列。
本发明还提供一种近邻可逆的视频前景物体序列检测分割***,包括:
划分模块,用于将待处理视频划分为多个视频帧{I1,I2,...,Iu-1,Iu},并将每个视频帧Iu按照当前设定的尺度划分为多个超像素块其中,u为所述多个视频帧的个数,Nu为所述视频帧Iu中超像素块的个数;
特征模块,用于获取每个超像素块的视觉关注属性特征集合,所述视觉关注属性特征集合中每个视觉关注属性特征为所述超像素块中所有像素的所述视觉关注属性特征的平均值;
矩阵模块,用于针对每个视频帧Iu,依次将其前后各T帧的每个视频帧Iv与所述视频帧Iu作为当前的待处理视频帧,执行步骤一至步骤三的步骤,获得所述视频帧Iu对应的2T个近邻可逆矩阵;其中,Iv∈Tu,Tu={Iu-T,...,Iu-1,Iu+1,...,Iu+T},T为正整数,Nv为所述视频帧Iv中超像素块的个数;
步骤一:根据当前的待处理视频帧对应的超像素块,构建对应的近邻可逆矩阵Fuv:
步骤二:针对当前的待处理视频帧中每个视频帧对应的每个超像素块,将另一视频帧中所有的超像素块按照与所述超像素块的视觉关注属性特征集合的相似度进行排序,若所述视频帧Iu中的超像素块Oui和所述视频帧Iv中的超像素块Ovj都为对方的前K个最相似的超像素块,确定超像素块Oui和超像素块Ovj互为可逆K近邻,其中,K为正整数;
步骤三:针对所述矩阵Fuv中的每个元素fui,vj,若K≤K0,则将所述元素fui,vj赋值为fui,vj=exp(-2K/K0),否则赋值为0,其中,K0为预设的正整数;
预测模块,用于构建深度神经网络,基于所述深度神经网络利用图像显著领域的大规模数据集训练得到的前景度回归器,预测每个视频帧Iu中每个超像素块在空域上的初始前景度值;
计算模块,用于针对每个视频帧Iu,根据所述视频帧Iu对应的2T个近邻可逆矩阵,重复执行N次步骤A至步骤B,获得所述视频帧Iu中各超像素块在时空域上的最终前景度值,所述最终前景度值为最后一次执行步骤B之后所述各超像素块当前的前景度值,N为预设的正整数;
步骤A:利用第一公式,将所述视频帧Iu中各超像素块当前的前景度值依次传播到所述视频帧Iu的前后各T帧的视频帧Iv中,得到所述视频帧Iu中各超像素块的2T个前景度传播值,所述第一公式为:
其中,表示所述视频帧Iv中各超像素块在第t次迭代前的前景度值的列向量;表示所述视频帧Iu中各超像素块在第t次迭代前传播到所述视频帧Iv中的前景度传播值的列向量;
步骤B:根据所述视频帧Iu中各超像素块的前景度值和所述各超像素块的2T个前景度传播值,构建优化问题并求解,获得并根据所述各超像素块的优化前景度值更新所述各超像素块当前的前景度值;
转化模块,用于针对每个视频帧Iu中每个像素,将所述像素所在的超像素块的最终前景度值作为当前尺度下所述像素的前景度值;
判定模块,用于采用形态学平滑操作,对每个视频帧Iu中各像素的前景度值进行优化处理,并针对每个视频帧Iu中每个像素的前景度值,若所述像素的前景度值大于预设的阈值,则判定所述像素属于视频前景物体序列,否则,判定所述像素属于视频背景物体序列。
本发明提供的近邻可逆的视频前景物体序列检测分割方法及***,以超像素块为单元,结合视觉关注属性特征,构建深度神经网络模型以预测各超像素块的初始前景度值、以及构建各视频帧对应的近邻可逆矩阵;基于该近邻可逆矩阵将各超像素块的前景度值进行传播至其前后一定范围内的视频帧中,通过构建优化问题,从而获得各超像素块在时空域上的最终前景度值,进而获得各超像素块中像素的前景度值,并基于各像素的前景度值自动分割视频前景物体序列,上述方案无需对任一无语义标签的视频设定前景物体序列的运动模式或外观的整体变化规律等假设条件,而且更准确有效,尤其适用于大规模视频数据集。
附图说明
图1为根据本发明的一实施例所示出的近邻可逆的视频前景物体序列检测分割方法的流程示意图;
图2为根据本发明的一实施例所示出的深度神经网络的结构示意图;
图3为根据本发明的一实施例所示出的近邻可逆的视频前景物体序列检测分割***的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下获得的所有其他实施例,都属于本发明保护的范围。
图1为根据本发明的一实施例所示出的近邻可逆的视频前景物体序列检测分割方法的流程示意图,如图1所示,所述方法包括如下步骤:
S11、将待处理视频划分为多个视频帧{I1,I2,...,Iu-1,Iu},并将每个视频帧Iu按照当前设定的尺度划分为多个超像素块其中,u为所述多个视频帧的个数,Nu为所述视频帧Iu中超像素块的个数;
S12、获取每个超像素块的视觉关注属性特征集合,所述视觉关注属性特征集合中每个视觉关注属性特征为所述超像素块中所有像素的所述视觉关注属性特征的平均值;
在察看一个视频时,人的视觉注意会从第一视频帧一直持续到最后一视频帧。在此过程中,视频前景物体序列捕获了最多的视觉注意力。视觉注意受颜色、显著、位置以及语义等视觉刺激属性影响。因此,上述的视觉关注属性特征集合可包括颜色特征、显著特征、位置特征以及语义特征。
进一步的,上述的颜色特征的数量可以根据需要的精度确定,例如,可以为9个,相应的,获取每个超像素块的颜色特征,包括:将超像素块所在视频帧转换到RGB、Lab和HSV三种颜色空间,获得超像素块所在视频帧中的所有像素的9个通道的颜色特征,并将每个像素在每个通道下的颜色特征归一化为[0,1]之间;分别计算超像素块中所有像素在9个通道下的颜色特征的平均值,获得超像素块的颜色特征。
进一步的,上述的显著特征的数量也可以根据需要的精度确定,例如,可以为9个,相应的,获取每个超像素块的显著特征,包括:采用光栅扫描技术计算超像素块所在视频帧中每一个像素到边界像素的最小障碍物距离,获得超像素块所在视频帧中的所有像素的9个显著特征,并将每个像素的每个显著特征归一化为[0,1]之间;分别计算超像素块中所有像素的每个显著特征的平均值,获得超像素块的显著特征。
进一步的,上述的位置特征的数量也可以根据需要的精度确定,例如,可以为2个,相应的,获取每个超像素块的位置特征,包括:对超像素块所在视频帧中的每一个像素提取水平方向和垂直方向的两个位置特征,并将每个像素的每个位置特征归一化为[0,1]之间;分别计算超像素块中所有像素的每个位置特征的平均值,获得超像素块的位置特征。
进一步的,上述的语义特征的数量也可以根据需要的精度确定,例如,可以为21个,相应的,获取每个超像素块的语义特征,包括:采用CRF-RNN模型,提取超像素块所在视频帧的21张语义概率图,获得超像素块所在视频帧中的所有像素的21个语义特征,并将每个像素的每个语义特征归一化到[0,1]之间;其中,21张语义概率图包括预定义的20类语义概率图,以及1张背景语义概率图;分别计算超像素块中所有像素的每个语义特征的平均值,获得超像素块的语义特征。上述CRF-RNN模型可以采用2015年Zheng等人发表在ICCV上的CRF-RNN模型。
S13、针对每个视频帧Iu,依次将其前后各T帧的每个视频帧Iv与所述视频帧Iu作为当前的待处理视频帧,执行步骤一至步骤三的步骤,获得所述视频帧Iu对应的2T个近邻可逆矩阵;
其中,Iv∈Tu,Tu={Iu-T,...,Iu-1,Iu+1,...,Iu+T},T为正整数,举例来说,其取值可以为2,Nv为所述视频帧Iv中超像素块的个数;
步骤一:根据当前的待处理视频帧对应的超像素块,构建对应的近邻可逆矩阵Fuv:
步骤二:针对当前的待处理视频帧中每个视频帧对应的每个超像素块,将另一视频帧中所有的超像素块按照与所述超像素块的视觉关注属性特征集合的相似度进行排序,若所述视频帧Iu中的超像素块Oui和所述视频帧Iv中的超像素块Ovj都为对方的前K个最相似的超像素块,确定超像素块Oui和超像素块Ovj互为可逆K近邻,其中,K为正整数;
步骤三:针对所述矩阵Fuv中的每个元素fui,vj,若K≤K0,则将所述元素fui,vj赋值为fui,vj=exp(-2K/K0),否则赋值为0,其中,K0为预设的正整数,举例来说,可以取值为10;
进一步的,上述的针对当前的待处理视频帧中每个视频帧对应的每个超像素块,将另一视频帧中所有的超像素块按照与所述超像素块的视觉关注属性特征集合的相似度进行排序,可包括:针对当前的待处理视频帧中每个视频帧对应的每个超像素块,计算另一视频帧中所有超像素块与所述超像素块的视觉关注属性特征集合的曼哈顿距离;根据所述曼哈顿距离,对另一视频帧中所有的超像素块进行相似度排序,所述曼哈顿距离越小,相似度越高。
具体的,两个超像素块的视觉关注属性特征集合的曼哈顿距离计算公式为:
其中,M为超像素块的视觉关注属性特征的个数,G(Oui)m为视频帧Iu中超像素块Oui的第m个视觉关注属性特征的值,G(Ovj)m为视频帧Iv中超像素块Ovj的第m个视觉关注属性特征的值。曼哈顿距离越小,超像素块Oui与超像素块Ovj的相似度越高。
S14、构建深度神经网络,基于所述深度神经网络利用图像显著领域的大规模数据集训练得到的前景度回归器,预测每个视频帧Iu中每个超像素块在空域上的初始前景度值;
由于缺少用于训练时空域检测模型的大规模视频数据集,因此直接计算超像素块的时空域前景度值存在很大困难。而视频前景物体序列与图像显著对象之间存在内在联系与区别:内在联系为视频中前景物体序列在大部分视频帧上都是图像显著对象;区别之处表现在,首先,视频中所有视频帧上的前景物体序列并不总是显著对象,其次,视频中视频帧与视频帧的一致关系为分割前景物体序列与背景提供了额外的线索,最后,由于摄像头和对象的各种动作,前景物体序列可能落在视频帧的边界处,导致在图像显著检测模型中广泛使用的背景先验不再有效。基于视频前景物体序列与图像显著对象之间存在的内在联系与区别,本发明构建深度神经网络,该深度神经网络利用图像显著领域中的大规模数据集,训练空域前景度回归器,预测每个视频帧中每个超像素块在空域上的初始前景度值。
进一步的,上述的深度神经网络利用图像显著领域中的大规模数据集,训练空域前景度回归器,预测每个视频帧中每个超像素块在空域上的初始前景度值,可包括:
构建深度神经网络。图2为根据本发明的一实施例所示出的深度神经网络的结构示意图。该深度神经网络由7层全连接组成,其中,前6层全连接的每一层全连接包含512个节点,第7层全连接包含1个节点,且前6层全连接的每一层全连接之后紧接着Batchnormalization批规范化和Relu激活函数,第7层全连接采用sigmod函数为损失函数;
举例来说,从现有图像显著数据集收集到20615张训练图像,首先将每一张训练图像按照15个尺度划分为若干超像素块,从而获取1千6百万个超像素块训练样本,并为每一个超像素块提取41维的视觉关注属性特征集合(包括9维颜色特征、9维显著特征、2维位置特征以及21维语义特征)。对于任一超像素块训练样本,计算包含在该超像素块训练样本内所有像素基准前景度值的平均值,并将该平均值归一化为[0,1]之间,获得该超像素块训练样本的基准前景度值;
根据每一超像素块训练样本的视觉关注属性特征集合以及基准前景度值,采用深度神经网络在线下主导训练空域前景度回归器,在训练过程中,输入是超像素块训练样本的视觉关注属性特征集合,输出是超像素块训练样本的基准前景度值,其中,输出值范围为[0,1]之间;
给定训练好空域前景度回归器的深度神经网络,输入每个视频帧中每个超像素块的视觉关注属性特征集合,则可输出该超像素块在空域上的初始前景度值。
S15、针对每个视频帧Iu,根据所述视频帧Iu对应的2T个近邻可逆矩阵,重复执行N次步骤A至步骤B,获得所述视频帧Iu中各超像素块在时空域上的最终前景度值,所述最终前景度值为最后一次执行步骤B之后所述各超像素块当前的前景度值,N为预设的正整数;
步骤A:利用第一公式,将所述视频帧Iu中各超像素块当前的前景度值依次传播到所述视频帧Iu的前后各T帧的视频帧Iv中,得到所述视频帧Iu中各超像素块的2T个前景度传播值,所述第一公式为:
其中,表示所述视频帧Iv中各超像素块在第t次迭代前的前景度值的列向量;表示所述视频帧Iu中各超像素块在第t次迭代前传播到所述视频帧Iv中的前景度传播值的列向量;
步骤B:根据所述视频帧Iu中各超像素块的前景度值和所述各超像素块的2T个前景度传播值,构建优化问题并求解,获得并根据所述各超像素块的优化前景度值更新所述各超像素块当前的前景度值;
进一步的,上述步骤B中根据视频帧Iu中各超像素块的前景度值和各超像素块的2T个前景度传播值,构建优化问题并求解,获得各超像素块的优化前景度值,可包括:
构建二次优化公式:
其中,λc为正实数,优选取值为0.5,表示视频帧Iu中各超像素块在第t次迭代前的前景度值的列向量,表示视频帧Iu中各超像素块在第t次迭代后的前景度值的列向量;
在上述二次优化公式中代入欧式距离公式:
求解获得视频帧Iu中各超像素块的前景度值:
将求解获得的视频帧Iu中各超像素块的前景度值归一化到[0,1]之间,获得各超像素块的优化前景度值。
进一步的,在S15之后,还可包括:利用高斯高通滤波,对视频帧Iu中各超像素块在时空域上的最终前景度值进行处理。这样可以提高各超像素块的最终前景度值的对比度,有效滤除噪声。
S16、针对每个视频帧Iu中每个像素,将像素所在的超像素块的最终前景度值作为当前尺度下像素的前景度值;
进一步的,在S16之后,还可包括:更新所述尺度,并返回执行将每个视频帧Iu按照当前设定的尺度划分为多个超像素块的步骤,获得当前尺度下每个视频帧Iu中每个像素的前景度值;将所有尺度下每个视频帧Iu中每个像素的前景度值的平均值,作为像素的前景度值。这样可以使最终获得的每个像素的前景度值更为精准。
S17、采用形态学平滑操作,对每个视频帧Iu中各像素的前景度值进行优化处理,并针对每个视频帧Iu中每个像素的前景度值,若所述像素的前景度值大于预设的阈值,则判定所述像素属于视频前景物体序列,否则,判定所述像素属于视频背景物体序列。
上述阈值优选为当前视频帧Iu对应的所有像素的前景度值中最大值的20%。
本实施例的近邻可逆的视频前景物体序列检测分割方法可全自动分割视频前景物体序列,无需对任一无语义标签的视频设定前景物体序列的运动模式或外观的整体变化规律等假设条件,而且更准确有效,尤其适用于包含复杂挑战场景的大规模视频数据集。
图3为根据本发明的一实施例所示出的近邻可逆的视频前景物体序列检测分割***的结构示意图。如图3所示,所述***主要包括:
划分模块11,用于将待处理视频划分为多个视频帧{I1,I2,...,Iu-1,Iu},并将每个视频帧Iu按照当前设定的尺度划分为多个超像素块其中,u为所述多个视频帧的个数,Nu为所述视频帧Iu中超像素块的个数;
特征模块12,用于获取每个超像素块的视觉关注属性特征集合,所述视觉关注属性特征集合中每个视觉关注属性特征为所述超像素块中所有像素的所述视觉关注属性特征的平均值;
矩阵模块13,用于针对每个视频帧Iu,依次将其前后各T帧的每个视频帧Iv与所述视频帧Iu作为当前的待处理视频帧,执行步骤一至步骤三的步骤,获得所述视频帧Iu对应的2T个近邻可逆矩阵;其中,Iv∈Tu,Tu={Iu-T,...,Iu-1,Iu+1,...,Iu+T},T为正整数,Nv为所述视频帧Iv中超像素块的个数;
步骤一:根据当前的待处理视频帧对应的超像素块,构建对应的近邻可逆矩阵Fuv:
步骤二:针对当前的待处理视频帧中每个视频帧对应的每个超像素块,将另一视频帧中所有的超像素块按照与所述超像素块的视觉关注属性特征集合的相似度进行排序,若所述视频帧Iu中的超像素块Oui和所述视频帧Iv中的超像素块Ovj都为对方的前K个最相似的超像素块,确定超像素块Oui和超像素块Ovj互为可逆K近邻,其中,K为正整数;
步骤三:针对所述矩阵Fuv中的每个元素fui,vj,若K≤K0,则将所述元素fui,vj赋值为fui,vj=exp(-2K/K0),否则赋值为0,其中,K0为预设的正整数;
预测模块14,用于构建深度神经网络,基于所述深度神经网络利用图像显著领域的大规模数据集训练得到的前景度回归器,预测每个视频帧Iu中每个超像素块在空域上的初始前景度值;
计算模块15,用于针对每个视频帧Iu,根据所述视频帧Iu对应的2T个近邻可逆矩阵,重复执行N次步骤A至步骤B,获得所述视频帧Iu中各超像素块在时空域上的最终前景度值,所述最终前景度值为最后一次执行步骤B之后所述各超像素块当前的前景度值,N为预设的正整数;
步骤A:利用第一公式,将所述视频帧Iu中各超像素块当前的前景度值依次传播到所述视频帧Iu的前后各T帧的视频帧Iv中,得到所述视频帧Iu中各超像素块的2T个前景度传播值,所述第一公式为:
其中,表示所述视频帧Iv中各超像素块在第t次迭代前的前景度值的列向量;表示所述视频帧Iu中各超像素块在第t次迭代前传播到所述视频帧Iv中的前景度传播值的列向量;
步骤B:根据所述视频帧Iu中各超像素块的前景度值和所述各超像素块的2T个前景度传播值,构建优化问题并求解,获得并根据所述各超像素块的优化前景度值更新所述各超像素块当前的前景度值;
转化模块16,用于针对每个视频帧Iu中每个像素,将所述像素所在的超像素块的最终前景度值作为当前尺度下所述像素的前景度值;
判定模块17,用于采用形态学平滑操作,对每个视频帧Iu中各像素的前景度值进行优化处理,并针对每个视频帧Iu中每个像素的前景度值,若所述像素的前景度值大于预设的阈值,则判定所述像素属于视频前景物体序列,否则,判定所述像素属于视频背景物体序列。
作为一种可选的实施方式,在前述任一实施方式的基础上,该近邻可逆的视频前景物体序列检测分割***,还可以包括:
循环模块18,用于在转化模块16针对每个视频帧Iu中每个像素,将所述像素所在的超像素块的最终前景度值作为当前尺度下所述像素的前景度值之后,更新所述尺度,并指示划分模块11再次执行所述将每个视频帧Iu按照当前设定的尺度划分为多个超像素块的步骤,获得当前尺度下每个视频帧Iu中每个像素的前景度值;
循环模块18,还用于将所有尺度下每个视频帧Iu中每个像素的前景度值的平均值,作为所述像素的前景度值。
进一步的,矩阵模块13,具体可用于针对当前的待处理视频帧中每个视频帧对应的每个超像素块,计算另一视频帧中所有超像素块与所述超像素块的视觉关注属性特征集合的曼哈顿距离;根据所述曼哈顿距离,对另一视频帧中所有的超像素块进行相似度排序,所述曼哈顿距离越小,相似度越高。
进一步的,预测模块14,具体可以用于构建深度神经网络。该深度神经网络由7层全连接组成,其中,前6层全连接的每一层全连接包含512个节点,第7层全连接包含1个节点,且前6层全连接的每一层全连接之后紧接着Batch normalization批规范化和Relu激活函数,第7层全连接采用sigmod函数为损失函数;
举例来说,从现有图像显著数据集收集到20615张训练图像,首先将每一张训练图像按照15个尺度划分为若干超像素块,从而获取1千6百万个超像素块训练样本,并为每一个超像素块提取41维的视觉关注属性特征集合(包括9维颜色特征、9维显著特征、2维位置特征以及21维语义特征)。对于任一超像素块训练样本,计算包含在该超像素块训练样本内所有像素基准前景度值的平均值,并将该平均值归一化为[0,1]之间,获得该超像素块训练样本的基准前景度值;
根据每一超像素块训练样本的视觉关注属性特征集合以及基准前景度值,采用深度神经网络在线下主导训练空域前景度回归器,在训练过程中,输入是超像素块训练样本的视觉关注属性特征集合,输出是超像素块训练样本的基准前景度值,其中,输出值范围为[0,1]之间;
给定训练好空域前景度回归器的深度神经网络,输入每个视频帧中每个超像素块的视觉关注属性特征集合,则可输出该超像素块在空域上的初始前景度值。
进一步的,计算模块15,具体可以包括:
构建单元,用于构建二次优化公式:
其中,λc为正实数,优选取值为0.5,表示视频帧Iu中各超像素块在第t次迭代前的前景度值的列向量,表示视频帧Iu中各超像素块在第t次迭代后的前景度值的列向量;
求解单元,用于在上述二次优化公式中代入欧式距离公式:
所述求解单元,还用于求解获得视频帧Iu中各超像素块的前景度值:
归一化单元,用于将求解获得的视频帧Iu中各超像素块的前景度值归一化到[0,1]之间,获得各超像素块的优化前景度值。
进一步的,计算模块15,还用于利用高斯高通滤波,对视频帧Iu中各超像素块在时空域上的最终前景度值进行处理。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种近邻可逆的视频前景物体序列检测分割方法,其特征在于,包括:
将待处理视频划分为多个视频帧{I1,I2,...,Iu-1,Iu},并将每个视频帧Iu按照当前设定的尺度划分为多个超像素块其中,u为所述多个视频帧的个数,Nu为所述视频帧Iu中超像素块的个数;
获取每个超像素块的视觉关注属性特征集合,所述视觉关注属性特征集合中每个视觉关注属性特征为所述超像素块中所有像素的所述视觉关注属性特征的平均值;
针对每个视频帧Iu,依次将其前后各T帧的每个视频帧Iv与所述视频帧Iu作为当前的待处理视频帧,执行步骤一至步骤三的步骤,获得所述视频帧Iu对应的2T个近邻可逆矩阵;其中,Iv∈Tu,Tu={Iu-T,...,Iu-1,Iu+1,...,Iu+T},T为正整数,Nv为所述视频帧Iv中超像素块的个数;
步骤一:根据当前的待处理视频帧对应的超像素块,构建对应的近邻可逆矩阵Fuv:
步骤二:针对当前的待处理视频帧中每个视频帧对应的每个超像素块,将另一视频帧中所有的超像素块按照与所述超像素块的视觉关注属性特征集合的相似度进行排序,若所述视频帧Iu中的超像素块Oui和所述视频帧Iv中的超像素块Ovj都为对方的前K个最相似的超像素块,确定超像素块Oui和超像素块Ovj互为可逆K近邻,其中,K为正整数;
步骤三:针对所述矩阵Fuv中的每个元素fui,vj,若K≤K0,则将所述元素fui,vj赋值为fui,vj=exp(-2K/K0),否则赋值为0,其中,K0为预设的正整数;
构建深度神经网络,基于所述深度神经网络利用图像显著领域的大规模数据集训练得到的前景度回归器,预测每个视频帧Iu中每个超像素块在空域上的初始前景度值;
针对每个视频帧Iu,根据所述视频帧Iu对应的2T个近邻可逆矩阵,重复执行N次步骤A至步骤B,获得所述视频帧Iu中各超像素块在时空域上的最终前景度值,所述最终前景度值为最后一次执行步骤B之后所述各超像素块当前的前景度值,N为预设的正整数;
步骤A:利用第一公式,将所述视频帧Iu中各超像素块当前的前景度值依次传播到所述视频帧Iu的前后各T帧的视频帧Iv中,得到所述视频帧Iu中各超像素块的2T个前景度传播值,所述第一公式为:
其中,表示所述视频帧Iv中各超像素块在第t次迭代前的前景度值的列向量;表示所述视频帧Iu中各超像素块在第t次迭代前传播到所述视频帧Iv中的前景度传播值的列向量;
步骤B:根据所述视频帧Iu中各超像素块的前景度值和所述各超像素块的2T个前景度传播值,构建优化问题并求解,获得并根据所述各超像素块的优化前景度值更新所述各超像素块当前的前景度值;
针对每个视频帧Iu中每个像素,将所述像素所在的超像素块的最终前景度值作为当前尺度下所述像素的前景度值;
采用形态学平滑操作,对每个视频帧Iu中各像素的前景度值进行优化处理,并针对每个视频帧Iu中每个像素的前景度值,若所述像素的前景度值大于预设的阈值,则判定所述像素属于视频前景物体序列,否则,判定所述像素属于视频背景物体序列。
2.根据权利要求1所述的方法,其特征在于,所述视觉关注属性特征集合包括颜色特征、显著特征、位置特征以及语义特征。
3.根据权利要求1所述的方法,其特征在于,所述深度神经网络由7层全连接组成,其中,前6层全连接的每一层全连接包含512个节点,第7层全连接包含1个节点,且所述前6层全连接的每一层全连接之后紧接着Batch normalization批规范化和Relu激活函数,所述第7层全连接采用sigmod函数为损失函数,所述深度神经网络的输入是超像素块的视觉关注属性特征集合,输出是超像素块的初始前景度值,所述输出值范围为[0,1]之间。
4.根据权利要求1所述的方法,其特征在于,所述针对当前的待处理视频帧中每个视频帧对应的每个超像素块,将另一视频帧中所有的超像素块按照与所述超像素块的视觉关注属性特征集合的相似度进行排序,包括:
针对当前的待处理视频帧中每个视频帧对应的每个超像素块,计算另一视频帧中所有超像素块与所述超像素块的视觉关注属性特征集合的曼哈顿距离;
根据所述曼哈顿距离,对另一视频帧中所有的超像素块进行相似度排序,所述曼哈顿距离越小,相似度越高。
5.根据权利要求1所述的方法,其特征在于,所述步骤B中所述根据所述视频帧Iu中各超像素块的前景度值和所述各超像素块的2T个前景度传播值,构建优化问题并求解,获得所述各超像素块的优化前景度值,包括:
构建二次优化公式:
其中,λc为正实数,表示所述视频帧Iu中各超像素块在第t次迭代前的前景度值的列向量,表示所述视频帧Iu中各超像素块在第t次迭代后的前景度值的列向量;
在所述二次优化公式中代入欧式距离公式,求解获得所述视频帧Iu中各超像素块的前景度值:
将求解获得的所述视频帧Iu中各超像素块的前景度值归一化到[0,1]之间,获得所述各超像素块的优化前景度值。
6.根据权利要求1所述的方法,其特征在于,所述针对每个视频帧Iu,根据所述视频帧Iu对应的2T个近邻可逆矩阵,重复执行N次步骤A至步骤B,获得所述视频帧Iu中各超像素块在时空域上的最终前景度值之后,还包括:
利用高斯高通滤波,对所述视频帧Iu中各超像素块在时空域上的最终前景度值进行处理。
7.根据权利要求1所述的方法,其特征在于,所述阈值为当前视频帧Iu对应的所有像素的前景度值中最大值的20%。
8.根据权利要求1所述的方法,其特征在于,所述针对每个视频帧Iu中每个像素,将所述像素所在的超像素块的最终前景度值作为所述像素的前景度值之后,还包括:
更新所述尺度,并返回执行所述将每个视频帧Iu按照当前设定的尺度划分为多个超像素块的步骤,获得当前尺度下每个视频帧Iu中每个像素的前景度值;
将所有尺度下每个视频帧Iu中每个像素的前景度值的平均值,作为所述像素的前景度值。
9.一种近邻可逆的视频前景物体序列检测分割***,其特征在于,包括:
划分模块,用于将待处理视频划分为多个视频帧{I1,I2,...,Iu-1,Iu},并将每个视频帧Iu按照当前设定的尺度划分为多个超像素块其中,u为所述多个视频帧的个数,Nu为所述视频帧Iu中超像素块的个数;
特征模块,用于获取每个超像素块的视觉关注属性特征集合,所述视觉关注属性特征集合中每个视觉关注属性特征为所述超像素块中所有像素的所述视觉关注属性特征的平均值;
矩阵模块,用于针对每个视频帧Iu,依次将其前后各T帧的每个视频帧Iv与所述视频帧Iu作为当前的待处理视频帧,执行步骤一至步骤三的步骤,获得所述视频帧Iu对应的2T个近邻可逆矩阵;其中,Iv∈Tu,Tu={Iu-T,...,Iu-1,Iu+1,...,Iu+T},T为正整数,Nv为所述视频帧Iv中超像素块的个数;
步骤一:根据当前的待处理视频帧对应的超像素块,构建对应的近邻可逆矩阵Fuv:
步骤二:针对当前的待处理视频帧中每个视频帧对应的每个超像素块,将另一视频帧中所有的超像素块按照与所述超像素块的视觉关注属性特征集合的相似度进行排序,若所述视频帧Iu中的超像素块Oui和所述视频帧Iv中的超像素块Ovj都为对方的前K个最相似的超像素块,确定超像素块Oui和超像素块Ovj互为可逆K近邻,其中,K为正整数;
步骤三:针对所述矩阵Fuv中的每个元素fui,vj,若K≤K0,则将所述元素fui,vj赋值为fui,vj=exp(-2K/K0),否则赋值为0,其中,K0为预设的正整数;
预测模块,用于构建深度神经网络,基于所述深度神经网络利用图像显著领域的大规模数据集训练得到的前景度回归器,预测每个视频帧Iu中每个超像素块在空域上的初始前景度值;
计算模块,用于针对每个视频帧Iu,根据所述视频帧Iu对应的2T个近邻可逆矩阵,重复执行N次步骤A至步骤B,获得所述视频帧Iu中各超像素块在时空域上的最终前景度值,所述最终前景度值为最后一次执行步骤B之后所述各超像素块当前的前景度值,N为预设的正整数;
步骤A:利用第一公式,将所述视频帧Iu中各超像素块当前的前景度值依次传播到所述视频帧Iu的前后各T帧的视频帧Iv中,得到所述视频帧Iu中各超像素块的2T个前景度传播值,所述第一公式为:
其中,表示所述视频帧Iv中各超像素块在第t次迭代前的前景度值的列向量;表示所述视频帧Iu中各超像素块在第t次迭代前传播到所述视频帧Iv中的前景度传播值的列向量;
步骤B:根据所述视频帧Iu中各超像素块的前景度值和所述各超像素块的2T个前景度传播值,构建优化问题并求解,获得并根据所述各超像素块的优化前景度值更新所述各超像素块当前的前景度值;
转化模块,用于针对每个视频帧Iu中每个像素,将所述像素所在的超像素块的最终前景度值作为当前尺度下所述像素的前景度值;
判定模块,用于采用形态学平滑操作,对每个视频帧Iu中各像素的前景度值进行优化处理,并针对每个视频帧Iu中每个像素的前景度值,若所述像素的前景度值大于预设的阈值,则判定所述像素属于视频前景物体序列,否则,判定所述像素属于视频背景物体序列。
10.根据权利要求9所述的***,其特征在于,所述***还包括:
循环模块,用于在所述转化模块针对每个视频帧Iu中每个像素,将所述像素所在的超像素块的最终前景度值作为当前尺度下所述像素的前景度值之后,更新所述尺度,并指示所述划分模块再次执行所述将每个视频帧Iu按照当前设定的尺度划分为多个超像素块的步骤,获得当前尺度下每个视频帧Iu中每个像素的前景度值;
将所有尺度下每个视频帧Iu中每个像素的前景度值的平均值,作为所述像素的前景度值。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710104243.3A CN106952269B (zh) | 2017-02-24 | 2017-02-24 | 近邻可逆的视频前景物体序列检测分割方法及*** |
US15/719,480 US10275653B2 (en) | 2017-02-24 | 2017-09-28 | Primary video objects with neighborhood reversibility |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710104243.3A CN106952269B (zh) | 2017-02-24 | 2017-02-24 | 近邻可逆的视频前景物体序列检测分割方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106952269A true CN106952269A (zh) | 2017-07-14 |
CN106952269B CN106952269B (zh) | 2019-09-20 |
Family
ID=59466415
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710104243.3A Active CN106952269B (zh) | 2017-02-24 | 2017-02-24 | 近邻可逆的视频前景物体序列检测分割方法及*** |
Country Status (2)
Country | Link |
---|---|
US (1) | US10275653B2 (zh) |
CN (1) | CN106952269B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108090895A (zh) * | 2017-11-28 | 2018-05-29 | 浙江工业大学 | 一种基于图像处理的集装箱锁孔轮廓提取方法 |
CN108875900A (zh) * | 2017-11-02 | 2018-11-23 | 北京旷视科技有限公司 | 视频图像处理方法和装置、神经网络训练方法、存储介质 |
CN109191418A (zh) * | 2018-06-22 | 2019-01-11 | 西安电子科技大学 | 一种基于收缩自编码器特征学习的遥感图像变化检测方法 |
CN109543561A (zh) * | 2018-10-31 | 2019-03-29 | 北京航空航天大学 | 航拍视频显著性区域检测方法和装置 |
CN110998594A (zh) * | 2017-08-07 | 2020-04-10 | 三菱电机株式会社 | 检测动作的方法和*** |
CN113344932A (zh) * | 2021-06-01 | 2021-09-03 | 电子科技大学 | 一种半监督的单目标视频分割方法 |
CN113505737A (zh) * | 2021-07-26 | 2021-10-15 | 浙江大华技术股份有限公司 | 前景图像的确定方法及装置、存储介质、电子装置 |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109671060B (zh) * | 2018-12-06 | 2021-12-17 | 西安电子科技大学 | 基于选择性搜索和cnn的计算机辅助乳腺肿块检测方法 |
CN109740670B (zh) * | 2019-01-02 | 2022-01-11 | 京东方科技集团股份有限公司 | 视频分类的方法及装置 |
CN109871828B (zh) * | 2019-03-15 | 2022-12-02 | 京东方科技集团股份有限公司 | 视频识别方法和识别装置、存储介质 |
CN110427980B (zh) * | 2019-07-11 | 2022-06-03 | 东南大学 | 融合低层和高层特征的显著物体存在性判定方法 |
CN112541930A (zh) * | 2019-09-23 | 2021-03-23 | 大连民族大学 | 基于级联式的图像超像素目标行人分割方法 |
CN110704681B (zh) * | 2019-09-26 | 2023-03-24 | 三星电子(中国)研发中心 | 一种生成视频的方法及*** |
CN110942468B (zh) * | 2019-10-25 | 2022-08-12 | 南京理工大学 | 一种基于超像素对概率传递的交互式图像分割方法 |
CN110796204B (zh) * | 2019-11-01 | 2023-05-02 | 腾讯科技(深圳)有限公司 | 视频标签确定方法、装置和服务器 |
US11823352B2 (en) * | 2020-02-13 | 2023-11-21 | Intel Corporation | Processing video frames via convolutional neural network using previous frame statistics |
CN111862152B (zh) * | 2020-06-30 | 2024-04-05 | 西安工程大学 | 一种基于帧间差分与超像素分割的动目标检测方法 |
CN112150484B (zh) * | 2020-09-28 | 2024-04-19 | 华侨大学 | 超像素的狄利克雷混合模型图像分割方法、装置及设备 |
CN112036555B (zh) * | 2020-11-05 | 2021-02-05 | 北京亮亮视野科技有限公司 | 目标检测框架的优化方法及装置、存储介质、电子设备 |
CN113592890B (zh) * | 2021-05-28 | 2022-02-11 | 北京医准智能科技有限公司 | 一种ct图像肝脏分割方法及装置 |
CN116309672B (zh) * | 2023-05-23 | 2023-08-01 | 武汉地震工程研究院有限公司 | 一种基于led标靶的夜间桥梁动挠度测量方法与装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9111356B2 (en) * | 2012-01-20 | 2015-08-18 | Korea Advanced Institute Of Science And Technology | Image segmentation method using higher-order clustering, system for processing the same and recording medium for storing the same |
CN105374033A (zh) * | 2015-10-19 | 2016-03-02 | 西安电子科技大学 | 基于脊波反卷积网络和稀疏分类的sar图像分割方法 |
CN105550678A (zh) * | 2016-02-03 | 2016-05-04 | 武汉大学 | 基于全局显著边缘区域的人体动作特征提取方法 |
US20160358339A1 (en) * | 2014-01-17 | 2016-12-08 | Htc Corporation | Image segmentation device, image segmentation method, and depth map generating method |
CN106327469A (zh) * | 2015-06-29 | 2017-01-11 | 北京航空航天大学 | 一种语义标签引导的视频对象分割方法 |
CN106384354A (zh) * | 2016-09-14 | 2017-02-08 | 哈尔滨工业大学 | 基于slic算法的超像素分割方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9886758B2 (en) * | 2016-03-31 | 2018-02-06 | International Business Machines Corporation | Annotation of skin image using learned feature representation |
US10402697B2 (en) * | 2016-08-01 | 2019-09-03 | Nvidia Corporation | Fusing multilayer and multimodal deep neural networks for video classification |
US9940534B1 (en) * | 2016-10-10 | 2018-04-10 | Gyrfalcon Technology, Inc. | Digital integrated circuit for extracting features out of an input image based on cellular neural networks |
US10360494B2 (en) * | 2016-11-30 | 2019-07-23 | Altumview Systems Inc. | Convolutional neural network (CNN) system based on resolution-limited small-scale CNN modules |
-
2017
- 2017-02-24 CN CN201710104243.3A patent/CN106952269B/zh active Active
- 2017-09-28 US US15/719,480 patent/US10275653B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9111356B2 (en) * | 2012-01-20 | 2015-08-18 | Korea Advanced Institute Of Science And Technology | Image segmentation method using higher-order clustering, system for processing the same and recording medium for storing the same |
US20160358339A1 (en) * | 2014-01-17 | 2016-12-08 | Htc Corporation | Image segmentation device, image segmentation method, and depth map generating method |
CN106327469A (zh) * | 2015-06-29 | 2017-01-11 | 北京航空航天大学 | 一种语义标签引导的视频对象分割方法 |
CN105374033A (zh) * | 2015-10-19 | 2016-03-02 | 西安电子科技大学 | 基于脊波反卷积网络和稀疏分类的sar图像分割方法 |
CN105550678A (zh) * | 2016-02-03 | 2016-05-04 | 武汉大学 | 基于全局显著边缘区域的人体动作特征提取方法 |
CN106384354A (zh) * | 2016-09-14 | 2017-02-08 | 哈尔滨工业大学 | 基于slic算法的超像素分割方法 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110998594A (zh) * | 2017-08-07 | 2020-04-10 | 三菱电机株式会社 | 检测动作的方法和*** |
CN110998594B (zh) * | 2017-08-07 | 2024-04-09 | 三菱电机株式会社 | 检测动作的方法和*** |
CN108875900A (zh) * | 2017-11-02 | 2018-11-23 | 北京旷视科技有限公司 | 视频图像处理方法和装置、神经网络训练方法、存储介质 |
CN108875900B (zh) * | 2017-11-02 | 2022-05-24 | 北京旷视科技有限公司 | 视频图像处理方法和装置、神经网络训练方法、存储介质 |
CN108090895A (zh) * | 2017-11-28 | 2018-05-29 | 浙江工业大学 | 一种基于图像处理的集装箱锁孔轮廓提取方法 |
CN108090895B (zh) * | 2017-11-28 | 2021-07-06 | 浙江工业大学 | 一种基于图像处理的集装箱锁孔轮廓提取方法 |
CN109191418B (zh) * | 2018-06-22 | 2021-10-01 | 西安电子科技大学 | 一种基于收缩自编码器特征学习的遥感图像变化检测方法 |
CN109191418A (zh) * | 2018-06-22 | 2019-01-11 | 西安电子科技大学 | 一种基于收缩自编码器特征学习的遥感图像变化检测方法 |
CN109543561A (zh) * | 2018-10-31 | 2019-03-29 | 北京航空航天大学 | 航拍视频显著性区域检测方法和装置 |
CN109543561B (zh) * | 2018-10-31 | 2020-09-18 | 北京航空航天大学 | 航拍视频显著性区域检测方法和装置 |
CN113344932B (zh) * | 2021-06-01 | 2022-05-03 | 电子科技大学 | 一种半监督的单目标视频分割方法 |
CN113344932A (zh) * | 2021-06-01 | 2021-09-03 | 电子科技大学 | 一种半监督的单目标视频分割方法 |
CN113505737A (zh) * | 2021-07-26 | 2021-10-15 | 浙江大华技术股份有限公司 | 前景图像的确定方法及装置、存储介质、电子装置 |
Also Published As
Publication number | Publication date |
---|---|
US10275653B2 (en) | 2019-04-30 |
CN106952269B (zh) | 2019-09-20 |
US20180247126A1 (en) | 2018-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106952269A (zh) | 近邻可逆的视频前景物体序列检测分割方法及*** | |
CN106022237B (zh) | 一种端到端的卷积神经网络的行人检测方法 | |
CN110210539A (zh) | 多级深度特征融合的rgb-t图像显著性目标检测方法 | |
CN102184221B (zh) | 一种基于用户偏好的实时视频摘要生成方法 | |
CN109874053A (zh) | 基于视频内容理解和用户动态兴趣的短视频推荐方法 | |
CN107451607A (zh) | 一种基于深度学习的典型人物的身份识别方法 | |
CN106446015A (zh) | 一种基于用户行为偏好的视频内容访问预测与推荐方法 | |
CN112233124A (zh) | 基于对抗式学习与多模态学习的点云语义分割方法及*** | |
CN104484040B (zh) | 一种多媒体互动教学控制***及教学控制方法 | |
CN108388882A (zh) | 基于全局-局部rgb-d多模态的手势识别方法 | |
Femiani et al. | Facade segmentation in the wild | |
CN110097115A (zh) | 一种基于注意力转移机制的视频显著性物体检测方法 | |
CN104240256A (zh) | 一种基于层次化稀疏建模的图像显著性检测方法 | |
Huang et al. | Water flow driven salient object detection at 180 fps | |
CN108510013A (zh) | 基于低秩核心矩阵的改进稳健张量主成分分析方法 | |
CN110008961A (zh) | 文字实时识别方法、装置、计算机设备及存储介质 | |
CN105335949A (zh) | 一种视频图像去雨方法及*** | |
CN104469089A (zh) | 一种多媒体互动教学***及教学方法 | |
CN113822383A (zh) | 一种基于多域注意力机制的无人机检测方法及*** | |
CN105898111A (zh) | 一种基于谱聚类的视频去雾方法 | |
CN110287876A (zh) | 一种基于视频图像的内容识别方法 | |
WO2021103474A1 (zh) | 图像的处理方法和装置、存储介质及电子装置 | |
Cohen et al. | Symmetry-aware facade parsing with occlusions | |
Delassus et al. | Cnns fusion for building detection in aerial images for the building detection challenge | |
CN109002808A (zh) | 一种人体行为识别方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |