CN105989367A - 目标获取方法及设备 - Google Patents

目标获取方法及设备 Download PDF

Info

Publication number
CN105989367A
CN105989367A CN201510059261.5A CN201510059261A CN105989367A CN 105989367 A CN105989367 A CN 105989367A CN 201510059261 A CN201510059261 A CN 201510059261A CN 105989367 A CN105989367 A CN 105989367A
Authority
CN
China
Prior art keywords
video
frame
target
object candidate
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510059261.5A
Other languages
English (en)
Other versions
CN105989367B (zh
Inventor
金炫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510059261.5A priority Critical patent/CN105989367B/zh
Priority to TW104128419A priority patent/TWI676963B/zh
Priority to JP2017536850A priority patent/JP6723247B2/ja
Priority to PCT/US2016/016462 priority patent/WO2016126885A1/en
Priority to KR1020177021351A priority patent/KR102507941B1/ko
Priority to US15/015,072 priority patent/US9990546B2/en
Priority to EP16747240.6A priority patent/EP3254236A4/en
Publication of CN105989367A publication Critical patent/CN105989367A/zh
Application granted granted Critical
Publication of CN105989367B publication Critical patent/CN105989367B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/431Frequency domain transformation; Autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/48Extraction of image or video features by mapping characteristic values of the pattern into a parameter space, e.g. Hough transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20072Graph-based image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/32Normalisation of the pattern dimensions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种目标获取方法及设备,根据每一视频帧的全局特征得到该视频帧中的各尺度的目标预估位置,对每一视频帧中的所述目标预估位置进行聚类处理得到对应的目标候选区域,及根据每一视频帧中的所有所述目标候选区域,并结合所述目标候选区域的置信度及对应尺度处理,确定该视频帧中的目标实际区域的,能够快速、有效的获取一个或多个目标,尤其能够对多个目标进行精确区分和获取。

Description

目标获取方法及设备
技术领域
本申请涉及通信及计算机领域,尤其涉及一种目标获取方法及设备。
背景技术
随着4G时代的到来,移动端的信息传递方式并不仅限于文本和图片,更多地来自于视频。互联网公司也纷纷推出了相关的应用接口,视频信息的获取技术成为近期的研究热点之一。
现有的多目标跟踪技术大多应用于雷达、航空领域,包括空间跟踪方法和时间-空间跟踪方法等,其中,空间跟踪方法是单独对每帧图像信号进行处理,利用目标信号在二维空间中的特征跟踪运动目标;时间-空间跟踪方法是同时利用目标在空间域的特征和时间域的运动特性,它又分为对比度跟踪和图像相关跟踪两类。其他的还有基于粒子滤波器的方法,基于均值漂移方法等。
现有的多目标跟踪技术的适用场景较为单一,跟踪目标类型较为单一,其原因在于:一方面由于现有的多类分类器的分类精度较低且考虑到运行效率无法使用深度神经网络等复杂分类算法;另一方面由于多目标跟踪不仅需要面对目标和背景的区分问题,还需要面临目标之间的相互区分问题。
针对目标跟踪算法而言,以简单的单目标而言,现有的OpenTLD达到了较为稳定的效果,且开放了源代码,但其只针对单目标。而现有的通过CNN建立通用的多类目标模型,在视频第一帧开始时就进行多目标检测,给出各个目标所在的位置,然后利用传统的目标跟踪方法就可以进行跟踪的方案在多目标检测过程中需要消耗大量的计算,而且需要在线下训练庞大的模型,对于计算和存储的消耗都是巨大的,也很难满足视频中实时应用的要求。
发明内容
本申请的目的是提供一种目标获取方法及设备,解决如何对多个目标进行精确区分和获取的问题。
有鉴于此,本申请提供一种目标获取方法,包括:
根据每一视频帧的全局特征得到该视频帧中的各尺度的目标预估位置;
对每一视频帧中的所述目标预估位置进行聚类处理得到对应的目标候选区域;
根据每一视频帧中的所有所述目标候选区域,并结合所述目标候选区域的置信度及对应尺度处理,确定该视频帧中的目标实际区域。
进一步的,根据每一视频帧中的所有所述目标候选区域,并结合所述目标候选区域的置信度及对应尺度处理,确定该视频帧中的目标实际区域之后,所述方法还包括:
将两相邻时刻的视频帧中的同一目标实际区域进行比较,判定视频帧中的该目标实际区域是否为无效。
进一步的,根据每一视频帧的全局特征得到该视频帧中的各尺度的目标预估位置之前,所述方法还包括:
对每一视频帧进行大小归一化处理。
进一步的,所述全局特征包括全局灰度特征、全局纹理特征、全局颜色特征、全局运动特征中一个或多个。
进一步的,每一视频帧的全局灰度特征根据该视频帧的三个颜色通道之和的均值得到。
进一步的,每一视频帧的全局纹理特征利用Gabor矩阵或Canny算子的边缘检测算法进行提取。
进一步的,每一视频帧的全局颜色特征的提取包括:
根据每一视频帧的三个颜色通道得到修正后的红、绿、蓝、黄四个颜色基矩阵;
根据红、绿、蓝、黄四个颜色基矩阵得到红绿颜色特征矩阵和蓝黄颜色特征矩阵;
将红绿颜色特征矩阵与蓝黄颜色特征矩阵的差值的绝对值作为该视频帧的全局颜色特征。
进一步的,每一视频帧的全局运动特征的提取包括:
将每一视频帧的灰度特征图与对应前一视频帧的灰度特征图的差值的绝对值作为该视频帧的全局运动特征。
进一步的,根据每一视频帧的全局特征得到该视频帧中的各尺度的目标预估位置,包括:
对每一视频帧的全局特征进行加权和多尺度的频域幅度谱滤波得到该视频帧中的各尺度的目标预估位置。
进一步的,对每一视频帧的全局特征进行加权和多尺度的频域幅度谱滤波得到该视频帧中的各尺度的目标预估位置,包括:
对每一视频帧的全局特征进行加权得到矩阵多项式;
对所述矩阵多项式进行多项式傅里叶变换得到频域多项式矩阵;
将所述频域多项式矩阵进行多尺度的幅度谱滤波得到每个尺度的频域;
对每个尺度的频域进行反傅里叶变换得到该视频帧中的各尺度的目标预估位置。
进一步的,将所述频域多项式矩阵进行多尺度的幅度谱滤波得到每个尺度的频域,包括:
根据所述频域多项式矩阵得到对应的幅度谱;
采用高斯低通滤波器对所述幅度谱进行预设多尺度的幅度谱滤波得到每个尺度滤波后的幅度谱;
根据相位谱和每个尺度滤波后的幅度谱得到滤波后的每个尺度的频域。
进一步的,对每一视频帧中的所述目标预估位置进行聚类处理得到对应的目标候选区域,包括:
根据每一视频帧中的每一尺度的每个目标预估位置得到对应的目标候选区域;
判断每个目标候选区域内的像素的个数是否小于预设个数,若是则将该目标候选区域滤除;
对每个未滤除的目标候选区域做直方图,并且以直方图计算各个目标候选区域的信息熵作为对应目标候选区域的置信度。
进一步的,根据每一视频帧中的每一尺度的每个目标预估位置得到对应的目标候选区域,包括:
依次将每一视频帧中的每一尺度的每个目标预估位置作为当前视频帧中的当前尺度的当前目标预估位置,并依次对当前视频帧中的当前尺度的当前目标预估位置作如下处理:
将当前视频帧中的当前尺度的当前目标预估位置中的像素标记为未访问过;
对当前尺度的当前目标预估位置进行扫描,在当前目标预估位置中找到标记为未访问过且像素值大于预设值的一个像素作为中心像素,将所述中心像素标记为访问过;
获取所述中心像素邻域内的标记为未访问过且像素值大于预设值的其它像素,将获取到的标记为未访问过的且像素值大于预设值的其它像素的标记为访问过;
初始化一个对应于当前目标预估位置的目标候选区域,将所述中心像素和其邻域内的标记为未访问过的且像素值大于预设值的其它像素加入所述目标候选区域。
进一步的,目标实际区域根据每一视频帧中的所有所述目标候选区域,并结合所述目标候选区域的置信度及对应尺度处理,确定该视频帧中的目标实际区域,包括对每一视频帧作如下处理:
由尺度大到小将每一视频帧中的所有尺度的目标候选区域建立区域树形结构;
根据每一视频帧的区域树形结构及其所有目标候选区域的置信度得到每一视频帧中的目标实际区域。
进一步的,根据每一视频帧的区域树形结构及其所有目标候选区域的置信度得到每一视频帧中的目标实际区域,包括对每一视频帧的区域树形结构的各个结点区域由尺度大到小进行遍历,并按如下情况迭代获取每一视频帧中的目标实际区域:
若当前为父结点区域与子结点区域为单子树,直接选择置信度较大的结点区域作为目标实际区域,并结束迭代;
若当前为父结点区域与子结点区域为多子树,且当前父节点区域的置信度均大于两个子节点区域的置信度,选择所述父节点区域作为目标实际区域,并结束迭代;
若当前为父结点区域与子结点区域为多子树,且当前两个子节点区域的置信度均大于当前父节点区域的置信度,选择两个子节点区域作为目标实际区域;
若当前为父结点区域与子结点区域为多子树,且当父节点区域的置信度大于其两个子结点区域中的其中一个子节点区域的置信度,并小于另一个子节点区域的置信度,选择置信度较高的子节点区域作为目标实际区域。
本申请另一方面还提供一种用于目标获取的设备,包括:
第一装置,用于根据每一视频帧的全局特征得到该视频帧中的各尺度的目标预估位置;
第二装置,用于对每一视频帧中的所述目标预估位置进行聚类处理得到对应的目标候选区域;
第三装置,用于根据每一视频帧中的所有所述目标候选区域,并结合所述目标候选区域的置信度及对应尺度处理,确定该视频帧中的目标实际区域。
进一步的,所述设备还包括:
第四装置,用于将两相邻时刻的视频帧中的同一目标实际区域进行比较,判定视频帧中的该目标实际区域是否为无效。
进一步的,所述设备还包括:
第五装置,用于对每一视频帧进行大小归一化处理。
进一步的,每一视频帧的所有全局特征包括全局灰度特征、全局纹理特征、全局颜色特征、全局运动特征中一个或多个。
进一步的,每一视频帧的全局灰度特征根据该视频帧的三个颜色通道之和的均值得到。
进一步的,每一视频帧的全局纹理特征利用Gabor矩阵或Canny算子的边缘检测算法进行提取。
进一步的,每一视频帧的全局颜色特征的提取包括:
根据每一视频帧的三个颜色通道得到修正后的红、绿、蓝、黄四个颜色基矩阵;
根据红、绿、蓝、黄四个颜色基矩阵得到红绿颜色特征矩阵和蓝黄颜色特征矩阵;
将红绿颜色特征矩阵与蓝黄颜色特征矩阵的差值的绝对值作为该视频帧的全局颜色特征。进一步的,每一视频帧的全局运动特征的提取包括:
将每一视频帧的灰度特征图与其预设帧前的视频帧的灰度特征图的差值的绝对值作为该视频帧的全局运动特征。
进一步的,所述第一装置,用于对每一视频帧的全局特征进行加权和多尺度的频域幅度谱滤波得到该视频帧中的各尺度的目标预估位置。
进一步的,所述第一装置包括:
第一一单元,用于对每一视频帧的全局特征进行加权得到矩阵多项式;
第一二单元,用于对所述矩阵多项式进行多项式傅里叶变换得到频域多项式矩阵;
第一三单元,用于将所述频域多项式矩阵进行多尺度的幅度谱滤波得到每个尺度的频域;
第一四单元,用于对每个尺度的频域进行反傅里叶变换得到该视频帧中的各尺度的目标预估位置。
进一步的,所述第一装置包括:
第一一单元,用于对每一视频帧的全局特征进行加权得到矩阵多项式;
第一二单元,用于对所述矩阵多项式进行多项式傅里叶变换得到频域多项式矩阵;
第一三单元,用于将所述频域多项式矩阵进行多尺度的幅度谱滤波得到每个尺度的频域;
第一四单元,用于对每个尺度的频域进行反傅里叶变换得到该视频帧中的各尺度的目标预估位置。
进一步的,所述第一三单元包括:
第一三一单元,用于根据所述频域多项式矩阵得到对应的幅度谱;
第一三二单元,用于采用高斯低通滤波器对所述幅度谱进行预设多尺度的幅度谱滤波得到每个尺度滤波后的幅度谱;
第一三三单元,用于根据相位谱和每个尺度滤波后的幅度谱得到滤波后的每个尺度的频域。
进一步的,所述第二装置包括:
第二一单元,用于根据每一视频帧中的每一尺度的每个目标预估位置得到对应的目标候选区域;
第二二单元,用于判断每个目标候选区域内的像素的个数是否小于预设个数,若是则将该目标候选区域滤除;
第二三单元,用于目标候选区域对每个未滤除的目标候选区域做直方图,并且以直方图计算各个目标候选区域的信息熵作为对应目标候选区域的置信度。
进一步的,所述第二一单元,用于依次将每一视频帧中的每一尺度的每个目标预估位置作为当前视频帧中的当前尺度的当前目标预估位置,并依次对当前视频帧中的当前尺度的当前目标预估位置作如下处理:
将当前视频帧中的当前尺度的当前目标预估位置中的像素标记为未访问过;
对当前尺度的当前目标预估位置进行扫描,在当前目标预估位置中找到标记为未访问过且像素值大于预设值的一个像素作为中心像素,将所述中心像素标记为访问过;
获取所述中心像素邻域内的标记为未访问过且像素值大于预设值的其它像素,将获取到的标记为未访问过的且像素值大于预设值的其它像素的标记为访问过;
初始化一个对应于当前目标预估位置的目标候选区域,将所述中心像素和其邻域内的标记为未访问过的且像素值大于预设值的其它像素加入所述目标候选区域。
进一步的,所述第三装置包括:
第三一单元,用于由尺度大到小将每一视频帧中的所有尺度的目标候选区域建立区域树形结构;
第三二单元,用于根据每一视频帧的区域树形结构及其所有目标候选区域的置信度得到每一视频帧中的目标实际区域。
进一步的,所述第三二单元,用于对每一视频帧的区域树形结构的各个结点区域由尺度大到小进行遍历,并按如下情况迭代获取每一视频帧中的目标实际区域:
若当前为父结点区域与子结点区域为单子树,直接选择置信度较大的结点区域作为目标实际区域,并结束迭代;
若当前为父结点区域与子结点区域为多子树,且当前父节点区域的置信度均大于两个子节点区域的置信度,选择所述父节点区域作为目标实际区域,并结束迭代;
若当前为父结点区域与子结点区域为多子树,且当前两个子节点区域的置信度均大于当前父节点区域的置信度,选择两个子节点区域作为目标实际区域;
若当前为父结点区域与子结点区域为多子树,且当父节点区域的置信度大于其两个子结点区域中的其中一个子节点区域的置信度,并小于另一个子节点区域的置信度,选择置信度较高的子节点区域作为目标实际区域。
与现有技术相比,本申请根据每一视频帧的全局特征得到该视频帧中的各尺度的目标预估位置,对每一视频帧中的所述目标预估位置进行聚类处理得到对应的目标候选区域,及根据每一视频帧中的所有所述目标候选区域,并结合所述目标候选区域的置信度及对应尺度处理确定该视频帧中的目标实际区域的,能够快速、有效的获取一个或多个目标,尤其能够对多个目标进行精确区分和获取。
进一步的,本申请通过计算两相邻时刻的视频帧中的同一目标实际区域的中心位置之间的距离是否大于等于预设的阈值,若是,则判定所述两相邻时刻中的后一时刻的视频帧中的目标实际区域为无效,便于后续更为精确地提取视频中的目标,为视频分类等提供基础特征。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本申请一个方面的目标获取方法的流程图;
图2示出根据本申请一个优选实施例的获取方法的流程图;
图3示出本申请另一优选实施例的目标获取方法的流程图;
图4示出本申请一更优实施例的目标获取方法的流程图;
图5示出本申请另一更优实施例的目标获取方法的流程图;
图6示出本申请又一优选实施例的目标获取方法的流程图;
图7示出本申请又一更优实施例的目标获取方法的流程图;
图8示出本申请再一优选实施例的目标获取方法的流程图;
图9示出本申请一优选实施例的多尺度处理的多子树图;
图10示出本申请一优选实施例多尺度处理的单子树图;
图11示出本申请再一更优实施例的目标获取方法的流程图;
图12示出本申请另一面的用于目标获取的设备的示意图;
图13示出本申请一优选的实施例的用于目标获取的设备的示意图;
图14示出本申请另一优选的实施例的用于目标获取的设备的示意图;
图15示出本申请一更优的实施例的用于目标获取的设备的示意图;
图16示出本申请一较佳的实施例的用于目标获取的设备的示意图;
图17示出本申请再一优选的实施例的用于目标获取的设备的示意图;
图18示出本申请另一更优的实施例的用于目标获取的设备的示意图;
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
图1示出根据本申请一个方面的目标获取方法的流程图,结合图1,本申请提出一种目标获取方法,包括:
步骤S1,根据每一视频帧的全局特征得到该视频帧中的各尺度的目标预估位置;为了实现自动选择目标,不能使用特征训练模型和分类器的方法来完成目标的检测,区别于传统多目标跟踪方法,本申请中使用显著性检测来完成目标位置的预估计,在此,每一视频帧从同一视频中提取,视频帧中的目标预估位置为一显著性图,如可以是一概率图;
步骤S2,对每一视频帧中的所述目标预估位置进行聚类处理得到对应的目标候选区域;
步骤S3,根据每一视频帧中的所有所述目标候选区域,并结合所述目标候选区域的置信度及对应尺度处理,确定该视频帧中的目标实际区域。在此,即可得到一个或多个目标实际区域,从而实现快速、有效的获取一个或多个目标,尤其能够对多个目标进行精确区分和获取。
图2示出本申请一优选实施例的目标获取方法的流程图。结合图2,图1中的步骤S1之前还包括:
步骤S0,对每一视频帧进行大小归一化处理即对每一视频帧进行放大和缩小。在此,对每一视频帧进行放大和缩小过程中可以使用双线性插值、线性插值或三次插值等方法对缺失的像素值进行插值补充,例如,可以将每一视频帧全部转换成64×64像素。相应的,步骤S1为每一视频帧的全局特征根据归一化处理后的视频帧得到。本领域技术人员应能理解上述对视频帧进行大小归一化处理的描述仅为举例,其他现有的或今后可能出现的归一化处理如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
图3示出本申请一优选实施例的目标获取方法的流程图。结合图3,图1中的步骤S3之后还包括:
步骤S4,将两相邻时刻的视频帧中的同一目标实际区域进行比较,判定视频帧中的该目标实际区域是否为无效。例如,可以计算两相邻时刻的视频帧中的同一目标实际区域的中心位置之间的距离是否大于等于预设的阈值,若是,则判定所述两相邻时刻中的后一时刻的视频帧中的目标实际区域为无效。另外,还可以计算t-1时刻目标实际区域到t时刻同一目标实际区域的斜率,及计算t时刻该目标实际区域到t+1时刻该目标实际区域的斜率,并对比前后两个斜率是否高于预设的阈值,若高于阈值则判定不是同一轨迹,即判定t+1时刻该目标实际区域为无效。在此,利用运动目标运动的连续性来判断跟踪过程是否有效,以判断跟踪的目标是否被遮挡或者离开场景,便于后续更为精确地提取视频中的目标,为视频分类等提供基础特征。本领域技术人员应能理解上述判断目标实际区域是否为无效的描述仅为举例,其他现有的或今后可能出现的判断目标实际区域为无效的描述如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
本申请一较佳的实施例中,步骤S4两相邻时刻的视频帧中的同一目标实际区域之间的距离通过下式计算得到:
|cregion(t,region)-cregion(t+1,region)|,
其中,region代表某一目标实际区域,函数C代表目标实际区域的中心位置,|-|表示相邻时刻的同一目标实际区域的欧式距离,t和t+1表示两相邻时刻,如果欧式距离大于等于给定的阈值,则判定t+1时刻的跟踪目标消失或者离开视野。其中,阈值可根据步骤S0中的归一化的像素来对应设置,一实施例中,如果步骤S0将每一视频帧全部转换成64×64像素,对应的所述给定的阈值可为4。本领域技术人员应能理解上述计算同一目标实际区域之间的距离的描述仅为举例,其他现有的或今后可能出现的计算同一目标实际区域之间的距离的描述如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
本申请一优选实施例的目标获取方法中,所述全局特征包括全局灰度特征、全局纹理特征、全局颜色特征、全局运动特征中一个或多个。
本申请一更优实施例的目标获取方法中,每一视频帧的全局灰度特征根据该视频帧的三个颜色通道之和的均值得到,具体可通过下式得到:
I = 1 3 ( r + g + b ) ,
其中,I表示视频帧的全局灰度特征,r表示视频帧的红色像素通道,g表示视频帧的绿色像素通道,b表示视频帧的蓝色像素通道。本领域技术人员应能理解上述获取全局灰度特征的描述仅为举例,其他现有的或今后可能出现的获取全局灰度特征的描述如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
本申请一更优实施例的目标获取方法中,每一视频帧的全局纹理特征利用Gabor矩阵(滤波器)或Canny算子的边缘检测算法进行提取。
本申请一更优的实施例中,利用Gabor矩阵(滤波器)对每一视频帧的全局纹理特征进行提取包括:
对每一视频帧的预设个方向生成的Gabor矩阵Gθ按照位置取最大值作为每一视频帧的全局纹理特征O,具体用公式描述如下:O=maxpixel{Gθ}。例如,所述Gabor矩阵为一大小为11×11像素方块的二维Gabor矩阵G,其描述如下:
G θ ( x , y ) = exp ( - ( X 2 + γ 2 Y 2 ) 2 σ 2 ) cos ( 2 π λ X ) ,
式中,θ为所述预设个方向,θ={0°,45°,90°,135°},Gθ表示某个方向的二维的Gabor矩阵,X,Y为加入所述方向(角度参数)θ后的坐标变换,X=xcosθ-ysinθ,Y=xsinθ+ycosθ,x表示每一视频帧中的像素的行坐标,y表示每一视频帧中的像素的列坐标,x,y∈{-5,…,5},γ表示比例因子,σ表示有效宽度,λ表示波长,比例因子、有效宽度和波长三个常数的取值为经验值,一实施例中比例因子γ的取值为0.3,有效宽度的取值为4.5,波长λ的取值为5.6。若θ为0°,45°,90°,135°四个方向,则对每一视频帧的四个方向生成的Gabor矩阵Gθ按照位置取最大值即可得到该一视频帧的全局纹理特征O。本领域技术人员应能理解上述获取全局纹理特征的描述仅为举例,其他现有的或今后可能出现的获取全局纹理特征的描述如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
本申请一更优实施例的目标获取方法中,每一视频帧的全局颜色特征的提取包括:
根据每一视频帧的三个颜色通道得到修正后的红、绿、蓝、黄四个颜色基矩阵R、G、B、Y;在此,根据人眼对于不同颜色的敏感度建立修正后的四个颜色基矩阵R、G、B、Y,公式具体描述如下:
R = r - ( g + b ) 2
G = g - ( r + b ) 2
B = b - ( r + b ) 2
Y = ( r + g ) 2 - | r - g | 2 - b ;
根据红、绿、蓝、黄四个颜色基矩阵R、G、B、Y得到红绿颜色特征矩阵RG和蓝黄颜色特征矩阵BY,其中,RG=R-G,BY=B-Y;
将红绿颜色特征矩阵与蓝黄颜色特征矩阵的差值的绝对值|RG-BY|作为该视频帧的全局颜色特征。本领域技术人员应能理解上述获取全局颜色特征的描述仅为举例,其他现有的或今后可能出现的获取全局颜色特征的描述如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
本申请一更优实施例的目标获取方法中,每一视频帧的全局运动特征的提取包括:
将每一视频帧的灰度特征图与对应前一视频帧的灰度特征图的差值的绝对值作为该视频帧的全局运动特征。在此,该视频帧的全局运动特征M(t)的公式描述如下:
M(t)=|I(t)-I(t-τ)|,
其中,M(t)表示该视频帧的全局运动特征,该视频帧的时刻为t时刻,I(t)表示该视频帧的灰度特征图,I(t-τ)表示预设τ帧前视频帧的灰度特征图,所预设τ帧前视频帧的时刻为t-τ,在此,τ为运动帧变化量,I(t)表示变化τ帧后的t时刻的运动量,τ的取值可根据视频流中每秒的视频帧数量确定,每秒中的视频帧数量越多,τ的取值越大,一实施例中τ的取值可为1~5,一更优的实施例中τ取值可为3,
I(t)和I(t-τ)根据公式得到,
其中,I表示视频帧的全局灰度特征,r表示视频帧的红色像素通道,g表示视频帧的绿色像素通道,b表示视频帧的蓝色像素通道。本领域技术人员应能理解上述获取全局运动特征的描述仅为举例,其他现有的或今后可能出现的获取全局运动特征的描述如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
本申请一优选实施例的目标获取方法中,步骤S1包括:
对每一视频帧的全局特征进行加权和多尺度的频域幅度谱滤波得到该视频帧中的各尺度的目标预估位置。
图4示出本申请一更优实施例的目标获取方法的流程图。结合图4,对每一视频帧的全局特征进行加权和多尺度的频域幅度谱滤波得到该视频帧中的各尺度的目标预估位置包括:
步骤S11,对每一视频帧的全局特征进行加权得到矩阵多项式;在此,如果提取到每一视频帧的全局灰度特征、全局纹理特征、全局颜色特征、全局运动特征,所述矩阵多项式的具体描述如下:
f ( n , m ) = | RG - BY | + I i → + O j → + M ( t ) k →
n,m分别代表离散的行坐标和列坐标,i、j、k代表着矩阵多项式的基向量;
步骤S12,对所述矩阵多项式进行多项式傅里叶变换得到频域多项式矩阵;在此,所述频域多项式矩阵描述如下:
F [ u , v ] = 1 MN Σ m = 0 M - 1 Σ n = 0 N - 1 e - μ 2 π ( ( mv M ) + ( nu N ) ) f ( n , m ) ,
式中,u、v代表频域的二维坐标,M、N分别代表视频帧的长度和宽度,μ表示虚部单位,即μ2=-1;
步骤S13,将所述频域多项式矩阵进行多尺度的幅度谱滤波得到每个尺度的频域;
步骤S14,对每个尺度的频域进行反傅里叶变换得到该视频帧中的各尺度的目标预估位置。在此,目标预估位置根据如下公式得到:
f ~ ( n , m ) = 1 MN Σ v = 0 M - 1 Σ u = 0 N - 1 e μ 2 π ( ( mv M ) + ( nu N ) ) F ~ H ( u , v ) .
本领域技术人员应能理解上述获取目标预估位置的描述仅为举例,其他现有的或今后可能出现的获取目标预估位置的描述如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
图5示出本申请一更优实施例的目标获取方法的流程图。结合图5,图4的步骤S13包括:
步骤S131,根据所述频域多项式矩阵得到对应的幅度谱A;在此,所述频域多项式矩阵的幅度谱表示如下:
A=|F|;
步骤S132,采用高斯低通滤波器对所述幅度谱进行预设多尺度的幅度谱滤波得到每个尺度滤波后的幅度谱,所述高斯低通滤波器的形式如下:
H ( u , v ) = e - D 2 ( u , v ) 2 σ 2 ,
式中,H为高斯低通滤波器矩阵,D代表距离傅立叶变换原点的距离,所述距离可使用欧氏距离,σ表示高斯曲线的扩展程度即所述尺度,其具体描述如下:
σ∈{2-1,20,21,22,23,24,25,26};在此,采用多个尺度,可以适应不同大小的目标的获取;
每个尺度滤波后的幅度谱根据如下公式得到:
AH=A×H
式中,AH代表每个尺度滤波后的幅度谱;
步骤S133,根据相位谱和每个尺度滤波后的幅度谱得到滤波后的每个尺度的频域,在此,滤波后的各个尺度的频域表示如下:
F ~ H = A H × P H ,
其中,PH表示相位谱。本领域技术人员应能理解上述获取频域的描述仅为举例,其他现有的或今后可能出现的获取频域的描述如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
图6示出本申请一优选实施例的目标获取方法的流程图。结合图6,图1的步骤S2包括:
步骤S21,根据每一视频帧中的每一尺度的每个目标预估位置得到对应的目标候选区域;
步骤S22,判断每个目标候选区域内的像素的个数是否小于预设个数,若是则将该目标候选区域滤除,例如,滤除其内像素的个数不足10的目标候选区域,并至flag=0,即后续不对该区域计算置信度;
步骤S23,对每个未滤除的目标候选区域做直方图,并且以直方图计算各个目标候选区域的信息熵作为对应目标候选区域的置信度。在此,所述置信度可根据如下公式得到:
conf = - Σ n p ( h ( n ) ) × log ( p ( h ( n ) ) ) ,
其中,h(n)表示直方图,p(·)表示概率函数。本领域技术人员应能理解上述获取目标候选区域及其置信度的描述仅为举例,其他现有的或今后可能出现的获取目标候选区域及其置信度的描述如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
本申请一更优实施例的目标获取方法中,如图7所示,上述步骤S21包括依次将每一视频帧中的每一尺度的每个目标预估位置作为当前视频帧中的当前尺度的当前目标预估位置,并依次对当前视频帧中的当前尺度的当前目标预估位置作如下处理:
步骤S211,将当前视频帧中的当前尺度的当前目标预估位置中的像素标记为未访问过;
步骤S212,对当前尺度的当前目标预估位置进行扫描,在当前目标预估位置中找到标记为未访问过且像素值(权重)大于预设值的一个像素作为中心像素,将所述中心像素标记为访问过,例如,所述预设值可以为0.2的位置,标记所述中心像素的flag=1;
步骤S213,获取所述中心像素邻域内的标记为未访问过且像素值(权重)大于预设值的其它像素,将获取到的标记为未访问过的且像素值(权重)大于预设值的其它像素的标记为访问过;
步骤S214,初始化一个对应于当前目标预估位置的目标候选区域,将所述中心像素和其邻域内的标记为未访问过的且像素值(权重)大于预设值的其它像素加入所述目标候选区域,例如,如果其它像素满足p(x,y)>0.2and flag=0,p(x,y)为对应显著图(x,y)位置的值,所述邻域为八邻域或街区邻域(四邻域),在此,每个目标预估位置都会对应有一个目标候选区域。本领域技术人员应能理解上述获取目标候选区域的描述仅为举例,其他现有的或今后可能出现的上述获取目标候选区域的描述如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
图8示出本申请一优选实施例的目标获取方法的流程图。结合图8,图1的步骤S3包括对每一视频帧作如下处理:
步骤S31,由尺度大到小将每一视频帧中的所有尺度的目标候选区域建立区域树形结构;在此,如果步骤S22中对像素的个数小于预设个数目标候选区域进行了滤除,则这里的目标候选区域为未滤除的目标候选区域,如步骤S132中使用的是多个尺度如8个尺度的高斯低通滤波器,因此步骤S23中得到的目标候选区域也是由八个尺度组成的,由尺度大到小建立区域树形结构,其结构分为两种情况:多子树和单子树分别如图9、10所示;
步骤S32,根据每一视频帧的区域树形结构及其所有目标候选区域的置信度得到每一视频帧中的目标实际区域。
本申请一更优实施例的目标获取方法中,如图11所示,步骤S32包括对每一视频帧的区域树形结构的各个结点区域由尺度大到小进行遍历,并按如下情况迭代获取每一视频帧中的目标实际区域:
步骤S321,若当前为父结点区域与子结点区域为单子树(单子树情况),直接选择置信度(conf)较大的结点区域作为目标实际区域,并结束迭代;
步骤S322,若当前为父结点区域与子结点区域为多子树,且当前父节点区域的置信度均大于两个子节点区域的置信度(多子树情况1),选择所述父节点区域作为目标实际区域,并结束迭代;
步骤S323,若当前为父结点区域与子结点区域为多子树,且当前两个子节点区域的置信度均大于当前父节点区域的置信度(多子树情况2),选择两个子节点区域作为目标实际区域,在此,本步骤后遍历剩余的节点区域时还需要继续按多子树情况2和多子树情况3向更低尺度结点区域进行递归迭代获取实际区域,直到出现单子树情况或多子树情况1时才结束;
步骤S324,若当前为父结点区域与子结点区域为多子树,且当父节点区域的置信度大于其两个子结点区域中的其中一个子节点区域的置信度,并小于另一个子节点区域的置信度(多子树情况3),选择置信度较高的子节点区域作为目标实际区域,在此,本步骤后遍历剩余的节点区域时,还需要继续按多子树情况2和多子树情况3向更低尺度结点区域进行递归迭代获取所述实际区域,直到出现所述单子树情况或多子树情况1时才结束。本领域技术人员应能理解上述获取目标实际区域的描述仅为举例,其他现有的或今后可能出现的获取目标实际区域的描述如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
如图12所示,根据本申请的另一面还提供一种用于目标获取的设备100,包括:
第一装置1,用于根据每一视频帧的全局特征得到该视频帧中的各尺度的目标预估位置;为了实现自动选择目标,不能使用特征训练模型和分类器的方法来完成目标的检测,区别于传统多目标跟踪方法,本申请中使用显著性检测来完成目标位置的预估计,在此,每一视频帧从同一视频中提取,视频帧中的目标预估位置为一显著性图,如可以是一概率图;
第二装置2,用于对每一视频帧中的所述目标预估位置进行聚类处理得到对应的目标候选区域;
第三装置3,用于根据每一视频帧中的所有所述目标候选区域,并结合所述目标候选区域的置信度及对应尺度处理,确定该视频帧中的目标实际区域。在此,即可得到一个或多个目标实际区域,从而实现快速、有效的获取一个或多个目标,尤其能够对多个目标进行精确区分和获取。
如图13所示,本申请一优选的实施例的用于目标获取的设备中,所述设备100还包括:
第五装置5,用于对每一视频帧进行大小归一化处理。在此,对每一视频帧进行放大和缩小过程中可以使用双线性插值、线性插值或三次插值等方法对缺失的像素值进行插值补充,例如,可以将每一视频帧全部转换成64×64像素。相应的,第一装置1中每一视频帧的全局特征根据归一化处理后的视频帧得到。本领域技术人员应能理解上述对视频帧进行大小归一化处理的描述仅为举例,其他现有的或今后可能出现的归一化处理如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
如图14所示,本申请一优选的实施例的用于目标获取的设备中,所述设备100还包括:
第四装置4,用于将两相邻时刻的视频帧中的同一目标实际区域进行比较,判定视频帧中的该目标实际区域是否为无效。例如,可以计算两相邻时刻的视频帧中的同一目标实际区域的中心位置之间的距离是否大于等于预设的阈值,若是,则判定所述两相邻时刻中的后一时刻的视频帧中的目标实际区域为无效。另外,还可以计算t-1时刻目标实际区域到t时刻同一目标实际区域的斜率,及计算t时刻该目标实际区域到t+1时刻该目标实际区域的斜率,并对比前后两个斜率是否高于预设的阈值,若高于阈值则判定不是同一轨迹,即判定t+1时刻该目标实际区域为无效。在此,利用运动目标运动的连续性来判断跟踪过程是否有效,以判断跟踪的目标是否被遮挡或者离开场景,便于后续更为精确地提取视频中的目标,为视频分类等提供基础特征。本领域技术人员应能理解上述判断目标实际区域是否为无效的描述仅为举例,其他现有的或今后可能出现的判断目标实际区域为无效的描述如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
本申请一较佳的实施例的用于目标获取的设备中,第四装置4通过下式计算得到两相邻时刻的视频帧中的同一目标实际区域之间的距离:
|cregion(t,region)-cregion(t+1,region)|,
其中,region代表某一目标实际区域,函数C代表目标实际区域的中心位置,|-|表示相邻时刻的同一目标实际区域的欧式距离,t和t+1表示两相邻时刻,如果欧式距离大于等于给定的阈值,则判定t+1时刻的跟踪目标消失或者离开视野。其中,阈值可根据第五装置5归一化的像素来对应设置,一实施例中,如果第五装置5将每一视频帧全部转换成64×64像素,对应的所述给定的阈值可为4。本领域技术人员应能理解上述计算同一目标实际区域之间的距离的描述仅为举例,其他现有的或今后可能出现的计算同一目标实际区域之间的距离的描述如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
本申请一优选的实施例的用于目标获取的设备中,每一视频帧的所有全局特征包括全局灰度特征、全局纹理特征、全局颜色特征、全局运动特征中一个或多个。
本申请一更优的实施例中,每一视频帧的全局灰度特征根据该视频帧的三个颜色通道之和的均值得到。具体可通过下式得到:
I = 1 3 ( r + g + b ) ,
其中,I表示视频帧的全局灰度特征,r表示视频帧的红色像素通道,g表示视频帧的绿色像素通道,b表示视频帧的蓝色像素通道。本领域技术人员应能理解上述获取全局灰度特征的描述仅为举例,其他现有的或今后可能出现的获取全局灰度特征的描述如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
本申请一更优的实施例的用于目标获取的设备中,每一视频帧的全局纹理特征利用Gabor矩阵(滤波器)或Canny算子的边缘检测算法进行提取。
本申请一更优的实施例的用于目标获取的设备中,利用Gabor矩阵(滤波器)对每一视频帧的全局纹理特征进行提取包括:
对每一视频帧的预设个方向生成的Gabor矩阵Gθ按照位置取最大值作为每一视频帧的全局纹理特征O,具体用公式描述如下:O=maxpixel{Gθ}。例如,所述Gabor矩阵为一大小为11×11像素方块的二维Gabor矩阵G,其描述如下:
G θ ( x , y ) = exp ( - ( X 2 + γ 2 Y 2 ) 2 σ 2 ) cos ( 2 π λ X ) ,
式中,θ为所述预设个方向,θ={0°,45°,90°,135°},Gθ表示某个方向的二维的Gabor矩阵,X,Y为加入所述方向(角度参数)θ后的坐标变换,X=xcosθ-ysinθ,Y=xsinθ+ycosθ,x表示每一视频帧中的像素的行坐标,y表示每一视频帧中的像素的列坐标,x,y∈{-5,…,5},γ表示比例因子,σ表示有效宽度,λ表示波长,比例因子、有效宽度和波长三个常数的取值为经验值,一实施例中比例因子γ的取值为0.3,有效宽度的取值为4.5,波长λ的取值为5.6。若θ为0°,45°,90°,135°四个方向,则对每一视频帧的四个方向生成的Gabor矩阵Gθ按照位置取最大值即可得到该一视频帧的全局纹理特征O。本领域技术人员应能理解上述获取全局纹理特征的描述仅为举例,其他现有的或今后可能出现的获取全局纹理特征的描述如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
本申请一更优的实施例的用于目标获取的设备中,每一视频帧的全局颜色特征的提取包括:
根据每一视频帧的三个颜色通道得到修正后的红、绿、蓝、黄四个颜色基矩阵R、G、B、Y;在此,根据人眼对于不同颜色的敏感度建立修正后的四个颜色基矩阵R、G、B、Y,公式具体描述如下:
R = r - ( g + b ) 2
G = g - ( r + b ) 2
B = b - ( r + b ) 2
Y = ( r + g ) 2 - | r - g | 2 - b ;
根据红、绿、蓝、黄四个颜色基矩阵R、G、B、Y得到红绿颜色特征矩阵RG和蓝黄颜色特征矩阵BY,其中,RG=R-G,BY=B-Y;
将红绿颜色特征矩阵与蓝黄颜色特征矩阵的差值的绝对值|RG-BY|作为该视频帧的全局颜色特征。本领域技术人员应能理解上述获取全局颜色特征的描述仅为举例,其他现有的或今后可能出现的获取全局颜色特征的描述如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
本申请一更优的实施例的用于目标获取的设备中,每一视频帧的全局运动特征的提取包括:
将每一视频帧的灰度特征图与其预设帧前的视频帧的灰度特征图的差值的绝对值作为该视频帧的全局运动特征。在此,该视频帧的全局运动特征M(t)的公式描述如下:
M(t)=|I(t)-I(t-τ)|,
其中,M(t)表示该视频帧的全局运动特征,该视频帧的时刻为t时刻,I(t)表示该视频帧的灰度特征图,I(t-τ)表示预设τ帧前视频帧的灰度特征图,所预设τ帧前视频帧的时刻为t-τ,在此,τ为运动帧变化量,I(t)表示变化τ帧后的t时刻的运动量,τ的取值可根据视频流中每秒的视频帧数量确定,每秒中的视频帧数量越多,τ的取值越大,一实施例中τ的取值可为1~5,一更优的实施例中τ取值可为3,
I(t)和I(t-τ)根据公式得到,
其中,I表示视频帧的全局灰度特征,r表示视频帧的红色像素通道,g表示视频帧的绿色像素通道,b表示视频帧的蓝色像素通道。本领域技术人员应能理解上述获取全局运动特征的描述仅为举例,其他现有的或今后可能出现的获取全局运动特征的描述如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
本申请一优选的实施例的用于目标获取的设备中,所述第一装置1,用于对每一视频帧的全局特征进行加权和多尺度的频域幅度谱滤波得到该视频帧中的各尺度的目标预估位置。
如图15所示,本申请一更优的实施例的用于目标获取的设备中,所述第一装置1包括:
第一一单元11,用于对每一视频帧的全局特征进行加权得到矩阵多项式;在此,如果提取到每一视频帧的全局灰度特征、全局纹理特征、全局颜色特征、全局运动特征,所述矩阵多项式的具体描述如下:
f ( n , m ) = | RG - BY | + I i → + O j → + M ( t ) k →
n,m分别代表离散的行坐标和列坐标,i、j、k代表着矩阵多项式的基向量;
第一二单元12,用于对所述矩阵多项式进行多项式傅里叶变换得到频域多项式矩阵;在此,所述频域多项式矩阵描述如下:
F [ u , v ] = 1 MN Σ m = 0 M - 1 Σ n = 0 N - 1 e - μ 2 π ( ( mv M ) + ( nu N ) ) f ( n , m ) ,
式中,u、v代表频域的二维坐标,M、N分别代表视频帧的长度和宽度,μ表示虚部单位,即μ2=-1;
第一三单元13,用于将所述频域多项式矩阵进行多尺度的幅度谱滤波得到每个尺度的频域;
第一四单元14,用于对每个尺度的频域进行反傅里叶变换得到该视频帧中的各尺度的目标预估位置。在此,目标预估位置根据如下公式得到:
f ~ ( n , m ) = 1 MN Σ v = 0 M - 1 Σ u = 0 N - 1 e μ 2 π ( ( mv M ) + ( nu N ) ) F ~ H ( u , v ) .
本领域技术人员应能理解上述获取目标预估位置的描述仅为举例,其他现有的或今后可能出现的获取目标预估位置的描述如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
如图16所示,本申请一较佳的实施例的用于目标获取的设备中,所述第一三单元13包括:
第一三一单元131,用于根据所述频域多项式矩阵得到对应的幅度谱A;在此,所述频域多项式矩阵的幅度谱表示如下:
A=|F|;
第一三二单元132,用于采用高斯低通滤波器对所述幅度谱进行预设多尺度的幅度谱滤波得到每个尺度滤波后的幅度谱,所述高斯低通滤波器的形式如下:
H ( u , v ) = e - D 2 ( u , v ) 2 σ 2 ,
式中,H为高斯低通滤波器矩阵,D代表距离傅立叶变换原点的距离,所述距离可使用欧氏距离,σ表示高斯曲线的扩展程度即所述尺度,其具体描述如下:
σ∈{2-1,20,21,22,23,24,25,26};在此,采用多个尺度,可以适应不同大小的目标的获取;
每个尺度滤波后的幅度谱根据如下公式得到:
AH=A×H
式中,AH代表每个尺度滤波后的幅度谱;
第一三三单元133,用于根据相位谱和每个尺度滤波后的幅度谱得到滤波后的每个尺度的频域,在此,滤波后的各个尺度的频域表示如下:
F ~ H = A H × P H ,
其中,PH表示相位谱。本领域技术人员应能理解上述获取频域的描述仅为举例,其他现有的或今后可能出现的获取频域的描述如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
如图17所示,本申请一优选的实施例的用于目标获取的设备中,所述第二装置2包括:
第二一单元21,用于根据每一视频帧中的每一尺度的每个目标预估位置得到对应的目标候选区域;
第二二单元22,用于判断每个目标候选区域内的像素的个数是否小于预设个数,若是则将该目标候选区域滤除,例如,滤除其内像素的个数不足10的目标候选区域,并至flag=0,即后续不对该区域计算置信度;
第二三单元23,用于目标候选区域对每个未滤除的目标候选区域做直方图,并且以直方图计算各个目标候选区域的信息熵作为对应目标候选区域的置信度。在此,所述置信度可根据如下公式得到:
conf = - Σ n p ( h ( n ) ) × log ( p ( h ( n ) ) ) ,
其中,h(n)表示直方图,p(·)表示概率函数。本领域技术人员应能理解上述获取目标候选区域及其置信度的描述仅为举例,其他现有的或今后可能出现的获取目标候选区域及其置信度的描述如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
本申请一更优的实施例的用于目标获取的设备中,所述第二一单元21,用于依次将每一视频帧中的每一尺度的每个目标预估位置作为当前视频帧中的当前尺度的当前目标预估位置,并依次对当前视频帧中的当前尺度的当前目标预估位置作如下处理:
将当前视频帧中的当前尺度的当前目标预估位置中的像素标记为未访问过;
对当前尺度的当前目标预估位置进行扫描,在当前目标预估位置中找到标记为未访问过且像素值(权重)大于预设值的一个像素作为中心像素,将所述中心像素标记为访问过,例如,所述预设值可以为0.2的位置,标记所述中心像素的flag=1;
获取所述中心像素邻域内的标记为未访问过且像素值大于预设值的其它像素,将获取到的标记为未访问过的且像素值大于预设值的其它像素的标记为访问过;
初始化一个对应于当前目标预估位置的目标候选区域,将所述中心像素和其邻域内的标记为未访问过的且像素值大于预设值的其它像素加入所述目标候选区域。例如,如果其它像素满足p(x,y)>0.2and flag=0,p(x,y)为对应显著图(x,y)位置的值,所述邻域为八邻域或街区邻域(四邻域),在此,每个目标预估位置都会对应有一个目标候选区域。本领域技术人员应能理解上述获取目标候选区域的描述仅为举例,其他现有的或今后可能出现的上述获取目标候选区域的描述如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
如图18所示,本申请一优选的实施例的用于目标获取的设备中,所述第三装置3包括:
第三一单元31,用于由尺度大到小将每一视频帧中的所有尺度的目标候选区域建立区域树形结构;在此,如果第二一单元21对像素的个数小于预设个数目标候选区域进行了滤除,则这里的目标候选区域为未滤除的目标候选区域,如第一三二单元132使用的是多个尺度如8个尺度的高斯低通滤波器,因此第二三单元23中得到的目标候选区域也是由八个尺度组成的,由尺度大到小建立区域树形结构,其结构分为两种情况:多子树和单子树分别如图9、10所示;
第三二单元32,用于根据每一视频帧的区域树形结构及其所有目标候选区域的置信度得到每一视频帧中的目标实际区域。
本申请一更优的实施例的用于目标获取的设备中,所述第三二单元32,用于对每一视频帧的区域树形结构的各个结点区域由尺度大到小进行遍历,并按如下情况迭代获取每一视频帧中的目标实际区域:
若当前为父结点区域与子结点区域为单子树(单子树情况),直接选择置信度(conf)较大的结点区域作为目标实际区域,并结束迭代;
若当前为父结点区域与子结点区域为多子树,且当前父节点区域的置信度均大于两个子节点区域的置信度(多子树情况1),选择所述父节点区域作为目标实际区域,并结束迭代;
若当前为父结点区域与子结点区域为多子树,且当前两个子节点区域的置信度均大于当前父节点区域的置信度(多子树情况2),选择两个子节点区域作为目标实际区域,在此,后续遍历剩余的节点区域时还需要继续按多子树情况2和多子树情况3向更低尺度结点区域进行递归迭代获取实际区域,直到出现单子树情况或多子树情况1时才结束;
若当前为父结点区域与子结点区域为多子树,且当父节点区域的置信度大于其两个子结点区域中的其中一个子节点区域的置信度,并小于另一个子节点区域的置信度(多子树情况3),选择置信度较高的子节点区域作为目标实际区域。在此,后续遍历剩余的节点区域时,还需要继续按多子树情况2和多子树情况3向更低尺度结点区域进行递归迭代获取所述实际区域,直到出现所述单子树情况或多子树情况1时才结束。本领域技术人员应能理解上述获取目标实际区域的描述仅为举例,其他现有的或今后可能出现的获取目标实际区域的描述如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
本申请可以使用matlab、C++调用OpenCV等方式实现。
以下结合具体的应用实施例进一步说明本申请所述的目标获取方法及设备。
在一具体的应用实施例中,为了从一视频中获取多个目标,可以从同一视频中提取多个视频帧,对每一视频帧进行大小归一化处理,然后对经过归一化处理后的每一视频帧的全局特征进行提取,所述全局特征包括全局灰度特征、全局纹理特征、全局颜色特征、全局运动特征,接着根据每一视频帧的全局特征得到该视频帧中的各尺度的目标预估位置,随后对每一视频帧中的所述目标预估位置进行聚类处理得到对应的目标候选区域,再对每一视频帧中的所述目标预估位置进行聚类处理得到对应的目标候选区域,从而快速、有效的获取每一视频帧中的一个或多个目标,解决现有技术对于场景和目标类别的依赖性的问题,例如现有的应用于监控场景的混合高斯模型背景建模方法无法使用于行车记录视频;另外,后续还可以计算两相邻时刻的视频帧中的同一目标实际区域的中心位置之间的距离是否大于等于预设的阈值,若是,则判定所述两相邻时刻中的后一时刻的视频帧中的目标实际区域为无效,便于后续更为精确地只提取视频中有效的目标实际区域,为视频分类等提供基础特征,例如后续可以按照出现在视频中目标的个数来区分银行自动取款机的监控视频和火车站的视频监控,可以按照目标运动的轨迹来区分行车记录视频和银行监控视频。
综上所述,本申请根据每一视频帧的全局特征得到该视频帧中的各尺度的目标预估位置,对每一视频帧中的所述目标预估位置进行聚类处理得到对应的目标候选区域,及根据每一视频帧中的所有所述目标候选区域,并结合所述目标候选区域的置信度及对应尺度处理,确定该视频帧中的目标实际区域的,能够快速、有效的获取一个或多个目标,尤其能够对多个目标进行精确区分和获取。
进一步的,本申请通过计算两相邻时刻的视频帧中的同一目标实际区域的中心位置之间的距离是否大于等于预设的阈值,若是,则判定所述两相邻时刻中的后一时刻的视频帧中的目标实际区域为无效,便于后续更为精确地提取视频中的目标,为视频分类等提供基础特征。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本申请的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (30)

1.一种目标获取方法,其中,包括:
根据每一视频帧的全局特征得到该视频帧中的各尺度的目标预估位置;
对每一视频帧中的所述目标预估位置进行聚类处理得到对应的目标候选区域;
根据每一视频帧中的所有所述目标候选区域,并结合所述目标候选区域的置信度及对应尺度处理,确定该视频帧中的目标实际区域。
2.如权利要求1所述的方法,其中,根据每一视频帧中的所有所述目标候选区域,并结合所述目标候选区域的置信度及对应尺度处理,确定该视频帧中的目标实际区域之后,所述方法还包括:
将两相邻时刻的视频帧中的同一目标实际区域进行比较,判定视频帧中的该目标实际区域是否为无效。
3.如权利要求1或2所述的方法,其中,根据每一视频帧的全局特征得到该视频帧中的各尺度的目标预估位置之前,所述方法还包括:
对每一视频帧进行大小归一化处理。
4.如权利要求1至3中任一项所述的方法,其中,所述全局特征包括全局灰度特征、全局纹理特征、全局颜色特征、全局运动特征中一个或多个。
5.如权利要求4所述的方法,其中,每一视频帧的全局灰度特征根据该视频帧的三个颜色通道之和的均值得到。
6.如权利要求4所述的方法,其中,每一视频帧的全局纹理特征利用Gabor矩阵或Canny算子的边缘检测算法进行提取。
7.如权利要求4所述的方法,其中,每一视频帧的全局颜色特征的提取包括:
根据每一视频帧的三个颜色通道得到修正后的红、绿、蓝、黄四个颜色基矩阵;
根据红、绿、蓝、黄四个颜色基矩阵得到红绿颜色特征矩阵和蓝黄颜色特征矩阵;
将红绿颜色特征矩阵与蓝黄颜色特征矩阵的差值的绝对值作为该视频帧的全局颜色特征。
8.如权利要求4所述的方法,其中,每一视频帧的全局运动特征的提取包括:
将每一视频帧的灰度特征图与对应前一视频帧的灰度特征图的差值的绝对值作为该视频帧的全局运动特征。
9.如权利要求1至8任一项所述的方法,其中,根据每一视频帧的全局特征得到该视频帧中的各尺度的目标预估位置,包括:
对每一视频帧的全局特征进行加权和多尺度的频域幅度谱滤波得到该视频帧中的各尺度的目标预估位置。
10.如权利要求9所述的方法,其中,对每一视频帧的全局特征进行加权和多尺度的频域幅度谱滤波得到该视频帧中的各尺度的目标预估位置,包括:
对每一视频帧的全局特征进行加权得到矩阵多项式;
对所述矩阵多项式进行多项式傅里叶变换得到频域多项式矩阵;
将所述频域多项式矩阵进行多尺度的幅度谱滤波得到每个尺度的频域;
对每个尺度的频域进行反傅里叶变换得到该视频帧中的各尺度的目标预估位置。
11.如权利要求10所述的方法,其中,将所述频域多项式矩阵进行多尺度的幅度谱滤波得到每个尺度的频域,包括:
根据所述频域多项式矩阵得到对应的幅度谱;
采用高斯低通滤波器对所述幅度谱进行预设多尺度的幅度谱滤波得到每个尺度滤波后的幅度谱;
根据相位谱和每个尺度滤波后的幅度谱得到滤波后的每个尺度的频域。
12.如权利要求1至11任一项所述的方法,其中,对每一视频帧中的所述目标预估位置进行聚类处理得到对应的目标候选区域,包括:
根据每一视频帧中的每一尺度的每个目标预估位置得到对应的目标候选区域;
判断每个目标候选区域内的像素的个数是否小于预设个数,若是则将该目标候选区域滤除;
对每个未滤除的目标候选区域做直方图,并且以直方图计算各个目标候选区域的信息熵作为对应目标候选区域的置信度。
13.如权利要求12所述的方法,其中,根据每一视频帧中的每一尺度的每个目标预估位置得到对应的目标候选区域,包括:
依次将每一视频帧中的每一尺度的每个目标预估位置作为当前视频帧中的当前尺度的当前目标预估位置,并依次对当前视频帧中的当前尺度的当前目标预估位置作如下处理:
将当前视频帧中的当前尺度的当前目标预估位置中的像素标记为未访问过;
对当前尺度的当前目标预估位置进行扫描,在当前目标预估位置中找到标记为未访问过且像素值大于预设值的一个像素作为中心像素,将所述中心像素标记为访问过;
获取所述中心像素邻域内的标记为未访问过且像素值大于预设值的其它像素,将获取到的标记为未访问过的且像素值大于预设值的其它像素的标记为访问过;
初始化一个对应于当前目标预估位置的目标候选区域,将所述中心像素和其邻域内的标记为未访问过的且像素值大于预设值的其它像素加入所述目标候选区域。
14.如权利要求1至13任一项所述的方法,其中,目标实际区域根据每一视频帧中的所有所述目标候选区域,并结合所述目标候选区域的置信度及 对应尺度处理,确定该视频帧中的目标实际区域,包括对每一视频帧作如下处理:
由尺度大到小将每一视频帧中的所有尺度的目标候选区域建立区域树形结构;
根据每一视频帧的区域树形结构及其所有目标候选区域的置信度得到每一视频帧中的目标实际区域。
15.如权利要求14所述的方法,其中,根据每一视频帧的区域树形结构及其所有目标候选区域的置信度得到每一视频帧中的目标实际区域,包括对每一视频帧的区域树形结构的各个结点区域由尺度大到小进行遍历,并按如下情况迭代获取每一视频帧中的目标实际区域:
若当前为父结点区域与子结点区域为单子树,直接选择置信度较大的结点区域作为目标实际区域,并结束迭代;
若当前为父结点区域与子结点区域为多子树,且当前父节点区域的置信度均大于两个子节点区域的置信度,选择所述父节点区域作为目标实际区域,并结束迭代;
若当前为父结点区域与子结点区域为多子树,且当前两个子节点区域的置信度均大于当前父节点区域的置信度,选择两个子节点区域作为目标实际区域;
若当前为父结点区域与子结点区域为多子树,且当父节点区域的置信度大于其两个子结点区域中的其中一个子节点区域的置信度,并小于另一个子节点区域的置信度,选择置信度较高的子节点区域作为目标实际区域。
16.一种用于目标获取的设备,其中,包括:
第一装置,用于根据每一视频帧的全局特征得到该视频帧中的各尺度的目标预估位置;
第二装置,用于对每一视频帧中的所述目标预估位置进行聚类处理得到对应的目标候选区域;
第三装置,用于根据每一视频帧中的所有所述目标候选区域,并结合所述目标候选区域的置信度及对应尺度处理,确定该视频帧中的目标实际区域。
17.如权利要求16所述的设备,其中,所述设备还包括:
第四装置,用于将两相邻时刻的视频帧中的同一目标实际区域进行比较,判定视频帧中的该目标实际区域是否为无效。
18.如权利要求16至17任一项所述的设备,其中,所述设备还包括:
第五装置,用于对每一视频帧进行大小归一化处理。
19.如权利要求17至18任一项所述的设备,其中,每一视频帧的所有全局特征包括全局灰度特征、全局纹理特征、全局颜色特征、全局运动特征中一个或多个。
20.如权利要求19所述的设备,其中,每一视频帧的全局灰度特征根据该视频帧的三个颜色通道之和的均值得到。
21.如权利要求19所述的设备,其中,每一视频帧的全局纹理特征利用Gabor矩阵或Canny算子的边缘检测算法进行提取。
22.如权利要求19所述的设备,其中,每一视频帧的全局颜色特征的提取包括:
根据每一视频帧的三个颜色通道得到修正后的红、绿、蓝、黄四个颜色基矩阵;
根据红、绿、蓝、黄四个颜色基矩阵得到红绿颜色特征矩阵和蓝黄颜色特征矩阵;
将红绿颜色特征矩阵与蓝黄颜色特征矩阵的差值的绝对值作为该视频帧的全局颜色特征。
23.如权利要求19所述的设备,其中,每一视频帧的全局运动特征的提取包括:
将每一视频帧的灰度特征图与其预设帧前的视频帧的灰度特征图的差值 的绝对值作为该视频帧的全局运动特征。
24.如权利要求16至23任一项所述的设备,其中,所述第一装置,用于对每一视频帧的全局特征进行加权和多尺度的频域幅度谱滤波得到该视频帧中的各尺度的目标预估位置。
25.如权利要求24所述的设备,其中,所述第一装置包括:
第一一单元,用于对每一视频帧的全局特征进行加权得到矩阵多项式;
第一二单元,用于对所述矩阵多项式进行多项式傅里叶变换得到频域多项式矩阵;
第一三单元,用于将所述频域多项式矩阵进行多尺度的幅度谱滤波得到每个尺度的频域;
第一四单元,用于对每个尺度的频域进行反傅里叶变换得到该视频帧中的各尺度的目标预估位置。
26.如权利要求25所述的设备,其中,所述第一三单元包括:
第一三一单元,用于根据所述频域多项式矩阵得到对应的幅度谱;
第一三二单元,用于采用高斯低通滤波器对所述幅度谱进行预设多尺度的幅度谱滤波得到每个尺度滤波后的幅度谱;
第一三三单元,用于根据相位谱和每个尺度滤波后的幅度谱得到滤波后的每个尺度的频域。
27.如权利要求16至26任一项所述的设备,其中,所述第二装置包括:
第二一单元,用于根据每一视频帧中的每一尺度的每个目标预估位置得到对应的目标候选区域;
第二二单元,用于判断每个目标候选区域内的像素的个数是否小于预设个数,若是则将该目标候选区域滤除;
第二三单元,用于目标候选区域对每个未滤除的目标候选区域做直方图,并且以直方图计算各个目标候选区域的信息熵作为对应目标候选区域的置信度。
28.如权利要求27所述的设备,其中,所述第二一单元,用于依次将每一视频帧中的每一尺度的每个目标预估位置作为当前视频帧中的当前尺度的当前目标预估位置,并依次对当前视频帧中的当前尺度的当前目标预估位置作如下处理:
将当前视频帧中的当前尺度的当前目标预估位置中的像素标记为未访问过;
对当前尺度的当前目标预估位置进行扫描,在当前目标预估位置中找到标记为未访问过且像素值大于预设值的一个像素作为中心像素,将所述中心像素标记为访问过;
获取所述中心像素邻域内的标记为未访问过且像素值大于预设值的其它像素,将获取到的标记为未访问过的且像素值大于预设值的其它像素的标记为访问过;
初始化一个对应于当前目标预估位置的目标候选区域,将所述中心像素和其邻域内的标记为未访问过的且像素值大于预设值的其它像素加入所述目标候选区域。
29.如权利要求16至28任一项所述的设备,其中,所述第三装置包括:
第三一单元,用于由尺度大到小将每一视频帧中的所有尺度的目标候选区域建立区域树形结构;
第三二单元,用于根据每一视频帧的区域树形结构及其所有目标候选区域的置信度得到每一视频帧中的目标实际区域。
30.如权利要求29所述的设备,其中,所述第三二单元,用于对每一视频帧的区域树形结构的各个结点区域由尺度大到小进行遍历,并按如下情况迭代获取每一视频帧中的目标实际区域:
若当前为父结点区域与子结点区域为单子树,直接选择置信度较大的结点区域作为目标实际区域,并结束迭代;
若当前为父结点区域与子结点区域为多子树,且当前父节点区域的置信度均大于两个子节点区域的置信度,选择所述父节点区域作为目标实际区域,并结束迭代;
若当前为父结点区域与子结点区域为多子树,且当前两个子节点区域的 置信度均大于当前父节点区域的置信度,选择两个子节点区域作为目标实际区域;
若当前为父结点区域与子结点区域为多子树,且当父节点区域的置信度大于其两个子结点区域中的其中一个子节点区域的置信度,并小于另一个子节点区域的置信度,选择置信度较高的子节点区域作为目标实际区域。
CN201510059261.5A 2015-02-04 2015-02-04 目标获取方法及设备 Active CN105989367B (zh)

Priority Applications (7)

Application Number Priority Date Filing Date Title
CN201510059261.5A CN105989367B (zh) 2015-02-04 2015-02-04 目标获取方法及设备
TW104128419A TWI676963B (zh) 2015-02-04 2015-08-28 目標獲取方法及設備
PCT/US2016/016462 WO2016126885A1 (en) 2015-02-04 2016-02-03 Method and apparatus for target acquisition
KR1020177021351A KR102507941B1 (ko) 2015-02-04 2016-02-03 타깃 획득 방법 및 장치
JP2017536850A JP6723247B2 (ja) 2015-02-04 2016-02-03 ターゲット取得の方法及び装置
US15/015,072 US9990546B2 (en) 2015-02-04 2016-02-03 Method and apparatus for determining target region in video frame for target acquisition
EP16747240.6A EP3254236A4 (en) 2015-02-04 2016-02-03 Method and apparatus for target acquisition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510059261.5A CN105989367B (zh) 2015-02-04 2015-02-04 目标获取方法及设备

Publications (2)

Publication Number Publication Date
CN105989367A true CN105989367A (zh) 2016-10-05
CN105989367B CN105989367B (zh) 2019-06-28

Family

ID=56553134

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510059261.5A Active CN105989367B (zh) 2015-02-04 2015-02-04 目标获取方法及设备

Country Status (7)

Country Link
US (1) US9990546B2 (zh)
EP (1) EP3254236A4 (zh)
JP (1) JP6723247B2 (zh)
KR (1) KR102507941B1 (zh)
CN (1) CN105989367B (zh)
TW (1) TWI676963B (zh)
WO (1) WO2016126885A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325968A (zh) * 2018-09-27 2019-02-12 东南大学 一种基于谱滤波的目标跟踪方法
CN109597431A (zh) * 2018-11-05 2019-04-09 视联动力信息技术股份有限公司 一种目标跟踪的方法以及装置
CN110837789A (zh) * 2019-10-31 2020-02-25 北京奇艺世纪科技有限公司 一种检测物体的方法、装置、电子设备及介质
WO2020224460A1 (zh) * 2019-05-06 2020-11-12 影石创新科技股份有限公司 一种目标追踪方法及便携式终端
CN113014955A (zh) * 2019-12-19 2021-06-22 北京百度网讯科技有限公司 视频帧处理方法和装置
CN114898175A (zh) * 2022-04-29 2022-08-12 北京九章云极科技有限公司 目标检测方法、装置及相关设备
CN111259919B (zh) * 2018-11-30 2024-01-23 杭州海康威视数字技术股份有限公司 一种视频分类方法、装置及设备、存储介质

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105989367B (zh) * 2015-02-04 2019-06-28 阿里巴巴集团控股有限公司 目标获取方法及设备
US10339410B1 (en) * 2016-01-13 2019-07-02 Snap Inc. Color extraction of a video stream
US10791304B2 (en) * 2016-08-05 2020-09-29 Wisconsin Alumni Research Foundation Apparatus for augmenting human vision
CN107705586B (zh) * 2016-08-08 2022-05-10 阿里巴巴集团控股有限公司 道路交叉口的车流控制方法以及装置
CN108073857B (zh) 2016-11-14 2024-02-27 北京三星通信技术研究有限公司 动态视觉传感器dvs事件处理的方法及装置
CN107341798B (zh) * 2017-07-06 2019-12-03 西安电子科技大学 基于全局-局部SPP Net的高分辨SAR图像变化检测方法
CN108199686B (zh) * 2017-12-22 2019-09-17 晶科电力科技股份有限公司 一种光伏电站中热斑定位方法
US11669724B2 (en) 2018-05-17 2023-06-06 Raytheon Company Machine learning using informed pseudolabels
CN109118516A (zh) * 2018-07-13 2019-01-01 高新兴科技集团股份有限公司 一种目标从运动到静止的跟踪方法及装置
CN109816700B (zh) * 2019-01-11 2023-02-24 佰路得信息技术(上海)有限公司 一种基于目标识别的信息统计方法
WO2020237674A1 (zh) * 2019-05-31 2020-12-03 深圳市大疆创新科技有限公司 目标跟踪方法、目标跟踪装置和无人机
US11068747B2 (en) * 2019-09-27 2021-07-20 Raytheon Company Computer architecture for object detection using point-wise labels
CN112749599A (zh) * 2019-10-31 2021-05-04 北京金山云网络技术有限公司 图像增强方法、装置和服务器
CN110969115B (zh) * 2019-11-28 2023-04-07 深圳市商汤科技有限公司 行人事件的检测方法及装置、电子设备和存储介质
CN111028346B (zh) * 2019-12-23 2023-10-10 北京奇艺世纪科技有限公司 一种视频对象的重建方法和装置
US11676391B2 (en) 2020-04-16 2023-06-13 Raytheon Company Robust correlation of vehicle extents and locations when given noisy detections and limited field-of-view image frames
CN112137591B (zh) * 2020-10-12 2021-07-23 平安科技(深圳)有限公司 基于视频流的目标物位置检测方法、装置、设备及介质
CN112235650A (zh) * 2020-10-19 2021-01-15 广州酷狗计算机科技有限公司 视频处理方法、装置、终端及存储介质
CN112270253A (zh) * 2020-10-26 2021-01-26 深圳英飞拓科技股份有限公司 一种高空抛物的检测方法及装置
US11562184B2 (en) 2021-02-22 2023-01-24 Raytheon Company Image-based vehicle classification
CN113763296A (zh) * 2021-04-28 2021-12-07 腾讯云计算(北京)有限责任公司 图像处理方法、设备以及介质
CN113705415B (zh) * 2021-08-23 2023-10-27 中国电子科技集团公司第十五研究所 基于雷达情报的空情目标特征提取方法及装置
CN113762114A (zh) * 2021-08-27 2021-12-07 四川智胜慧旅科技有限公司 一种基于户外视频识别的人员寻找方法及***
CN118097183B (zh) * 2024-04-29 2024-06-28 江苏物润船联网络股份有限公司 一种用于绿幕直播的关键色提取方法及***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6263088B1 (en) * 1997-06-19 2001-07-17 Ncr Corporation System and method for tracking movement of objects in a scene
US20020154833A1 (en) * 2001-03-08 2002-10-24 Christof Koch Computation of intrinsic perceptual saliency in visual environments, and applications
CN103400129A (zh) * 2013-07-22 2013-11-20 中国科学院光电技术研究所 一种基于频域显著性的目标跟踪方法
CN103413120A (zh) * 2013-07-25 2013-11-27 华南农业大学 基于物体整体性和局部性识别的跟踪方法
CN103514276A (zh) * 2013-09-22 2014-01-15 西安交通大学 基于中心估计的图形目标检索定位方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5631697A (en) 1991-11-27 1997-05-20 Hitachi, Ltd. Video camera capable of automatic target tracking
KR100327103B1 (ko) 1998-06-03 2002-09-17 한국전자통신연구원 사용자의조력및물체추적에의한영상객체분할방법
US6721454B1 (en) * 1998-10-09 2004-04-13 Sharp Laboratories Of America, Inc. Method for automatic extraction of semantically significant events from video
US7072398B2 (en) * 2000-12-06 2006-07-04 Kai-Kuang Ma System and method for motion vector generation and analysis of digital video clips
US6574353B1 (en) 2000-02-08 2003-06-03 University Of Washington Video object tracking using a hierarchy of deformable templates
US20070092110A1 (en) 2004-11-08 2007-04-26 Li-Qun Xu Object tracking within video images
US7796780B2 (en) 2005-06-24 2010-09-14 Objectvideo, Inc. Target detection and tracking from overhead video streams
CN101231755B (zh) * 2007-01-25 2013-03-06 上海遥薇(集团)有限公司 运动目标跟踪及数量统计方法
JP2008233343A (ja) * 2007-03-19 2008-10-02 Advanced Mask Inspection Technology Kk 試料検査装置、補正画像生成方法及びプログラム
US8374388B2 (en) 2007-12-28 2013-02-12 Rustam Stolkin Real-time tracking of non-rigid objects in image sequences for which the background may be changing
TWI366140B (en) * 2008-06-11 2012-06-11 Vatics Inc Method for tracking multiple objects with spatial-color statistical model
US8085982B1 (en) 2008-06-20 2011-12-27 Google Inc. Object tracking in video with visual constraints
TWI382762B (zh) * 2008-11-17 2013-01-11 Ind Tech Res Inst 移動物體的追蹤方法
GB0915200D0 (en) 2009-09-01 2009-10-07 Ucl Business Plc Method for re-localising sites in images
US20130089301A1 (en) * 2011-10-06 2013-04-11 Chi-cheng Ju Method and apparatus for processing video frames image with image registration information involved therein
CN103946891B (zh) 2011-11-18 2017-02-22 日本电气株式会社 局部特征量提取装置和局部特征量提取方法
US9111135B2 (en) * 2012-06-25 2015-08-18 Aquifi, Inc. Systems and methods for tracking human hands using parts based template matching using corresponding pixels in bounded regions of a sequence of frames that are a specified distance interval from a reference camera
US9336302B1 (en) * 2012-07-20 2016-05-10 Zuci Realty Llc Insight and algorithmic clustering for automated synthesis
US9767385B2 (en) * 2014-08-12 2017-09-19 Siemens Healthcare Gmbh Multi-layer aggregation for object detection
CN105989367B (zh) * 2015-02-04 2019-06-28 阿里巴巴集团控股有限公司 目标获取方法及设备
WO2016207875A1 (en) * 2015-06-22 2016-12-29 Photomyne Ltd. System and method for detecting objects in an image

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6263088B1 (en) * 1997-06-19 2001-07-17 Ncr Corporation System and method for tracking movement of objects in a scene
US20020154833A1 (en) * 2001-03-08 2002-10-24 Christof Koch Computation of intrinsic perceptual saliency in visual environments, and applications
CN103400129A (zh) * 2013-07-22 2013-11-20 中国科学院光电技术研究所 一种基于频域显著性的目标跟踪方法
CN103413120A (zh) * 2013-07-25 2013-11-27 华南农业大学 基于物体整体性和局部性识别的跟踪方法
CN103514276A (zh) * 2013-09-22 2014-01-15 西安交通大学 基于中心估计的图形目标检索定位方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325968A (zh) * 2018-09-27 2019-02-12 东南大学 一种基于谱滤波的目标跟踪方法
CN109597431A (zh) * 2018-11-05 2019-04-09 视联动力信息技术股份有限公司 一种目标跟踪的方法以及装置
CN109597431B (zh) * 2018-11-05 2020-08-04 视联动力信息技术股份有限公司 一种目标跟踪的方法以及装置
CN111259919B (zh) * 2018-11-30 2024-01-23 杭州海康威视数字技术股份有限公司 一种视频分类方法、装置及设备、存储介质
WO2020224460A1 (zh) * 2019-05-06 2020-11-12 影石创新科技股份有限公司 一种目标追踪方法及便携式终端
CN110837789A (zh) * 2019-10-31 2020-02-25 北京奇艺世纪科技有限公司 一种检测物体的方法、装置、电子设备及介质
CN113014955A (zh) * 2019-12-19 2021-06-22 北京百度网讯科技有限公司 视频帧处理方法和装置
US11375209B2 (en) 2019-12-19 2022-06-28 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for processing video frame
CN113014955B (zh) * 2019-12-19 2022-11-15 北京百度网讯科技有限公司 视频帧处理方法、装置、电子设备和计算机可读存储介质
CN114898175A (zh) * 2022-04-29 2022-08-12 北京九章云极科技有限公司 目标检测方法、装置及相关设备

Also Published As

Publication number Publication date
KR102507941B1 (ko) 2023-03-10
EP3254236A1 (en) 2017-12-13
KR20170110609A (ko) 2017-10-11
CN105989367B (zh) 2019-06-28
JP6723247B2 (ja) 2020-07-15
WO2016126885A1 (en) 2016-08-11
US20160224833A1 (en) 2016-08-04
EP3254236A4 (en) 2018-10-03
TW201629904A (zh) 2016-08-16
JP2018509678A (ja) 2018-04-05
US9990546B2 (en) 2018-06-05
TWI676963B (zh) 2019-11-11

Similar Documents

Publication Publication Date Title
CN105989367A (zh) 目标获取方法及设备
CN107967451B (zh) 一种对静止图像进行人群计数的方法
EP3614308B1 (en) Joint deep learning for land cover and land use classification
US20200167601A1 (en) Ship detection method and system based on multidimensional scene features
CN107767400B (zh) 基于层次化显著性分析的遥感图像序列动目标检测方法
CN103996198A (zh) 复杂自然环境下感兴趣区域的检测方法
CN111931764B (zh) 一种目标检测方法、目标检测框架及相关设备
CN107944403B (zh) 一种图像中的行人属性检测方法及装置
CN107424171A (zh) 一种基于分块的抗遮挡目标跟踪方法
US20080298636A1 (en) Method for detecting water regions in video
CN111915583B (zh) 复杂场景中基于车载红外热像仪的车辆和行人检测方法
Wu et al. Multivehicle object tracking in satellite video enhanced by slow features and motion features
Balasundaram et al. Abnormality identification in video surveillance system using DCT
Choi et al. A performance comparison of RGB, NIR, and depth images in immature citrus detection using deep learning algorithms for yield prediction
CN113763427B (zh) 一种基于从粗到精遮挡处理的多目标跟踪方法
CN111091025A (zh) 图像处理方法、装置和设备
CN114648547A (zh) 用于反无人机红外探测***的弱小目标检测方法和装置
CN104123569A (zh) 一种基于有监督学习的视频人数信息统计方法
CN116977895A (zh) 用于通用相机镜头的污渍检测方法、装置及计算机设备
JP2018120402A (ja) イベント検出装置、イベント検出方法、プログラム
CN112651351B (zh) 一种数据处理的方法和装置
Xue et al. Urban waterlogging monitoring and early warning based on video images
CN112419227B (zh) 基于小目标搜索缩放技术的水下目标检测方法和***
Bharathi et al. Vehicle detection in aerial surveillance using morphological shared-pixels neural (MSPN) networks
dos Reis Image descriptors for counting people with uncalibrated cameras

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant