CN109426805B - 用于对象检测的方法、设备和计算机程序产品 - Google Patents

用于对象检测的方法、设备和计算机程序产品 Download PDF

Info

Publication number
CN109426805B
CN109426805B CN201810946839.2A CN201810946839A CN109426805B CN 109426805 B CN109426805 B CN 109426805B CN 201810946839 A CN201810946839 A CN 201810946839A CN 109426805 B CN109426805 B CN 109426805B
Authority
CN
China
Prior art keywords
superpixel
superpixels
proposal
video
cost function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810946839.2A
Other languages
English (en)
Other versions
CN109426805A (zh
Inventor
王廷槐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Technologies Oy
Original Assignee
Nokia Technologies Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Technologies Oy filed Critical Nokia Technologies Oy
Publication of CN109426805A publication Critical patent/CN109426805A/zh
Application granted granted Critical
Publication of CN109426805B publication Critical patent/CN109426805B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/143Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/08Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers from or to individual record carriers, e.g. punched card, memory card, integrated circuit [IC] card or smart card
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20072Graph-based image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/162Segmentation; Edge detection involving graph-based methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Human Computer Interaction (AREA)
  • Algebra (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

一种方法,包括:接收包括视频帧的视频作为输入;从所述视频中生成一组对象提议;生成对象轨迹片段,所述对象轨迹片段包括在所述视频的连续帧中出现的区域,所述区域对应于具有预定置信水平的对象提议;构建包括所述对象提议和超像素的图,所述超像素是从所述帧的像素分组的;根据对象轨迹片段中的对象提议计算超像素似然性的第一成本函数;根据所述帧中的超像素计算对象提议似然性的第二成本函数;使所述第一和第二成本函数彼此最小化;计算每个超像素的后验概率;以及为每个超像素分配具有最大后验概率的对象类以构成语义对象分割。

Description

用于对象检测的方法、设备和计算机程序产品
技术领域
本解决方案通常涉及计算机视觉和人工智能。特别地,本解决方案涉及用于对象检测的方法和技术设备。
背景技术
许多实际应用依赖于关于例如图像、视频等的媒体内容的语义信息的可用性。语义信息由元数据表示,元数据可以表示场景的类型、特定动作/活动的发生、特定对象的存在等。可以通过分析媒体来获得这种语义信息。
从视频中语义地分割对象仍然是一个开放性挑战,最近的进步依赖于通过交互式初始化或校正所提供的先备知识。然而,全自动语义视频对象分割在以下场景中仍然有用:循环中的人是不切实际的,例如视频识别或总结概括或3D建模。
语义视频对象分割,其旨在根据已知的语义标签识别和分割视频中的对象,最近通过结合中级和高级视觉信息(例如对象检测)取得了很大进展,这使得能够构建视频对象的显式语义概念。然而,这些方法通常无法捕获长程和高级上下文,因此可能由于改变对象外观和遮挡而引入显著的错误。
发明内容
现在已经发明了一种改进的方法和实施该方法的技术设备,通过该方法和技术设备可以至少减轻问题。本发明的各个方面包括一种方法、设备和包括存储在其中的计算机程序的计算机可读介质,其特征在于独立权利要求中所述的内容。在从属权利要求中公开了本发明的各种实施例。
根据第一方面,提供了一种方法,包括:接收包括视频帧的视频作为输入;从视频中生成一组对象提议;生成包括在视频的连续帧中出现的区域的对象轨迹片段,所述区域对应于具有预定置信水平的对象提议;构建包括对象提议和超像素的图,所述超像素是从帧的像素分组的;根据对象轨迹片段中的对象提议计算超像素似然性的第一成本函数;根据帧中的超像素计算对象提议似然性的第二成本函数;使第一和第二成本函数彼此最小化;计算每个超像素的后验概率;以及为每个超像素分配具有最大后验概率的对象类以构成语义对象分割。
根据一个实施例,该方法还包括从所述图确定所述图的节点对之间的链接。
根据一个实施例,该方法还包括计算对于在每个对象提议和其组成超像素之间的连接的第一权重。
根据一个实施例,该方法还包括计算对于在空间上或时间上相邻的超像素之间的连接的第二权重。
根据一个实施例,该方法还包括计算对于在同一轨迹内的对象提议之间的连续连接之间的连接的第三权重。
根据一个实施例,第一权重和第二权重用作第一成本函数中的权重。
根据一个实施例,第一权重和第三权重用作第二成本函数中的权重。
根据一个实施例,根据贝叶斯(Bayes)规则计算每个超像素的后验概率。
本发明的第二和第三方面涉及一种设备和一种计算机可读介质,所述计算机可读介质包括存储在其中的用于执行所述方法的计算机程序。
鉴于下面进一步详细说明的实施例,本发明的这些和其他方面以及与其相关的实施例将变得显而易见。
附图说明
在下文中,将参考附图更详细地描述本发明的各种实施例,其中
图1示出了根据实施例的适用于计算机视觉处理的计算机***;
图2示出了适用于计算机视觉***的卷积神经网络的示例;
图3示出了根据实施例的方法的流程图;
图4示出了从视频序列中提取的轨迹片段的示例;以及
图5示出了根据实施例的无向图。
具体实施方式
在下文中,将在计算机视觉的背景下描述本发明的若干实施例。特别地,本发明实施例涉及视频对象检测,其目的是检测视频中某个类的语义对象的实例。视频对象检测应用于计算机视觉的许多领域中,例如跟踪、分类、分割、字幕和监控中。
图1示出了根据实施例的适用于图像处理中(例如计算机视觉处理中)的计算机***。将根据***的功能块解释计算机***的通用结构。可以用单个物理设备执行若干功能,例如如果需要的话,所有计算程序都可以在单个处理器中执行。根据图1的示例的设备的数据处理***包括主处理单元100、存储器102、存储设备104、输入设备106、输出设备108和图形子***110,它们都经由数据总线112彼此连接。
主处理单元100是包括处理器电路的处理单元,并且被配置为处理数据处理***内的数据。存储器102、存储设备104、输入设备106和输出设备108可以包括本领域技术人员认识的传统部件。存储器102和存储设备104存储在数据处理***100内的数据。计算机程序代码驻留在存储器102中,用于实现例如计算机视觉处理。输入设备106将数据输入到***中,而输出设备108从数据处理***接收数据并向例如显示器、数据发送器或其他输出设备转发数据。数据总线112是传统的数据总线,并且虽然示出为单条线,但它可以是以下的任何组合:处理器总线、PCI总线、图形总线、ISA总线。因此,技术人员容易认识到该设备可以是任何数据处理设备,例如计算机设备、个人计算机、服务器计算机、移动电话、智能电话或因特网访问设备(例如因特网平板计算机)。
需要理解的是,不同实施例允许在不同元件中执行不同部分。例如,计算机视觉***的各种过程可以在一个或多个处理设备中执行;例如,完全在一个计算机设备中,或在一个服务器设备中或跨多个用户设备。计算机视觉过程的元件可以实现为驻留在一个设备上的软件部件,或如上所述分布在多个设备上,例如使得设备形成所谓的云。
一般用于分析数据特别是视觉数据的一种方法是深度学习。深度学习是机器学习的子领域。深度学习可能涉及采用监控或无监控方式的非线性处理单元的多层的学习。这些层形成层的层级结构,其可以称为人工神经网络。每个学习层从输入数据中提取特征表示,其中来自较低层的特征表示低级语义(即,更抽象的概念)。无监控学习应用可以包括模式分析(例如,聚类、特征提取),而有监控学习应用可以包括图像对象的分类。
深度学习技术可以非常准确地识别和检测图像或视频中的对象,优于先前的方法。与先前的方法相比,深度学习图像识别技术的一个区别是学习从原始数据直接识别图像对象,而先前的技术基于从手工设计的特征(例如,SIFT特征)识别图像对象。在训练阶段,深度学习技术构建分级层次,其提取越来越抽象级别的特征。
因此,提取器或特征提取器可以用于深度学习技术。深度学习技术中的特征提取器的示例是卷积神经网络(CNN),如图2所示。CNN可以由一个或多个卷积层组成,顶部具有全连接层。CNN比其他深度神经网络更容易训练,并且具有更少的待估计参数。因此,CNN已被证明是一种非常有吸引力的架构,尤其是用于图像和语音应用中。
在图2中,CNN的输入是图像,但是也可以使用任何其他媒体内容对象,例如视频或音频文件。CNN的每一层代表一定的抽象(或语义)级别,CNN提取多个特征图。为简单起见,图2中的CNN仅具有三个特征(或抽象或语义)层C1、C2、C3,但是表现最佳的CNN可具有超过20个特征层。
CNN的第一卷积层C1包括从第一层(即,从输入图像)提取4个特征图。这些图可以表示输入图像中的低级特征,例如边和角。CNN的第二卷积层C2包括从前一层提取6个特征图,增加了所提取特征的语义级别。类似地,第三卷积层C3可以表示在图像中找到的更抽象的概念,例如边和角的组合、形状等。CNN的最后一层(全连接的MLP)不提取特征图。相反,它可以使用来自最后一个特征层的特征图来预测(识别)对象类。例如,它可以预测图像中的对象是房屋。
可以理解,神经网络的目标是将输入数据转换为更有用的输出。一个示例是分类,其中输入数据被分类为N个可能类别之一(例如,如果图像包含猫或狗则分类)。另一示例是回归,其中输入数据被转换成实数(例如,确定歌曲的音乐节拍)。然而,另一示例是从噪声分布产生图像。
尽管图像对象检测具有显著的性能提升,但视频对象检测对如何有力地且有效地解决对于视频的对象检测问题提出了新的挑战。语义视频对象分割,其旨在根据已知的语义标签识别和分割视频中的对象,最近通过结合中级和高级视觉信息(例如对象检测)取得了很大进展,这使得能够构建视频对象的显式语义概念。这种与对象识别和分割的集成不仅有利于整体对象模型,而且还提供了用于描绘语义对象的中级几何表示。然而,由于缺乏分割和上下文的推断以及联合建模,这些现有的基于检测分割的方法通常无法捕获长程和高级上下文。它们通常直接使用本地上下文,即,从时域中关联的独立帧检测到的对象提议,作为约束以加强标记一致性。但是,对象检测以及时间关联可能包含由于改变对象外观和遮挡而导致的显著错误。
本发明实施例涉及构建新颖的图形模型,其考虑各种尺度的上下文信息。该多尺度上下文信息可以由轨迹片段、对象提议和超像素表示,其中每个节点从粗粒度到细粒度捕获各种空间-时间上下文和语义。
图3以简化的方式示出了根据实施例的用于视频对象检测的方法。该方法包括接收(300)包括视频帧的视频作为输入;从该视频生成(302)一组对象提议;生成(304)包括在该视频的连续帧中出现的区域的对象轨迹片段,所述区域对应于具有预定置信水平的对象提议;构建(306)包括对象提议和超像素的图,所述超像素是从帧的像素分组的;根据对象轨迹片段中的对象提议计算(308)超像素似然性的第一成本函数;根据帧中的超像素计算(310)对象提议似然性的第二成本函数;使第一和第二成本函数彼此最小化(312);计算(314)每个超像素的后验概率;并且为每个超像素分配(316)具有最大后验概率的对象类以构成语义对象分割。
在下文中,以更详细的方式讨论这些步骤。
可以通过计算由***接收的输入视频帧的分层分割来生成对象提议。该输入视频帧可以由包括图1的计算机***的摄像机设备获得。替代地,该输入视频帧可以通过通信网络从在图1的计算机***外部的摄像机设备接收。
为了生成对象提议,可以使用已知的对象检测器,例如快速R-CNN(基于快速区域的卷积神经网络)。快速R-CNN将视频帧和一组对象提议作为输入。该网络首先利用若干卷积层和最大池化层处理视频帧以产生特征图。然后,对于该组对象提议中的每个对象提议,感兴趣区域(RoI)池化层从特征图提取固定长度的特征向量。每个特征向量被馈送到一系列全连接层中,这些层最终分支成两个兄弟输出层:一个产生softmax概率,另一个产生每个类别的边界框回归偏移(per-class bounding-box regression offset)。负对象提议被消除,剩余对象提议具有预定(即足够)置信水平。
对于每个对象类别,例如通过跟踪具有所述预定置信水平的对象提议来生成轨迹片段。这里,例如,Kang,K.、Ouyang,W.、Li,H.和Wang,X.在2016年CVPR第817-82页描述的方法,“用卷积神经网络从视频管束中检测物体(Object detection from video tubeletswith convolutional neural networks)”,可用于生成轨迹片段,其可以包含噪声检测,即误报检测(false positive detection)。该上下文中的轨迹片段指的是从连续视频帧中提取的时间关联的一组对象提议。图4示出了从视频序列中提取的轨迹片段的示例。
在对象检测领域中,图像通常用有限数量的像素组而不是单个像素来表示,因此显著减少了具有图像的计算节点的数量,以及计算复杂度。这些像素组通常称为超像素。
为了处理各种规模或级别的上下文信息,形成无向图G=(V,E),超像素和来自轨迹片段的对象提议分别作为节点V={X,Y}。图5示出了这种图的示例。在图5的上部,矩形表示轨迹片段,每个轨迹片段包括由圆圈表示的一组对象提议。如线所示,对象提议被反映到该图(图5的下部)。在该图中,每个帧被划分成超像素图,超像素图包括由圆圈表示的、覆盖帧的区域的多个相同尺寸的超像素。在每个帧上,可能存在多于一个的重叠或非重叠对象提议,对应于多个或相同的对象实例。因此,该一个或多个对象提议可以反映到相同的超像素,并且从一个对象提议可以有到两个或更多个超像素的链接。
图4和图5示出了如何在三个级别上提供上下文信息。轨迹片段级节点对长程上下文和更高级别语义协同作用进行编码。对象提议节点加强短程依赖性和局部几何表示,而超像素节点扮演感知有意义的原子区域的角色,以保证有效和准确的分割,尽管它们的信息量较少。跨各种粒度的节点的信息流使得能够实现有效的推断,其解释了自下而上和自上而下的语义线索。
简单地使用更高级别的上下文信息加强标记超像素通常会由于不准确的上下文信息而导致错误分割。然而,图3的方法步骤和与其相关的实施例提供了一种新颖的软标记一致性约束,以允许在一定程度上灵活地标记同一圈子内的节点。
根据一个实施例,该方法还包括从所述图确定图节点对之间的链接。这里,图节点对之间的链接被定义为边,标示为E={EXY,EXX,EYY}。EXY可以被称为交叉上下文边,EXX可以被称为超像素边,EYY可以被称为对象提议边。这些边的存在基于图中如下所述的可用多尺度上下文线索来确定。
根据一个实施例,该方法还包括计算每个对象提议和其组成超像素之间的连接的第一权重。每个对象提议和其组成超像素之间的连接被添加为交叉上下文边EXY。对象提议包括对象实例的更高级别线索,例如外观和位置信息,并且超像素保留局部上下文信息,同时与强度边对齐。超像素xi和对象提议ym之间的边
Figure BDA0001770448300000081
上的第一权重
Figure BDA0001770448300000082
被定义为
Figure BDA0001770448300000083
其中[·]是指标函数,Pr(xi|ym)是给定对象提议ym的概率密度函数(PDF)的观察xi的似然性。对象提议的概率密度可以通过任何合适的密度估计来估计,例如使用Yang,C.、Duraiswami,R.、Gumerov,N.和Davis,L在2003年ICCV第一卷第464页“改进的快速高斯变换和高效核密度估计(Improved Fast Gauss Transform and Efficient KernelDensity Estimation)”中公开的快速核密度估计,将其应用于例如CIE Lab颜色上。跨上下文边将对象实例级别线索转移到超像素中,每个对象提议可以合并本地上下文线索的补充信息。
根据一个实施例,该方法还包括计算空间上或时间上相邻的超像素之间的连接的第二权重。所有空间上或时间上相邻的超像素被连接以形成超像素边EXX。空间上相邻是基于超像素邻域,而时间上相邻的超像素是通过连续帧上的至少一个光流运动矢量在时间上连接的。边
Figure BDA0001770448300000084
的第二权重被定义为反映局部外观相似性以及空间/时间距离,如下所述。设定
Figure BDA0001770448300000085
为xi的空间和时间邻域中的超像素集,
Figure BDA0001770448300000086
其中,χ2(hi,hj)是超像素xi和xj各自的L1标准化CIE Lab颜色直方图hi、hj之间的距离为χ2,ds(xi,xj)表示xi和xj之间的空间或时间距离。时间距离通过两个超像素内的像素的比率来测量,所述两个超像素通过两个超像素的并集上的运动矢量连接。
根据一个实施例,该方法还包括计算同一轨迹片段内的对象提议之间的连续连接之间的连接的第三权重。同一轨迹片段内的提议之间的连续连接形成对象提议边EYY。如上所述,偶尔不准确的对象提议可能导致噪声更高级别的上下文信息,其进而传播到超像素。尽管如此,构成相同轨迹片段的对象提议共同编码对象的动态内在结构,即不仅考虑了对象的运动,还考虑了外观随时间的演变。对象提议边被定义为同一轨迹内的提议之间的顺序连接。这些边使得在更高级别的上下文线索内流动的信息能够补偿本地噪声信息。两个对象提议ym和yn之间的边
Figure BDA0001770448300000091
的第三权重被定义为
Figure BDA0001770448300000092
其中,
Figure BDA0001770448300000093
是其轨迹片段中ym的邻域,f.是提议的L2标准化CNN特征,<·>表示内积。第三权重利用深度特征空间中的高级语义。
为了分别促进对于超像素和对象提议的似然性的联合推断,可以将第一和第二成本函数定义为二次成本函数,从而将互补的上下文信息彼此利用。
可以通过以有原则的方式将对象提议似然性Vl结合为更高级别的上下文线索来推断超像素似然性Ul。通过表征图中所有节点之间的关系,超像素似然性Ul相对于标签l的第一二次成本函数
Figure BDA0001770448300000094
如下。设定节点度矩阵
Figure BDA0001770448300000095
的对角元素定义为
Figure BDA0001770448300000096
Figure BDA0001770448300000097
其中λ和π是参数。超像素概率
Figure BDA0001770448300000098
是关于标签l的初始似然性。来自对象提议似然性vml∈Vl的超像素xi的估计似然性
Figure BDA00017704483000000917
被定义为其对应的对象提议似然性的加权平均值,
Figure BDA0001770448300000099
其中,
Figure BDA00017704483000000910
在第一成本函数中,
Figure BDA00017704483000000911
Figure BDA00017704483000000912
分别是拟合约束和平滑约束,而是
Figure BDA00017704483000000913
上下文约束。
在第一成本函数中,
Figure BDA00017704483000000914
鼓励超像素具有初始似然性,该初始似然性通过测量推断的似然性应当与初始似然性一致的程度的λX来控制。
Figure BDA00017704483000000915
促进位于特征空间中紧邻的相邻节点之间的推断似然性的连续性。
Figure BDA00017704483000000916
促进每个超像素的推断以了解更高级别的上下文信息。结果,轨迹片段中的对象提议编码对象的更丰富的语义和内在动态,其可以在推理期间被传播到其组成超像素。
为了求解等式(1),还需要通过参考图G中的超像素似然性Ul来估计对象提议似然性Vl。类似于(1),对象提议似然性Vl的第二二次成本函数
Figure BDA0001770448300000101
定义如下。设定节点度矩阵
Figure BDA0001770448300000102
的对角元素定义为
Figure BDA0001770448300000103
Figure BDA0001770448300000104
其中λY和ψ是参数,
Figure BDA0001770448300000105
是给定标签l的对象提议m的初始似然性,并且通过结合局部上下文线索(即,超像素似然性Ul)来定义对象提议ym的估计似然性
Figure BDA0001770448300000106
被计算为其组成超像素似然性的加权平均值:
Figure BDA0001770448300000107
其中,
Figure BDA0001770448300000108
类似地,等式(2)由三项组成,即,
Figure BDA0001770448300000109
Figure BDA00017704483000001010
在第二成本函数中,
Figure BDA00017704483000001011
是拟合约束,其鼓励每个对象提议具有其初始似然性。
Figure BDA00017704483000001012
是平滑约束,其促进同一轨迹片段中对象提议之间的标签连续性,以保持对象的时空一致性。第三项
Figure BDA00017704483000001013
是上下文约束,其以自下而上的方式收集局部上下文线索,以使用更多本地信息的超像素似然性Ul来细化对象提议似然性Vl,因为它不能保证对象提议始终被提取,从而保留自然图像中的真实对象边界。
由于第一和第二成本函数Ul和Vl彼此互补,它们优选地彼此同时最小化。根据一个实施例,第一和第二成本函数被重新表述为分别关于来自初始似然性
Figure BDA00017704483000001014
Figure BDA00017704483000001015
的似然性
Figure BDA00017704483000001016
Figure BDA00017704483000001017
的矩阵形式,
Figure BDA0001770448300000111
Figure BDA0001770448300000112
其中,
Figure BDA0001770448300000113
Figure BDA0001770448300000114
图G中超像素和其对应的对象提议之间的上下文依赖关系由
Figure BDA0001770448300000115
Figure BDA0001770448300000116
表示。NX×NX矩阵ΛX=diag([λX,…,λX])和NY×NY矩阵ΛY=diag([λY,…,λY])的对角元素分别是参数λX和λY
通过分别关于Ul和Vl区分
Figure BDA0001770448300000117
Figure BDA0001770448300000118
Figure BDA0001770448300000119
Figure BDA00017704483000001110
其中PX=DX-1WX(或PY=DY-1WY)和IX(或IY)是单位矩阵(identity matrix)。
通过将所有似然性标示为Zl=[Ul;Vl]和初始似然性标示为
Figure BDA00017704483000001111
可以将等式(5)和(6)联合转换成
Figure BDA00017704483000001112
标示B=I(I-Γ)П,等式(7)可以通过稀疏矩阵求逆
Figure BDA00017704483000001113
来求解。
根据一个实施例,根据贝叶斯规则计算每个超像素的后验概率。例如,然后可以在贝叶斯规则之后计算每个超像素相对于标记l的后验概率
Figure BDA00017704483000001114
最后每个超像素被分配有对应于具有最大后验概率的类的标签,其构成语义对象分割,
Figure BDA00017704483000001115
根据实施例的设备包括用于接收包括视频帧的视频作为输入的装置;用于从该视频生成一组对象提议的装置;用于生成包括在该视频的连续帧中出现的区域的对象轨迹片段的装置,所述区域对应于具有预定置信水平的对象提议;用于构造包括对象提议和超像素的图的装置,所述超像素是从帧的像素分组的;用于根据对象轨迹片段中的对象提议计算超像素似然性的第一成本函数的装置;用于根据帧中的超像素计算对象提议似然性的第二成本函数的装置;用于使第一和第二成本函数彼此最小化的装置;用于计算每个超像素的后验概率的装置;用于为每个超像素分配具有最大后验概率的对象类以构成语义对象分割的装置。
本领域技术人员理解,上述任何实施例可以实现为与一个或多个其他实施例的组合,除非明确或隐含地标明某些实施例仅是彼此的替代。
各种实施例可提供优于现有技术的优点。由于轨迹片段、对象提议和超像素的三重图形模型,这里描述的实施例使得能够考虑各种规模或级别的上下文线索。除了中级和高级视觉信息之外,实施例还能够向语义对象分割过程提供长程和更高级别的上下文信息。
本发明的各种实施例可以借助于驻留在存储器中的计算机程序代码来实现,并使相关设备实现本发明。例如,设备可以包括:用于处理、接收和发送数据的电路和电子品,存储器中的计算机程序代码,以及当运行计算机程序代码时使设备执行实施例的特征的处理器。此外,诸如服务器的网络设备可以包括:用于处理、接收和发送数据的电路和电子品,存储器中的计算机程序代码,以及当运行计算机程序代码时使网络设备执行实施例的特征的处理器。
显然,本发明不仅限于上述实施例,而是可以在所附权利要求的范围内进行修改。

Claims (20)

1.一种用于视频分割的方法,包括:
接收包括视频帧的视频作为输入;
从所述视频中生成对象提议集合;
生成对象轨迹片段,每一对象轨迹片段包括出现在所述视频的连续帧中具有预定置信水平的对象提议;
将每一帧划分成多个超像素;
构建包括超像素和来自轨迹片段的所述对象提议集合的图;
根据具有对象类别标签的超像素似然性和为每一超像素定义的估计似然性来计算第一成本函数,超像素的所述估计似然性是在所述图中连接到超像素的对象提议的对象类别似然性的加权和;
根据所述对象提议的对象类别似然性和为每一对象提议定义的估计似然性来计算第二成本函数,所述为每一对象提议定义的估计似然性是对象提议的组成超像素的对象类别似然性的加权和;
使所述第一成本函数和第二成本函数同时最小化,以推断所述对象提议和超像素的对象类别似然性;
基于所推断的对象类别似然性来计算具有对象类别标签的超像素的后验概率;以及
为每个超像素分配具有最大后验概率的对象类别以构成语义对象分割。
2.根据权利要求1所述的方法,还包括从所述图中确定所述图的节点对之间的链接。
3.根据权利要求2所述的方法,还包括计算对于在每个对象提议和其组成超像素之间的连接的第一权重。
4.根据权利要求3所述的方法,还包括计算对于在空间上或时间上相邻的超像素之间的连接的第二权重。
5.根据权利要求3所述的方法,还包括计算对于在相同轨迹片段内的对象提议之间的连续连接的第三权重。
6.根据权利要求4所述的方法,其中,所述第一权重和所述第二权重用作所述第一成本函数中的权重。
7.根据权利要求5所述的方法,其中,所述第一权重和所述第三权重用作所述第二成本函数中的权重。
8.根据权利要求1所述的方法,其中,根据贝叶斯(Bayes)规则计算每个超像素的后验概率。
9.一种用于视频分割的设备,包括至少一个处理器以及包括计算机程序代码的存储器,所述存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使得所述设备:
接收包括视频帧的视频作为输入;
从所述视频中生成对象提议集合;
生成对象轨迹片段,每一对象轨迹片段包括出现在所述视频的连续帧中具有预定置信水平的对象提议;
将每一帧划分成多个超像素;
构建包括超像素和来自轨迹片段的所述对象提议集合的图;
根据具有对象类别标签的超像素似然性和为每一超像素定义的估计似然性来计算第一成本函数,超像素的所述估计似然性是在所述图中连接到超像素的对象提议的对象类别似然性的加权和;
根据所述对象提议的对象类别似然性和为每一对象提议定义的估计似然性来计算第二成本函数,所述为每一对象提议定义的估计似然性是对象提议的组成超像素的对象类别似然性的加权和;
使所述第一成本函数和第二成本函数同时最小化,以推断所述对象提议和超像素的对象类别似然性;
基于所推断的对象类别似然性来计算具有对象类别标签的超像素的后验概率;以及
为每个超像素分配具有最大后验概率的对象类别以构成语义对象分割。
10.根据权利要求9所述的设备,还包括被配置为使所述设备从所述图中确定所述图的节点对之间的链接的计算机程序代码。
11.根据权利要求10所述的设备,还包括被配置为使所述设备计算对于在每个对象提议和其组成超像素之间的连接的第一权重的计算机程序代码。
12.根据权利要求11所述的设备,还包括被配置为使所述设备计算对于在空间上或时间上相邻的超像素之间的连接的第二权重的计算机程序代码。
13.根据权利要求11所述的设备,还包括被配置为使所述设备计算对于在同一轨迹内的对象提议之间的连续连接的第三权重的计算机程序代码。
14.根据权利要求12所述的设备,其中,所述第一权重和所述第二权重用作所述第一成本函数中的权重。
15.根据权利要求13所述的设备,其中,所述第一权重和所述第三权重用作所述第二成本函数中的权重。
16.根据权利要求9所述的设备,还包括被配置为使所述设备根据贝叶斯(Bayes)规则计算每个超像素的后验概率的计算机程序代码。
17.一种计算机可读介质,其上存储有计算机程序代码,所述计算机程序代码被配置为当在至少一个处理器上执行时使得设备或***:
接收包括视频帧的视频作为输入;
从所述视频中生成对象提议集合;
生成对象轨迹片段,每一对象轨迹片段包括出现在所述视频的连续帧中具有预定置信水平的对象提议;
将每一帧划分成多个超像素;
构建包括超像素和来自轨迹片段的所述对象提议集合的图;
根据具有对象类别标签的超像素似然性和为每一超像素定义的估计似然性来计算第一成本函数,超像素的所述估计似然性是在所述图中连接到超像素的对象提议的对象类别似然性的加权和;
根据所述对象提议的对象类别似然性和为每一对象提议定义的估计似然性来计算第二成本函数,所述为每一对象提议定义的估计似然性是对象提议的组成超像素的对象类别似然性的加权和;
使所述第一成本函数和第二成本函数同时最小化,以推断所述对象提议和超像素的对象类别似然性;
基于所推断的对象类别似然性来计算具有对象类别标签的超像素的后验概率;以及
为每个超像素分配具有最大后验概率的对象类别以构成语义对象分割。
18.根据权利要求17所述的计算机可读介质,其中,所述计算机程序代码被配置为当在至少一个处理器上执行时使得设备或***执行根据权利要求2-8任一项所述的方法。
19.一种用于视频分割的设备,包括:
用于接收包括视频帧的视频作为输入的装置;
用于从所述视频中生成对象提议集合的装置;
用于生成对象轨迹片段的装置,每一对象轨迹片段包括出现在所述视频的连续帧中的具有预定置信水平的对象提议;
用于将每一帧划分成多个超像素的装置;
用于构建包括超像素和来自轨迹片段的所述对象提议集合的图的装置;
用于根据具有对象类别标签的超像素似然性和为每一超像素定义的估计似然性来计算第一成本函数的装置,超像素的所述估计似然性是在所述图中连接到超像素的对象提议的对象类别似然性的加权和;
用于根据所述对象提议的对象类别似然性和为每一对象提议定义的估计似然性来计算第二成本函数的装置,所述为每一对象提议定义的估计似然性是对象提议的组成超像素的对象类别似然性的加权和;
用于使所述第一成本函数和第二成本函数同时最小化以推断所述对象提议和超像素的对象类别似然性的装置;
用于基于所推断的对象类别似然性来计算具有对象类别标签的超像素的后验概率的装置;以及
用于为每个超像素分配具有最大后验概率的对象类别以构成语义对象分割的装置。
20.根据权利要求19所述的设备,还包括用于执行根据权利要求2-8中任一项所述的方法的装置。
CN201810946839.2A 2017-08-21 2018-08-20 用于对象检测的方法、设备和计算机程序产品 Active CN109426805B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB1713345.5A GB2565775A (en) 2017-08-21 2017-08-21 A Method, an apparatus and a computer program product for object detection
GB1713345.5 2017-08-21

Publications (2)

Publication Number Publication Date
CN109426805A CN109426805A (zh) 2019-03-05
CN109426805B true CN109426805B (zh) 2022-03-25

Family

ID=59996641

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810946839.2A Active CN109426805B (zh) 2017-08-21 2018-08-20 用于对象检测的方法、设备和计算机程序产品

Country Status (4)

Country Link
US (1) US10778988B2 (zh)
EP (1) EP3447727B1 (zh)
CN (1) CN109426805B (zh)
GB (1) GB2565775A (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6333871B2 (ja) * 2016-02-25 2018-05-30 ファナック株式会社 入力画像から検出した対象物を表示する画像処理装置
JP2021144253A (ja) * 2018-05-22 2021-09-24 ソニーグループ株式会社 画像処理装置、画像処理方法、およびプログラム
US11055854B2 (en) * 2018-08-23 2021-07-06 Seoul National University R&Db Foundation Method and system for real-time target tracking based on deep learning
US10769496B2 (en) * 2018-10-25 2020-09-08 Adobe Inc. Logo detection
US11062460B2 (en) * 2019-02-13 2021-07-13 Adobe Inc. Representation learning using joint semantic vectors
CN110072119B (zh) * 2019-04-11 2020-04-10 西安交通大学 一种基于深度学习网络的内容感知视频自适应传输方法
US11373390B2 (en) * 2019-06-21 2022-06-28 Adobe Inc. Generating scene graphs from digital images using external knowledge and image reconstruction
CN112131904B (zh) * 2019-06-24 2024-03-15 曜科智能科技(上海)有限公司 基于图匹配的多目标跨镜追踪方法、装置、设备和介质
CN110263733B (zh) * 2019-06-24 2021-07-23 上海商汤智能科技有限公司 图像处理方法、提名评估方法及相关装置
US11295211B2 (en) 2019-12-02 2022-04-05 International Business Machines Corporation Multi-scale object detection with a trained neural network
CN111046974B (zh) * 2019-12-25 2022-04-08 珠海格力电器股份有限公司 一种物品分类方法、装置、存储介质及电子设备
US12034967B2 (en) * 2021-04-05 2024-07-09 Nvidia Corporation Superpixel generation and use
CN113221744B (zh) * 2021-05-12 2022-10-04 天津大学 一种基于深度学习的单目图像3d物体检测方法
CN115601630B (zh) * 2022-12-15 2023-03-28 山东天意装配式建筑装备研究院有限公司 用于墙板模具自动清理机的污渍识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810723A (zh) * 2014-02-27 2014-05-21 西安电子科技大学 基于帧间约束超像素编码的目标跟踪方法
CN104346620A (zh) * 2013-07-25 2015-02-11 佳能株式会社 对输入图像中的像素分类的方法和装置及图像处理***
CN106688011A (zh) * 2014-09-10 2017-05-17 北京市商汤科技开发有限公司 用于多类别物体检测的方法和***

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6606406B1 (en) * 2000-05-04 2003-08-12 Microsoft Corporation System and method for progressive stereo matching of digital images
US20080123900A1 (en) 2006-06-14 2008-05-29 Honeywell International Inc. Seamless tracking framework using hierarchical tracklet association
US7995841B2 (en) * 2007-09-24 2011-08-09 Microsoft Corporation Hybrid graph model for unsupervised object segmentation
US9519837B2 (en) * 2014-07-03 2016-12-13 Toyota Motor Engineering & Manufacturing North America, Inc. Tracking using multilevel representations
GB2489272B (en) * 2011-03-23 2013-03-13 Toshiba Res Europ Ltd An image processing system and method
US8428363B2 (en) * 2011-04-29 2013-04-23 Mitsubishi Electric Research Laboratories, Inc. Method for segmenting images using superpixels and entropy rate clustering
US8849050B2 (en) * 2012-11-08 2014-09-30 Seiko Epson Corporation Computer vision methods and systems to recognize and locate an object or objects in one or more images
US9147255B1 (en) * 2013-03-14 2015-09-29 Hrl Laboratories, Llc Rapid object detection by combining structural information from image segmentation with bio-inspired attentional mechanisms
KR102191139B1 (ko) * 2013-08-19 2020-12-15 바스프 에스이 광학 검출기
JP6445775B2 (ja) * 2014-04-01 2018-12-26 キヤノン株式会社 画像処理装置、画像処理方法
JP6546385B2 (ja) * 2014-10-02 2019-07-17 キヤノン株式会社 画像処理装置及びその制御方法、プログラム
AU2015205874A1 (en) * 2015-07-22 2017-02-09 Canon Kabushiki Kaisha An image processing system and method for identifying content within image data
ITUB20153912A1 (it) * 2015-09-25 2017-03-25 Sisvel Tech S R L Metodi e apparati per codificare e decodificare immagini digitali mediante superpixel
JP6626344B2 (ja) * 2015-09-29 2019-12-25 キヤノン株式会社 画像処理装置、画像処理装置の制御方法およびプログラム
US9881380B2 (en) * 2016-02-16 2018-01-30 Disney Enterprises, Inc. Methods and systems of performing video object segmentation
US20180061012A1 (en) * 2016-08-30 2018-03-01 Gopro, Inc. Apparatus and methods for video image post-processing for correcting artifacts
US9996752B2 (en) * 2016-08-30 2018-06-12 Canon Kabushiki Kaisha Method, system and apparatus for processing an image
US10217243B2 (en) * 2016-12-20 2019-02-26 Canon Kabushiki Kaisha Method, system and apparatus for modifying a scene model
US10726599B2 (en) * 2017-08-17 2020-07-28 Adobe Inc. Realistic augmentation of images and videos with graphics

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346620A (zh) * 2013-07-25 2015-02-11 佳能株式会社 对输入图像中的像素分类的方法和装置及图像处理***
CN103810723A (zh) * 2014-02-27 2014-05-21 西安电子科技大学 基于帧间约束超像素编码的目标跟踪方法
CN106688011A (zh) * 2014-09-10 2017-05-17 北京市商汤科技开发有限公司 用于多类别物体检测的方法和***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Video object proposals;Gilad Sharir et al.;《IEEE》;20120716;全文 *

Also Published As

Publication number Publication date
EP3447727A1 (en) 2019-02-27
GB2565775A (en) 2019-02-27
GB201713345D0 (en) 2017-10-04
US20190058887A1 (en) 2019-02-21
EP3447727B1 (en) 2021-01-13
CN109426805A (zh) 2019-03-05
US10778988B2 (en) 2020-09-15

Similar Documents

Publication Publication Date Title
CN109426805B (zh) 用于对象检测的方法、设备和计算机程序产品
Miao et al. Recognizing facial expressions using a shallow convolutional neural network
Qi et al. stagnet: An attentive semantic rnn for group activity recognition
Han et al. A unified metric learning-based framework for co-saliency detection
Ziaeefard et al. Semantic human activity recognition: A literature review
US20180114071A1 (en) Method for analysing media content
US11640714B2 (en) Video panoptic segmentation
Zhang et al. Curriculum-style local-to-global adaptation for cross-domain remote sensing image segmentation
Pavel et al. Object class segmentation of RGB-D video using recurrent convolutional neural networks
US20180314894A1 (en) Method, an apparatus and a computer program product for object detection
Wu et al. GoDP: Globally Optimized Dual Pathway deep network architecture for facial landmark localization in-the-wild
Liu et al. Robust salient object detection for RGB images
Oluwasammi et al. Features to text: a comprehensive survey of deep learning on semantic segmentation and image captioning
Song et al. Prnet++: Learning towards generalized occluded pedestrian detection via progressive refinement network
Fan Research and realization of video target detection system based on deep learning
Zhu et al. A comprehensive solution for detecting events in complex surveillance videos
Zhao et al. Cluster-wise learning network for multi-person pose estimation
Nemade et al. Image segmentation using convolutional neural network for image annotation
Fu et al. [Retracted] Sports Action Recognition Based on Deep Learning and Clustering Extraction Algorithm
Gori et al. Semantic video labeling by developmental visual agents
Lv et al. Key frame extraction for sports training based on improved deep learning
Tang et al. Using a multilearner to fuse multimodal features for human action recognition
Lu Empirical approaches for human behavior analytics
Paramanandam et al. A review on deep learning techniques for saliency detection
KR20190093752A (ko) 딥 러닝을 이용한 씬 텍스트 검출 방법 및 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant