CN116958876B - 一种基于多光谱双目立体视觉的视频异常行为检测方法和*** - Google Patents

一种基于多光谱双目立体视觉的视频异常行为检测方法和*** Download PDF

Info

Publication number
CN116958876B
CN116958876B CN202310940861.7A CN202310940861A CN116958876B CN 116958876 B CN116958876 B CN 116958876B CN 202310940861 A CN202310940861 A CN 202310940861A CN 116958876 B CN116958876 B CN 116958876B
Authority
CN
China
Prior art keywords
target
model
video
behavior
binocular
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310940861.7A
Other languages
English (en)
Other versions
CN116958876A (zh
Inventor
陈燕
刘攀博
李祖贺
王凤琴
杨永双
王丽萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou University of Light Industry
Original Assignee
Zhengzhou University of Light Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou University of Light Industry filed Critical Zhengzhou University of Light Industry
Priority to CN202310940861.7A priority Critical patent/CN116958876B/zh
Publication of CN116958876A publication Critical patent/CN116958876A/zh
Application granted granted Critical
Publication of CN116958876B publication Critical patent/CN116958876B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多光谱双目立体视觉的视频异常行为检测方法和***,该方法包括基于空间坐标变换关系和图像配准模型,在多光谱平台下对双目视频进行视觉标定,根据标定结果实现图像背景建模,分割前景目标;针对分割后的目标,通过建立目标表观纹理模型、运动显著性模型和深度显著性模型来确定目标在全局和局部时空域中的各个光谱维显著性特征;将所有显著性特征在不同尺度下组成多尺度多模态特征融合模型,通过融合模型检测目标的异常行为。本发明提高了目标异常检测效率和检测准确性。

Description

一种基于多光谱双目立体视觉的视频异常行为检测方法和 ***
技术领域
本发明属于机器视觉技术领域,尤其涉及一种基于多光谱双目立体视觉的视频异常行为检测的***和方法。
背景技术
多光谱成像具有空间分辨率较高和光谱范围广的优点,光谱范围覆盖了从可见光到红外光波段,因此可以充分利用其空间信息和光谱信息完成检测、分析的功能。
现有的基于光谱成像的异常目标检测方法主要包括基于傅里叶变换的方法和基于学习的方法等,需要利用高分辨率的空间数据进行挖掘,可利用的数据量非常有限,会不可避免地残留背景、噪声等其它成分,导致异常目标检测不准确,光谱信息在获取时受外界因素影响严重,导致光谱数据冗余度较大。
因此有必要提出一种新的视频异常行为检测方法,以解决上述技术问题。
发明内容
针对现有技术中存在的缺陷,本发明的目的提供一种基于多光谱双目立体视觉的视频异常行为检测***和方法,能够解决异常目标检测不准确以及光谱数据冗余度较大的问题。
为达到以上目的,本发明采取的技术方案是:
本发明一方面提供了一种基于多光谱双目立体视觉的视频异常行为检测方法,包括:
基于空间坐标变换关系和图像配准模型,在多光谱平台下对双目视频进行视觉标定,根据标定结果实现图像背景建模,分割前景目标;
针对分割后的目标,通过建立目标表观纹理模型、运动显著性模型和深度显著性模型来确定所述目标在全局和局部时空域中的各个光谱维显著性特征;
将所有显著性特征在不同尺度下组成多尺度多模态特征融合模型,通过所述融合模型检测所述目标的异常行为;
其中,所述多光谱平台下进行双目视觉标定,进一步包括:
接收对应于所述双目相机的每个相机的视频序列和初始参数集;
通过基于所述视频序列中的跟踪特征生成外部参数,使用与耦合到所述双目相机的图像采集***相对应的位置和标定参数生成内部参数;
组合所述外部参数与内部参数,以确定每个相机和所述视频序列的每一时间实例的内外部参数集;
其中,所述外部参数通过以下操作生成:
基于所述视频序列的第一下采样帧序列和第二下采样帧序列的多个重叠块内的跟踪特征,确定所述第一下采样帧序列与所述第二下采样帧序列之间的特征对应关系;
使用所述特征对应关系生成所述外部参数。
优选地,所述基于空间坐标变换关系和图像配准模型,在多光谱平台下对双目视频进行视觉标定,进一步包括:
基于空间坐标系变换模型和图像配准算法,利用棋盘模型和球棍模型,对多光谱传感器进行内外部参数的标定,实现最大似然估计理论下双目相机之间内外部参数的优化求解,为后期多光谱双目视频场景的背景建模、前景目标分割提供场景信息;
在光谱维和深度维的时空域中采用基于高斯混合模型的背景建模,得到参数化模型,同时采用基于核密度估计模型的背景建模,得到非参数化模型;
将所述参数化模型与非参数化模型进行联合,得到全局优化求解结果。
优选地,所述确定所述目标在全局和局部时空域中的各个光谱维显著性特征,进一步包括:
从场景行为模型的角度,得到图像在全局和局部时空域中基于像素级的行为显著性特征向量表示;
通过建立时空域场景中光谱显著性分布模型,利用目标在时域光谱维具有的运动独立性、持续性、中断性以及空域光谱维具有的颜色、纹理、结构特性,提取具有对多源信息一致敏感的目标区域,从而提高对场景中目标区域的准确判读;
通过建立目标表观纹理模型、运动显著性模型、深度显著性模型,对全局和局部场景进行描述。
优选地,所述建立目标表观纹理模型,进一步包括:
建立联合光谱-深度的时空域下目标在全局和局部场景之间表观状态的关联,建立目标形状上下文感知纹理模型,在空间维中分析目标表观状态与自身或其他群体表观状态的差异;在时间维中分析目标当前表观状态与过去表观状态的差异。
优选地,所述建立运动显著性模型,进一步包括:
建立联合光谱-深度时空域中基于光流场的运动显著性模型,根据场景中目标的方向和行为特性,以及光谱图像在三维空间中的抗干扰性,达到目标内部运动的一致性;
优选地,所述建立深度显著性模型,进一步包括:
建立联合光谱-深度时空域下的目标深度显著性模型,通过计算目标在深度维空间中邻域帧之间的深度变化差异,获取对目标结构和形变的描述。
优选地,所述将所有显著性特征在不同尺度下组成多尺度多模态特征融合模型,通过所述融合模型检测所述目标的异常行为,进一步包括:
基于光谱-深度时空域中基于形状上下文信息、光流场运动信息和条件概率深度信息建立融合模型,计算多尺度场景范围中目标运动和表观状态与先验场景目标状态的差异;
构建由低层到高层的多尺度特征向量表示,建立基于像素级特征和行为结构级特征的联合优化方法,对异常行为和主导行为进行分离;
建立动态背景在线更新、行为在线学习与在线检测机制,利用视觉词袋框架对所述模型进行优化,用特征分层算法代替传统单一无序的特征词,实现异常行为事件在线感知。
优选地,所述构建由低层到高层的多尺度特征向量表示,建立基于像素级特征和行为结构级特征的联合优化方法,对异常行为和主导行为进行分离,进一步包括:
在训练阶段,首先提取训练视频中的局部目标,然后计算目标的光谱表观特征集和单尺度特征集;分别对这两类特征集聚类得到光谱表观特征词袋和单尺度特征词袋;基于两类词袋,统计每个视觉词在训练视频中出现的次数,得到训练视频的光谱表观特征直方图和单尺度特征直方图,将这两个直方图向量级联,并分配行为类别标识,作为训练视频的聚类直方图;计算所有训练视频的聚类直方图,输入贝叶斯分类器训练,确定动作分类器模型;
在测试阶段,根据上述过程计算测试视频中的目标以及两类特征集,采用K近邻算法将特征集投影到词袋空间,统计每个视觉词出现的次数,得到测试视频的词袋频率直方图,输入训练好的贝叶斯分类器进行异常行为识别。
本发明另一方面提供了一种基于多光谱双目立体视觉的视频异常行为检测***,包括:
目标区域提取模块,用于基于空间坐标变换关系和图像配准模型,在多光谱平台下对双目视频进行视觉标定,根据标定结果实现图像背景建模,分割前景目标;
特征模型建立模块,用于针对分割后的目标,通过建立目标表观纹理模型、运动显著性模型和深度显著性模型来确定所述目标在全局和局部时空域中的各个光谱维显著性特征;
异常行为检测模块,用于将所有显著性特征在不同尺度下组成多尺度多模态特征融合模型,通过所述融合模型检测所述目标的异常行为;
其中,所述多光谱平台下进行双目视觉标定,进一步包括:
接收对应于所述双目相机的每个相机的视频序列和初始参数集;
通过基于所述视频序列中的跟踪特征生成外部参数,使用与耦合到所述双目相机的图像采集***相对应的位置和标定参数生成内部参数;
组合所述外部参数与内部参数,以确定每个相机和所述视频序列的每一时间实例的内外部参数集;
其中,所述外部参数通过以下操作生成:
基于所述视频序列的第一下采样帧序列和第二下采样帧序列的多个重叠块内的跟踪特征,确定所述第一下采样帧序列与所述第二下采样帧序列之间的特征对应关系;
使用所述特征对应关系生成所述外部参数。
本发明又一方面提供了一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行前述第一方面的方法。
本发明又一方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述多条指令可被处理器读取并执行前述第一方面的方法。
与现有技术相比,本发明的优点在于:本发明首先在多光谱平台下对双目视频进行视觉标定,实现图像背景建模和目标提取;建立目标表观纹理模型、运动显著性模型和深度显著性模型来确定目标在全局和局部时空域中的各个光谱维显著性特征;利用多尺度多模态特征融合模型来检测所述目标的异常行为,使目标异常检测效率更高,提高了异常目标的检测准确性。通过与其它异常检测算法在不同数据集上的对比仿真实验,结果表明本发明的方法在不同数据集上综合表现更优,具有良好的异常检测能力。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获取其他的附图。
图1是本发明的基于多光谱双目立体视觉的视频异常行为检测方法流程图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获取的所有其他实施例,都属于本申请保护的范围。
本发明结合图像显著性检测技术和视频运动目标提取、跟踪和识别技术,将多光谱双目视频在检测典型场景行为状态时依次进行动态背景建模、显著性特征提取与融合、多层行为优化求解,从而检测视频中目标的异常行为。以下结合附图对本发明的实施例作进一步详细说明。
如图1所示,本发明提供了一种基于多光谱双目立体视觉的视频异常行为检测的方法,包括以下步骤:
步骤101、基于空间坐标变换关系和图像配准模型,在多光谱平台下对双目视频进行视觉标定,根据标定结果实现图像背景建模,分割前景目标。
在基于视频流的图像分析中,场景中背景的估计与去除是检测运动目标的重要前提,该步骤主要利用双目多光谱平台所具有的深度探测和目标高区分度能力,为背景建模、前景目标分割提供多维度信息输出。具体过程如下:
步骤111:基于空间坐标系变换模型和图像配准算法,利用棋盘模型和球棍模型,对多光谱传感器进行内外部参数的标定,进而实现最大似然估计理论下双目相机之间内外部参数的优化求解,为后期多光谱双目视频场景的背景建模、前景目标分割提供准确而稳定的场景信息。
针对所述双目相机内外部参数的标定,在优选的实施例中,首先接收对应于所述双目相机的每个相机的视频序列和初始参数集。通过基于所述视频序列中的跟踪特征生成外部参数,使用与耦合到所述双目相机的图像采集***相对应的位置和标定参数生成内部参数,组合所述外部参数与内部参数,以确定每个相机和所述视频序列的每一时间实例的内外部参数集。其中,所述外部参数通过以下操作生成:基于所述视频序列的第一下采样帧序列和第二下采样帧序列的多个重叠块内的跟踪特征,确定所述第一下采样帧序列与所述第二下采样帧序列之间的特征对应关系。使用所述特征对应关系生成所述外部参数。
步骤112:在光谱维和深度维的时空域中采用基于高斯混合模型的背景建模,得到参数化模型,同时采用基于核密度估计模型的背景建模,得到非参数化模型;
将所述参数化模型与非参数化模型进行联合,得到全局优化求解结果。
优选地,双目立体图像采集***至少包括两个图像传感器,分别获取由物体反射的光的多光谱范围中的不同反射强度。通过图像传感器获取目标特征信息,该目标特征信息包含视频目标在多个光谱范围中的反射强度范围。获取分别与双目立体图像采集***位于预设距离内的图像,所述距离基于两个图像传感器采集的图像数据的视角差来确定。从所获取的图像中提取视频目标,所述视频目标具有位于所述目标特征信息中包含的光谱范围中的反射强度。
其中,所述目标特征信息进一步包括基于多个光谱范围中的反射强度确定的索引范围,并且在获取分别与双目立体图像采集***位于预设距离内的图像之后,在所述目标特征信息中包含的所述多个光谱范围中的反射强度来确定图像的索引,以使所提取的图像具有位于目标特征信息中包含的索引范围内的索引。
作为进一步的实施例,双目立体图像采集***安装在移动装置上,当通过图像传感器获取目标特征信息时,同步存储图像的地理位置标定信息,以基于图像的地理位置标定信息和从所述双目立体图像采集***到所述视频目标的距离来确定所述视频目标的地理位置标定信息。
步骤102、针对分割后的目标,通过建立目标表观纹理模型、运动显著性模型和深度显著性模型来确定所述目标在全局和局部时空域中的各个光谱维显著性特征。
从场景行为模型的角度,得到图像在全局和局部时空域中基于像素级的行为显著性特征向量表示。通过建立时空域场景中光谱显著性分布模型,利用目标在时域光谱维具有的运动独立性、持续性、中断性以及空域光谱维具有的颜色、纹理、结构特性,提取具有对多源信息一致敏感的目标区域,从而提高对场景中目标区域的准确判读。通过建立目标表观纹理模型、运动显著性模型、深度显著性模型,对全局和局部场景进行描述。该步骤的具体过程如下:
步骤121:首先建立联合光谱-深度的时空域下目标在全局和局部场景之间表观状态的关联,建立目标形状上下文感知纹理模型,在空间维中分析目标表观状态与自身或其他群体表观状态的差异;在时间维中分析目标当前表观状态与过去表观状态的差异;
步骤122:其次建立联合光谱-深度时空域中基于光流场的运动显著性模型,根据场景中目标的方向和行为特性,以及光谱图像在三维空间中的抗干扰性,达到目标内部运动的一致性;
步骤123:然后建立联合光谱-深度时空域下的目标深度显著性模型,通过计算目标在深度维空间中邻域帧之间的深度变化差异,获取对目标结构和形变的描述;
通过对上述三种行为的建模,可以为后期异常行为感知提供具有时间一致性、空间一致性、光谱一致性表达的目标区域。
在进一步实施例中,所述深度显著性模型通过以下方式进行构建:
基于来自输入立体图像的左视图像和右视图像中的像素之间的距离和颜色相似度来划分区域;
基于从所述左视图像和所述右视图像的像素差获得的视角差来创建划分区域的视角差图;
通过比较所划分的区域的色差和视角差图的对比度平均值计算深度显著性,根据划分区域的先验知识来计算基于先验知识的显著性,所述先验知识由不同的图像特征组成;所述基于先验知识的显著性包括所划分区域的频率、颜色和大小的先验知识,以及所划分的区域的位置和视角差的先验知识。
基于所述深度显著性和所述基于先验知识的显著性,提取所述图像的显著区域。
根据优选的实施例,位置x的深度显著性Cf(x)定义为:
Cf(x)=-2c(x,d)+c(x,d-1)+c(x,d+1)
其中c(x,d)=∑ch∈(R,G,B)[chL(x)-chR(x-d)]。
其中d是视角差,chL和chR分别是在通道ch中归一化的左视图像和右视图像。
为实现注视角度的一致;即分别根据左视图立体观测张量和右视图立体观测张量绘制生成左视图像和右视图像,根据左视图像和右视图像并结合双目视觉显示技术,将生成场景的立体图像进行显示。
首先获取当前场景的立体观测张量P;然后根据相机检测数据Rx,Ry,Rz,得到双目相机分别关于x,y,z轴的跟踪矩阵:
进而可以得到相机的跟踪张量Atil
Atil=tilRx×tilRy×tilRz
进一步的,立体观测张量的变换包含:双目偏移张量Boft和视角偏移张量Atil,其中双目偏移张量Boft是指在生成视角差图像时,对左右两个相机分别向左右偏移±oft/2,则左右相机的双目偏移张量分别为:
双目偏移张量Boft为:
则变换后的立体观测张量P’
P’=Atil×Boft×P
变换后左视图立体观测张量P’R=Atil*BoftR*P;相应的,变换后右视图立体观测张量P’L=Atil*BoftL*P。
分别应用两个立体观测张量,使得利用变换后的立体观测张量生成场景的双目立体图像,从而达到视角一致性。
步骤103、将所有显著性特征在不同尺度下组成多尺度多模态特征融合模型,通过所述融合模型检测所述目标的异常行为。
纹理模型描述了场景中运动目标的表观变化特征,运动模型描述了某时间段内运动目标的方向、速度变化特征,深度模型则能够更为精确的表达运动目标在三维空间中的运动。然而,单独使用某一种模型或简单将不同模型用于异常行为描述不足以精确的表达真实发生的异常行为。此外,异常目标通常被当作局部场景中的较小实体,然而场景范围的改变会对目标的异常性判定带来差异。因此,该部分的主要过程为:
步骤131:基于光谱-深度时空域中基于形状上下文信息、光流场运动信息和条件概率深度信息建立融合模型,计算多尺度场景范围中目标运动和表观状态与先验场景目标状态的差异;
步骤132:构建由低层到高层的多尺度特征向量表示,建立基于像素级特征和行为结构级特征的联合优化方法,对异常行为和主导行为进行分离;
具体过程进一步包括:
在训练阶段,首先提取训练视频中的局部目标,然后计算目标的光谱表观特征集和单尺度特征集。分别对这两类特征集聚类得到光谱表观特征词袋和单尺度特征词袋。基于两类词袋,统计每个视觉词在训练视频中出现的次数,得到训练视频的光谱表观特征直方图和单尺度特征直方图,将这两个直方图向量级联,并分配行为类别标识,作为训练视频的聚类直方图。计算所有训练视频的聚类直方图,输入贝叶斯分类器训练,确定动作分类器模型。
在测试阶段,根据上述过程计算测试视频中的目标以及两类特征集,采用K近邻算法将特征集投影到词袋空间,统计每个视觉词出现的次数,得到测试视频的词袋频率直方图,输入训练好的贝叶斯分类器进行异常行为识别。
由于同类动作具有相似的光谱表观特征集和单尺度特征集。通过视觉词袋模型构建动作原型,以原型来描述视频中的行为,采用贝叶斯分类器实现分类识别。
视觉词袋模型是基于K均值聚类,通过分别对归一化后的单尺度特征集和光谱表观特征集进行聚类得到多尺度视觉词袋L=(l1,l2,…,lm)和光谱表观特征词袋F=(q1,q2,…,qn)为聚类中心的大小,li为单尺度视觉词,qi为光谱表观特征词。将两个词袋进行串联融合得到增强词袋,大小为(m+n)。
对于每一个待分析视频,首先计算视频的目标的光谱表观特征描述符。采用K近邻算法计算这两类特征描述符与对应词袋中的每个词之间的距离,将其归类为距离最近的词类。然后将视频中的行为看作是这两个词袋中的词共同构成的一个文本,统计视觉词袋中每个词出现的次数,即可得到表示此行为的词袋频率直方图H=(h1,h2,…,hm+n),其中hi代表视频中第i个时空词出现的频率。
在进一步优选实施例中,所述光谱表观特征描述符通过以下过程来确定:
将完整的表观特征记为P,每个光谱表观特征记为Pi。假设在单帧图像中有n个候选表观特征,构建评价函数来评价每个候选表观特征的准确度,选择表观特征的损失函数与模型概率特征损失函数均较小的表观特征作为最优全局表观特征。将每个全局模型样本在当前帧It中的损失函数C(It,P)表示为:
其中ε为光谱构成的集合,Π(It,Pi)为光谱表观特征Pi在当前图像中的表观模型,δi,j(Pi,Pj)为模型中的光谱势能函数。所述表观模型Π(It,Pi)包括图像中光谱边缘处的轮廓以及当前光谱区域的光流:
Π(It,Pi)=Πc(It|Pi)+Πf(It,It+1|Pi)
其中Πc(It|Pi)代表轮廓因子,Πf(It,It+1|Pi)代表光流因子。
对于所述轮廓因子Πc(It|Pi),采集含有不同表观特征的图像样本并注释出其中真实的表观特征位置,然后沿每个光谱表观特征Pi的轮廓进行检测,得到特征向量hi(I|Pi)。针对每个光谱表观特征Pi训练支持向量机,然后将训练结果来计算光谱的轮廓因子Π(It,Pi)。
针对光流因子Πf(It,It+1|Pi),获取相邻两帧图像It、It+1对应的光流图为Ut。光流图Ut中的每个像素(x,y)对应的Ut(x,y)表示像素(x,y)从图It到图It+1中对应像素的横轴方向与纵轴方向的位移。光谱pi的光流因子Πf(It,It+1|Pi)为:
其中R(i)表示光谱表观特征Pi的轮廓所包含的区域,n表示区域R(i)内(x,y)像素对的个数。
在分类阶段,对于一个包含n类行为类别的数据集,将每个视频中的词袋频率直方图H和第i个类别ci输入贝叶斯分类器进行训练,得到每个行为的原型;在异常检测阶段,计算待检测视频的光谱表观特征描述符,并映射到视觉词袋空间获得其词袋频率直方图H’,将H’输入已训练的贝叶斯分类器,输出结果ci即为待检测视频的行为类别。
步骤133:建立动态背景在线更新、行为在线学习与在线检测机制,利用视觉词袋框架(Bag of visual words)对所述模型进行优化,用特征分层算法代替传统单一无序的特征词,实现异常行为事件在线感知。
具体地,在利用视觉词袋框架对所述模型进行优化的过程中,首先通过以下操作来训练第一卷积神经网络:接收包含正常动作和异常动作以及指定标签的原始数据,输出聚类特征空间和聚类决策空间,所述聚类特征空间和所述聚类决策空间用于将所述原始数据的正常动作分类到所述指定的标签中;在通过所述第一卷积神经网络的所述聚类特征空间处理的原始数据内定位区别聚类特征,并将所述区别聚类特征映射到所述原始数据上作为空间概率标签;
随机提取通过所述聚类特征空间处理的所述原始数据的分块,对随机提取的分块进行排序,按照排序后的顺序打包视觉词特征;
通过以下操作来训练第二卷积神经网络:接收原始数据和所述空间概率标签,输出用于将所述原始数据的异常动作分类到空间概率标签中的通用特征空间和通用决策空间;
接收所述原始标签、所述指定标签和所述空间概率标签,通过所述第一卷积神经网络输出用于将所述原始数据的正常动作和异常动作两者分类成主组合的指定标签和空间概率标签的主组合的聚类和通用特征和决策空间;接收未标记的数据;将所述未标记数据分类成所述主组合的指定标签和空间概率标签;将所述主组合的指定标签和空间概率标签映射到次组合的指定标签和空间概率错误分类标签;
接收所述未标记数据、次级错误分类标签和惩罚矩阵,通过所述第二卷积神经网络输出用于根据所述惩罚矩阵将所述未标记数据的正常动作和异常动作两者分类到所述次级错误分类标签中的次级组合决策和特征空间。
本发明与现有技术相比,本发明首先在多光谱平台下对双目视频进行视觉标定,实现图像背景建模和目标提取;建立目标表观纹理模型、运动显著性模型和深度显著性模型来确定目标在全局和局部时空域中的各个光谱维显著性特征;利用多尺度多模态特征融合模型来检测所述目标的异常行为,使目标异常检测效率更高,提高了异常目标的检测准确性。通过与其它异常检测算法在不同数据集上的对比仿真实验,结果表明本发明的方法在不同数据集上综合表现更优,具有良好的异常检测能力。
本发明还提供了一种电子设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上所述的基于多光谱双目立体视觉的视频异常行为检测方法的步骤。本实施例中的各功能模块所实现的功能同参见上述***和方法,这里不再赘述。
本发明还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现如上所述的基于多光谱双目立体视觉的视频异常行为检测方法的步骤。
显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获取的所有其它实施例,都属于本发明保护的范围。
本领域内的技术人员应当理解,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在多个其中包含计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能够引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
需要说明的是,在本申请中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于多光谱双目立体视觉的视频异常行为检测方法,其特征在于,包括:
基于空间坐标变换关系和图像配准模型,在多光谱平台下对双目视频进行视觉标定,根据标定结果实现图像背景建模,分割前景目标;
针对分割后的目标,通过建立目标表观纹理模型、运动显著性模型和深度显著性模型来确定所述目标在全局和局部时空域中的各个光谱维显著性特征;
将所有显著性特征在不同尺度下组成多尺度多模态特征融合模型,通过所述融合模型检测所述目标的异常行为;
其中,所述多光谱平台下进行双目视觉标定,进一步包括:
接收对应于双目相机的每个相机的视频序列和初始参数集;
通过基于所述视频序列中的跟踪特征生成外部参数,使用与耦合到所述双目相机的图像采集***相对应的位置和标定参数生成内部参数;
组合所述外部参数与内部参数,以确定每个相机和所述视频序列的每一时间实例的内外部参数集;
其中,所述外部参数通过以下操作生成:
基于所述视频序列的第一下采样帧序列和第二下采样帧序列的多个重叠块内的跟踪特征,确定所述第一下采样帧序列与所述第二下采样帧序列之间的特征对应关系;
使用所述特征对应关系生成所述外部参数;
所述将所有显著性特征在不同尺度下组成多尺度多模态特征融合模型,通过所述融合模型检测所述目标的异常行为,进一步包括:
基于光谱-深度时空域中基于形状上下文信息、光流场运动信息和条件概率深度信息建立融合模型,计算多尺度场景范围中目标运动和表观状态与先验场景目标状态的差异;
构建由低层到高层的多尺度特征向量表示,建立基于像素级特征和行为结构级特征的联合优化方法,对异常行为和主导行为进行分离;
建立动态背景在线更新、行为在线学习与在线检测机制,利用视觉词袋框架对所述模型进行优化,用特征分层算法代替传统单一无序的特征词,实现异常行为事件在线感知。
2.根据权利要求1所述的基于多光谱双目立体视觉的视频异常行为检测方法,其特征在于,所述基于空间坐标变换关系和图像配准模型,在多光谱平台下对双目视频进行视觉标定,进一步包括:
基于空间坐标系变换模型和图像配准算法,利用棋盘模型和球棍模型,对多光谱传感器进行内外部参数的标定,实现最大似然估计理论下双目相机之间内外部参数的优化求解,为后期多光谱双目视频场景的背景建模、前景目标分割提供场景信息;
在光谱维和深度维的时空域中采用基于高斯混合模型的背景建模,得到参数化模型,同时采用基于核密度估计模型的背景建模,得到非参数化模型;
将所述参数化模型与非参数化模型进行联合,得到全局优化求解结果。
3.根据权利要求1所述的基于多光谱双目立体视觉的视频异常行为检测方法,其特征在于,所述确定所述目标在全局和局部时空域中的各个光谱维显著性特征,进一步包括:
从场景行为模型的角度,得到图像在全局和局部时空域中基于像素级的行为显著性特征向量表示;
通过建立时空域场景中光谱显著性分布模型,利用目标在时域光谱维具有的运动独立性、持续性、中断性以及空域光谱维具有的颜色、纹理、结构特性,提取具有对多源信息一致敏感的目标区域,从而提高对场景中目标区域的准确判读;
通过建立目标表观纹理模型、运动显著性模型、深度显著性模型,对全局和局部场景进行描述。
4.根据权利要求3所述的基于多光谱双目立体视觉的视频异常行为检测方法,其特征在于,所述建立目标表观纹理模型,进一步包括:
建立联合光谱-深度的时空域下目标在全局和局部场景之间表观状态的关联,建立目标形状上下文感知纹理模型,在空间维中分析目标表观状态与自身或其他群体表观状态的差异;在时间维中分析目标当前表观状态与过去表观状态的差异。
5.根据权利要求3所述的基于多光谱双目立体视觉的视频异常行为检测方法,其特征在于,所述建立运动显著性模型,进一步包括:
建立联合光谱-深度时空域中基于光流场的运动显著性模型,根据场景中目标的方向和行为特性,以及光谱图像在三维空间中的抗干扰性,达到目标内部运动的一致性;
6.根据权利要求3所述的基于多光谱双目立体视觉的视频异常行为检测方法,其特征在于,所述建立深度显著性模型,进一步包括:
建立联合光谱-深度时空域下的目标深度显著性模型,通过计算目标在深度维空间中邻域帧之间的深度变化差异,获取对目标结构和形变的描述。
7.根据权利要求6所述的基于多光谱双目立体视觉的视频异常行为检测方法,其特征在于,所述构建由低层到高层的多尺度特征向量表示,建立基于像素级特征和行为结构级特征的联合优化方法,对异常行为和主导行为进行分离,进一步包括:
在训练阶段,首先提取训练视频中的局部目标,然后计算目标的光谱表观特征集和单尺度特征集;分别对这两类特征集聚类得到光谱表观特征词袋和单尺度特征词袋;基于两类词袋,统计每个视觉词在训练视频中出现的次数,得到训练视频的光谱表观特征直方图和单尺度特征直方图,将这两个直方图向量级联,并分配行为类别标识,作为训练视频的聚类直方图;计算所有训练视频的聚类直方图,输入贝叶斯分类器训练,确定动作分类器模型;
在测试阶段,根据上述过程计算测试视频中的目标以及两类特征集,采用K近邻算法将特征集投影到词袋空间,统计每个视觉词出现的次数,得到测试视频的词袋频率直方图,输入训练好的贝叶斯分类器进行异常行为识别。
8.一种基于多光谱双目立体视觉的视频异常行为检测***,其特征在于,包括:
目标区域提取模块,用于基于空间坐标变换关系和图像配准模型,在多光谱平台下对双目视频进行视觉标定,根据标定结果实现图像背景建模,分割前景目标;
特征模型建立模块,用于针对分割后的目标,通过建立目标表观纹理模型、运动显著性模型和深度显著性模型来确定所述目标在全局和局部时空域中的各个光谱维显著性特征;
异常行为检测模块,用于将所有显著性特征在不同尺度下组成多尺度多模态特征融合模型,通过所述融合模型检测所述目标的异常行为;
其中,所述多光谱平台下进行双目视觉标定,进一步包括:
接收对应于双目相机的每个相机的视频序列和初始参数集;
通过基于所述视频序列中的跟踪特征生成外部参数,使用与耦合到所述双目相机的图像采集***相对应的位置和标定参数生成内部参数;
组合所述外部参数与内部参数,以确定每个相机和所述视频序列的每一时间实例的内外部参数集;
其中,所述外部参数通过以下操作生成:
基于所述视频序列的第一下采样帧序列和第二下采样帧序列的多个重叠块内的跟踪特征,确定所述第一下采样帧序列与所述第二下采样帧序列之间的特征对应关系;
使用所述特征对应关系生成所述外部参数;
所述将所有显著性特征在不同尺度下组成多尺度多模态特征融合模型,通过所述融合模型检测所述目标的异常行为,进一步包括:
基于光谱-深度时空域中基于形状上下文信息、光流场运动信息和条件概率深度信息建立融合模型,计算多尺度场景范围中目标运动和表观状态与先验场景目标状态的差异;
构建由低层到高层的多尺度特征向量表示,建立基于像素级特征和行为结构级特征的联合优化方法,对异常行为和主导行为进行分离;
建立动态背景在线更新、行为在线学习与在线检测机制,利用视觉词袋框架对所述模型进行优化,用特征分层算法代替传统单一无序的特征词,实现异常行为事件在线感知。。
9.一种终端设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现根据权利要求1-7任一项所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现根据权利要求1-7任一项所述方法的步骤。
CN202310940861.7A 2023-07-28 2023-07-28 一种基于多光谱双目立体视觉的视频异常行为检测方法和*** Active CN116958876B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310940861.7A CN116958876B (zh) 2023-07-28 2023-07-28 一种基于多光谱双目立体视觉的视频异常行为检测方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310940861.7A CN116958876B (zh) 2023-07-28 2023-07-28 一种基于多光谱双目立体视觉的视频异常行为检测方法和***

Publications (2)

Publication Number Publication Date
CN116958876A CN116958876A (zh) 2023-10-27
CN116958876B true CN116958876B (zh) 2024-06-14

Family

ID=88447335

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310940861.7A Active CN116958876B (zh) 2023-07-28 2023-07-28 一种基于多光谱双目立体视觉的视频异常行为检测方法和***

Country Status (1)

Country Link
CN (1) CN116958876B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729848A (zh) * 2013-12-28 2014-04-16 北京工业大学 基于光谱显著性的高光谱遥感图像小目标检测方法
CA3032487A1 (en) * 2016-08-03 2018-02-08 Jiangsu University Saliency-based method for extracting road target from night vision infrared image

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105005755B (zh) * 2014-04-25 2019-03-29 北京邮电大学 三维人脸识别方法和***
WO2015196281A1 (en) * 2014-06-24 2015-12-30 Sportlogiq Inc. System and method for visual event description and event analysis
CN106709447A (zh) * 2016-12-21 2017-05-24 华南理工大学 基于目标定位与特征融合的视频中异常行为检测方法
CN110111338B (zh) * 2019-04-24 2023-03-31 广东技术师范大学 一种基于超像素时空显著性分割的视觉跟踪方法
CN111126195B (zh) * 2019-12-10 2023-03-14 郑州轻工业大学 基于场景属性驱动和时空域显著性的异常行为分析方法
CN112651940B (zh) * 2020-12-25 2021-09-17 郑州轻工业大学 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN114913442A (zh) * 2021-01-29 2022-08-16 中移(苏州)软件技术有限公司 一种异常行为检测方法、装置及计算机存储介质
CN114627339B (zh) * 2021-11-09 2024-03-29 昆明物理研究所 茂密丛林区域对越境人员的智能识别跟踪方法及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729848A (zh) * 2013-12-28 2014-04-16 北京工业大学 基于光谱显著性的高光谱遥感图像小目标检测方法
CA3032487A1 (en) * 2016-08-03 2018-02-08 Jiangsu University Saliency-based method for extracting road target from night vision infrared image

Also Published As

Publication number Publication date
CN116958876A (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
CN110097568B (zh) 一种基于时空双分支网络的视频对象检测与分割方法
US8620026B2 (en) Video-based detection of multiple object types under varying poses
CN111797653B (zh) 基于高维图像的图像标注方法和装置
Yin et al. Hot region selection based on selective search and modified fuzzy C-means in remote sensing images
US9008439B2 (en) Image processing method and system
CN109800794B (zh) 一种外观相似目标的跨相机重识别融合方法及***
An et al. Scene learning for cloud detection on remote-sensing images
CN110929593A (zh) 一种基于细节辨别区别的实时显著性行人检测方法
Shahab et al. How salient is scene text?
Han et al. Aerial image change detection using dual regions of interest networks
CN108073940B (zh) 一种非结构化环境中的3d目标实例物体检测的方法
CN112215925A (zh) 自适应采煤机随动跟踪多摄像头视频拼接方法
Gao Performance evaluation of automatic object detection with post-processing schemes under enhanced measures in wide-area aerial imagery
CN114283326A (zh) 一种结合局部感知和高阶特征重构的水下目标重识别方法
CN110910497B (zh) 实现增强现实地图的方法和***
CN116958876B (zh) 一种基于多光谱双目立体视觉的视频异常行为检测方法和***
CN109558771B (zh) 海上船舶的行为状态识别方法、装置、设备及存储介质
CN116912670A (zh) 基于改进yolo模型的深海鱼类识别方法
Dilawari et al. Toward generating human-centered video annotations
Liu Research on intelligent visual image feature region acquisition algorithm in Internet of Things framework
Kompella et al. Collective-reward based approach for detection of semi-transparent objects in single images
CN117949942B (zh) 基于雷达数据和视频数据融合的目标跟踪方法及***
CN108776973A (zh) 基于局部图像数据学习的无人机目标跟踪方法
Kiaee et al. A survey on object detection and classification methods
Sahay et al. Multi-Object Detection and Tracking Using Machine Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant