CN112036300B - 一种基于多尺度时空传播层的运动目标检测方法 - Google Patents
一种基于多尺度时空传播层的运动目标检测方法 Download PDFInfo
- Publication number
- CN112036300B CN112036300B CN202010895232.3A CN202010895232A CN112036300B CN 112036300 B CN112036300 B CN 112036300B CN 202010895232 A CN202010895232 A CN 202010895232A CN 112036300 B CN112036300 B CN 112036300B
- Authority
- CN
- China
- Prior art keywords
- space
- time
- feature
- layer
- video sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多尺度时空传播层的运动目标检测方法,其步骤如下:1获取具有像素级标签的视频数据集;2构建搭载多尺度时空传播层的网络模型;3训练多尺度时空传播层的网络模型;4利用训练好的模型进行预测,以确认其性能能达到运动目标检测的要求。本发明能为解决现有的运动目标检测对时空特征提取方法的单一、鲁棒性差、只注重局部信息等问题,从而能快速准确检测在不同挑战场景下的前景目标,并加强对前景检测的效果,进而为运动目标检测提供了一种新的解决方法。
Description
技术领域
本发明应用于计算机视觉技术领域,是一种基于多尺度时空传播层的运动目标检测方法。
背景技术
运动目标检测是一种二分类任务,把视频的每一帧图像的每个像素点分为前景或背景。它是视觉应用的基础,在交通分析、拥挤度分析、物体追踪、自动驾驶和异常情况检测等视频监测任务中都起到十分重要的作用。运动目标检测需要克服多种不同噪声对视频的影响,如光线差异、动态背景、物体阴影、相机抖动、物体不规则运动等。目前,运动目标检测算法主要分成两类,一类是对背景进行建模的传统算法,另一类则是利用神经网络自主学习进行前景识别的深度学习算法。
传统算法常对视频背景进行建模以实现运动目标检测。通常会通过利用如颜色、像素点强度、梯度、历史像素点分布等低级特征对背景模型进行更新与维护。然而,由于低级特征易受到噪声影响,因此传统算法只适用于简单场景。另外,传统算法通常依赖人工调优,需要人为的持续干预以保证效果,因此无法具有较好的泛用性。
凭借深度学习对高级特征强大的提取能力与其较少人工干预的特性,基于深度学习的运动目标检测的鲁棒性通常更高,效果更好。且基于深度学习的算法可实现端对端的效果,因此不需要后续的建模过程与后处理。但是,目前基于深度学习的运动目标检测大都依赖神经网络已有的网络层,对时间特征提取手段较为单一,缺乏灵活性。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于多尺度时空传播层的运动目标检测方法,以期能为解决现有的运动目标检测对时空特征提取方法的单一、鲁棒性差、只注重局部信息等问题,从而能快速准确检测在不同挑战场景下的前景目标,并加强对前景检测的效果,进而为运动目标检测提供了一种新的解决方法。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于多尺度时空传播层的运动目标检测方法的特点包括如下步骤:
步骤1、获取视频数据集以及像素级标签;
步骤1.1、选取带有像素级标签的视频图像数据,并分成N段多帧的短视频序列,并对N段多帧的短视频序列中所有像素点进行归一化,得到归一化后的训练样本集,记为S={S1,S2,...,So,...,SN},So表示第o段归一化后的短视频序列,且So={Fo1,Fo2,...,Fon},Fon为第i段归一化后的短视频序列中第n帧图像;o∈[1,N];
步骤2、建立搭载多尺度时空传播层的网络模型,所述网络模型由空间特征提取模块、时空特征融合模块、特征解码模块以及一个类Unet模型组成;
步骤2.1、初始化权重值:对网络模型的卷积层及BatchNormalization层进行参数初始化;
步骤2.2、所述空间特征提取模块由VGG模型的前13层,且每层各连接一个BatchNormalization层所组成;
依次输入第i段归一化后的短视频序列So中的图像,并自经过所述空间特征提取模块分别得到分辨率为输入短视频序列So的1/2的第一空间尺度时空体H1={h1 1,h2 1,...,hn 1},分辨率为输入短视频序列So的1/4的第二空间尺度时空体H2={h1 2,h2 2,...,hn 2},分辨率为输入短视频序列So的1/8的第三空间尺度时空体H3={h1 3,h2 3,...,hn 3};其中,hn 1表示输入视频序列So中第n帧对应的第一空间尺度特征图,hn 2表示输入视频序列So中第n帧对应的第二空间尺度特征图,hn 3表示输入视频序列So中第n帧对应的第三空间尺度特征图;
步骤2.3、将所述第o段归一化后的短视频序列So中的中间帧图像Fmid作为所述类Unet模型的输入,经过所述类Unet模型的处理后,输出所述时空特征融合模块的参数矩阵W={W1,W2,...,Wz,...,WM};Wz表示第z个子矩阵;1<z≤M;
步骤2.4、所述时空特征融合模块根据所述类Unet模型提供的参数矩阵W,分别对空间特征提取模块所构建的三个时空体H1、H2、和H3进行时空特征融合,相应得到的融合后的第一时空体R1,融合后的第二时空体R2和到融合后的时空体R3;
步骤2.4.1、记任意融合后的第q个时空体为Rq,q=1,2,3,记第q个时空体Rq的宽度为U,高度为M,时间维度为T;将第q个时空体Rq在宽度U上分成若干片,其中第S个分片记为将第S个分片中第i行第j帧的时空点记为并利用式(1)得到融合后的第q个时空体Rq在宽度U上第S个分片中第i行第j帧的时空点
式(1)中,表示第q个时空体Hq在宽度U上第S个分片中第i行第j帧的时空点;wi(j,j+m)表示第i个子矩阵Wi中第j行第j+m列的参数;表示融合后的第q个时空体Rq宽度U上第S个分片中第i-1行第j+m帧的时空点;λi(j,j)表示与第i个子矩阵Wi中第j行所对应的归一化限定参数,并有:
步骤2.4.2、根据步骤2.4.1的过程,分别得到第q个时空体Rq在宽度U上、高度M和时间维度T上每个分片中的每个时空点;
步骤2.4.3、把融合后的第一时空体R1,融合后的第二时空体R2和到融合后的时空体R3按照时间维度划分n片,从而得到划分后的第一时空体R1={r1 1,r2 1,...,rn 1},第一时空体R2={r1 2,r2 2,...,rn 2},第一时空体R3={r1 3,r2 3,...,rn 3};其中,rn 1表示第一时空体R1的第n个特征片,rn 2表示第二时空体R2的第n个特征片,rn 3表示第三时空体R3的第n个特征片;
步骤2.5、所述特征解码模块将融合后的第三空间尺度时空体R3中的第(1+n)/2片特征片r3 (1+n)/2经过反卷积层放大至其分辨率的两倍处理后,再与融合后的第二空间尺度时空体R2中的第(1+n)/2片特征片r2 (1+n)/2相加,得到第一融合特征,然后经过另一个反卷积层的放大至当前分辨率的两倍处理后,再与融合后的第一空间尺度时空体R1中的第(1+n)/2特征片r1 (1+n)/2相加,得到第二融合特征,并经过一个输出通道数为2的卷积层后输出最终的特征图;最后对最终的特征图输入激活层中,从而得到概率图P;
步骤3、权值的更新:
建立概率图P与像素级标签之间的损失函数FL(p),再使用自适应优化算法以固定的学习率更新多尺度时空传播层的网络模型里的每一个权值,使得所述损失函数FL(p)趋于稳定,从而得到训练好的网络模型;
步骤4、利用训练好的网络模型对任一短视频序列进行预测,得到对应短视频序列的前景概率图;
设置一阈值,并对所述前景目标概率图进行二值化分割,将分割后的概率图中概率值小于阈值的像素点设置为背景像素点,大于或等于阈值的像素点设置成前景像素点,从而得到最终分割结果。
与现有技术相比,本发明的有益效果在于:
1、本发明通过类Unet网络所生成的参数,构建四个方向异性的关联矩阵,并以迭代的方式模拟关联矩阵与输入特征向量时间体的相乘,从而能有效地提取半全局时空信息,因此不必加入更多的卷积层以增大视野域,进而加强了其提取效率与准确度。
2、本发明打破了以往只能使用3d卷积层或卷积长短期记忆层提取时间特征的惯例,使用了三种不同尺度的时空传播层,提取不同尺度的时间体的半全局时空信息,这意味着该时空传播层不受尺寸影响,可用作端对端训练,使得本网络层可准确分割出时空特征间的共性,有利于增加运动目标检测的鲁棒性与准确性。
3、本发明为深度学习体系中的对时空信息提取方式做出补充,并证明是有效且能融入深度学习体系。使得基于深度学习的运动目标检测有更多的时空特征提取手段,有利于增加网络结构的多样性,自由度,使检测效率增加。
4、本发明解决了现有监督算法对时间特征提取手段较少的缺点,提出一种可用于对时空特征进行提取的多尺度时空传播层的网络模型,其对运动目标检测的速度和精确度优于3D卷积层和卷积长短期记忆层等常见算法,可精准检测不同尺寸、不同运动速率的运动目标,为实现快速高效的时间特征提取提供了一种新方案。
附图说明
图1为本发明的方法流程示意图;
图2为本发明多尺度时空神经网络的结构图;
图3为本发明时空传播层的传播过程图;
图4a为本发明测试集中部分短视频序列中中间帧的图像;
图4b为本发明测试集中部分短视频序列中中间帧的图像所对应的Ground truth图像;
图4c为本发明使用多尺度时空网络得到的二值化分割图像。
具体实施方式
本实施例中,一种基于多尺度时空传播层的运动目标检测方法,主要使用卷积神经网络和时空传播层提取视频序列中的多尺度时空特性,并融合多尺度时空特征图以生产前景概率图。如图1所示,具体步骤如下:
步骤1、获取视频数据集以及像素级标签;
步骤1.1、选取带有像素级标签的视频图像数据,并分成N段多帧的短视频序列,并对N段多帧的短视频序列中所有像素点进行归一化,得到归一化后的训练样本集,记为S={S1,S2,...,So,...,SN},So表示第o段归一化后的短视频序列,且So={Fo1,Fo2,...,Fon},Fon为第i段归一化后的短视频序列中第n帧图像,本实施例中,由于3帧连续帧已经足够描述时间连续性信息,n设置为3,使用公开的视频数据集CDnet2014。此数据集包含多种具有挑战性的场景,包含:动态背景,恶劣天气,低帧率视频,相机抖动,物体不规律运动,阴影影响;
步骤2、建立搭载多尺度时空传播层的网络模型,如图2所示,网络模型由空间特征提取模块、时空特征融合模块、特征解码模块以及一个类Unet模型组成;
步骤2.1、初始化权重值:本实施例的卷积层均采取何凯明初始化方法进行权值初始;Batch Normalization层的权值均置1,偏置值归0;
步骤2.2、空间特征提取模块由VGG模型的前13层,且每层各连接一个BatchNormalization层所组成,依次包含:一级卷积层1号、Batch Normalization层1号、一级池化层、二级卷积层1号、Batch Normalization层2号、二级卷积层2号、Batch Normalization层3号、二级池化层、三级卷积层1号、Batch Normalization层4号、三级卷积层2号、BatchNormalization层5号、三级卷积层3号、Batch Normalization层6号、三级池化层、四级卷积层1号、Batch Normalization层7号、四级卷积层2号、Batch Normalization层8号、四级卷积层3号、Batch Normalization层9号;
依次输入第i段归一化后的短视频序列So中的图像,并自经过空间特征提取模块分别得到分辨率为输入短视频序列So的1/2的第一空间尺度时空体H1={h1 1,h2 1,...,hn 1},分辨率为输入短视频序列So的1/4的第二空间尺度时空体H2={h1 2,h2 2,...,hn 2},分辨率为输入短视频序列So的1/8的第三空间尺度时空体H3={h1 3,h2 3,...,hn 3};其中,hn 1表示输入视频序列中第n帧对应的第一空间尺度特征图,hn 2表示输入视频序列中第n帧对应的第二空间尺度特征图,hn 3表示输入视频序列中第n帧对应的第三空间尺度特征图。本实施例中,n为3;
步骤2.3、将第o段归一化后的短视频序列So中的中间帧图像Fmid作为类Unet模型的输入,经过类Unet模型的处理后,输出时空特征融合模块的参数矩阵W={W2,...,Wz,...,WM};Wz表示第z个子矩阵;1<z≤M。类Unet模型依次由卷积层1号、Batch Normalization层1号、二级卷积层2号、Batch Normalization层2号、卷积层3号、Batch Normalization层3号、反卷积层1号、Batch Normalization层4号、反卷积层2号、Batch Normalization层5号、反卷积层3号、Batch Normalization层6号所组成;
步骤2.4、时空特征融合模块根据类Unet模型提供的参数矩阵W,分别对空间特征提取模块所构建的三个时空体H1、H2、和H3进行时空特征融合,相应得到的融合后的第一时空体R1,融合后的第二时空体R2和到融合后的时空体R3。直观的融合形式如图3所示,浅灰色像素点往深色像素点线性传播;
步骤2.4.1、记任意融合后的第q个时空体为Rq,q=1,2,3,记第q个时空体Rq的宽度为U,高度为M,时间维度为T;将第q个时空体Rq在宽度U上分成若干片,其中第S个分片记为将第S个分片中第i行第j帧的时空点记为并利用式(3)得到融合后的第q个时空体Rq在宽度U上第S个分片中第i行第j帧的时空点
式(3)中,表示第q个时空体Hq在宽度U上第S个分片中第i行第j帧的时空点;wi(j,j+m)表示第i个子矩阵Wi中第j行第j+m列的参数;表示融合后的第q个时空体Rq宽度U上第S个分片中第i-1行第j+m帧的时空点;λi(j,j)表示与第i个子矩阵Wi中第j行所对应的归一化限定参数,并有:
步骤2.4.2、根据步骤2.4.1,从而分别得到第q个时空体Rq在宽度U上、高度M和时间维度T上每个分片中的每个时空点;
步骤2.4.3、把融合后的第一时空体R1,融合后的第二时空体R2和到融合后的时空体R3延时间维度划分3片,使得R1={r1 1,r2 1,r3 1},R2={r1 2,r2 2,r3 2},R3={r1 3,r2 3,r3 3};其中,rn 1表示第一时空体R1的第n个特征片,rn 2表示第二时空体R2的第n个特征片,rn 3表示第三时空体R3的第n个特征片;
步骤2.5、特征解码模块将融合后的第三空间尺度时空体R3中的第2片特征片r3 2经过反卷积层放大至其分辨率的两倍处理后,再与融合后的第二空间尺度时空体R2中的第2片特征片r2 2相加,得到第一融合特征,然后经过另一个反卷积层的放大至当前分辨率的两倍处理后,再与融合后的第一空间尺度时空体R1中的第2片特征片r1 2相加,得到第二融合特征,并经过一个输出通道数为2的卷积层后输出最终的特征图;最后对最终的特征图输入激活层sigmoid层中,从而得到概率图P,本例中反卷积层尺寸均为4*4;输出通道数为2的卷积层尺寸为3*3;
步骤3、权值的更新:采用式(6)以计算概率图P与像素级标签y之间的损失函数FL(p),使用自适应优化算法adam以固定的学习率0.01更新网络里的每一个权值,待损失函数FL(p)所得值趋于稳定时,停止训练;
式(6)中,i用以区分背景和前景目标,当i=0为背景,当i=1为前景;p0表示概率图中像素点为背景的概率,p1表示概率图中像素点为前景的概率,y0表示标签图中像素点为背景的概率,y1表示标签图中像素点为前景的概率,αi表示事前设置好的权重因子;γ表示可调的焦距参,由于概率图和标签的参数均为0到1之间,本实施例中,α0为0.25,α1为0.75,γ为2;
步骤4、利用训练好的网络模型对任一短视频序列进行预测,得到对应短视频序列的前景概率图;
设置一阈值,并对前景目标概率图进行二值化分割,将分割后的概率图中概率值小于阈值的像素点设置为背景像素点,大于或等于阈值的像素点设置成前景像素点,从而得到最终分割结果。
本实施例中设置阈值为0.6。图4b为图4a的标签图像,如结果图4c所示,本发明所预测出的分割结果,与图4b相比较,十分接近,没有丢失过多细节。
Claims (1)
1.一种基于多尺度时空传播层的运动目标检测方法,其特征包括如下步骤:
步骤1、获取视频数据集以及像素级标签;
步骤1.1、选取带有像素级标签的视频图像数据,并分成N段多帧的短视频序列,并对N段多帧的短视频序列中所有像素点进行归一化,得到归一化后的训练样本集,记为S={S1,S2,...,So,...,SN},So表示第o段归一化后的短视频序列,且So={Fo1,Fo2,...,Fon},Fon为第o段归一化后的短视频序列中第n帧图像;o∈[1,N];
步骤2、建立搭载多尺度时空传播层的网络模型,所述网络模型由空间特征提取模块、时空特征融合模块、特征解码模块以及一个类Unet模型组成;
步骤2.1、初始化权重值:对网络模型的卷积层及BatchNormalization层进行参数初始化;
步骤2.2、所述空间特征提取模块由VGG模型的前13层,且每层各连接一个BatchNormalization层所组成;
依次输入第o段归一化后的短视频序列So中的图像,并自经过所述空间特征提取模块分别得到分辨率为输入短视频序列So的1/2的第一空间尺度时空体H1={h1 1,h2 1,...,hn 1},分辨率为输入短视频序列So的1/4的第二空间尺度时空体H2={h1 2,h2 2,...,hn 2},分辨率为输入短视频序列So的1/8的第三空间尺度时空体H3={h1 3,h2 3,...,hn 3};其中,hn 1表示输入视频序列So中第n帧对应的第一空间尺度特征图,hn 2表示输入视频序列So中第n帧对应的第二空间尺度特征图,hn 3表示输入视频序列So中第n帧对应的第三空间尺度特征图;
步骤2.3、将所述第o段归一化后的短视频序列So中的中间帧图像Fmid作为所述类Unet模型的输入,经过所述类Unet模型的处理后,输出所述时空特征融合模块的参数矩阵W={W1,W2,...,Wz,...,WM′};Wz表示第z个子矩阵;1<z≤M′;
步骤2.4、所述时空特征融合模块根据所述类Unet模型提供的参数矩阵W,分别对空间特征提取模块所构建的三个时空体H1、H2、和H3进行时空特征融合,相应得到的融合后的第一时空体R1,融合后的第二时空体R2和融合后的第三时空体R3;
步骤2.4.1、记任意融合后的第q个时空体为Rq,q=1,2,3,记第q个时空体Rq的宽度为U,高度为M,时间维度为T;将第q个时空体Rq在宽度U上分成若干片,其中第S个分片记为将第S个分片中第i行第j帧的时空点记为并利用式(1)得到融合后的第q个时空体Rq在宽度U上第S个分片中第i行第j帧的时空点
式(1)中,表示第q个时空体Hq在宽度U上第S个分片中第i行第j帧的时空点;wi(j,j+m)表示第i个子矩阵Wi中第j行第j+m列的参数;表示融合后的第q个时空体Rq宽度U上第S个分片中第i-1行第j+m帧的时空点;λi(j,j)表示与第i个子矩阵Wi中第j行所对应的归一化限定参数,并有:
步骤2.4.2、根据步骤2.4.1的过程,分别得到第q个时空体Rq在宽度U上、高度M和时间维度T上每个分片中的每个时空点;
步骤2.4.3、把融合后的第一时空体R1,融合后的第二时空体R2和融合后的第三时空体R3按照时间维度划分n片,从而得到划分后的第一时空体R1={r1 1,r2 1,...,rn 1},第二时空体R2={r1 2,r2 2,...,rn 2},第三时空体R3={r1 3,r2 3,...,rn 3};其中,rn 1表示第一时空体R1的第n个特征片,rn 2表示第二时空体R2的第n个特征片,rn 3表示第三时空体R3的第n个特征片;
步骤2.5、所述特征解码模块将融合后的第三时空体R3中的第(1+n)/2片特征片r3 (1+n)/2经过反卷积层放大至其分辨率的两倍处理后,再与融合后的第二时空体R2中的第(1+n)/2片特征片r2 (1+n)/2相加,得到第一融合特征,然后经过另一个反卷积层的放大至当前分辨率的两倍处理后,再与融合后的第一时空体R1中的第(1+n)/2特征片r1 (1+n)/2相加,得到第二融合特征,并经过一个输出通道数为2的卷积层后输出最终的特征图;最后对最终的特征图输入激活层中,从而得到概率图P;
步骤3、权值的更新:
建立概率图P与像素级标签之间的损失函数FL(p),再使用自适应优化算法以固定的学习率更新多尺度时空传播层的网络模型里的每一个权值,使得所述损失函数FL(p)趋于稳定,从而得到训练好的网络模型;
步骤4、利用训练好的网络模型对任一短视频序列进行预测,得到对应短视频序列的前景概率图;
设置一阈值,并对所述前景目标概率图进行二值化分割,将分割后的概率图中概率值小于阈值的像素点设置为背景像素点,大于或等于阈值的像素点设置成前景像素点,从而得到最终分割结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010895232.3A CN112036300B (zh) | 2020-08-31 | 2020-08-31 | 一种基于多尺度时空传播层的运动目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010895232.3A CN112036300B (zh) | 2020-08-31 | 2020-08-31 | 一种基于多尺度时空传播层的运动目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112036300A CN112036300A (zh) | 2020-12-04 |
CN112036300B true CN112036300B (zh) | 2022-08-05 |
Family
ID=73587743
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010895232.3A Active CN112036300B (zh) | 2020-08-31 | 2020-08-31 | 一种基于多尺度时空传播层的运动目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112036300B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113111822B (zh) * | 2021-04-22 | 2024-02-09 | 深圳集智数字科技有限公司 | 用于拥堵识别的视频处理方法、装置与电子设备 |
CN113379833B (zh) * | 2021-06-25 | 2022-08-05 | 合肥工业大学 | 一种基于神经网络的图像可见水印的定位和分割方法 |
CN114429607B (zh) * | 2022-01-24 | 2024-03-29 | 中南大学 | 一种基于Transformer的半监督视频目标分割方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103065326A (zh) * | 2012-12-26 | 2013-04-24 | 西安理工大学 | 基于时-空多尺度运动注意力分析的目标检测方法 |
CN110378288A (zh) * | 2019-07-19 | 2019-10-25 | 合肥工业大学 | 一种基于深度学习的多级时空运动目标检测方法 |
CN110580472A (zh) * | 2019-09-12 | 2019-12-17 | 合肥工业大学 | 一种基于全卷积网络和条件对抗网络的视频前景检测方法 |
CN111531546A (zh) * | 2020-05-22 | 2020-08-14 | 济南浪潮高新科技投资发展有限公司 | 一种机器人位姿估计方法、装置、设备及存储介质 |
CN111539990A (zh) * | 2020-04-20 | 2020-08-14 | 深圳Tcl数字技术有限公司 | 运动物***置检测方法、装置、设备及介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9904852B2 (en) * | 2013-05-23 | 2018-02-27 | Sri International | Real-time object detection, tracking and occlusion reasoning |
-
2020
- 2020-08-31 CN CN202010895232.3A patent/CN112036300B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103065326A (zh) * | 2012-12-26 | 2013-04-24 | 西安理工大学 | 基于时-空多尺度运动注意力分析的目标检测方法 |
CN110378288A (zh) * | 2019-07-19 | 2019-10-25 | 合肥工业大学 | 一种基于深度学习的多级时空运动目标检测方法 |
CN110580472A (zh) * | 2019-09-12 | 2019-12-17 | 合肥工业大学 | 一种基于全卷积网络和条件对抗网络的视频前景检测方法 |
CN111539990A (zh) * | 2020-04-20 | 2020-08-14 | 深圳Tcl数字技术有限公司 | 运动物***置检测方法、装置、设备及介质 |
CN111531546A (zh) * | 2020-05-22 | 2020-08-14 | 济南浪潮高新科技投资发展有限公司 | 一种机器人位姿估计方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
Foreground detection with deeply learned multi-scale spatial-temporal features;Y. Wang 等;《Sensors》;20181231;全文 * |
基于深度编解码网络的运动目标检测算法;侯畅等;《计算机***应用》;20180115(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112036300A (zh) | 2020-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110378288B (zh) | 一种基于深度学习的多级时空运动目标检测方法 | |
CN112036300B (zh) | 一种基于多尺度时空传播层的运动目标检测方法 | |
WO2020173226A1 (zh) | 一种时空行为检测方法 | |
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
CN110119728B (zh) | 基于多尺度融合语义分割网络的遥感图像云检测方法 | |
CN108492319B (zh) | 基于深度全卷积神经网络的运动目标检测方法 | |
CN107016357B (zh) | 一种基于时间域卷积神经网络的视频行人检测方法 | |
CN108133188B (zh) | 一种基于运动历史图像与卷积神经网络的行为识别方法 | |
CN108460764B (zh) | 基于自动上下文和数据增强的超声图像智能分割方法 | |
US10607098B2 (en) | System of a video frame detector for video content identification and method thereof | |
CN110781836A (zh) | 人体识别方法、装置、计算机设备及存储介质 | |
CN111680655A (zh) | 一种面向无人机航拍影像的视频目标检测方法 | |
CN110097028B (zh) | 基于三维金字塔图像生成网络的人群异常事件检测方法 | |
CN111738054B (zh) | 一种基于时空自编码器网络和时空cnn的行为异常检测方法 | |
CN111401293B (zh) | 一种基于Head轻量化Mask Scoring R-CNN的手势识别方法 | |
CN110020658B (zh) | 一种基于多任务深度学习的显著目标检测方法 | |
CN110415260B (zh) | 基于字典与bp神经网络的烟雾图像分割与识别方法 | |
CN113255616B (zh) | 一种基于深度学习的视频行为识别方法 | |
CN109919073B (zh) | 一种具有光照鲁棒性的行人再识别方法 | |
CN113688761B (zh) | 一种基于图像序列的行人行为类别检测方法 | |
CN116129291A (zh) | 一种面向无人机畜牧的图像目标识别方法及其装置 | |
CN111339892A (zh) | 一种基于端到端3d卷积神经网络的泳池溺水检测方法 | |
CN115830514B (zh) | 一种适用于带弯曲河道的全河段表面流速计算方法及*** | |
CN115410131A (zh) | 一种用于短视频智能分类的方法 | |
Prakash | Object detection in surveillance video |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |