CN111062355A - 一种人体动作识别方法 - Google Patents

一种人体动作识别方法 Download PDF

Info

Publication number
CN111062355A
CN111062355A CN201911362989.XA CN201911362989A CN111062355A CN 111062355 A CN111062355 A CN 111062355A CN 201911362989 A CN201911362989 A CN 201911362989A CN 111062355 A CN111062355 A CN 111062355A
Authority
CN
China
Prior art keywords
image
action
pixel
gray
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911362989.XA
Other languages
English (en)
Inventor
高朋
许野平
刘辰飞
陈英鹏
张朝瑞
席道亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Synthesis Electronic Technology Co Ltd
Original Assignee
Synthesis Electronic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Synthesis Electronic Technology Co Ltd filed Critical Synthesis Electronic Technology Co Ltd
Priority to CN201911362989.XA priority Critical patent/CN111062355A/zh
Publication of CN111062355A publication Critical patent/CN111062355A/zh
Priority to PCT/CN2020/137991 priority patent/WO2021129569A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种人体动作识别方法,本方法首先对图像进行构建最小邻域和滤波的预处理,然后进行图像通道变换、目标轮廓增强和提取差分图像,对前景图像进行阈值处理和前景图处理,最后基于三维卷积网络,进行模型训练或动作识别及动作定位。本方法解决现有动作识别方法中,模型在大场景、小目标、复杂背景下,检测精度下降的问题,同时,实现了对任意连续无边界视频流中动作检测及动作定位,提高了人体动作识别的精度以及在不同应用场景下的鲁棒性提高了模型的范化应用能力。

Description

一种人体动作识别方法
技术领域
本发明涉及一种人体动作识别方法,属于人体动作识别技术领域。
背景技术
动作识别通过提连续视频帧的动作特征,实现动作分类分类任务,在实际中避免可能存在的危险行为的发生,实际应用场景广泛,因此其一直是计算机视觉领域一个活跃的研究方向。现有的基于深度学习的动作识别方法,在所得模型在小场景、大目标下,取得了较高的分类精度。但是在复杂背景(存在噪音)、小目标的实时监控中,现有人体动作识别方法存在识别精度低、出现大量漏报及误报的现象。
发明内容
针对现有技术的缺陷,本发明提供一种人体动作识别方法,决大场景,小目标、复杂背景下,动作识别精度较低的问题,同时,在较小计算量下,解决了实现对任意长度连续视频中的动作精确地定位及动作分类问题。
为了解决所述技术问题,本发明采用的技术方案是:一种人体动作识别方法,包括以下步骤:
S01)、将视频解码,对每一帧图片进行预处理,所述预处理包括最小邻域选择和滤波器设计,采用卡尔曼滤波器对图像进行滤波;
S02)、对预处理后的图像根据公式21完成图像格式转换,输出图像由三通道RGB图像转化为单通道GRAY图像:
Gray(m,n)=0.299r(m,n)+0.587g(m,n)+0.441b(m,n) (21),
其中Gray(m,n)为滤波器输出灰度图像在像素点(m,n)处的灰度值,r(m,n)、g(m,n)、b(m,n)为彩色图像在像素点(m,n)处对应的三通道像素值;
S03)、通过公式31对图像进行目标轮廓增强,以去除灰度图像中噪声,同时提高图像中目标的轮廓清晰度:
Figure BDA0002335422740000011
其中Pixel(m,n)表示预处理输出灰度图像在像素点(m,n)处进行轮廓增强后计算出的像素值,Gray(m,n)为经过公式21转化后得到的单通道灰度图像在(m,n)处的像素值,w(m,n,i,j)为权重,i、j表示邻域大小;
权重w(m,n,i,j)由两部分组成,分别为空间距离d(m,n,i,j)、像素距离r(m,n,i,j),其计算过程为:
w(m,n,i,j)=d(m,n,i,j)·r(m,n,i,j) (32),
Figure BDA0002335422740000021
Figure BDA0002335422740000022
其中δd=0.7,δr=0.2,
S04)、每间隔8帧,在图像序列中选取三张图像It、It-8、It-16,获取的前景图片用D表示,三张图片在像素点(m,n)处的像素值分别为:It(m,n)、It-8(m,n)、In-16(m,n),则前景图像为:
D(m,n)=|It(m,n)-It-8(m,n)|∩|It-8(m,n)-It-16(m,n)| (41),
对前景图像D(m,n)进行阈值操作:
Figure BDA0002335422740000023
其中阈值T的计算采用如下方式:
T=Min(Tt/t-8,Tt-8/t-16) (43),
公式43中,Tt/t-8、Tt-8/t-16分别取符合公式44、45的值,
Figure BDA0002335422740000024
Figure BDA0002335422740000025
其中,A为整张图片的像素点个数,δ=0.6;
S05)、对前景图像D(m,n)进行腐蚀及膨胀操作;
S06)、将获取的灰度前景图像D(m,n)并转为三通道图像,组合成连续图片序列,输入三维卷积网络进行训练和检测。
进一步的,三维卷积网络对连续图片序列进行检测的具体步骤为:
S61)、三维卷积网络输入的是3通道、视频长度为L、视频帧图像高度为H、视频帧图像宽度为W的视频帧图像集合,经过三维卷积网络前向传播后,得到的输出为2048通道、视频长度为
Figure BDA0002335422740000026
视频帧图像高度为
Figure BDA0002335422740000027
视频帧图像宽度为
Figure BDA0002335422740000028
的特征图集合;
S62)、
Figure BDA0002335422740000031
以均匀分布的时间位置为中心预定义多尺度窗口,每个时间位置指定K个锚段,每个锚段的固定比例不同,通过应用内核尺寸为
Figure BDA0002335422740000032
的3D max-pooling滤波器,对空间维度进行从
Figure BDA0002335422740000033
到1×1的采样,以生成仅时间的特征图集合Ctpn,Ctpn中是2048通道、视频长度为
Figure BDA0002335422740000034
视频帧图像高度为1、视频帧图像宽度为1的图片,Ctpn中每个时间位置处的2048维特征向量用于预测到每个锚段的中心位置和长度{Ck,lk},k∈{1,...,K}的相对偏移{σCk,σlk};
S63)、使用softmax损失函数进行分类,使用平滑L1损失函数进行回归,L1损失函数为:
Figure BDA0002335422740000035
其中,Ncls和Nreg代表批次大小和建议框的数量,λ是损失权衡参数,并设置为值1,k是批次中的建议框索引,ak是在建议框或动作预测的概率,
Figure BDA0002335422740000036
是为真实动作框动作值,
Figure BDA0002335422740000037
表示与锚定段或建议框预测的相对偏移,
Figure BDA0002335422740000038
表示视频真实段到锚定段或建议的坐标转换,坐标转换的计算为:
Figure BDA0002335422740000039
其中:ck和lk是锚点或提议的中心位置和长度,而
Figure BDA00023354227400000310
Figure BDA00023354227400000311
代表视频真实动作段的中心位置和长度。
进一步的,所述L1损失函数同时应用于临时建议框子网和动作分类子网,在建议框子网中,二进制分类损失Lcls预测建议框表示是包含一个动作,回归损失Lreg优化建议与基本事实之间的相对位移,在动作分类子网中,多类别分类损失Lcls为建议框预测特定的动作类别,类别数是动作数加一个作为背景的动作,回归损失Lreg优化动作和基本事实之间的相对位移。
进一步的,步骤S01中,设置二维图像的最小邻域宽度为9,即取一个像素点和其周围8个像素点作为最小滤波邻域,基于该最小滤波邻域的卡尔曼滤波器设计过程为:
S11)、像素点(m,n)的灰度值X(m,n)的线性表示为:
X(m,n)=F(m|i,n|j)·XT(m|i,n|j)+Φ(m,n) (11),
其中,T为转置操作,φ(m,n)为噪声项,
Figure BDA0002335422740000041
Figure BDA0002335422740000042
则公式11表示为:
Figure BDA0002335422740000043
其中:x(m+i,n+j)为图像中每个点的像素值,为已知量;c(m+i,n+j)为原始视频帧图像每个点的权重,为未知量;
S12)、c(m+i,n+j)的计算标准为:
Figure BDA0002335422740000044
c(m+i,n+j)的取值必须使公式15达到最小值,则:
Figure BDA0002335422740000045
上式的A,B分别表示为:
A=x(m+i,n+j) (17),
B=x(m+i,n+j)-x(m+i-1,n+j)
S13)、设观测方程为:
Z(m,n)=X(m,n)+V(m,n) (18),
其中v(m,n)为噪声,
S14)、按最小线性方差,得到像素点(m,n)点的3×3邻域内的二维离散卡尔曼滤波器的递推公式为:
X(m,n)=F(m|i,n|j)XT(m|i,n|j)+K(m,n)[Z(m,n)-F(m|i,n|j)XT(m|i,n|j)](19),
一步预报方差方程为:
Figure BDA0002335422740000051
增益方程为:
K(m,n)=Pm/m-1(m,n)/[Pm/m-1(m,n)+r(m,n)] (111),
误差方差矩阵方程:
Pm/m(m,n)=[1-K(m,n)]2Pm/m-1(m,n)+K2(m,n)r(m,n) (112)
由公式19、110、111、112四式构建滤波器,完成对输入数据的预处理。
本发明的有益效果:本发明在连续视频动作检测任务中,使用背景去除的方法,降低视频背景对检测精度的影响。解决现有动作识别方法中,模型在大场景、小目标、复杂背景下,检测精度下降的问题,同时,实现了对任意连续无边界视频流中动作检测及动作定位,提高了人体动作识别的精度以及在不同应用场景下的鲁棒性提高了模型的范化应用能力。同时,使用三维卷积神经网络,对视频流进行编码,提取视频动作特征,同时完成动作分类任务以及动作定位任务。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步的说明。
实施例1
本实施例主要针对大场景、小目标下,通过对训练及测试数据的预处理,降低复杂背景对模型检测精度影响,提高模型的动作识别精度。同时,仅仅使用一个三维卷积深度学习模型,实现对任意长度连续视频中的动作检测及精确地定位动作,降低了计算量。
如图1所示,本实施例包括以下步骤:
第一步:图像预处理操作:
将视频解码,对每一帧图片进行预处理,预处理包括以下步骤:
1)最小邻域选择
对于二维图像,最小邻域宽度为9,即取一个像素点和其周围8个像素点作为最小滤波邻域,即像素点的邻域窗长(i,j)中,i和j的取值范围为[-1,1]之间的整数。
2)滤波器设计
像素点(m,n)的灰度值X(m,n)的线性表示为:
X(m,n)=F(m|i,n|j)·XT(m|i,n|j)+Φ(m,n) (11),
其中,T为转置操作,φ(m,n)为噪声项,
Figure BDA0002335422740000061
Figure BDA0002335422740000062
则公式11表示为:
Figure BDA0002335422740000063
其中x(m+i,n+j)为原始视频帧图像每个点的像素值,为已知量,c(m+i,n+j)为原始视频帧图像每个点的权重,为未知量;
c(m+i,n+j)的计算标准为:
Figure BDA0002335422740000064
公式15中的E为概率中矩阵均值运算符号;
c(m+i,n+j)的取值必须使公式15达到最小值,由此则可以得出:
Figure BDA0002335422740000065
其中:
A=x(m+i,n+j)
Figure BDA0002335422740000066
设观测方程为:
Z(m,n)=X(m,n)+V(m,n) (18),
其中,V(m,n)为零均值、方差为r(m,n)的白噪声;
按最小线性方差,得到像素点(m,n)点的3×3邻域内的二维离散Kalman滤波器的递推公式为:
X(m,n)=F(m|i,n|j)XT(m|i,n|j)+K(m,n)[Z(m,n)-F(m|i,n|j)XT(m|i,n|j)](19),
一步预报方差方程为:
Figure BDA0002335422740000071
增益方程:
K(m,n)=Pm/m-1(m,n)/[Pm/m-1(m,n)+r(m,n)] (111),
误差方差矩阵方程:
Pm/m(m,n)=[1-K(m,n)]2Pm/m-1(m,n)+K2(m,n)r(m,n) (112),
由公式19、110、111、112四式构建滤波器,完成对输入数据的预处理。
第二步:图像格式转化相关处理:
对预处理后的图像根据公式21完成图像格式转换,输出图像由三通道RGB图像转化为单通道GRAY图像;
Gray(m,n)=0.299r(m,n)+0.587g(m,n)+0.441b(m,n) (21),
其中Gray(m,n)为滤波器输出灰度图像在像素点(m,n)处的灰度值,r(m,n)、g(m,n)、b(m,n)为彩色图像在像素点(m,n)处对应的三通道像素值;
第三步:目标轮廓增强,方法如下:
输出灰度图像的在(m,n)处的像素值为:
Figure BDA0002335422740000072
其中Pixel(m,n)表示预处理输出灰度图像在像素点(m,n)处进行轮廓增强后计算出的像素值,Gray(m,n)为经过公式21转化后得到的单通道灰度图像在(m,n)处的像素值,w(m,n,i,j)为权重,i、j表示邻域大小;
权重w(m,n,i,j)由两部分组成,分别为空间距离d(m,n,i,j)、像素距离r(m,n,i,j),其计算过程为:
w(m,n,i,j)=d(m,n,i,j)·r(m,n,i,j) (32),
Figure BDA0002335422740000073
Figure BDA0002335422740000074
其中δd=0.7,δr=0.2,
采用上述方法,可以去除灰度图像中噪声,同时提高图像中目标的轮廓清晰度。
第四步:考虑动作的幅度以及视频的帧频,尽量去除空洞现象,每间隔8帧,在图像序列中选取三张图像In、In-8、In-16,获取的前景图片用D表示,三张图片在像素点(m,n)处的像素值分别为:It(m,n)、It-8(m,n)、In-16(m,n),则前景图像为:
D(m,n)=|It(m,n)-It-8(m,n)|∩|It-8(m,n)-It-16(m,n)| (41),
对前景图像D(m,n)进行阈值操作:
Figure BDA0002335422740000081
其中阈值T的计算采用如下方式:
T=Min(Tt/t-8,Tt-8/t-16) (43),
公式43中,Tt/t-8、Tt-8/t-16分别取符合公式44、45的值,
Figure BDA0002335422740000082
Figure BDA0002335422740000083
其中,A为整张图片的像素点个数,δ=0.6;
第五步:在上一步的基础上对前景图像D(x,y)去除空洞及微小噪声,可以进行腐蚀及膨胀操作;
第六步,模型训练及测试
将获取的灰度前景图像D(x,y)并转为三通道图像,组合成连续图片序列,输入三维卷积网络进行训练和检测。
模型的输入是一系列R3×L×H×W尺寸帧图像,3D-ConvNet的架构以Resnet-50为骨干网络,通过深层网络结构可获得更加丰富的动作特征,最后生成了一个特征图
Figure BDA0002335422740000084
R3×L×H×W表示输入的尺寸帧图像是3通道、视频长度为L、视频帧图像高度为H、视频帧图像宽度为W的视频帧图像集合,
Figure BDA0002335422740000085
表示输出的是2048通道、视频长度为
Figure BDA0002335422740000086
视频帧图像高度为
Figure BDA0002335422740000087
视频帧图像宽度为
Figure BDA0002335422740000088
的特征图集合。
Figure BDA0002335422740000099
均匀分布的时间位置为中心的预定义多尺度窗口,每个时间位置指定K个锚段,每个锚段的固定比例不同。通过应用内核尺寸为
Figure BDA00023354227400000910
的3D max-pooling滤波器,对空间维度进行下采样(从
Figure BDA00023354227400000911
到1×1)以生成仅时间的特征图
Figure BDA0002335422740000091
Ctpn中每个时间位置处的2048维特征向量用于预测到每个锚段的{Ck,lk},k∈{1,...,K}的相对偏移{σCk,σlk};
S63)、使用softmax损失函数进行分类,使用平滑L1损失函数进行回归,L1损失函数为:
Figure BDA0002335422740000092
其中,Ncls和Nreg代表批次大小和建议框的数量,λ是损失权衡参数,并设置为值1,k是批次中的建议框索引,ak是在建议框或动作预测的概率,
Figure BDA0002335422740000093
是为真实动作框动作值,
Figure BDA0002335422740000094
表示与锚定段或建议框预测的相对偏移,
Figure BDA0002335422740000095
表示视频真实段到锚定段或建议的坐标转换,坐标转换的计算为:
Figure BDA0002335422740000096
其中:ck和lk是锚点或提议的中心位置和长度,而
Figure BDA0002335422740000097
Figure BDA0002335422740000098
代表视频真实动作段的中心位置和长度。
以上损失函数同时应用于临时建议框子网和动作分类子网。在建议框子网中,二进制分类损失Lcls预测建议框表示是包含一个动作,而回归损失Lreg优化建议框与基本事实之间的相对位移。在建议框子网中,损失与动作类别无关。在动作分类子网中,多类别分类损失Lcls会为建议框预测特定的动作类别,而类别数是动作数加一个作为背景的动作。回归损失Lreg优化了动作和基本事实之间的相对位移。两个子网的所有四个损耗共同优化。
以上描述的仅是本发明的基本原理和优选实施例,本领域技术人员根据本发明做出的改进和替换,属于本发明的保护范围。

Claims (4)

1.一种人体动作识别方法,其特征在于:包括以下步骤:
S01)、将视频解码,对每一帧图片进行预处理,所述预处理包括最小邻域选择和滤波器设计,采用卡尔曼滤波器对图像进行滤波;
S02)、对预处理后的图像根据公式21完成图像格式转换,输出图像由三通道RGB图像转化为单通道GRAY图像:
Gray(m,n)=0.299r(m,n)+0.587g(m,n)+0.441b(m,n) (21),
其中Gray(m,n)为滤波器输出灰度图像在像素点(m,n)处的灰度值,r(m,n)、g(m,n)、b(m,n)为彩色图像在像素点(m,n)处对应的三通道像素值;
S03)、通过公式31对图像进行目标轮廓增强,以去除灰度图像中噪声,同时提高图像中目标的轮廓清晰度:
Figure FDA0002335422730000011
其中Pixel(m,n)表示预处理输出灰度图像在像素点(m,n)处进行轮廓增强后计算出的像素值,Gray(m,n)为经过公式21转化后得到的单通道灰度图像在(m,n)处的像素值,w(m,n,i,j)为权重,i、j表示邻域大小;
权重w(m,n,i,j)由两部分组成,分别为空间距离d(m,n,i,j)、像素距离r(m,n,i,j),其计算过程为:
w(m,n,i,j)=d(m,n,i,j)·r(m,n,i,j) (32),
Figure FDA0002335422730000012
Figure FDA0002335422730000013
其中δd=0.7,δr=0.2,
S04)、每间隔8帧,在图像序列中选取三张图像It、It-8、It-16,获取的前景图片用D表示,三张图片在像素点(m,n)处的像素值分别为:It(m,n)、It-8(m,n)、In-16(m,n),则前景图像为:
D(m,n)=|It(m,n)-It-8(m,n)|∩|It-8(m,n)-It-16(m,n)| (41),
对前景图像D(m,n)进行阈值操作:
Figure FDA0002335422730000021
其中阈值T的计算采用如下方式:
T=Min(Tt/t-8,Tt-8/t-16) (43),
公式43中,Tt/t-8、Tt-8/t-16分别取符合公式44、45的值,
Figure FDA0002335422730000022
Figure FDA0002335422730000023
其中,A为整张图片的像素点个数,δ=0.6;
S05)、对前景图像D(m,n)进行腐蚀及膨胀操作;
S06)、将获取的灰度前景图像D(m,n)并转为三通道图像,组合成连续图片序列,输入三维卷积网络进行训练和检测。
2.根据权利要求1所述的人体动作识别方法,其特征在于:三维卷积网络对连续图片序列进行检测的具体步骤为:
S61)、三维卷积网络输入的是3通道、视频长度为L、视频帧图像高度为H、视频帧图像宽度为W的视频帧图像集合,经过三维卷积网络前向传播后,得到的输出为2048通道、视频长度为
Figure FDA0002335422730000024
视频帧图像高度为
Figure FDA0002335422730000025
视频帧图像宽度为
Figure FDA0002335422730000026
的特征图集合;
S62)、
Figure FDA0002335422730000027
以均匀分布的时间位置为中心预定义多尺度窗口,每个时间位置指定K个锚段,每个锚段的固定比例不同,通过应用内核尺寸为
Figure FDA0002335422730000028
的3D max-pooling滤波器,对空间维度进行从
Figure FDA0002335422730000029
到1×1的采样,以生成仅时间的特征图集合Ctpn,Ctpn中是2048通道、视频长度为
Figure FDA00023354227300000210
视频帧图像高度为1、视频帧图像宽度为1的图片,Ctpn中每个时间位置处的2048维特征向量用于预测到每个锚段的中心位置和长度{Ck,lk},k∈{1,...,K}的相对偏移{σCk,σlk};
S63)、使用softmax损失函数进行分类,使用平滑L1损失函数进行回归,L1损失函数为:
Figure FDA00023354227300000211
其中,Ncls和Nreg代表批次大小和建议框的数量,λ是损失权衡参数,并设置为值1,k是批次中的建议框索引,ak是在建议框或动作预测的概率,
Figure FDA0002335422730000031
是为真实动作框动作值,
Figure FDA0002335422730000032
表示与锚定段或建议框预测的相对偏移,
Figure FDA0002335422730000033
表示视频真实段到锚定段或建议的坐标转换,坐标转换的计算为:
Figure FDA0002335422730000034
其中:ck和lk是锚点或提议的中心位置和长度,而
Figure FDA0002335422730000035
Figure FDA0002335422730000036
代表视频真实动作段的中心位置和长度。
3.根据权利要求2所述的人体动作识别方法,其特征在于:所述L1损失函数同时应用于临时建议框子网和动作分类子网,在建议框子网中,二进制分类损失Lcls预测建议框表示是包含一个动作,回归损失Lreg优化建议与基本事实之间的相对位移,在动作分类子网中,多类别分类损失Lcls为建议框预测特定的动作类别,类别数是动作数加一个作为背景的动作,回归损失Lreg优化动作和基本事实之间的相对位移。
4.根据权利要求1所述的人体动作识别方法,其特征在于:步骤S01中,设置二维图像的最小邻域宽度为9,即取一个像素点和其周围8个像素点作为最小滤波邻域,基于该最小滤波邻域的卡尔曼滤波器设计过程为:
S11)、像素点(m,n)的灰度值X(m,n)的线性表示为:
X(m,n)=F(m|i,n|j)·XT(m|i,n|j)+Φ(m,n) (11),
其中,T为转置操作,φ(m,n)为噪声项,
Figure FDA0002335422730000037
Figure FDA0002335422730000038
则公式11表示为:
Figure FDA0002335422730000041
其中:x(m+i,n+j)为图像中每个点的像素值,为已知量;c(m+i,n+j)为原始视频帧图像每个点的权重,为未知量;
S12)、c(m+i,n+j)的计算标准为:
Figure FDA0002335422730000042
c(m+i,n+j)的取值必须使公式15达到最小值,则:
Figure FDA0002335422730000043
上式的A,B分别表示为:
A=x(m+i,n+j) (17),
B=x(m+i,n+j)-x(m+i-1,n+j)
S13)、设观测方程为:
Z(m,n)=X(m,n)+V(m,n) (18),
其中v(m,n)为噪声,
S14)、按最小线性方差,得到像素点(m,n)点的3×3邻域内的二维离散卡尔曼滤波器的递推公式为:
X(m,n)=F(m|i,n|j)XT(m|i,n|j)+K(m,n)[Z(m,n)-F(m|i,n|j)XT(m|i,n|j)] (19),
一步预报方差方程为:
Figure FDA0002335422730000044
增益方程为:
K(m,n)=Pm/m-1(m,n)/[Pm/m-1(m,n)+r(m,n)] (111),
误差方差矩阵方程:
Pm/m(m,n)=[1-K(m,n)]2Pm/m-1(m,n)+K2(m,n)r(m,n) (112)
由公式19、110、111、112四式构建滤波器,完成对输入数据的预处理。
CN201911362989.XA 2019-12-25 2019-12-25 一种人体动作识别方法 Pending CN111062355A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201911362989.XA CN111062355A (zh) 2019-12-25 2019-12-25 一种人体动作识别方法
PCT/CN2020/137991 WO2021129569A1 (zh) 2019-12-25 2020-12-21 一种人体动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911362989.XA CN111062355A (zh) 2019-12-25 2019-12-25 一种人体动作识别方法

Publications (1)

Publication Number Publication Date
CN111062355A true CN111062355A (zh) 2020-04-24

Family

ID=70303695

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911362989.XA Pending CN111062355A (zh) 2019-12-25 2019-12-25 一种人体动作识别方法

Country Status (2)

Country Link
CN (1) CN111062355A (zh)
WO (1) WO2021129569A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033283A (zh) * 2020-12-18 2021-06-25 神思电子技术股份有限公司 一种改进的视频分类***
WO2021129569A1 (zh) * 2019-12-25 2021-07-01 神思电子技术股份有限公司 一种人体动作识别方法
CN113362324A (zh) * 2021-07-21 2021-09-07 上海脊合医疗科技有限公司 一种基于视频图像的骨骼健康检测方法及***

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113743339B (zh) * 2021-09-09 2023-10-03 三峡大学 一种基于场景识别的室内跌倒检测方法和***
CN114694075B (zh) * 2022-04-07 2024-02-13 合肥工业大学 一种基于深度强化学习的危险行为识别方法
CN114943904A (zh) * 2022-06-07 2022-08-26 国网江苏省电力有限公司泰州供电分公司 一种基于无人机巡检的作业监测方法
CN116582195B (zh) * 2023-06-12 2023-12-26 浙江瑞通电子科技有限公司 一种基于人工智能的无人机信号频谱识别方法
CN116527407B (zh) * 2023-07-04 2023-09-01 贵州毅丹恒瑞医药科技有限公司 一种用于眼底图像的加密传输方法
CN116580343A (zh) * 2023-07-13 2023-08-11 合肥中科类脑智能技术有限公司 小样本行为识别方法、存储介质、控制器
CN117095694B (zh) * 2023-10-18 2024-02-23 中国科学技术大学 一种基于标签层级结构属性关系的鸟类鸣声识别方法
CN117541991B (zh) * 2023-11-22 2024-06-14 无锡科棒安智能科技有限公司 一种基于安防机器人对异常行为智能识别方法及***
CN117690062B (zh) * 2024-02-02 2024-04-19 武汉工程大学 一种矿内矿工异常行为检测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105160310A (zh) * 2015-08-25 2015-12-16 西安电子科技大学 基于3d卷积神经网络的人体行为识别方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3321844B1 (en) * 2016-11-14 2021-04-14 Axis AB Action recognition in a video sequence
CN108108722A (zh) * 2018-01-17 2018-06-01 深圳市唯特视科技有限公司 一种基于单一深度图像的精确三维手和人体姿态估计方法
CN108470139A (zh) * 2018-01-25 2018-08-31 天津大学 一种基于数据增强的小样本雷达图像人体动作分类方法
CN109271931A (zh) * 2018-09-14 2019-01-25 辽宁奇辉电子***工程有限公司 一种基于轮廓分析的剑指手势实时识别***
CN111062355A (zh) * 2019-12-25 2020-04-24 神思电子技术股份有限公司 一种人体动作识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105160310A (zh) * 2015-08-25 2015-12-16 西安电子科技大学 基于3d卷积神经网络的人体行为识别方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
HUIJUAN XU ET AL: "R-C3D: Region Convolutional 3D Network for Temporal Activity Detection", 《HTTPS://ARXIV.ORG/PDF/1703.07814.PDF》 *
RACHEL-ZHANG: "双边滤波器的原理及实现", 《HTTPS://BLOG.CSDN.NET/ABCJENNIFER/ARTICLE/DETAILS/7616663》 *
TIEMAXIAOSU: "运动目标检测--帧间差分法", 《HTTPS://BLOG.CSDN.NET/TIEMAXIAOSU/ARTICLE/DETAILS/51558830》 *
李智华;王玉文: "卡尔曼滤波在图象识别中的应用", 《哈尔滨师范大学自然科学学报》 *
李红竹: "舞蹈视频图像中动作识别方法研究", 《电视技术》 *
王新: "复杂场景下运动目标检测与跟踪技术的研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *
赵树言等: "基于最近邻域像素梯度的视频背景快速提取", 《计算机应用》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021129569A1 (zh) * 2019-12-25 2021-07-01 神思电子技术股份有限公司 一种人体动作识别方法
CN113033283A (zh) * 2020-12-18 2021-06-25 神思电子技术股份有限公司 一种改进的视频分类***
CN113033283B (zh) * 2020-12-18 2022-11-22 神思电子技术股份有限公司 一种改进的视频分类***
CN113362324A (zh) * 2021-07-21 2021-09-07 上海脊合医疗科技有限公司 一种基于视频图像的骨骼健康检测方法及***
CN113362324B (zh) * 2021-07-21 2023-02-24 上海脊合医疗科技有限公司 一种基于视频图像的骨骼健康检测方法及***

Also Published As

Publication number Publication date
WO2021129569A1 (zh) 2021-07-01

Similar Documents

Publication Publication Date Title
CN111062355A (zh) 一种人体动作识别方法
Santra et al. Learning a patch quality comparator for single image dehazing
CN112232349A (zh) 模型训练方法、图像分割方法及装置
CN106683119B (zh) 基于航拍视频图像的运动车辆检测方法
CN111340824B (zh) 一种基于数据挖掘的图像特征分割方法
CN109685045B (zh) 一种运动目标视频跟踪方法及***
CN107808138B (zh) 一种基于FasterR-CNN的通信信号识别方法
CN106327488B (zh) 一种自适应的前景检测方法及其检测装置
CN105913002B (zh) 视频场景下在线自适应的异常事件检测方法
CN111079764A (zh) 一种基于深度学习的低照度车牌图像识别方法及装置
CN111507337A (zh) 基于混合神经网络的车牌识别方法
CN113780110A (zh) 一种图像序列中弱小目标实时检测方法及设备
CN110717934A (zh) 一种基于strcf的抗遮挡目标跟踪方法
CN110751157B (zh) 图像显著性分割、图像显著性模型训练方法及装置
CN111652790A (zh) 一种亚像素图像配准方法
CN111274964B (zh) 一种基于无人机视觉显著性分析水面污染物的检测方法
CN111028263B (zh) 一种基于光流颜色聚类的运动物体分割方法及其***
CN112348762A (zh) 一种基于多尺度融合生成对抗网络的单幅图像去雨方法
CN113421210B (zh) 一种基于双目立体视觉的表面点云重建方法
CN113936034A (zh) 一种结合帧间光流的表观运动联合弱小运动目标检测方法
CN117456376A (zh) 一种基于深度学习的遥感卫星影像目标检测方法
CN111160372B (zh) 一种基于高速卷积神经网络的大目标识别方法
CN116912338A (zh) 一种用于纺织品的像素图片矢量化方法
CN116824438A (zh) 基于边缘注意门控图卷积网络的半监督视频分割方法
CN116152758A (zh) 一种智能实时事故检测及车辆跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200424

RJ01 Rejection of invention patent application after publication